Eksplorasi Data [PDF]

  • Author / Uploaded
  • arif
  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Modul Diklat Fungsional Statistisi Tingkat Ahli



Eksplorasi Data



Eksplorasi Data | i



DAFTAR ISI DAFTAR ISI .............................................................................................................i DAFTAR GAMBAR ............................................................................................. iii Tujuan Pembelajaran ................................................................................................ v Tujuan Pembelajaran Umum ..................................................................... v Tujuan Pembelajaran Khusus .................................................................... v Bab I Pemeriksaan Pola Data Berstruktur Tunggal .............................................. 1 1.1 Pendahuluan ......................................................................................... 1 1.2 Ukuran Pemusatan ............................................................................... 1 1.2.1 Rata-Rata ................................................................................... 2 1.2.2 Median ....................................................................................... 5 1.2.3 Modus ........................................................................................ 7 1.3 Ukuran Penyebaran .............................................................................. 8 1.3.1 Range ......................................................................................... 8 1.3.2 Varian Dan Standar Deviasi ...................................................... 9 1.3.3 Koefisien Variasi ..................................................................... 12 1.4 Bentuk Sebaran Data.......................................................................... 13 1.5 Eksplorasi Data ................................................................................. 14 1.5.1 Diagram Batang Dan Daun (Stem-And-Leaf Plot).................. 14 1.5.2 Kuantil ..................................................................................... 16 1.5.3 Box Plot ................................................................................... 16 1.6 Eksplorasi Data dengan SPSS for Windows...................................... 20



Bab II Data Berpasangan dan Persamaan Garis Lurus .......................................... 27



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



ii | E k s p l o r a s i D a t a



2.1 Pendahuluan ...................................................................................... 32 2.2 Pola Data Berpasangan ...................................................................... 32 2.3 Garis Resisten .................................................................................... 33 2.4 Pemeriksaan Ketepatan Model .......................................................... 37 2.5 Proses Iterasi dalam Garis Resisten................................................... 39 Bab III Pemeriksaan Sisa dan Kenormalan .......................................................... 42 3.1 Pendahuluan ...................................................................................... 42 3.2 Pemeriksaan Terhadap Model ........................................................... 42 3.3 Kegunaan dan Tujuan Pemeriksaan Sisa........................................... 43 3.4 Pemeriksaan Kenormalan .................................................................. 48 BAB IV Transformasi Data ................................................................................... 51 4.1 Pendahuluan ..................................................................................... 51 4.1.1 Transformasi Logaritma .......................................................... 53 4.1.2 Transformasi Akar Kuadrat ..................................................... 54 4.2 Curve Estimation Pada SPSS ............................................................ 57 DAFTAR PUSTAKA ............................................................................................ 60 Latihan ................................................................................................................... 62



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | iii



DAFTAR GAMBAR Gambar 1.



Ilustrasi Letak Nilai Rata-Rata Pada Data Pedesaan A ...................... 3



Gambar 2.



Ilustrasi Letak Nilai Rata-Rata Pada Data Perkotaan B ..................... 3



Gambar 3.



Macam Kemencengan (Skewness) .................................................... 13



Gambar 4.



Contoh Stem-And-Leaf ...................................................................... 14



Gambar 5.



Contoh Stem-and-leaf Dengan Daun Ke Bawah Dan Ke Atas ........ 15



Gambar 6.



Boxplot data pada contoh 1.6 ........................................................... 17



Gambar 7.



Boxplot data pada contoh 1.7 ........................................................... 19



Gambar 8.



Windows SPSS Pada Saat Memilih Analyze → Decriptive Statistics → Explore........................................................................ 20



Gambar 9.



Kotak Dialog Explore ....................................................................... 20



Gambar 10. Kotak Dialog Explore: Statistics ...................................................... 21 Gambar 11. Kotak Dialog Explore : Plots............................................................ 21 Gambar 12. Kotak Dialog Explore : Options ....................................................... 22 Gambar 13. Histogram Data Contoh 1.8 .............................................................. 24 Gambar 14. Normal Q-Q Plot Dari Data Pada Contoh 1.8 .................................. 25 Gambar 15. Detrend Normal Q-Q plot data pada contoh 1.8 ............................... 26 Gambar 16. Box-Plot Data Pada Contoh 1.18 ...................................................... 26 Gambar 17. Beberapa Kemungkinan Tampilan Plot ............................................ 33 Gambar 18. Plot Pada Data Berpasangan ............................................................. 35 Gambar 19. Plot Data x Dan Sisaan ..................................................................... 39 Gambar 20. Residual Plot Dengan Mempertahankan Pencilan ............................ 46 Gambar 21. Residual Plot Dengan Membuang Pencilan..................................... 47 Gambar 22. Transformasi Tangga Tukey ............................................................. 53 Gambar 23. Contoh Kasus Transformasi Data X2 ................................................ 53 Gambar 24. Perbandingan Garis Regresi Linier Dan ........................................ 55 Gambar 25. Windows SPSS Pada Saat Memilih Analyze → Regression → Curve Estimation ............................................................................ 57 Gambar 26. Kotak Dialog Curve Estimation ........................................................ 58



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data | v



Tujuan Pembelajaran Tujuan Pembelajaran Umum Setelah mengikuti pembelajaran ini diharapkan peserta dapat memahami dan mampu melakukan eksplorasi terhadap data baik data tunggal maupun data berpasangan serta mampu membuat analisis sederhana.



Tujuan Pembelajaran Khusus Setelah mempelajari modul ini peserta diharapkan dapat: Mengetahui dan mampu menganalisis pola serta sebaran data tunggal; Mengetahui dan mampu menganalisis pola serta sebaran data berpasangan; Mampu menganalisis apakah suatu data berpasangan mempunyai pola yang linier sehingga dapat dibentuk menjadi persamaan linier; Mampu menganalisis sisaan dari suatu persamaan.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



1



|



Eksplorasi Data



Bab I Pemeriksaan Pola Data Berstruktur Tunggal 1.1 Pendahuluan Kumpulan data yang merupakan hasil pengukuran terhadap variabel tertentu, pada umumnya tidak akan memiliki nilai yang persis sama satu dengan yang lain. Nilai-nilai keberagaman dapat dilihat melalui pola sebarannya, pola ini sangat berguna dalam penentuan karakteristik data tersebut. Ukuran numerik yang penting meliputi pemusatan data (central tendency), sebaran data (dispersion) dan bentuk dari sebaran data (shape).



1.2 Ukuran Pemusatan Salah satu aspek yang paling penting untuk menggambarkan distribusi data adalah nilai pusat data pengamatan (tendensi sentral). Setiap pengukuran aritmatika yang ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal sebagai ukuran tendensi sentral. Ukuran nilai pusat/tendensi sentral (average) merupakan nilai yang mewakili dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut: Harus mempertimbangkan semua gugus data Tidak boleh terpengaruh oleh nilai-nilai ekstrim. Harus stabil dari sampel ke sampel. Harus mampu digunakan untuk analisis statistik lebih lanjut. Dari beberapa ukuran nilai pusat, rata - rata (mean) hampir memenuhi semua persyaratan tersebut, kecuali syarat pada point kedua, rata-rata dipengaruhi oleh nilai ekstrem. Sebagai contoh, jika item adalah 2; 4; 5; 6; 6; 6; 7; 7; 8; 9 maka rata-rata, median dan modus semua bernilai sama, yaitu 6. Jika nilai terakhir adalah 90 bukan 9, rata-rata akan menjadi 14.10, sedangkan median dan modus tidak berubah. Meskipun dalam hal ini median dan modus lebih baik, namun tidak memenuhi persyaratan lainnya. Oleh karena itu, rata-rata merupakan ukuran nilai pusat yang terbaik dan sering digunakan dalam analisis statistik.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



2 | Eksplorasi Data



1.2.1 Rata-Rata Rata-rata adalah nilai yang mewakili himpunan atau sekelompok data (a set of data). Rata-rata layak digunakan apabila sebaran data merata atau nilai antara data yang satu dengan yang lainnya tidak jauh berbeda (homogen). Rata-rata hitung digunakan apabila: 1) Jenis Datanya Adalah Numerik Interval/Rasio. Jika datanya numerik ordinal, digunakan median. Jika datanya kategorik, digunakan modus. 2) Sebaran Datanya Simetrik 3) Tidak Ada Data Pencilan (Outlier) Maupun Pencilan Jauh (Outliest) Jika ada pencilan, periksa terlebih dahulu apakah pengukuran sudah dilakukan dengan benar atau tidak. Jika terjadi kekeliruan pengukuran, maka data dapat dibuang/diganti dengan data baru. Jika pengukuran sudah dilakukan dengan benar, maka data tidak boleh dihilangkan dan untuk menghilangkan pencilan, dapat ditambah jumlah sampel. Contoh 1.1: Pengeluaran rata-rata perbulan (dalam ratusan ribu) dari 6 rumah tangga di suatu daerah adalah sebagai berikut



Daerah



1



2



3



4



5



6



Pedesaan A 20 23 16 20 24 Perkotaan B 8 50 7 8 12 Gambaran data di atas adalah sebagai berikut:



17 35



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Rata Rata 20 20



Eksplorasi Data | 3



Pedesaan A



Rata-rata Gambar 1. Ilustrasi Letak Nilai Rata-Rata Pada Data Pedesaan A Perkotaan B



Rata-rata Gambar 2. Ilustrasi Letak Nilai Rata-Rata Pada Data Perkotaan B Pada contoh di atas, rata-rata akan mewakili data pada pedesaan A karena datanya cenderung homogen, sedangkan pada perkotaan B ratarata tidak mewakili keseluruhan data karena datanya terpencar dengan jarak yang berbeda. Contoh 1.2.1 : Hitunglah nilai rata-rata dari nilai ujian matematika kelas 3 SMU berikut ini: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



4|Eksplorasi Data



Penyelesaian:



Contoh 1.2.2 : Berikut adalah data produksi keripik singkong (bungkus) usaha Ibu Tina setiap hari selama satu minggu 50 65 60 55 54 53 60 Penyelesaian : Rata-rata produksi keripik singkong Ibu Tina per hari adalah n



7



xi x



i 1



n



xi i 1



7



397 7



56,7143



Contoh 1.3 : Misalkan suatu kelompok data yang terdiri dari 20 anggota mempunyai rata-rata 7.50. Tentukan rata-rata yang baru jika pada kelompok data tadi ditambahkan 3 buah data baru: 5.50, 6.25 dan 8.75. Penyelesaian: Misalkan sampel 1 terdiri dari 20 anggota mempunyai rata-rata X1 = 7,50 sampel 2 mempunyai 3 anggota mempunyai rata-rata X2 = (5,50 + 6,25 + 8,75)/3 = 6,83. Jadi rata-rata gabungannya adalah: X= = 7,41



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data |5



1.2.2 Median Median adalah nilai yang terletak di tengah dari data yang telah diurutkan. Nilai median dipengaruhi oleh banyaknya pengamatan, tidak tergantung besarnya nilai pengamatan walaupun nilainya sangat ekstrem, sehingga median cocok untuk mewakili data yang sebarannya tidak homogen. Sebagai contoh nilai pusat pada data perkotaan B cocok menggunakan median yaitu 10. Median digunakan bila: 1.Rata - rata tak memenuhi syarat pada data berjenis interval/rasio seperti: a) Sebaran data yang tidak simetrik b) Untuk inferensi jika sebaran data tidak normal dengan selang kepercayaan. 2.Data numerik ordinal. Catatan: Jika rata-rata tak memenuhi syarat untuk digunakan sehingga hanya digunakan Median, maka Varian dan Standar deviasi juga tak layak untuk digunakan. Dalam hal ini digunakan Interquartile Range dan Semi Interquartile Range(tidak terdapat di SPSS) untuk ukuran variannya. Contoh 1.4.1: Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 Penyelesaian: data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9; 10 banyaknya data (n) = 11 posisi Me = ½(11+1) = 6 jadi Median = 7 (data yang terletak pada urutan ke-6)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



6|Eksplorasi Data



Contoh 1.4.2: Ukuran sepatu siswa kelas IX Binsus SMA 8 Manado yang akan menjadi pasukan 17 di Pasukan Pengibar Bendera yaitu : 40 45 43 39 40 41 40 39 42 41 40 38 40 41 43 42 38 Penyelesaian : Median ukuran sepatu siswa-siswa tersebut adalah Data setelah diurutkan : 38 38 39 39 40 40 40 40 40 41 41 41 42 42 43 43 45 Banyaknya data (n) = 17 Me



Posisi median :



1 (17 1) 2



9



Jadi Median ukuran sepatunya adalah 40 (data yang terletak pada urutan ke-9) Contoh 1.5: (menghitung median untuk n berjumlah genap) Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 Penyelesasian: data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9 banyaknya data (n) = 10 posisi Me = ½(10+1) = 5.5 Data tengahnya: 6 dan 7 jadi Median = ½ (6+7) = 6.5 (rata-rata dari 2 data yang terletak pada urutan ke-5 dan ke-6)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data |7



1.2.3 Modus Modus adalah nilai yang paling sering muncul dari sekumpulan data. Modus tidak dipengaruhi oleh nilai ekstrem. Modus hanya digunakan untuk tujuan deskriptif karena tidak mempertimbangkan sebaran data. Kalau nilai-nilai pengamatan sangat bervariasi dari nilai pusatnya, maka modus tidak cocok digunakan untuk mengambarkan ukuran pemusatan. Modus dapat diaplikasikan pada penghitungan rating acara TV, polling sms, dan pada pemungutan suara pada suatu pemilihan. Contoh 1.6.1 : Seorang agen intelijen negara memberi informasi kepada kepolisian bahwa komplotan buronan yang selama ini mereka cari sering muncul secara bersama-sama antara tanggal 5-10 di setiap bulannya. Dalam satu bulan, mereka hanya muncul bersama-sama sebanyak 1 kali untuk melakukan konsolidasi. Pihak kepolisian harus memutuskan sebuah tanggal dimana pada tanggal tersebut akan dilakukan penggerebekan terhadap para buronan tersebut. Pihak kepolisian tidak mungkin akan selalu berjaga-jaga dengan membawa berbagai senjata dan kendaraan khusus antara tanggal 5 hingga 10 di setiap bulannya di titik lokasi tersebut karena hal ini akan membuat para buronan curiga dan kabur. Data tanggal setiap bulan mengenai kemunculan para buronan yang direkam selama 2 tahun adalah sebagai berikut: 6 5 5 5 6 6 9 5 5 7 8 5 7 5 7 5 5 7 7 5 6 5 10 5 Untuk itulah, kepala polisi memutuskan untuk menentukan modus dari data tanggal tersebut sebagai tanggal dimana akan dilakukan penggerebekan terhadap para buronan. Nilai modus dari data tanggal tersebut adalah: 5.(kemunculan terbanyak, sebanyak 12 kali dari 24 buah data) Dengan demikian, pada bulan ini, pihak kepolisian akan melakukan penggerebekan terhadap para buronan tepat pada tanggal 5. Contoh 1.6.2 : Dalam seminggu ada 13 laporan Kekerasan dalam Rumah Tangga (KDRT) di suatu kecamatan dengan latar belakang masalah sebagai berikut :



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



8|Eksplorasi Data



No 1 2 3 4 5 6 7



Masalah Ekonomi Seksual Ekonomi Perselingkuhan Ekonomi Ekonomi Perselingkuhan



No 8 9 10 11 12 13



Masalah Seksual Ekonomi Ekonomi Perselingkuhan Perselingkuhan Ekonomi



Penyelesaian : Modus latar belakang masalah dalam laporan di kecamatan tersebut adalah karena masalah ekonomi. Ini ditunjukkan dengan kemunculan masalah ekonomi lebih banyak (7 kasus) daripada latar belakang masalah yang lain.



1.3 Ukuran Penyebaran Ukuran penyebaran digunakan untuk mengetahui sebaran dari data. Karena ukuran pemusatan tidak selalu mewakili sekelompok data, maka data perlu diketahui ukuran sebarannya. Ukuran penyebaran atau ukuran keragaman pengamatan dari nilai rata-ratanya disebut simpangan (deviation/dispersi). Terdapat beberapa ukuran untuk menentukan dispersi data pengamatan, seperti jangkauan/rentang (range), simpangan kuartil (quartile deviation), simpangan rata-rata (mean deviation), dan standar deviasi (standard deviation)



1.3.1 Range Range merupakan ukuran dari total lebar data atau juga selisih antara nilai maksimum dengan nilai minimum. Dari contoh 1, didapatkan range pedesaan A = 8 dan range perkotaan B = 42. Apabila terdapat nilai ekstrem, range kurang cocok digunakan sebagai ukuran sebaran data.



Contoh 1.7.1 : Jumlah penduduk di Kecamatan Mekarsari Kabupaten Pemalang setiap tahunnya berubah-ubah. Data selama 10 tahun terakhir jumlah penduduknya adalah sebagai berikut (dalam ribuan): 12 10 15 17 20 19 13 15 12 23



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data |9



Penyelesaian : Range jumlah penduduk adalah = nilai maksimum – nilai minimum = 23 – 10 = 13 ribu orang



1.3.2 Varian Dan Standar Deviasi Varian dan standar deviasi adalah ukuran rata-rata posisi data terhadap rata-ratanya, sehingga menunjukkan seberapa besar simpangan pengamatan terhadap rata-ratanya baik data itu di atas maupun di bawah rata-ratanya.



atau Sedangkan Standar Deviasi Sampel memiliki formula:



s=



atau



Dari contoh 1.1 didapatkan standar deviasi pedesaan A = 3.16 (ratarata=20), artinya secara umum data berada 3.16 di sekitar rata-ratanya yaitu antara 16.84 dan 23.16. Standar deviasi perkotaan B = 18.14 (ratarata=20), artinya secara umum data berada 18.14 di sekitar rata-ratanya yaitu antara 1.86 dan 38.14. Karena standar deviasi pedesaan A lebih kecil dari perkotaan B, maka dikatakan bahwa sebaran data pedesaan A lebih baik dari pada pedesaan B. Mengapa? (lihat kondisi lapangan). Nilai varian dan standar deviasi tidak pernah nol kecuali semua datanya sama. Karena standar deviasi menunjukkan seberapa besar simpangan pengamatan terhadap rata-ratanya baik data itu di atas maupun di bawah rata-ratanya, maka secara umum nilai quiz mahasiswa tersebut berada di antara x s yaitu 59,13 dan 90,73. Contoh 1.7.2 : Data berikut adalah nilai quiz mahasiswa STIS kelas 1G 90 91 70 75 92 90 65 50 78 89 90 93 67 95 60 62 65 70 40 50 79 78 80 89 64 78 94 100 65 50 65



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



10 | E k s p l o r a s i D a t a



Penyelesaian : 31



xi s2



Varians nilai quiz mahasiswa tersebut adalah 31



xi s



x



x



2



i 1



n 1



dan



2



i 1



n 1



standar deviasinya adalah 31



xi x



Rata-rata



i 1



31



Varians (90 74,935) s2



2



90 91 ... 65 31



(91 74,935) 30



Standar deviasinya adalah s



s2



2



2323 31



74,935



... (65 74,935)



249,5957



2



249,5957



15,7986



Contoh 1.7.3 : Diberikan data mengenai hasil perolehan nilai pada 2 Quiz yg berbeda, sebagai berikut ini : 1 2 3 4 5 6 7 8 9 10 11 Quiz 1: 1 20 20 20 20 20 20 20 20 20 20 Quiz 2: 2 3 4 5 6 14 15 16 17 18 19



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 11



Quiz 1: rata-rata =18.27 Quiz 2: rata-rata = 10.82 Quiz 1 No (xi) 1 1 -17.27 298.35 2 20 1.73 2.98 3 20 1.73 2.98 4 20 1.73 2.98 5 20 1.73 2.98 6 20 1.73 2.98 7 20 1.73 2.98 8 20 1.73 2.98 9 20 1.73 2.98 10 20 1.73 2.98 11 20 1.73 2.98 Jumlah 328.1818



Quiz 2 (xi) 2 3 4 5 6 14 15 16 17 18 19



-8.82 -7.82 -6.82 -5.82 -4.82 3.18 4.18 5.18 6.18 7.18 8.18



77.76 61.12 46.49 33.85 23.21 10.12 17.49 26.85 38.21 51.58 66.94 453.6364



Quiz 1:



Quiz 2:



Kesimpulan: Berdasarkan nilai ragam dan standar deviasi, Quiz ke-2 lebih bervariasi dibandingkan dengan Quiz ke-1. (kesimpulannya berbeda dengan kesimpulan berdasarkan range)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



12 | E k s p l o r a s i D a t a



1.3.3 Koefisien Variasi Koefisien variasi adalah perbandingan antara simpangan standar dengan nilai rata-rata yang dinyatakan dengan persentase. Koefisien Variasi digunakan untuk keperluan perbandingan dua kelompok nilai yang bebas dari satuan data asli. Koefisien variasi adalah perbandingan antara standar deviasi dengan rata-ratanya.



Dari contoh 1.1 didapatkan koefisien variasi pedesaan A = 15.8% dan koefisien variasi B = 90.7%. Ini berarti sebaran data pedesaan A lebih baik dari sebaran data perkotaan B. Contoh 1.8.1 : Perhatikan gugus data untuk Kelompok A dan Kelompok B A B



2 3



4 6



5 7



6 9



6 9



7 10



7 10



7 10



8 11



9 12



Kelompok A: Rata-rata = 6.1; s = 2.0 Kelompok B: Rata-rata = 8.7; s = 2.7



Contoh 1.8.2 : Sebuah perusahaan di Garut mempunyai dua produk andalannya yaitu produk gula (kg) dan produk syrup (botol). Data produksi kedua produk setiap hari dalam seminggu adalah Gula (kg) Syrup (btl)



25 100



50 120



30 100



35 110



40 100



44 120



Penyelesaian : Sebaran produksi yang lebih baik antara kedua produk adalah s gula s syrup CVGula 100% dan CVsyrup 100% x gula x syrup



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



45 110



E k s p l o r a s i D a t a | 13



x gula



38,4285



s gula



8,8855



x syrup



108,5714



s syrup



8,9973



Maka Coeffiecient Variation kedua produk tersebut adalah CVgula



8,8855 38,4285



CVsyrup



8,9973 108,5714



100%



100%



23,12%



8,28%



Koefisien variasi dipakai untuk membandingkan dua kelompok yang mempunyai satuan yang berbeda dimana kelompok pertama yaitu gula mempunyai satuan nilai kilogram dan kelompok kedua yaitu syrup mempunyai satuan nilai botol. Dari nilai koefisien variasinya dapat dilihat bahwa produksi syrup mempunyai sebaran data yang lebih baik (lebih homogen) daripada produksi gula karena koefisien variasinya lebih kecil (8,28%) daripada koefisien variasi gula (23,12%).



1.4 Bentuk Sebaran Data Bentuk sebaran data dapat dikelompokkan menjadi (symmetrical) dan tidak simetris (asymmetrical/skewed).



simetris



a) Rata-rata > median : positif atau menceng kiri b) Rata-rata = median : simetris c) Rata-rata < median : negatif atau menceng kanan



Gambar 3. Macam Kemencengan (Skewness)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



14 | E k s p l o r a s i D a t a



1.5 Eksplorasi Data Statistik deskriptif merupakan teknik tradisional yang digunakan untuk menganalisis data kuantitatif. Untuk mendapatkan informasi tentang karakteristik data maka sering digunakan metode ekplorasi data. 1.5.1 Diagram Batang Dan Daun (Stem-And-Leaf Plot) Diagram batang dan daun adalah teknik yang cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil. Dengan teknik ini gambaran distribusi data akan dapat diketahui dengan mudah. Diagram batang dan daun membagi data menjadi digit depan (leading) dan satu digit belakang (trailing). Sebagai contoh apabila data semuanya terdiri dari dua digit, maka digit depan merupakan puluhan dan digit di belakangnya merupakan satuan. Jika data 47 berarti leading (batang)=4 dan trailing (daun)=7, jika data 2 maka leading=0 dan trailing=2 Contoh 1.9.1 : Data pengeluaran rumah tangga di suatu daerah untuk 44 rumah tangga (dalam ratusan ribuan) adalah sebagai berikut: 47, 11, 46, 33, 19, 42, 27, 22, 62, 10, 44, 2, 15, 21, 67, 20, 26, 25, 6, 53, 18, 3, 30, 7, 21, 25, 20, 40, 16, 8, 4, 10, 46, 31, 14, 15, 8, 10, 19, 17, 12, 16, 42, 16 Dari data di atas, maka digit depan (sebagai batang) yang paling kecil adalah 0 dan yang paling besar adalah 6 Diagram batang dan daunnya sebagai berikut: Batang 0 1 2 3 4 5 6



Daun 2637848 190586045097266 721065150 301 7624062 3 27 N = 44



Gambar 4. Contoh Stem-And-Leaf



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 15



Batang 0L 0H 1L 1H 2L 2H 3L 3H 4L 4H 5L 5H 6L 6H



Daun 234 6788 1050450 986976 2105150 76 301 2402 766 3 2 7 N=44



Gambar 5. Contoh Stem-and-leaf Dengan Daun Ke Bawah Dan Ke Atas Gambar 4 menunjukkan diagram batang dan daun yang daunnya merupakan nilai digit kedua dari data. Sedangkan Gambar 5 menunjukkan diagram batang dan daun dimana daunnya dibagi menjadi 2, yaitu 5 ke bawah dan di atas lima, sehingga batangnya dibagi menjadi 2 juga yaitu L (low) untuk daun 5 ke bawah dan H (high) untuk daun di atas 5. Contoh 1.9.2 : Data berikut adalah data berat badan mahasiswa STIS kelas 2C 45 50 51 50 55 70 72 68 58 50 48 40 76 71 70 60 65 56 55 54 52 51 50 50 58 56 53 52 60 70 54 55 51 50 58 59 52 50 45 46 48 50 54 40 55 68 Penyelesaian : Diagram batang dan daunnya memakai SPSS seperti di bawah ini



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



16 | E k s p l o r a s i D a t a



VAR00001 Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 4 . 00 5,00 4 . 55688 18,00 5 . 000000001112223444 10,00 5 . 5555668889 2,00 6 . 00 3,00 6 . 588 5,00 7 . 00012 1,00 Extremes (>=76) Stem width: 10,00 Each leaf: 1 case(s)



1.5.2 Kuantil Kuantil merupakan ukuran yang sangat berguna untuk melihat ketidaksimetrisan data kuantitatif yang berskala besar. Kadang-kadang penggambaran ini menggunakan persentil (yang membagi data menjadi 100 kelompok), desil (yang membagi data ke dalam 10 kelompok) dan kuartil (yang membagi data menjadi 4 kelompok). Untuk kepentingan selanjutnya, di sini akan dibahas tentang kuartil. Kuartil pertama (Q1), nilai yang membagi 25% data yang lebih kecil dan 75% data yang lebih besar. Kuartil kedua (Q2), nilai yang membagi 50% data yang lebih kecil dan 50% data yang lebih besar. Kuartil ketiga (Q3), nilai yang membagi 75% data yang lebih kecil dan 25% data yang lebih besar. 1.5.3 Box Plot Box plot adalah representasi grafik dari sekelompok data yang memuat 5 ringkasan data yaitu median, Q1, Q3, minimum dan maksimum. Untuk data yang simetris, me = (Q1 + Q3)/2 = (min + maks)/2, sehingga cukup alasan untuk menganggap bahwa Q3 – me = me - Q1 = (Q3 - Q1)/2. Boxplot menggambarkan distribusi dari data, sehingga dari grafik ini akan kelihatan kemencengan data, keruncingan data dan outlier.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 17



Contoh 1.10.1 : Berikut 20 data penelitian tentang penggunaan microcomputer selama seminggu (dalam jam) oleh mahasiswa pada jurusan matematika di suatu perguruan tinggi: 12, 16, 12, 13, 16, 14, 15, 15, 16, 17, 18, 14, 18, 19, 11, 15, 13, 15, 17, 14. Box plotnya sebagai berikut:



20.00



18.00



16.00



14.00



12.00



10.00



microcomputer



Gambar 6. Boxplot data pada contoh 1.6



Contoh 1.10.2 : Data berikut adalah data berat badan mahasiswa STIS kelas 2C 45 50 51 50 55 70 72 68 58 50 48 40 76 71 70 60 65 56 55 54 52 51 50 50 58 56 53 52 60 70 54 55 51 50 58 59 52 50 45 46 48 50 54 40 55 68 Penyelesaian : Box plot dari soal di atas menggunakan SPSS adalah



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



18 | E k s p l o r a s i D a t a



Kalau data mengikuti sebaran normal, maka data berada pada interval rata-rata ± 1.96 standar deviasi. Maka ekuivalen dengan hal ini, tanpa harus mengetahui sebaran data, data yang simetris akan berada pada interval ?



Berarti data yang berada di luar interval di atas, termasuk outlier (pencilan). Contoh 1.11 16.8



25.7 21.4



22.7



28.1 17.5



14.4



20.9



13.1



15.8 21.7



26.2



18.7 20.2



24.6



24.2



14.6



16.9 14.9



26.7



20.2 21.6



15.1



6.9



22.6



12.9 14.1



25.8



17.9 17.7



18.6



20.3



24.4



16.6 20.5



19.7



17.3 18.0



13.7



17.3



Distribusi datanya sebagai berikut: Diagram Batang dan Daun



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 19



data Stem-and-Leaf Plot Frequency



Stem &



1,00 Extremes 3,00 1 . 6,00 1 . 8,00 1 . 4,00 1 . 8,00 2 . 2,00 2 . 5,00 2 . 2,00 2 . 1,00 2 . Stem width: Each leaf:



Leaf (==67) Stem width: 10 Each leaf: 1 case(s)



Gambar 14. Normal Q-Q plot dari data pada contoh 1.8



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



26



|



Eksplorasi Data



Gambar 15. Detrend Normal Q-Q plot data pada contoh 1.8



Gambar 16. Box-Plot Data Pada Contoh 1.18



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 27



Soal Latihan : Berikut contoh kasus untuk soal nomor 1 sampai 7 Siswa-siswa MAN Cendekia Gorontalo mengadakan praktek agroindustri dengan produk nasi goreng (porsi) dan dodol durian (dus). Hasil penjualannya produkproduk tersebut selama 10 hari adalah sebagai berikut: Nasi (porsi) Dodol (dus)



Goreng 20 30 25 45 50 25 35 40 45 50 Durian 10 30 12 13 15 25 26 30 11 10



1. Rata-rata penjualan nasi goreng adalah ... a. 365 c. 182 b. 36,5 d. 18,2 Penyelesaian : 10



xi x ns gr



i 1



10



20 30 ... 50 10



365 10



36,5



2. Rata-rata penjualan dodol duriannya adalah ... a. 365 c. 182 b. 36,5 d. 18,2 Penyelesaian : 10



xi x dl dr



i 1



10



10 30 ... 10 10



182 10



18.2



3. Median penjualan nasi goreng adalah ... a. 35 c. 37,5 b. 40 d. 45 Penyelesaian : Data yang sudah diurutkan : 20 25 25 30 35 40 45 45 50 50 Jumlah n = 10, oleh karena itu posisi median ada di urutan yang ke 10 1 Me 5,5 . Posisi 5,5 itu berada di antara posisi 5 dan posisi 6. Jadi 2 35 40 37,5 Mediannya adalah 2



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



28



|



Eksplorasi Data



4. Median penjualan dodol duriannya adalah... a. 13 c. 14 b. 15 d. 16 Penyelesaian : Data yang sudah diurutkan : 10 10 11 12 13 15 25 26 30 30 Karena jumlah n nya samadengan nasi goreng, maka posisi mediannya ada di 13 15 14 urutan 5,5. Dengan begitu Mediannya adalah 2 5. Nilai maksimum penjualan nasi goreng adalah ... a. 20 c. 50 b. 25 d. 60 6. Koefisien Variasi penjualan nasi goreng adalah ... a. 3,00% c. 4,00% b. 3,03% d. 4,66% Penyelesaian : s ns gr CVns gr 100% x ns gr



11,067 36,5



100%



3,03%



7. Koefisien Variasi penjualan dodol durian adalah ... a. 3,00% c. 4,00% b. 3,03% d. 4,66% Penyelesaian : s dl dr CVdl dr 100% x dl dr



8,482 18,2



100%



4,66%



Berikut contoh kasus untuk soal nomor 8 sampai 12 Data pengeluaran 40 mahasiswa STIS dalam sehari adalah sebagai berikut (dalam ribu rupiah) 12 15 20 50 25 15 10 30 10 13 15 16 18 19 25 20 30 50 45 40 46 20 21 22 13 20 25 30 21 15 18 20 25 10 26 38 27 30 21 30 8. Median pengeluaran mahasiswa STIS adalah ... a. 20 c. 22 b. 21 d. 23



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 29



Penyelesaian : Data setelah diurut : 10 10 10 12 13 13 15 15 15 15 16 18 18 19 20 20 20 20 20 21 21 21 22 25 25 25 25 26 27 30 30 30 30 30 38 40 45 46 50 50 Karena n nya ada 40, maka posisi median ada diurutan antara 20 dan 21. Oleh 21 21 21 karena itu mediannya adalah 2 9. Kuartil pertama data pengeluaran di atas adalah ... a. 10 c. 15 b. 10,5 d. 15,5 Penyelesaian : Kuartil adalah ukuran yang membagi data menjadi empat bagian. Kuartil pertama adalah titik yang membagi 25% data yang lebih kecil dan 75% data yang lebih besar. Oleh karena itu kuartil pertama ada di titik kedua yang membagi data menjadi 4 bagian. Karena n nya ada 40, maka titik kedua ada di 15 16 15,5 antara data ke 10 dan 11. Kuartil pertamanya adalah 2 10. Kuartil kedua data pengeluaran di atas adalah ... a. 20 c. 22 b. 21 d. 23 Penyelesaian : Kuartil kedua adalah titik yang membagi 50% data yang lebih kecil dan 50% data yang lebih besar. Oleh karena itu kuartil kedua berada di urutan antara 20 21 21 21 dan 21. Kuartil keduanya adalah 2 11. Kuartil ketiga data pengeluaran adalah ... a. 25 c. 25,5 b. 30 d. 30,5 Penyelesaian : Kuartil ketiga adalah titik yang membagi 75% data yang lebih kecil dan 25% data yang lebih besar. Oleh karena itu kuartil kedua berada di urutan antara 30 30 30 urutan 30 dan 31. Kuartil ketiganya adalah 2 12. Misalkan data pengeluaran di atas adalah data yang simetris, nilai median yang dihitung menggunakan nilai kuartilnya adalah ... a. 20 c. 21 b. 22 d. 22,75



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



30



|



Eksplorasi Data



Penyelesaian : Untuk data yang simetris, me = (Q1+Q3)/2 = (15,5+30)/2=22,75 13. Misalkan data pengeluaran di atas adalah data yang simetris, nilai median yang dihitung menggunakan nilai minimum maksimumnya adalah ... a. 20 c. 30 b. 25 d. 35 Penyelesaian : Untuk data yang simetris me = (min+maks)/2 = (10+50)/2=30 14. Perhatikan diagram batang dan daun berikut ini VAR00001 Stem-and-Leaf Plot Frequency 1,00 2,00 4,00 7,00 3,00 3,00 Stem width: Each leaf:



Stem & 4 5 6 7 8 9



. . . . . .



Leaf 5 05 0578 0055589 059 058



10,00 1 case(s)



Median data di atas adalah ... a. 70 c. 72,5 b. 75 d. 75,5 Penyelesaian : Jumlah n di atas adalah 20 (dilihat dari frekuensi setiap steamnya, jumlah n adalah jumlah semua frekuensi dalam steamnya). Maka mediannya ada di 75 75 75 urutan ke 10 dan 11. Maka mediannya adalah 2 15. Perhatikan Q-Q Plot soal di bawah ini



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 31



Q-Q Plot di atas menggambarkan bahwa data tersebut berdistribusi ... a. Normal c. Seragam b. Tidak normal d. Chi-Square Penyelesaian : Karena Q-Q Plot tersebut mendekati linier, sebaran data tersebut dapat dikatakan berdistribusi normal.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



32



|



Eksplorasi Data



Bab II Data Berpasangan dan Persamaan Garis Lurus 2.1 Pendahuluan Persamaan garis lurus sangat mudah dibuat, karena terdapat rumus baku untuk membuat persamaan yaitu dengan menghitung koefisien a dan b. Masalahnya adalah jika pola pencaran data (xi,yi) ternyata tidak mengikuti pola garis lurus atau memencar secara tidak beraturan, maka koefisien garis a dan b menjadi tidak relevan lagi untuk menerangkan pola hubungan x dan y tersebut. Teknik eksplorasi data sangat berguna dalam analisis regresi untuk mengatasi pengamatan yang berada di luar pola utamanya atau yang kelurusannya tidak terlalu jelas terlihat dalam plot pencaran titik. Regresi digunakan untuk menguji hubungan antara satu variabel dengan variabel dependen dengan satu atau beberapa variabel independen untuk kemudian memprediksi besar variabel dependen dengan menggunakan data variabel independen yang sudah diketahui besarnya. Regresi berbeda dengan korelasi. Korelasi memiliki pengertian analisis yang mempelajari apakah ada hubungan linier antara dua variabel atau lebih dimana variabel tersebut dianalisis secara bersama- sama dan jika memang ada hubungan, bagaimana arah dan hubungan tersebut.



2.2 Pola Data Berpasangan Strategi yang cukup baik dan sederhana untuk memulai penelusuran pola hubungan y dengan x adalah dengan membuat plot atau pola pencaran titik-titik (xi,yi). Beberapa kemungkinan tampilan yang tampak dalam plot pada gambar 2.1 . Jika semua titik (xi,yi) mengumpul di sekitar garis lurus, maka perhitungan koefisien a dan b dapat dilakukan dengan metode kuadrat terkecil atau least square method yang merupakan metode baku dalam analisis regresi. Sehingga harus diperiksa apakah data yang dimiliki mempunyai pola yang membentuk garis lurus, sehingga kita dapat menggunakan metode kuadrat terkecil untuk memperoleh persamaan garis regresi.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 33



18



Gambar 17. Beberapa kemungkinan Tampilan Plot



2.3 Garis Resisten Dalam membentuk persamaan regresi, harus diperiksa apakah pola titik (xi,yi) membentuk garis lurus atau lengkung. Untuk memeriksa pola tersebut diperlukan paling sedikit tiga titik yang dapat mewakili seluruh titik yang ada. Dengan menghubungkan ketiga titik tersebut dengan dua penggalan garis, masing-masing menghubungkan dua titik yang berdekatan, pola garis lurus itu dapat diperiksa. Garis lurus yang terdapat dalam diagram pencar, yang memperlihatkan hubungan antara variabel disebut dengan garis resisten. Pada sumber yang lain, garis resisten disebut juga dengan garis regresi atau garis perkiraan. Pilihan lain adalah dengan melihat rasio koefisien b kedua penggalan garis tersebut. Jika rasio menyimpang sangat jauh dari nilai 1 akan menunjukkan kelengkungan. Prosedur perhitungan yang ditempuh adalah sebagai berikut : Kita mulai dengan mengurutkan data (xi,yi) menurut besarnya nilai xi, sehingga x1 < x2 < … < xn Garis lurus yang terdapat dalam diagram pencar, yang memperlihatkan hubungan antara variabel disebut dengan garis resisten. Pada sumber yang lain, garis resisten disebut juga dengan garis regresi atau garis perkiraan.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



34



|



Eksplorasi Data



Pilihan lain adalah dengan melihat rasio koefisien b kedua penggalan garis tersebut. Jika rasio menyimpang sangat jauh dari nilai 1 akan menunjukkan kelengkungan. Prosedur perhitungan yang ditempuh adalah sebagai berikut : Kita mulai dengan mengurutkan data (xi,yi) menurut besarnya nilai xi, sehingga x1 < x2 < … < xn Kumpulan pasangan (xi,yi) yang telah diurutkan kemudian dibagi menjadi tiga bagian yang kurang lebih sama banyaknya yang akan membentuk kelompok B (bawah), T (tengah), dan A (atas) Dalam setiap kelompok, dicari titik yang dapat menjadi wakil dari kelompok yang bersangkutan. Kita gunakan nilai median x dan median y dari masing-masing kelompok sebagai koordinat titik-titik tersebut, yaitu : (xB,yB), (xT,yT), (xA,yA) Titik-titik ini belum tentu berupa titik pengamatan, karena penentuan median x dan y dilakukan secara terpisah. Koefisien b dihitung berdasarkan dua buah titik yang mewakili kelompok B dan A, sehingga mencerminkan rentangan nilai x yang paling lebar. b = (yA – yB)/(xA – xB) Koefisien a ditetapkan sehingga diharapkan garis tersebut dapat melalui bagian data yang berada di kelompok tengah (T). Kalau garis tersebut melalui titik (xT,yT) maka : a = yT – b xT Akan tetapi untuk menghindari nilai a terlalu dipengaruhi oleh nilai pengamatan dalam kelompok T, maka kita dapat menggunakan ketiga titik sebagai patokan dan nilai a ditentukan sebagai rata-rata dari ketiganya, sehingga kita dapatkan : aB = yB – bxB aT = yT – bxT aA = yA – bxA



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 35



yang selanjutnya menghasilkan a = { (yB – bxB) + (yT – bxT) + (yA – bxA)} / 3 = { (yB + yT + yA) – b (xB + xT + xA)} / 3 Sebagai contoh digunakan data sebagai berikut : Contoh 2.1 : x y



2 31,1



3 36,9



4 41,6



4 46,1



4 48,4



4 48,4



5 30,1



5 44,4



x y



5 46,8



5 54,0



6 48,9



6 50,1



6 51,2



6 56,2



6 68,4



7 77,1



Data Berpasangan dan Persam aan Garis Lurus



Plot untuk data di atas dapat dilihat pada Gambar 18.



80.00



70.00



y



60.00



50.00



40.00



30.00



2.00



3.00



4.00



5.00



6.00



7.00



x



Gambar 18. Plot pada data berpasangan



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 36



Karena data sudah diurutkan, maka langkah selanjutnya adalah membentuk tiga kelompok Bawah, Tengah dan Atas. Kelompok



Median x



B (Bawah)



T (Tengah)



A (Atas)



x



y



x



y



x



y



2



31,1



5



30,1



6



48,9



3



36,9



5



44,4



6



50,1



4



41,6



5



46,8



6



51,2



4



46,1



5



54,0



6



56,5



4



48,4



6



68,4



4



48,4



7



77,1



4



Median y



5 43,8



6 45,6



53,8



Koefisien b adalah : b



= (yA – yB)/(xA – xB) = 10,0/2,0 = 5,0



Sedangkan koefisien a adalah : a



= {(yB + yT + yA) – b (xB + xT + xA)}/3 = {143,2 – 5 (15)}/3 = 68,2/3 = 22,7



Sehingga persamaan garis yang dimaksud adalah : ŷ =



22.7 + 5.0 x



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



37



|



Eksplorasi Data



Dengan menggunakan median sebagai dasar perhitungan bisa dilihat bahwa persamaan di atas tidak terlalu peka terhadap perubahan nilai pada titik (5; 30,1), (6; 68,4) dan (7; 77,1). Jika nilai y pada kedua titik terakhir menjadi jauh lebih besar dari 77,1, persamaan garis tersebut tidak akan berubah. Demikian pula seandainya nilai y pada titik (5; 30,1) menjadi lebih kecil dari 30,1 maka perubahan ini tidak akan berpengaruh terhadap persamaan garis yang telah didapatkan. Persamaan garis ini ternyata cukup resisten terhadap nilai pencilan dan garis yang ditentukan berdasarkan prosedur di atas disebut garis resisten (Tukey, 1977 dan Velleman & Hoaglin, 1981 dalam Aunuddin, 1989). Untuk memeriksa kelengkungan garis, berdasarkan penggalan garis sebelah kiri yang menghubungkan titik B dengan titik T kita dapatkan bB = (45,6 – 43,8)/(5 – 4) = 1,8



sedangkan untuk penggalan sebelah kanan diperoleh : bA = (53,8 – 45,6)/(6 – 5) = 8,2 sehingga rasionya



menjadi : bA/bB = 8,2/1,8 = 4,55



berdasarkan rasio kedua nilai b terkesan bahwa pola garis tersebut melengkung dan menaik tajam. Meskipun demikian, karena datanya hanya sedikit dan dalam ploting data tidak menunjukkan adanya kelengkungan, persamaan garis lurus masih relevan dan tidak perlu dilakukan transformasi.



2.4 Pemeriksaan Ketepatan Model Setelah mendapatkan model dugaan, perlu diperiksa apakah model yang kita buat sudah tepat dan sesuai dengan data yang ada. Proses penghitungan untuk memperoleh model dapat diuraikan menjadi komponen data berikut ini : Data = dugaan + sisaan Atau : yi = (a + b xi) + (yi – a – b xi)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



|



38



Ketepatan model disini sangat dipengaruhi oleh asumsi keaditifan dan komponen dugaannya merupakan persamaan garis lurus. Komponen sisaan atau y -ŷ dapat digunakan untuk memeriksa berbagai ketidakcocokan antara data dengan model. Sebagai contoh kalau model yang dipakai sudah tepat, maka pola keragamannya dapat diterangkan sepenuhnya oleh keragaman x dan sisaannya sudah tidak memiliki pola hubungan lagi dengan x. Dalam tabel berikut diperoleh dua nilai baru yaitu nilai y (dugaan) dan y -ŷ (sisaan) yang diperlukan dalam pemeriksaan ketepatan model, melalui: Plot antara sisaan dengan nilai x atau dengan nilai dugaan untuk memeriksa apakah keseluruhan keragaman y telah dapat diterangkan oleh keragaman x atau untuk memeriksa apakah rentangan penyebaran sisaan dipengaruhi oleh besarnya nilai dugaan Diagram stem-and-leaf atau kotak garis dari nilai sisaan dapat digunakan untuk memeriksa kesimetrikan bentuk sebarannya, yang akan kita perlukan dalam tahap konfirmasi model atau uji hipotesis dalam analisa statistika. Tabel 2.1. Hasil Analisa Garis Resisten x



y



ŷ



y-ŷ



2



31,1



32,7



-1,6



3



36,9



37,1



-0,8



4



41,6



42,7



-1,1



4



46,1



42,7



3,4



4



48,4



42,7



5,7



4



48,4



42,7



5,7



5



30,1



47,7



-17,6



5



44,4



47,7



-3,3



5



46,8



47,7



-0,9



5



54,0



47,7



6,3



6



48,9



52,7



-3,8



6



50,1



52,7



-2,6



6



51,2



52,7



-1,5



6



56,5



52,7



3,8



6



68,4



52,7



15,7



7



77,1



57,7



19,4



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



39



|



Eksplorasi Data



20.00



sisaan



10.00



0.00



-10.00



-20.00



2.00



3.00



4.00



5.00



6.00



7.00



x



Gambar 19. Plot data x dan Sisaan



2.5 Proses Iterasi dalam Garis Resisten Prosedur yang menghasilkan persamaan garis resisten memiliki kelemahan dalam pendugaan koefisien a dan b. Kedua nilai ini seringkali bukan dugaan yang paling cocok, akan tetapi kekurangan ini dapat diperbaiki dengan melakukan iterasi. Proses iterasi melibatkan nilai sisaan karena dalam komponen ini masih tersisa informasi yang dapat digunakan untuk memperbaiki nilai dugaan a dan b. Setelah kita mendapatkan nilai sisaan atau r i = yi - ŷi , maka data tadi disusun menjadi pasangan data baru berupa (xi,ri) dan kembali melakukan pendugaan garis. Jika nilai b-nya nol atau relatif kecil sekali maka proses ini selesai, artinya dugaan a dan b pada tahap pertama cukup tepat. Dalam prakteknya, sering ditemui bahwa dugaan a dan b yang berasal dari pasangan (xi ,ri ) tidak sama dengan nol meskipun kemungkinan besar memiliki nilai yang lebih kecil dari dugaan sebelumnya. Seandainya pada tahap awal didapatkan penduga a1 + b1 x, dengan sisaannya r( 1 ) = y – a1 – b1 x. Berdasarkan pasangan baru (x,r(1)) kemudian didapatkan ai ’ dan bi ’ , sehingga nilai dugaan yang sudah diperbaiki menjadi a2 = a1 + a1 ’ dan b2 = b1 + b1 ’ . Pada tahap berikutnya diperoleh : Y( 2 ) = a2 + b2 x, dan R( 2 ) = y – y( 2 )



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data |



40



Yang menghasilkan pasangan baru (x,r ) yang dapat dipergunakan untuk proses iterasi selanjutnya. (2)



Dalam beberapa kasus tertentu, perubahan nilai tersebut dapat berjalan lambat sekali atau berfluktuasi karena nilai b’ selalu berganti tanda dengan besaran yang kurang lebih sama. Untuk mengatasi hal ini, perlu dilakukan penyesuaian yaitu setelah mendapatkan b2’ maka B 3 = b2 – b2 ’ [(b2 – b1 )/(b2 ’ – b1 ’)]



Atau secara umum B n + 1 = bn – bn ’ [(bn – bn - 1 )/(bn ’ – bn - 1 ) ] ’



Proses iterasi ini dapat dihentikan jika nilai bn+1’ sudah cukup kecil. Sebagai patokan, nilainya sudah lebih kecil dari 1% nilai b awal. (Emerson dan Hoaglin, 1983, hal 134 – 142 dalam Aunuddin, 1989)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Bab III Pemeriksaan Sisa dan Kenormalan 3.1 Pendahuluan Kendati namanya mungkin menyesatkan, sisa memiliki informasi yang sangat berharga dalam sebuah penelitian. Sehingga sisa merupakan bagian yang amat penting dalam setiap analisis data. Sisa didefiinisikan sebagai ei = yi - ŷ i dimana i = 1,2, …,n. Informasi dari data awal yang tidak terserap oleh model akan menjadi sisa. Jika semua pola yang ada pada data telah masuk ke dalam model maka sisa akan berbentuk acak, tetapi jika model yang terbentuk tidak mampu mengambil semua pola yang ada pada data maka sisa akan mempunyai kecenderungan tertentu. Dalam hal demikian dapat dikatakan bahwa model belum layak betul, dalam arti masih harus disempurnakan. Jika sisa sudah berbentuk acak maka anggapan tentang kenormalan dan kesamaan varian dapat diuji dari sisa.



3.2 Pemeriksaan Terhadap Model Kita dapat melihat kelayakan suatu model diantaranya dengan : Melihat hasil pengujian kecocokan model dengan F-Test Membandingkan R 2 dari model yang berlainan Melakukan pengujian hipotesis mengenai koefisien regresinya. Kesemuanya itu bertujuan untuk melihat bagaimana kecocokan model dengan data. Akan tetapi penyimpangan suatu model dari data susah dilihat melalui pemeriksaan koefisien regresi dan R 2. Ketidakcocokan model dengan data juga dapat dilihat dengan mengamati sisa. Makin besar sisa makin jauh data menyimpang dari model. Begitupun adanya pola yang teratur (sistematis) dalam sisa menunjukkan bahwa modelnya belumlah baik. Model yang sudah baik ditandai oleh pola sisa yang acak.



43 | E k s p l o r a s i D a t a



3.3 Kegunaan dan Tujuan Pemeriksaan Sisa Dari suatu kelompok data sering terdapat beberapa yang tidak mengikuti pola umum. Biasanya data seperti itu sering terdapat di pinggir. Kemungkinan hal ini terjadi karena kesalahan dalam mengamati atau mencatat tapi tidak jarang juga data itu memang data yang sesungguhnya. Salah satu kelemahan metode kuadrat terkecil ialah bahwa data yang aneh tersebut mempunyai pengaruh yang proporsional lebih besar dari data yang terletak di bagian tengah. Salah satu tujuan pemeriksaan sisa ialah untuk menentukan apakah data tersebut dapat dikategorikan sebagai pencilan(outlier) atau bukan. Ini yang disebut dengan diagnostik regresi. Adanya pencilan mungkin merupakan petunjuk bahwa modelnya belum cocok dengan data, jadi modelnya masih harus diperbaiki. Jika modelnya diperbaki, pencilan itu mungkin hilang. Akan tetapi, dalam banyak hal, pencilan muncul secara wajar dan tidak mengisyaratkan kekurangcocokan model. Bila n=100, misalnya, maka wajar saja bila ada sekitar lima data pengamatan yang ‘menyimpang’, yang tidak mengikuti pola umum. Secara umum, pencilan dapat diartikan sebagai data yang tidak mengikuti pola model dan secara kasar dapat diambil patokan yaitu yang sisanya berjarak 3 standar deviasi/standard error atau lebih dari rata-ratanya (yaitu nol). Tujuan pemeriksaan sisa, secara implisit, juga berarti apakah peubah bebas yang besar pengaruhnya sudah masuk ke dalam model dan dalam bentuk (linear, kuadrat, log, dsb.) yang sesuai. Lebih terperinci tujuan pemeriksaan sisa adalah : Apakah sisa telah berpola acak; Apakah anggapan normal tidak dilanggar; Apakah varian dapat dianggap tidak berubah (sama); Apakah ada data yang tidak mengikuti pola umum (pencilan); Apakah peubah yang masuk ke dalam model barangkali bukan berbentuk linear; Apakah peubah yang berpengaruh telah masuk ke dalam model.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Pemeriksaan Sisa dan Kenormalan



44



Jadi dalam membentuk model kita melihat pola umum data sedangkan dalam analisis sisa kita melihat penyimpangannya dari pola tersebut. Dalam setiap analisis data keduanya harus dipadu secara harmonis agar diperoleh model yang baik. Berikut ini akan disajikan pemeriksaaan sisa yang sederhana, dengan bantuan plot (pencaran data) sehingga perasaan kita diikutsertakan dalam menilai. Contoh 1. Tabel 1. Data tinggi (x) dan berat badan (y) no. 1 2 3 4 5



x(cm) 120 126 135 135 143



y(kg) 38,4 41,6 46,2 49,8 55,9



no. 6 7 8 9 10



x(cm) 150 150 155 155 155



y(kg) 61,2 59,8 66,5 63,4 65,8



no. 11 12 13 14 15



x(cm) 160 162 162 170 172



y(kg) 67,5 68,7 81,8 75,8 78,6



Setelah diolah didapatkan hasil : Tabel 2. Penghitungan dengan dan tanpa pencilan Seluruh pengamatan no.



ŷ x



Tanpa no.



y-ŷ



ŷ



13



y- ŷ



y



1



120



38,4



36,81



1,5906



37,30



1,0956



2



126



41,6



41,73



-0,1275



41,97



-0,3652



3



135



46,2



49,10



-2,9047



48,96



-2,7565



4



135



49,8



49,10



0,6953



48,96



0,8435



5



143



55,9



55,66



0,2378



55,17



0,7290



6



150



61,2



61,40



-0,2000



60,61



0,5913



7



150



59,8



61,40



-1,6000



60,61



-0,8087



8



155



66,5



65,50



1,0016



64,49



2,0073



9



155



63,4



65,50



-2,0984



64,49



-1,0927



10



155



65,8



65,50



0,3016



64,49



1,3073



11



160



67,5



69,60



-2,0969



68,38



-0,8768



12



162



68,7



71,24



-2,5362



69,93



-1,2304



Eksplorasi Data



| 45



13



162



81,8



71,24



10,5638



-



14



170



75,8



77,79



-1,9937



76,14



-0,3449



15



172



78,6



79,43



-0,8331



77,70



0,9015



Jumlah



0,0011



-



0,0003



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



46 | E k s p l o r a s i D a t a



Dari tabel 2 kita dapat melihat hasil dugaan dari model yang kemudian kita hitung sisaannya. Kita bandingkan model yang menggunakan seluruh pengamatan dan model yang membuang pengamatan no. 13, karena kita anggap sisanya terlalu besar. Plot ŷ dengan sisa diberikan pada gambar 1a dan 1b. Dari gambar ini terlihat dengan jelas bagaimana memencilnya sisa dari pengamatan no. 13, besarnya sisa ini melebihi 3s (s=standar error=3,3594). Jika anggapan kenormalan sisa dipenuhi maka peluangnya mendapat data seperti ini amat kecil, kurang dari 0,003.



Gambar 20. Residual Plot dengan mempertahankan Pencilan



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



E k s p l o r a s i D a t a | 47



Gambar 21. Residual Plot dengan Membuang Pencilan Karena itu sebaiknya telusuri kembali apakah tidak terdapat kesalahan dalam pengumpulan data atau pencatatannya. Jika kesalahan tidak ditemukan, dan memang ada orang yang beratnya seperti itu, maka kita harus menerima sebagaimana adanya dan sekali-kali tidak boleh membuangnya. Bayangkan kalau y menyatakan produksi susu sapi dan ternyata sapi no.13 menghasilkan susu yang jauh melebihi hasil sapi lainnya. Membuang informasi seperti itu berarti membuang bibit unggul. Tujuan analisis data bukan hanya mencari pola umum data tapi juga mencari data yang mana saja yang tidak mengikuti pola umum. Jika kita menangani data penyebaran emas dalam tambang maka kita lebih tertarik melihat data yang tidak mengikuti pola umum. Emas tersebar dalam tambang berbentuk bongkah. Bongkah yang besar lebih jarang ditemui, jadi lebih merupakan pencilan. Suatu cara menilai pengaruh data yang tidak mengikuti pola umum adalah dengan membuat analisis khusus tanpa mengikutsertakan data pencilan tersebut dalam analisis, kemudian membandingkan pengaruhnya dengan bila seluruh pengamatan diikutsertakan.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



48 | E k s p l o r a s i D a t a



Pada bagian kanan tabel 2. ditampilkan analisis tanpa mengikutsertakan pengamatan no. 13. Plot sisa diberikan pada gambar 3.1b. terlihat jauh lebih acak. Sedangkan pada tabel 3. ditampilkan perbandingan besaran regresi yang penting dari kedua analisis. Tabel 3. Menilai pengaruh pencilan Besaran a b s (a) s (b) s R2



Menggunakan semua data -61,5530 0,8197 8,7858 0,0583 3,3594 93, 83%



Tanpa pengamatan no.13 -55, 9129 0,7768 3,5504 0,0237 1,3331 98, 90%



Terlihat bahwa perubahan pada R2 dan s cukup besar. R2 naik 5% dan s turun menjadi hampir 0,4 kali besar semula. Begitupun b turun sedikit dan s (b) menjadi setengah besar semula. Bila pengaruh data kecil maka tidaklah menjadi persoalan, analisis mana yang akan dipakai. Tetapi bila cukup besar, maka kita dihadapkan pada pilihan yang tidak mudah. Hasil yang mana yang akan digunakan tergantung dari : keyakinan kita tentang kebenaran data pengamatan no.13 pemahaman kita tentang permasalahan dan pemahaman kita tentang tujuan analisis. Tidak ada formula yang pasti, apakah suatu pencilan itu harus dibuang atau tetap dipertahankan dalam suatu set data. Terkadang diperlukan juga kepekaan peneliti akan data – data yang diolahnya (sense of data).



3.4 Pemeriksaan Kenormalan Pelanggaran terhadap kenormalan dapat terjadi karena sampel tidak berasal dari populasi normal atau adanya beberapa data, biasanya di pinggir, yang merupakan pencilan. Banyak cara telah diciptakan untuk memeriksa kenormalan, dari yang paling sederhana sampai yang canggih, dan tidak ada satupun yang betul-betul memuaskan hati. Setiap cara memiliki keunggulan dan kelemahan, dan pengalaman selalu sangat menolong. Suatu distribusi normal



N( , 2) akan berlaku :



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



P(-s < y < s) = 0,6826



0.68



P(-2s < y < 2s) = 0,9544



0,95



P(-3s < y < 3s ) = 0,9974



| 49



0,997



Jadi cara yang sederhana memeriksa kenormalan sisa ialah dengan melihat apakah presentasi sisa memenuhi : antara –s dan s sekitar 68% antara –2s dan 2s sekitar 95% antara –3s dan 3s sekitar 99,7% Perhatikan bahwa rata-rata sisa adalah nol dan standar deviasi dimisalkan s kita tidak mengharapkan bahwa persamaan 3.1 harus dipenuhi dengan tepat. Pelanggaran terhadap ketentuan di atas dapat terjadi karena sisa tidak memenuhi anggapan kenormalan atau ada pencilan dalam data, misalnya sisa yang terletak lebih dari 3s dari titik rataan 0. Cara yang lebih baik dan paling umum dilakukan orang adalah dengan menggambarkan plot data, dalam hal ini plot sisa. Plot yang paling sederhana misalnya ialah diagram batang-dandaun (stem & leaf). Yang ingin dilihat adalah apakah diagramnya setangkup, berpuncak tunggal dan kedua ujungnya tidak terlalu tebal.



Contoh.2. Lihat kembali data sisa dari contoh 1. yang diberikan di tabel 2. Pengamatan No. 13 dikutsertakan : VAR00003 Stem-and-Leaf Plot Frequency 2,00 2,00 2,00 ,00 1,00 2,00 2,00 1,00 1,00 1,00



Stem & -2 -2 -1 -1 -0 -0 0 0 1 1



Leaf . . . . . . . . . .



59 00 69 8 12 23 6 0 5



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



50 | E k s p l o r a s i D a t a



(>=10, 6)



1,00 Extremes



Stem width: Each leaf:



1,00 1 case(s)



Pengamatan no. 13 tidak diikutseetakan : VAR00004 Stem-and-Leaf Plot Frequency 1,00 2,00 4,00 4,00 2,00 1,00 Stem width: Each leaf:



Stem & -2 -1 -0 0 1 2



. . . . . .



Leaf 7 02 3388 5789 03 0



1,00 1 case(s)



Terlihat bahwa jika pengamatan no.13 ikut, kita memperoleh diagram yang tidak setangkup dan juga tidak berpuncak tunggal. Lebih dari itu, pengamatan no. 13 memberikan sisa yang sangat terpencil (extremes). Akan tetapi jika pengamatan no. 13 tidak diikutsertakan, maka kita akan memperoleh diagram yang cukup setangkup, berpuncak tunggal. Tidak ada petunjuk bahwa anggapan normal dilanggar.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



| 51



BAB IV Transformasi Data 4.1 Pendahuluan Jika pencilan (outlier) ternyata ada dalam hasil pengamatan dan pencilan itu akan digunakan dalam analisis data maka perlu dicari cara untuk mengatasinya agar pencilan itu tidak mengganggu dan kita mendapat hasil yang lebih baik. Salah satu cara untuk mengatasi pencilan ditempuh dengan melalui tranformasi terhadap data hasil pengamatan sebagai berikut. Dalam hal demikan, peubah tak bebas Y dan atau peubah bebas X mungkin perlu ditransformasikan. Caranya adalah dengan : Mengamati stem-and-leaf (dahan-daun), dan box plot dari data X dan data Y Pilihlah transformasi yang sesuai untuk Y dan atau untuk X. Misalkan hasil transformasi dari Y dan dari X berturut-turut adalah Z dan W Tentukan regresi linear dari Z terhadap W Bila regresi dari Z terhadap W memberikan harga R2 yang sudah memuaskan, maka proses pemodelan selesai. Bila belum, maka ulangi langkah 2 dan 3.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



52 | E k s p l o r a s i D a t a



Bentuk transformasi yang dapat dilakukan adalah : bentuk logaritma natural, akar kuadrat, inverse, atau bentuk yang lain tergantung dari bentuk kurva normalnya. Transformasi data adalah paling sesuai untuk perbaikan pengukuran keheterogenan ragam dimana ragam dan rataan memiliki hubungan fungsi. Dengan teknik ini data asli dikonversikan ke dalam skala baru menjadikannya data baru yang diharapkan memenuhi ketentuan kehomogenan ragam. Karena skala transformasi umum digunakan untuk semua pengamatan, nilai komparatif antara perlakuan tidak diubah dan pembandingan diantaranya tetap sah. Jenis transformasi data yang harus digunakan sangat tergantung pada jenis hubungan antara ragam dan rataannya. Sehingga tujuan dilakukan re-ekspresi atau transformasi salah satunya adalah untuk memperoleh sebaran data yang relatif normal atau setangkup.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



53 | E k s p l o r a s i D a t a



Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris.



untuk bentuk distribusi : skewness positif skewness negatif2222



Gambar 22. Transformasi Tangga Tukey



Data contoh kasus : skewness = -0,5 (menceng kiri), maka transformasi yang mungkin adalah x2, x3, dan 10x.



Gambar 23. Contoh kasus transformasi data X 2 Transformasi data bertujuan untuk mengubah data dari data yang tidak mengikuti sebaran normal dengan keragaman antar perlakuan tidak homogen menjadi mengikuti sebaran normal dengan keragaman antar perlakuan menjadi homogen (menyediakan data baru dengan sebaran yang lebih setangkup). 4.1.1 Transformasi Logaritma



Transformasi logaritma paling sesuai untuk data dimana standar deviasinya berbanding dengan rataan, pengaruhnya kelipatan atau memiliki hubungan fungsi. Jika rata-rataan sampel sebanding dengan standar deviasi masing-masing sampel, maka dengan mengganti tiap pengamatan dengan logaritmanya sering akan menghasilkan varian yang hampir sama. Keadaan ini umumnya diperoleh jika data



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



54 | E k s p l o r a s i D a t a



merupakan bilangan bulat dan mencakup wilayah yang lebar. Untuk data yang berukuran kecil (misalnya kurang dari 10) atau data yang memiliki nilai 0 (nol), sebaiknya model transformasinya diubah menjadi Log (Y + 1). Transformasi ini biasanya digunakan bila data berkaitan dengan waktu dan rata-ratanya ( ) mengikuti rata-rata Geometrik. Ciri-ciri data ini adalah bila rata-rata ( ) suatu perlakuan semakin besar, maka variannya ( ) juga semakin besar, sehingga homogenitas ragam/varian antar perlakuan tidak terpenuhi. Data yang mempunyai ciri-ciri tersebut adalah data yang berkaitan dengan waktu misalnya jumlah mikroorganisme pada daging yang disimpan pada suhu dingin selama 10 hari, bobot badan ayam dari minggu ke minggu. Transformasi logaritma dapat mengubah bentuk perkalian menjadi penambahan dan sebaran nilai yang dihasilkan menjadi lebih terpusat (variabilitas menurun dan ekor sebaran menjadi lebih pendek dibanding data asli). 4.1.2 Transformasi Akar Kuadrat Transformasi akar kuadrat cocok digunakan untuk bilangan bulat yang kecil, misalnya data yang diperoleh pada kejadian yang jarang, seperti banyaknya tanaman yang terserang penyakit dalam suatu petak atau banyaknya gulma per petak. Untuk data seperti ini, ragamnya cenderung berbanding dengan rataannya. Transformasi akar kuadrat juga cocok untuk data persentase apabila wilayahnya antara 0 – 30% atau 70 – 100% . Pada kasus yang sama Steel & Torrie (1989) memberikan batasan 0 – 20% atau 80 – 100%. Apabila kebanyakan data berukuran kecil (kurang dari 10%), terlebih jika memiliki nilai 0 (nol) maka sebaiknya menggunakan (Y + 0,5)0,5. Transformasi ini digunakan jika data mengikuti sebaran Poisson. Ciricirinya adalah rata-rata (ў) data hasil pengamatan masing-masing perlakuan hampir sama dengan variannya (т2), data yang mengikuti sebaran Poisson ini biasanya data dalam persen dengan persentase yang sangat kecil atau peluang kejadiannya sangat kecil atau sebaliknya yaitu sangat besar (mendekati 0% atau 100%). contoh : tabel data hubungan antara lamanya seseorang melaksanakan training dengan performance score yang didapatnya



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



Sales trainee



1 2 3 4 5 6 7 8 9 10



Lamanya training (hari) (Xi) 0.5 0.5 1 1 1.5 1.5 2 2 2.5 2.5



Performance Xi’= score (Yi) 46 51 71 75 92 99 105 112 121 125



0.70711 0.70711 1 1 1.22474 1.22474 1.41421 1.41421 1.58114 1.58114



| 55



Xi’.Yi



32.527 36.062 71 75 112.677 121.250 148.492 158.392 191.138 197.643



0.5 0.5 1 1 1.5 1.5 2 2 2.5 2.5



jika dilihat dari scatter plotnya, maka data di atas akan memiliki scatter plot sebagai berikut:



Gambar 24. Perbandingan garis regresi linier dan



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



56 | E k s p l o r a s i D a t a



terlihat pada scatter plot di atas bahwa pola garis linier tidak cocok menggambarkan data yang ada karena seharusnya garis regresi agak sedikit memiliki lengkungan. Oleh karena itu, data tersebut harus ditransformasi ke dalam bentuk yang lain. Tangga Tranformasi Tukey merupakan sebuah pedoman yang cukup baik, namun untuk mendapatkan transformasi yang paling baik terkadang peneliti harus mencoba beberapa bentuk transformasi data (trial and error). Lagi – lagi kepekaan peneliti akan data yang sedang ditelitinya kembali dibutuhkan.



Descriptives Statistic performance_score



Mean



89.7000



95% Confidence Interval for



Lower Bound



69.7182



Mean



Upper Bound



109.6818



5% Trimmed Mean



90.1667



Median



95.5000



Variance



780.233



Std. Deviation



Std. Error 8.83308



27.93266



Minimum



46.00



Maximum



125.00



Range



79.00



Interquartile Range



48.25



Skewness



-.389



.687



-1.155



1.334



Kurtosis



dilihat dari tabel output SPSS, data tersebut memiliki skewness yang negatif, maka menurut Tangga Transformasi Tukey, transformasi yang cocok adalah x2, x3, 10x. Namun jika dilihat dari garis regresi yang terbentuk dari scatter plot maka bentuk garis regresi mendekati pola garis regresi , oleh karena itu data tersebut akan ditransformasikan ke dalam bentuk . Maka setelah semua data lamanya training diakar kuadratkan, buat kembali persamaan garisnya. Persamaan garis barunya adalah = -11.69 + 85.53 X’



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



| 57



Namun perlu diingat bahwa x yang digunakan pada persamaan garis di atas adalah data lamanya training yang sudah diakar kuadratkan. Oleh karena itu, data selanjutnya yang akan dimasukkan ke dalam persamaan garis di atas haruslah diakar kuadratkan terlebih dahulu baru kemudian dimasukkan ke dalam persamaan garis untuk mendapatkan nilai perkiraan nilai Y.



4.2 Curve Estimation Pada SPSS Pada SPSS 18 terdapat fasilitas Curve Estimation. Curve estimation sangat membantu sekali dalam menentukan pola garis regresi apa yang mendekati dengan data yang sedang kita teliti. Hal ini akan memudahkan peneliti dalam membuat persamaan garis dari data yang dimiliki sehingga tidak lagi membutuhkan proses trial and error yang cukup melelahkan dan memakan waktu. Berikut ini adalah langkah – langkah untuk mendapatkan curve estimation pada SPSS 18 : 1. Aktifkan datanya 2. Klik menu Analyze → Regression → Curve Estimation



Gambar 25. Windows SPSS pada saat memilih Analyze → Regression → Curve Estimation



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



58 | E k s p l o r a s i D a t a



3. Maka akan muncul window seperti di bawah ini



Gambar 26. kotak Dialog Curve Estimation Kemudian beri tanda centang pada model yang kita perkirakan akan cocok garis regresi-nya dengan data yang kita miliki. 4. Setelah itu, klik OK 5. Kemudian akan muncul output sebagai berikut.



Model Summary and Parameter Estimates Dependent Variable:nilai_ekspor_alas_kaki Equation



Model Summary



Parameter Estimates



R Square



F



df1



df2



Sig.



Constant



b1



b2



Linear



,076 3,759



1



46



,059 132419,971



427,851



Logarithmic



,067 3,280



1



46



,077 124312,715



6343,043



Inverse



,026 1,232



1



46



,273 144939,974



-



b3



21935,909 Quadratic



,089 2,195



2



45



,123 126490,927



1139,336 -14,520



Cubic



,137 2,319



3



44



,088 140606,175



-2149,138 151,542



2,259



Compound



,054 2,650



1



46



,110 132273,768



1,003



Power



,048 2,330



1



46



,134 125734,098



,040



Exponential



,054 2,650



1



46



,110 132273,768



,003



Logistic



,054 2,650



1



46



,110



,997



7,560E-6



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



| 59



Jika dilihat dari output yang muncul maka dengan tingkat kepercayaan 90% maka persamaan regresi linear-lah yang paling mendekati dengan data penelitian karena nilai signifikan-nya paling kecil. Namun jika tingkat kepercayaannya menjadi 95% maka data yang kita teliti tidak signifikan dengan persamaan garis manapun.



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



60 | E k s p l o r a s i D a t a



DAFTAR PUSTAKA Aunuddin, 1989, Analisis Data, Institut Pertanian Bogor, Bogor. Berenson, Mark L., David M. Levine, 1986, Basic Bussiness Statistics: Concepts and Application 3r d Edition, Prentice-Hall International. Neter, John, 1989, Applied Linear Regression Models 2nd Edition, Irwin Sembiring, R.K, 2003, Analisis Regresi, Penerbit ITB, Bandung Supranto, J. 2000, Statistik Teori dan Aplikasi edisi ke-6, Erlangga, Jakarta



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



62 | E k s p l o r a s i D a t a



Latihan 1. Berikut data penerimaan pajak pada kuartal pertama dari sampel 9 outlet pada sebuah areal perdagangan (dalam ribuan dollar): 16, 18,11, 17, 13, 10, 22,15, 16 o Carilah rata-rata, median, Q1, Q2, Q3, modus dan standar deviasi o Buatlah diagram batang dan daun, dan box plot-nya 2. Diberikan raw data sebagai berikut: 32, 95, 11, 94, 36, 91, 62, 62, 74, 14, 63, 58, 87, 41, 10, 95, 99, 75, 57, 75. o Carilah rata-rata, median, Q1, Q2, Q3, modus dan standar deviasi o Buatlah diagram batang dan daun, dan box plot-nya 3. Nilai ulangan matematika dari 30 siswa sebagai berikut : Nilai 4 5 6 7 8 9 Frekuensi 2 4 12 8 3 1 Carilah rata-rata nilai ulangan matematika dari 30 siswa tersebut! 4. Contoh : Tentukan median dari data Nilai



4 5



6



7 8 9



frekuansi 2 4 12 8 3 1



30



Jawaban : 1. Diketahui : data penerimaan pajak sampel 9 outlet pada sebuah areal perdagangan sbb (sudah diurutkan dari yang terkecil ke terbesar) : Data 10 , 11 , 13 , 15 , 16 , 16 , 17, 18 , 22 Urutan 1 , 2 , 3 , 4 , 5 , 6 , 7, 8 , 9



Q1



Q2



Q3



Rata – rata : = 15,3333



Median = urutan ke



=



= urutan ke- 5



Maka, median dari data di atas adalah data pada urutan ke-5 yaitu 16 Q1=



= 12



Q2= 16



Q3=



= 17,5



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



| 63



Modus adalah angka yang memiliki frekuensi kemunculan paling banyak, yaitu 16, maka modus = 16



Standar Deviasi =



= 3,4641



penerimaan_pajak Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 5,00 1,00



1 . 013 1 . 56678 2. 2



Stem width: 10 Each leaf: 1 case(s)



2.Diketahui : Raw data yg berjumlah 20 sbb (sudah diurutkan dari yang terkecil ke terbesar) : Data 10, 11, 14, 32, 36, 41, 57, 58, 62, 62, 63, 74, 75, 75, 87, 91, 94, 95, 95, 99 Urutan 1, 2 , 3 , 4 , 5 , 6 , 7, 8 , 9 , 10, 11 , 12 ,13 , 14, 15, 16, 17, 18, 19, 20



Q1



Q2



Q3



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



64 | E k s p l o r a s i D a t a



Rata – rata : = 61,55 Median = urutan ke



=



= antara urutan ke- 10 dan 11



Maka, median dari data di atas adalah = Q1=



= 38,5



Q2= 62,5



= 62,5 Q3=



= 89



Modus adalah angka yang memiliki frekuensi kemunculan paling banyak, yaitu 62,75, dan 95 , maka modus = 62, 75, dan 95



Standar Deviasi =



= 29,18449



data Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 2,00 3,00 6,00 6,00



0. 0. 0. 0. 0.



111 33 455 666777 899999



Stem width: 100 Each leaf: 1 case(s)



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik



Eksplorasi Data



3. Jawab : Xi



4



5



6



7



8



9



fi Xi.fi



2 8



4 20



12 72



8 56



3 24



1 9



Xi .fi



X



fi



189 30



=



| 65



30 189



6,30



4. Jawab : Letak Me =



X15



6



X16 6 6 6 = 2



n 1 2



Me = 12 2



30 1 2 X 15



31 15 2



1 2



X 16 2



6



jadi nilai Mediannya adalah 6



Modul Diklat Fungsional Statistisi Tingkat Ahli – Badan Pusat Statistik