Exploratory Data Analysis [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Exploratory Data Analysis Exploratory Data Analysis (EDA) adalah analisis data yang dilakukan pada saat investigasi awal terhadap data sehingga diharapkan dapat menemukan pola, melihat anomali, menguji hipotesis dan memeriksa asumsi dengan bantuan summary statistic dan representasi grafis. Exploratory Data Analysis yang digunakan dalam data ini adalah summary statistic, histogram dan box plot. Summary statistic memperlihatkan ringkasan dari seluruh data seperti mean, median, modus, skewness, kurtosis, range dan lainnya. Kecondongan (skewness) suatu kurva dapat dilihat dari perbedaan letak mean, median dan modusnya. Jika ketiga ukuran pemusatan data tersebut berada pada titik yang sama, maka dikatakan simetris atau data berdistribusi normal. Sedangkan jika tidak berarti data tidak simetris atau tidak berdistribusi normal. Ukuran kecondongan data terbagi atas tiga bagian, yaitu :   



Kecondongan data ke arah kiri (condong negatif) dimana nilai modus lebih dari nilai mean (modus > mean). Kecondongan data simetris (distribusi normal) dimana nilai mean dan modus adalah sama (mean = modus). Kecondongan data ke arah kanan (condong positif) dimana nilai mean lebih dari nilai modus (mean > modus).



Gambar. Sketsa yang menunjukkan tipe skewness (Doane, Seward, 2011) Keruncingan dinilai sebagai bentuk distorsi dari kurva normal. Tingkat keruncingan diukur dengan membandingkan bentuk keruncingan kurva distribusi data dengan kurva normal. Terbagi atas tiga, yaitu :   



Leptokurtic, yaitu bagian tengah distribusi data memiliki puncak yang lebih runcing (nilai keruncingan lebih dari 3). Platykurtic, yaitu bagian tengah distribusi data memiliki puncak yang lebih datar (nilai keruncingan kurang dari 3). Mesokurtic, yaitu bagian tengah distribusi data memiliki  puncak diantara Leptokurtic dan Platykurtic (nilai keruncingan sama dengan 3). 



Gambar . Perbandingan tipe kurtosis (Cannon et. al., 2008



Histogram adalah tampilan bentuk grafis yang menunjukkan distribusi data secara visual atau seberapa sering suatu nilai yang berbeda terjadi dalam suaru kumpulan data. Histogram juga dapat digunakan untuk menentukan kenormalan suatu data dan akan memudahkan untuk mendapatkan kesimpulan dari data tersebut contohnya untuk penentuan jumlah populasi dari suatu data. Bentuk-bentuk histogram :



1. Bentuk normal (simetris/berbentuk lonceng)



2.



3.



4.



5.



6.



a. Harga rata-rata histogram terletak di tengah range data b. Frekuensi data paling tinggi di tengah dan menurun secara bertahap dan simetris pada kedua sisinya Bentuk multimodal a. Bentuk ini bisa terjadi bila jumlah data tidak menentu, pada masing-masing kelas ada kecenderungan pengumpulan/pembulatan data yang kurang tepat b. Kelas dalam urutan nomor genap mempunyai frekuensi yang lebih kecil disbanding sisi luarnya Bentuk curam di kiri a. Harga rata-rata histogram terletak jauh di sebelah kiri dari range dan frekuensi di sisi kiri turun menjadi nol secara tiba-tiba b. Bentuk ini mungkin disebabkan adanya batasan yang tidak boleh dilampaui di sisi kiri Bentuk plateum a. Bentuk ini terjadi bila frekuensi di masing-masing kelas hamper sama dan berbeda cukup banyak hanya pada ujung-ujungnya b. Bentuk ini mungkin disebabkan oleh adanya penggabungan beberapa kumpulan data yang mempunyai harga rata-rata berdekatan Bentuk dengan dua puncak a. Frekuensi dibagian tengah agak rendah dan terdapat dua puncak di masingmasing sisinya b. Bentuk ini dapat terjadi bila ada penggabungan dua kumpulan data yang harga rata-ratanya berbeda jauh Bentuk dengan puncak terpisah a. Pada bentuk ini terdapat puncak kecil yang terpisah dari bentuk histogram yang normal b. Bentuk ini bias terjadi bila terdapat penambahan kumpulan data dalam jujmlah kecil dengan distribusi berbeda, kesalahan pengukuran, pemasukan data dari proses lain atau ketidaknormalan dalam proses



Suatu distribusi data dapat menjadi tidak normal karena ditemukan adanya outlier. Outlier adalah data yang memiliki deviasi yang jauh dengan data lainnya sehingga meningkatkan kecurigaan bahwa data tersebut dihasilkan oleh mekanisme yang berbeda (Hawkins, 1980). Untuk memperlihatkan adanya outlier dalam suatu data dapat diketahui dengan menggunakan box plot. Box plot merupakan ringkasan distribusi data yang disajikan secara grafis yang bias menggambarkan bentuk distribusi data, ukuran tendensi sentral dan ukuran penyebaran data pengamatan. Terdapat beberapa ukuran statistik yang bias digunakan dalam box plot diantaranya nilai minimum, Q1, Q2, Q3, nilai maksimum dan ada tidaknya nilai outlier.



Gambar. Box Plot (Potter, 2006) Nilai outlier adalah nilai data yang letaknya lebih dari 1.5 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LO (bawah kotak). Terdapat dua nilai outlier :  



Q3 + (1.5 x IQR) < outlier atas outlier bawah >= Q1- (3 x IQR)



Analisis Berdasarkan 70 sampel data medan magnet, dilakukan analisis summary statistic menggunakan excel. Tabel 1. Summary statistics Medan Magnet Summary Statistics Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count



430866 108,9929 431005,5 430793 911,8997 831561 4,166303 0,234778 6182 428430 434612 30160619 70



Berdasarkan Tabel 1, didapatkan nilai mean yang lebih besar dibandingkan nilai modus yang berdasarkan pengelompokan skewness (kecondongan), distribusi data tersebut memiliki kurva yang relative condong ke kanan. Dan didapat juga nilai kurtosis 4.166303 yang menunjukkan bahwa bagian tengah data tersebut memiliki puncak yang runcing (leptokurtic).



Histogram 39



13 25



7



6



0



1 ,5 ,15 25 7 21 75 25 30 2, 75 8, 3, 9, 66 84 15 4 0 9 9 3 0 2 3 9 3 4 4 92 07 22 38 42 43 42 43 43 43



1e or M



Gambar . Histogram nilai medan magnet Berdasarkan histogram di atas dapat disimpulkan bahwa kurva data tersebut berbentuk normal/simetris yang menandakan bahwa data tersebut terdistribusi normal. Dapat juga diketahui bahwa data merupakan nilai yang diambil dari satu populasi karena data hanya memiliki satu kurva.



Gambar . Box Plot medan magnet Berdasarkan gambar di atas dapat diketahui bahwa terdapat nilai outlier dengan 2 nilai di atas kotak dan 3 nilai di bawah kotak. Tetapi dengan adanya outlier tersebut tetap tidak mengubah kenormalan data.



Referensi : - Sugiyono. 2008. Metode Penelitian Bisnis. Alfabeta. Bandung. - Sugiyono. 2009. Metode Penelitian Kuantitatif Kualitatif dan R & B. Bandung. - Priyatno, Duwi. 2010. Paham Analisa Statistik Data dengan SPSS. Mediakom. Yogyakarta - Nunung Subiyanto, “Training SPC “, Jakarta 2008