Rangkuman Eksplorasi Data Analisis [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

RANGKUMAN EKSPLORASI DATA ANALISIS “Without data, you are just another person with an opinion” Seperti yang dijelaskan pada buku Statistics The Exploration & Analysis of Data yang ditulis oleh Roxy Peck dan Jay L. Devore, Eksplorasi data analisis digambarkan menjadi empat tahapan: 1. 2. 3. 4.



Mengumpulkan data Deskripsikan variabel yang ada pada data Tentukan faktor-faktor pendukung Gambarkan sebuah kesimpulan dari data yang telah dianalisis



Jadi, EDA adalah sebuah kemampuan dalam mengeksplorasi data dengan mengetahui pola sebaran data, meringkas data, menggambarkan data dalam berbagai macam plot, grafik, chart dan tabel, sebelum data tersebut dilakukan analisis lebih lanjut dengan menggunakan analisis inferensia. Dalam EDA, terdapat dua macam teknik analisis, yaitu Analisis Konfirmatif dan Analisis Eksploratif  



Analisis konfirmatif berusaha memastikan apakah anda telah benar-benar mendapatkan apa yang anda ingin ketahui (misalnya berdasarkan teori, seperti memprediksi operasi atau jalannya suatu mekanisme tertentu) Analisis eksploratof berusaha mengeksplor atau mengetahui secara lebih jauh apa yang mereka katakan pada anda



Perbedaan antara teknik eksplorasi dan teknik konfirmasi Teknik Eksplorasi a. Mengikuti jalan data dan menemukan metode yang cocok b. Termasuk statistik deskriptif c. Mencari jalan fleksibel untuk menguji data tanpa prasangka d. Mencoba mengevaluasi validitas aman e. Mengira-ngira besar kesalahan Kelebihan: a. Mengetahui informasi lebih dalam b. Cara fleksibel (hipotesis umum) c. Tak perlu data dukung terlalu banyak Kekurangan: a. Tidak mengandung jawaban yang definit b. Sulit untuk menghindari opini c. Bias data dan sampling error besar d. Tidak bisa menganalisis adanya error atau jawaban salah



Teknik Konfirmasi a. Memaksa data mengikuti metode yang ada b. Termasuk statistik inferensia c. Sangat percaya pada model kemungkinan d. Harus menerima asumsi yang tidak dapat diuji e. Mencari jawaban pasti dari soal spesifik f. Mengutamakan perhitungan data g. Menguji hipotesis dan formal confidence interval estimation h. Menentukan hipotesis mula-mula Kelebihan: a. Menyajikan informasi yang tepat pada waktu yang tepat b. Teori dan metode yang dibangun dengan baik Kekurangan: a. Kesan tak baik pada ketelitian di bawah standar b. Analisis dibuat dari ide-ide yang telah terbentuk sebelumnya c. Susah untuk memperhatikan hasil akhir yang tidak dapat diprediksi



Teknik dalam EDA dibagi menjadi dua, yaitu: 1. 2.



Nongrafis Metode yang melibatkan perhitungan ringkasan ilmu statistik Contoh: menghitung median, mean, modus, kuartil, dan lain-lain Grafis Metode yang meringkas data dengan gambar Contoh: membuat tabel, diagram, dan lain-lain



Selain dua teknik di atas, ada teknik lain yang juga digunakan dalam EDA, yaitu:



1.



2.



Plotting data mentah Bentuk:  Histogram : digunakan untuk menggambarkan bentuk distribusi data tentang letak pemusatan data, penyebaran data, serta mendeteksi ada atau tidaknya oulier  Bihistogram : digunakan untuk melihat perbandingan darihasil dua kondisi yang berbeda misalnya sebelum atau sesudah  Stem and leaf : digunakan untuk mengurutkan data dan mengetahui pola serta bentuk data apakah data tersebut simetrismenceng kiri ataupun menceng kanan  Scatter plot : digunakan untuk melihat hubungan antara dua variabel  Lag plot : digunakan untuk melihat apakah data time series acak atau random  Block plot : digunakan untuk menilai atau mendiagnosa pengaruh faktor yang diteliti terhadap variabel respon  Probability plot : digunakan untuk melihat apakah data tersebut mengikuti suatu distribusi tertentu atau tidak misalnya distribusi normal Plotting statistik sederhana Terdiri dari:  Mean plot : digunakan untuk melihat ada atau tidaknyaperbedaan rata-rata dari beberapa kelompok data  Standart deviation plot : digunakan untuk melihat ada atau tidaknya variasi dari beberapa kelompok data  Box plot : digunakan untuk menggambarkan lokasi dan informasi variasi sekumpulan data



Tujuan EDA 1. 2. 3. 4. 5. 6. 7. 8.



Mempermudah memahami data Mempermudah dalam mendeskripsikan data Mempermudah mengambil keputusan Penyajian data yang singkat dan jelas Memahami karakteristik data dengan baik Membantu menentukan metode analisis yang sesuai Mendeteksi adanya outlier Mendiagnosa ada atau tidaknya pelanggaran asumsi



Alasan menggunakan EDA: 1. 2. 3. 4. 5.



Mendeteksi kesalahan Mengecek asumsi Mempersiapkan untuk memilih model yang sesuai Memperkirakan secara kasar hubungan variabel Memperkirakan arah dan ukuran kasar dari hubungan variabel bebas dan terikat



Paradigma teknik analisis: a. b. c.



Klasik Pengumpulan data diikuti dengan penerapan model, yaitu normalitas, linieritas dan lain-lain kemudian analisis estimasi dan pengujian yang difokuskan pada model parameter tersebut EDA Pengumpulan data tidak diikuti dengan penerapan model melainkan segera dilakukan analisis untuk mencari model yang sesuai Bayesian Proses pendugaan dengan mempertimbangkan dua hal, yaitu data yang sekarang dan informasi awal mengenai suatu kasus



Dalam buku Statistics The Exploration & Analysis of Data yang ditulis oleh Roxy Peck dan Jay L. Devore, dijelaskan bahwa untuk menjadi konsumen informasi dari laporan ada hal-hal yang perlu dilakukan diantaranya adalah sebagai berikut: 1.



Ekstrak informasi dari tabel, grafik, dan grafik.



2. 3.



Ikuti argumen numerik. Memahami dasar-dasar bagaimana data harus dikumpulkan, dirangkum, dan dianalisis untuk menarik kesimpulan statistik.



Sumber: 1. 2. 3.



Apa sih EDA itu? APA ITU EDA? Eksplorasi Data Analisis – EDA (Pengenalan) 4. Buku Statistics The Exploration & Analysis of Data yang ditulis oleh Roxy Peck dan Jay L. Devore