Tp1 w3 Data Mining [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Tugas Personal ke-1 (Minggu 3 / Sesi 5) 1. Apakah yang dimaksud dengan data mining? Jawab: Data mining adalah disiplin ilmu dari data science yang melibatkan analisa dan eksplorasi dari data yang besar untuk mengetahui pola dan aturan yang berguna untuk memprediksi sesuatu di masa yang akan dating. Teknik data mining digunakan untuk membuat model Machine Learning yang digunakan untuk aplikasi AI modern seperti algoritma search engine dan recommendation systems.



sh is ar stu ed d v i y re aC s o ou urc rs e eH w er as o. co m



2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21, 22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Berdasarkan data tersebut: (a) Apa yang dimaksud dengan data? Apa mediannya? Jawab:



Data adalah sekumpulan informasi atau juga keteranganketerangan dari suatu hal yang diperoleh dengan melalui



pengamatan atau juga pencarian ke sumber-sumber tertentu. Median:



Maka Median untuk data tersebut adalah x



(



27+1 ) = 2



x 14



Th



= 25.



(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal, trimodal, dll.). Mode data adalah nilai yang paling sering muncul dalam suatu set observasi.



This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00



ISYS6281 – Data Mining



https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/



sh is ar stu ed d v i y re aC s o ou urc rs e eH w er as o. co m



Jika dilihat dari histogram tersebut maka mode data tersebut adalah 25 dan 35(bimodal).



(c) Apa itu midrange data?



Midrange data adalah mean dari perhitungan nilai terkecil dan terbesar dari suatu set data.



Maka midrange dari data set di atas adalah (70+13)/2 = 41,5



(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan kuartil ketiga (Q3) dari data?



Q1 is the middle value in the first half of the data set.



Q3 is the middle value in the second half of the data set.



Karena data berjumlah ganjil maka menggunakan rumus:



Qi=



i(n+1) 4



Th



Q1 = 1(27+1)/4 = 7



Q3= 3(27+1)/4 = 21



Maka nilai Q1 adalah 21 dan nilai Q3 adalah 35.



(e) Berikan ringkasan lima angka dari data. Minimum: 13 Q1: 21



Median: 25 Q3; 35 Maximum: 70 (f) Tunjukkan plot kotak data.



Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam dokumen. ©Arif



This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00



https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/



2|5



(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?



sh is ar stu ed d v i y re aC s o ou urc rs e eH w er as o. co m



Plot quantil adalah suatu cara mudah untuk mendeskripsikan



persebaran data yang brevariasi. Quantile terdiri dari Quantile 0,25, Quantile 0,50 laulu Quantile 0,75. Quantil 0,25



menggambarkan kuartil Q1, Quantile 0,50 menggambarkan



kuartil Q2, Quantile 0,75 menggambarkan kuartil Q3. Selain itu



ada juga Quantile 0,00 yang menggambarkan data min(terkecil) dan juga Quantile 1,00 yang menggambarkan data max(terbesar).



Sedangkan plot quantil-quantil adalah untuk membandingkan satu Quantile plot dengan Quantile plot lainnya.



3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode untuk menangani masalah ini.



Th



1. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini sangat tidak efektif kecuali tuple berisi beberapa atribut dengan nilai-nilai yang hilang. Dengan mengabaikan tuple, memungkinkan untuk tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple. 2. Isikan nilai yang hilang secara manual: secara umum pendekatan ini memakan waktu dan mungkin tidak layak diberi dataset yang besar dengan nilai-nilai yang hilang. 3. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti semua nilai atribut yang hilang dengan konstanta yang sama seperti label “unknown”.



4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-rata atau median) untuk mengisi nilai yang hilang. 5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik kelas yang sama seperti tuple yang diberikan.



Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam dokumen. ©Arif



This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00



https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/



3|5



6. Gunakan nilai yang paling mungkin untuk mengisi nilai yang hilang: dapat ditentukan dengan regresi, alat berbasis inferensi menggunakan formalism Bayesian atau decision tree.



4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat menggunakan contoh untuk menjelaskan poin. (a) Skema snowflake, konstelasi fakta, model kueri starnet. (b) Data cleaning, transformasi data, refresh (c) Discovery-driven cube, multifeatured cube, virtual data warehouse.



sh is ar stu ed d v i y re aC s o ou urc rs e eH w er as o. co m



5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base: (1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3) .d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D d3. Ukuran cube adalah count(). (a) Berapa banyak nonempty cube yang akan diisi data penuh? Jawab: Nonempty cuboids = 210 = 1024 (b) Berapa banyak sel agregate nonempty (mis., nonbase) yang akan diisi penuh? Jawab: Tiap cell menghasilkan 210−1 non-empty aggregated cells, sehingga secara total dimiliki



3¿ ( 210−1)



cells dengan overlap



dibuang. Total cell yang overlap satu kali =



3¿ 27 => dihitung 2 Total cell yang overlap dua kali = 1¿ 27 => dihitung 3 Jadi cell yang overlap yang harus dihapus



3¿ ( 8 ¿ 27 )−5¿ 27 −3 ¿ = 3 −1024−640−3



Th



=



= 2429 (c) Berapa banyak sel agregat nonempty akan mengandung iceberg jika kondisi Iceberg cube "count ≥2"? Jawab: Analisa: (*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2) (*,d2,*,d4,…,d9,d10) berjumlah 2 (*,*,d3,d4,…,d9,d10) berjumlah 2 (*,*,*,d4,…,d9,d10) berjumlah 2 Sehingga total 4 ¿ 27 = 512



6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering pada set data D, juga sebagai jumlah dukungan untuk setiap set item yang sering ditutup. Jelaskan algoritma untuk menentukan apakah



Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam dokumen. ©Arif



This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00



https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/



4|5



Th



sh is ar stu ed d v i y re aC s o ou urc rs e eH w er as o. co m



itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu sering terjadi.



Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam dokumen. ©Arif



This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00



https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/ Powered by TCPDF (www.tcpdf.org)



5|5