Tugas Konsep Data Mining - Kelompok 6 [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

TUGAS KONSEP DATA MINING



Kelompok 6 Disusun Oleh : 1. Elsa Susanti



(12116319)



2. Indra Cahya K



(18116144)



3.



(15116955)



Rafka Ivary



4. Shorim Mujadid R



(17116030)



KELAS : 3KA16



FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI SISTEM INFORMASI UNIVERSITAS GUNADARMA 2019/2020



Boleh menggunakan kalkulator !



Fenomena Model overfitting adalah fenomena ketika tree bertambah besar Test error rate nya mulai naik walaupun Training error rate menurun.



Tabel Training Set, Pohon Keputusan ( decision tree), dan Tabel Test Set berikut untuk soal no 1 dan 2 .



Diketahui Training Set, Decision tree, dan Test Set untuk masalah klasifikasi makhluk mamalia :



Training set Name



Body temperatur



Gives Birth



Four legged



Hibernates



Class Label



salamander



cold blooded



no



yes



yes



non mamalia



guppy



cold blooded



yes



no



no



non mamalia



eagle



warm blooded



no



no



no



non mamalia



poorwill



warm blooded



no



no



yes



non mamalia



Berikut dua model decision tree yang dibangun dari Training set.



Body temperature Warm blooded



Body temperature Cold blooded



Warm blooded



Non Mammals



Gives birth yes



no



Mammals



Non Mammals



Cold blooded



Non Mammals



Hibernates no



yes



Non Mammals



Four legged yes



no



Model M1 Non Mammals



Mammals



Model M2



Isilah kolom M1 dan kolom M2 pada Tabel Test Set, masing-masing diperoleh dari decision tree Model M1 dan decision tree Model M2. Test Set



Name



Body temperatur



Gives



Four



Birth



legged



Hibernates



Class Label



M1



M2



human



warm blooded



yes



no



no



Mammals



?



?



pigeon



warm blooded



no



no



no



Non Mammals



?



?



elephant



warm blooded



yes



yes



no



Mammals



?



?



leopard shark



cold blooded



yes



no



no



Non Mammals



?



?



turtle



cold blooded



no



yes



no



Non Mammals



?



?



penguin



cold blooded



no



no



no



Non Mammals



?



?



eel



cold blooded



no



no



no



Non Mammals



?



?



dolphin



warm blooded



yes



no



no



Mammals



?



?



spiny anteater



warm blooded



no



yes



yes



Mammals



?



?



gila monster



cold blooded



no



yes



yes



Non Mammals



?



?



Kemudian jawab soal no. 1 dan no.2 berikut. 1.



Decision tree Model M1 mempunyai Test error rate sebesar : a. 30 %



b. 10 %



c. 20 %



d. 40 %



Jawab : A. 30% 2.



Sedangkan decision tree Model M2 mempunyai Test error rate sebesar : a. 30 %



b. 10 %



c. 20 %



d. 40 %



Jawab : D. 40% 3.



Untuk mengukur disimilarity antara dua atribut x dan y, berikut mana yang merupakan rumus pengukuran Eulidean distance? n



n



a.







(xk – yk)2







b.



(xk – yk)



k 1



k 1 n



c. √ (







(xk – yk)2 )



d. √ (xk – yk)2



k 1



Jawab : C. √(∑𝒏𝒌=𝟏(𝑿𝒌 − 𝒚𝒌)2 ) Classification menggunakan teknik Naïve Bayes Classifier. No



Home Owner



Marital status



Annual Income ($



Cheat



Ribu) 1



Yes



Single



> 80



No



2



No



Married



>80



No



3



No



Single



80



No



5



No



Divorced



>80



Yes



6



No



Married



80



No



8



No



Single



>80



Yes



9



No



Married



80



Yes



Tabel Classification ini untuk soal no 4-10 .



4.



Dari tabel diatas berapa probabilitas dari P(Cheat= No )? a. 1/7



b. 4/7



c. 2/7



d. 7/10



Jawab : D. 7/10 5.



Dari tabel diatas berapa probabilitas dari P(Cheat= Yes) ? a. 3/10



b. 4/3



c. 2/3



d. 1/3



Jawab : A. 3/10 6.



Dari tabel diatas berapa probabilitas dari: P(Annual Income >80  Cheat = No) dan P(Annual Income >80  Cheat = Yes) ?



a. 1/10 dan 4/10



b. 4/10 dan 4/10



Jawab : D. 4/7 dan 3/3



c. 2/10 dan 4/10



d. 4/7 dan 3/3



7.



Dari tabel diatas berapa probabilitas dari P(Home owner = Yes Cheat = No) dan P(Home owner = Yes  Cheat=Yes ) ?



a. 3/7 dan 0/3



b. 4/3 dan 4/3



c. 2/3 dan 4/3



d. 1/3 dan 4/3



Jawab : A. 3/7 dan 0/3 8.



Dari tabel diatas berapa probabilitas dari P(Marital status = Married Cheat = No) dan P(Marital status = Married  Cheat=Yes)?



a. 5/5 & 5/5



b. 5/5 & 3/5



c. 3/5 & 5/5



d. 4/7 & 0/3



Jawab : D. 4/7 & 0/3 9.



Bila input adalah X = {Home Owner = Yes; Marital Status = Married; Income > 80 }, maka berapa probabilitas P( X Cheat = No)? a. (3/7 * 4/7 * 4/7) * 7/10



b. 1



c. (3/3 * 0/3 * 0/3) * 3/10



d. 2



Jawab : A. (3/7 * 4/7 *4/7) * 7/10 10.



Dari kondisi input soal no.9, maka berapa probabilitas P( X Cheat = Yes) ? a. 1



b. (3/3 * 0/3 * 0/3) * 3/10



c. (3/7* 4/7 * 4/7) * 7/10



d. 2



Jawab : B. (3/3 * 0/3 * 0/3) * 3/10 11.



Data mining adalah a. Proses cleaning pada data yang menjadi fokus KDD. b. Proses pencarian fitur-fitur yang berguna untuk merepresentasikan data yang bergantung pada



tujuan yang ingin dicapai. c. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan teknik atau metode terterntu. d. Proses menciptakan himpunan data target, pemilihan himpunan data atau memfokuskan pada subset variable atau sampel data, dimana penemuan (discovery) akan dilakukan.



Jawab : C. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan Teknik atau metode tertentu 12.



Hasil keputusan teknik classification dengan model desicion tree berada pada node : a. Akar (root )



b. Non daun



c. Non daun atau akar



d. Daun (leaf)



Jawab : D. Daun (leaf) 13.



Berikut, tugas mana yang dipandang sebagai tugas data mining ? a. mencari record pribadi menggunakan DBMS b. menemukan halaman Web khusus melalui query pada internet-search-engine c. meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record. d. mengurutkan basis data mahasiswa berdasarkan nomor pokok mahasiswa



Jawab : C. Meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record 14.



Berikut pernyataan mana yang benar ? a. Data mining adalah bagian terintegrasi dari knowledge discovery in databases (KDD). b. (a) dan (d) benar c. KDD adalah bagian terintegrasi dari data mining d. Data preprocessing adalah bagian terintegrasi dari KDD



Jawab : B. (a) dan (d) benar 15.



Proses KDD merupakan barisan langkah-langkah transformasi sebagai berikut :



a.Input data  Data Preprocessing Data Mining  PostprocessingInformation b.Input data  Data Preprocessing PostprocessingData MiningInformation c.Input data  Data Preprocessing  PostprocessingInformation Data Mining d. Input data  Data PreprocessingInformationData Mining  Postprocessing



Jawab : B. Input data -> Data Preprocessing -> Postprocessing -> Data Mining -> Information 16.



Berikut bidang-bidang apa saja yang memainkan peranan penting dalam data mining a. (b), (c), (d) benar semua b. Database technology, parallel computing dan distributed computing c. Artificial Inteligence dan pattern recognition d. Statistic



Jawab : A. (b), (c), (d) benar semua 17.



Tipe tugas data mining mana yang merupakan tipe tugas model predictive ? a. Classification dan Regression



b. Association rule discovery dan clustering



c. Clustering



d. Sequential Pattern Discovery



Jawab : A. Classification dan Regression 18.



Tugas data mining mana yang sesuai, untuk kasus bagaimana mendeteksi adanya penipuan dalam transaksi kartu kredit di akun? a. Anomaly habit



b. Clustering



c. Classification



d. Association rule discovery



Jawab : A. Anomaly habit 19



Tipe atribut untuk himpunan data: { small, medium, large } adalah a. ratio



b. ordinal



Jawab : B. Ordinal



c. interval



d. nominal



20.



Tipe atribut untuk himpunan data: { single, married, divorced} adalah a. ratio



b. ordinal



c. interval



d. nominal



Jawab : D. Nominal 21.



Diketahui dua objek data biner : x = (1,0,1,0,0,0,1,1 ); y = ( 0, 1 , 1 , 0 , 1 , 0 , 1 , 0 ) Jika digunakan koefesien similariti Simple Matching Coeffesient (SMC), berapa nilai koeefisien similariti antara x dan y , ? a. 4/8



b. 5/8



c. 3/8



d. 2/8



Jawab : D. 4/8 22.



Diketahui dua objek data : x = (1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) ; y = ( 1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) Dengan menggunakan Euqlidean Distance, berapa nilai disimilariti antara x dan y ? a. 0



b. 1



c. 0.75



d. 2



Jawab : A. 0 23.



Diketahui dua vektor :



x=(1,1,1,1 );y=(2,2,2,2 )



Dengan menggunakan Euclidean Distance, berapa nilai disimilariti antara x dan y ? a. 1



b. 2



c. 0.75



d. 0.5



Jawab : A. 1 24.



Algoritma C4.5 dan ID3 dalam problem Classification digunakan untuk



a. membangun tabel Training set b. membangun Decision Tree c. membangun matrix conclusion d. membangun tabel Test set



Jawab : B. Membangun Decision Tree 25.



Selesaikan Problem Clustering untuk 4 (empat) objek berikut, dengan menggunakan algoritma KMeans No



Objek



X



Y



1



A



1



1



2



B



2



1



3



C



4



3



4



D



5



4



Bila diinginkan K= 2, berarti 4 objek ini akan dikelompokkan menjadi 2 (dua), yaitu: Kelompok I dan Kelompok II. Misal ditetapkan pada Iterasi pertama Kelompok I mempunyai titik centroid m1 = (1,1), dan Kelompok II mempunyai titik centroid m2 = (2,1). Bila menggunakan pengukur jarak Euclidean Distance, maka output iterasi pertama adalah: a. Kelompok I = {A,B,C,D}; Kelompok II = { } b. Kelompok I = {A,B }; Kelompok II = {C,D} c. Kelompok I = {A,B,C}; Kelompok II = { D} d. Kelompok I = {A}; Kelompok II = {B,C,D}



Jawab : D. Kelompok I = {A}; Kelompok II = {B,C,D} K=2



m1=(1,1)



m2=(2,1)



Objek A B



x 1 2



y 1 1



Jarak dari m1



Jarak dari m2



G1-P 1 2



√(1 − 1)2 + (1 − 1)2 = 0 √(1 − 2)2 + (1 − 1)2 = 1 √(2 − 1)2 + (1 − 1)2 = 1 √(2 − 2)2 + (1 − 1)2 = 1 C 4 3 2 √(4 − 1)2 + (3 − 1)2 = 3,6 √(4 − 2)2 + (3 − 1)2 = 2,83 2 2 2 2 D 5 4 2 √(5 − 1) + (4 − 1) = 5 √(5 − 2) + (4 − 1) = 4,24 Maka output Euclidean Distance iterasi pertama adalah (D) kelompok 1 = {A} kelompok {B,C,D}



(Regresi linier) Tabel berikut digunakan untuk menjawab soal nomor 26, 27, 28, 29, dan 30. Misalkan diketahui data harga rumah (y) dalam hubungannya dengan luas bangunan (x) seperti dalam tabel berikut.



No



x



y



(ratus m2)



(ratus juta rupiah)



1



2



4



2



3



6



3



2



6



4



3



8



Kita ingin menemukan persamaan garis linier yang mewakili pola hubungan antara x dengan y dengan menggunakan regresi linier y = b0 + b1 x, b1 = {(x- R)*(y- T)}/  (x – R)2 ,



di mana R = ( x)/ n dan T = ( y )/ n .



b0 = T – b1* R



n = jumlah data (record).



26.



Dari data diatas maka nilai b1 adalah a. 4



b. 3



c. 1



d. 2



Jawab : D. 2 𝑏1 =



∑{(𝑥 − 𝑅)(y − T)} ∑(𝑥 − 𝑅)2



(∑𝑥) 10 = 4 = 2,5 𝑛 (∑𝑦) 24 = 𝑛 = 4 =6



R=



T (2 − 2,5)(4 − 6) + (3 − 2,5)(6 − 6) + (2 + 2,5)(6 − 6) + (3 − 2,5)(8 − 6) 𝑏1 = (2 − 2,5)2 − (3 − 2,5)2 − (2 − 2,5)2 − (3 − 2,5)2 𝑏1 = 2 27.



Dari soal no. 36, maka b0 adalah a. 4



b. 3



c. 1



d. 2



Jawab : C.1



𝑏0 = 𝑇 − (𝑏1 x R) 𝑏0 = 6 − (2 x 2,5) 𝑏0 = 1 28.



Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketahui x = 3 ? a. 6



b. 7



c. 8



d. 9



Jawab : B. 7



𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 3) 𝑦=7 29.



Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketehui x = 4 ? a. 9



b. 7



c. 8



d. 6



Jawab : A. 9 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 4) 𝑦=9 30.



Dari jawaban soal no. 26 dan 27 berapakah nilai y, apabila x = 2.5 ? a. 7



b. 6



c. 8



d. 9



Jawab : B. 6 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 2,5) 𝑦=6



Tabel ini adalah catatan transaksi pembelian kaos di Toko Kaos BRAZIL. Tabel tersebut digunakan untuk menjawab soal nomor 31 - 37. Transaksi



Warna



1



M, P, H



2



P, O



3



P, B



4



M, P, O



5



M, B



6



P, B



7



P, O



8



M, P, H, B



9



M, P, B



10



K



M: Merah; P: Putih; H: Hijau; O: Orange; B: Biru; K: Kuning



Support (x) = (Ʃ x) / y x = himpunan item yang dibeli; y = jumlah seluruh transaksi ;



Rule: A  B



( If A then B )



A = himpunan antecedent B= himpunan consequent



Confidence (A  B) = support (AՍB) / support (A)



31.



Berapa support untuk himpunan {M} ? a. 5/10



b. 4/10



c. 6/10



d. 3/10



Jawab : A. 5/10 T 1 2 3 4 5 6 7 8 9 10 ∑



M 1 1 1 1 1 5 3 10



I 1 1 1 1 1 1 1 1 8 8 10



H 1 1 2 2 10



O 1 1 1 3 3 10



B 1 1 1 1 1 5 5 10



K 1 1 1 10



JumlH Transaksi M 5 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 32.



Berapa support untuk himpunan {H} ? a. 5/10



b. 4/10



c. 2/10



d. 3/10



Jawab : C. 2/10 JumlH Transaksi H 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 33.



Berapa support untuk himpunan {M, P}? a. 5/10



b. 3/10



Jawab : D. 4/10 JumlH Transaksi 𝑀1 P 4 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10



c. 6/10



d. 4/10



34.



Berapa support untuk himpunan {M, P, H}? a. 2/10



b. 4/10



c. 6/10



d. 3/10



Jawab : A. 2/10 JumlH Transaksi 𝑀1 𝑃1 𝐻 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 35.



Berapa confidence untuk aturan asosiasi : {M, P}  {H} ? a. 20 %



b. 40%



c. 50 %



d. 30 %



Jawab : C. 50% Rule {𝑀1 𝑝} -> {H} {MP} 1 1 4 1 8 1 9 1



{H} 1 0 1 0



∑=𝟐



2



Confidence : 10 x 100 % = 50 % 36.



Berapa confidence untuk aturan asosiasi: { H}  {M, P} ? a. 66.66 %



b. 40%



c. 50 %



d. 100 %



Jawab : D. 100% Rule {H} -> {𝑀1 𝑝} {MP} 1 1 4 0 8 1 9 0



{H} 1 1 1 1



∑=𝟐



2



Confidence : 4 x 100 % = 100 % 37.



Bila diterapkan syarat minimum confidence 75 % maka dari ke empat aturan berikut aturan mana yang akan dipilih? a. {P}  {M, H}



b. { H }  {M, P}



c. {M, P}  {H}



d. {M}  {P, H}



Jawab : B. { H } -> {M, P} Min 75% 2 B.{H} -> {𝑀1 𝑝} | 2 x 100 % = 100 % 38.



Jika diketahui support {A,B,C} = 4/10 dan support {A,B} = 6/10 , maka confidence dari aturan asosiasi {A,B}  {C} adalah a. 66,66 %



b. 50 %



c. 33,33 %



d. 100 %



Jawab : A. 66.66% 4 6



39.



x 100 % = 66,66 %



Jumlah Rule yang terbentuk dari pohon keputusan Model M1 pada soal No. 1 adalah: a. 2



b. 3



c. 4



d. 5



Jawab : B. 3 40.



Jumlah Rule yang terbentuk dari pohon keputusan Model M2 pada soal No. 1 adalah: a. 2



b. 3



Jawab : C. 4



c. 4



d. 5