5 0 1 MB
TUGAS KONSEP DATA MINING
Kelompok 6 Disusun Oleh : 1. Elsa Susanti
(12116319)
2. Indra Cahya K
(18116144)
3.
(15116955)
Rafka Ivary
4. Shorim Mujadid R
(17116030)
KELAS : 3KA16
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI SISTEM INFORMASI UNIVERSITAS GUNADARMA 2019/2020
Boleh menggunakan kalkulator !
Fenomena Model overfitting adalah fenomena ketika tree bertambah besar Test error rate nya mulai naik walaupun Training error rate menurun.
Tabel Training Set, Pohon Keputusan ( decision tree), dan Tabel Test Set berikut untuk soal no 1 dan 2 .
Diketahui Training Set, Decision tree, dan Test Set untuk masalah klasifikasi makhluk mamalia :
Training set Name
Body temperatur
Gives Birth
Four legged
Hibernates
Class Label
salamander
cold blooded
no
yes
yes
non mamalia
guppy
cold blooded
yes
no
no
non mamalia
eagle
warm blooded
no
no
no
non mamalia
poorwill
warm blooded
no
no
yes
non mamalia
Berikut dua model decision tree yang dibangun dari Training set.
Body temperature Warm blooded
Body temperature Cold blooded
Warm blooded
Non Mammals
Gives birth yes
no
Mammals
Non Mammals
Cold blooded
Non Mammals
Hibernates no
yes
Non Mammals
Four legged yes
no
Model M1 Non Mammals
Mammals
Model M2
Isilah kolom M1 dan kolom M2 pada Tabel Test Set, masing-masing diperoleh dari decision tree Model M1 dan decision tree Model M2. Test Set
Name
Body temperatur
Gives
Four
Birth
legged
Hibernates
Class Label
M1
M2
human
warm blooded
yes
no
no
Mammals
?
?
pigeon
warm blooded
no
no
no
Non Mammals
?
?
elephant
warm blooded
yes
yes
no
Mammals
?
?
leopard shark
cold blooded
yes
no
no
Non Mammals
?
?
turtle
cold blooded
no
yes
no
Non Mammals
?
?
penguin
cold blooded
no
no
no
Non Mammals
?
?
eel
cold blooded
no
no
no
Non Mammals
?
?
dolphin
warm blooded
yes
no
no
Mammals
?
?
spiny anteater
warm blooded
no
yes
yes
Mammals
?
?
gila monster
cold blooded
no
yes
yes
Non Mammals
?
?
Kemudian jawab soal no. 1 dan no.2 berikut. 1.
Decision tree Model M1 mempunyai Test error rate sebesar : a. 30 %
b. 10 %
c. 20 %
d. 40 %
Jawab : A. 30% 2.
Sedangkan decision tree Model M2 mempunyai Test error rate sebesar : a. 30 %
b. 10 %
c. 20 %
d. 40 %
Jawab : D. 40% 3.
Untuk mengukur disimilarity antara dua atribut x dan y, berikut mana yang merupakan rumus pengukuran Eulidean distance? n
n
a.
(xk – yk)2
b.
(xk – yk)
k 1
k 1 n
c. √ (
(xk – yk)2 )
d. √ (xk – yk)2
k 1
Jawab : C. √(∑𝒏𝒌=𝟏(𝑿𝒌 − 𝒚𝒌)2 ) Classification menggunakan teknik Naïve Bayes Classifier. No
Home Owner
Marital status
Annual Income ($
Cheat
Ribu) 1
Yes
Single
> 80
No
2
No
Married
>80
No
3
No
Single
80
No
5
No
Divorced
>80
Yes
6
No
Married
80
No
8
No
Single
>80
Yes
9
No
Married
80
Yes
Tabel Classification ini untuk soal no 4-10 .
4.
Dari tabel diatas berapa probabilitas dari P(Cheat= No )? a. 1/7
b. 4/7
c. 2/7
d. 7/10
Jawab : D. 7/10 5.
Dari tabel diatas berapa probabilitas dari P(Cheat= Yes) ? a. 3/10
b. 4/3
c. 2/3
d. 1/3
Jawab : A. 3/10 6.
Dari tabel diatas berapa probabilitas dari: P(Annual Income >80 Cheat = No) dan P(Annual Income >80 Cheat = Yes) ?
a. 1/10 dan 4/10
b. 4/10 dan 4/10
Jawab : D. 4/7 dan 3/3
c. 2/10 dan 4/10
d. 4/7 dan 3/3
7.
Dari tabel diatas berapa probabilitas dari P(Home owner = Yes Cheat = No) dan P(Home owner = Yes Cheat=Yes ) ?
a. 3/7 dan 0/3
b. 4/3 dan 4/3
c. 2/3 dan 4/3
d. 1/3 dan 4/3
Jawab : A. 3/7 dan 0/3 8.
Dari tabel diatas berapa probabilitas dari P(Marital status = Married Cheat = No) dan P(Marital status = Married Cheat=Yes)?
a. 5/5 & 5/5
b. 5/5 & 3/5
c. 3/5 & 5/5
d. 4/7 & 0/3
Jawab : D. 4/7 & 0/3 9.
Bila input adalah X = {Home Owner = Yes; Marital Status = Married; Income > 80 }, maka berapa probabilitas P( X Cheat = No)? a. (3/7 * 4/7 * 4/7) * 7/10
b. 1
c. (3/3 * 0/3 * 0/3) * 3/10
d. 2
Jawab : A. (3/7 * 4/7 *4/7) * 7/10 10.
Dari kondisi input soal no.9, maka berapa probabilitas P( X Cheat = Yes) ? a. 1
b. (3/3 * 0/3 * 0/3) * 3/10
c. (3/7* 4/7 * 4/7) * 7/10
d. 2
Jawab : B. (3/3 * 0/3 * 0/3) * 3/10 11.
Data mining adalah a. Proses cleaning pada data yang menjadi fokus KDD. b. Proses pencarian fitur-fitur yang berguna untuk merepresentasikan data yang bergantung pada
tujuan yang ingin dicapai. c. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan teknik atau metode terterntu. d. Proses menciptakan himpunan data target, pemilihan himpunan data atau memfokuskan pada subset variable atau sampel data, dimana penemuan (discovery) akan dilakukan.
Jawab : C. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan Teknik atau metode tertentu 12.
Hasil keputusan teknik classification dengan model desicion tree berada pada node : a. Akar (root )
b. Non daun
c. Non daun atau akar
d. Daun (leaf)
Jawab : D. Daun (leaf) 13.
Berikut, tugas mana yang dipandang sebagai tugas data mining ? a. mencari record pribadi menggunakan DBMS b. menemukan halaman Web khusus melalui query pada internet-search-engine c. meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record. d. mengurutkan basis data mahasiswa berdasarkan nomor pokok mahasiswa
Jawab : C. Meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record 14.
Berikut pernyataan mana yang benar ? a. Data mining adalah bagian terintegrasi dari knowledge discovery in databases (KDD). b. (a) dan (d) benar c. KDD adalah bagian terintegrasi dari data mining d. Data preprocessing adalah bagian terintegrasi dari KDD
Jawab : B. (a) dan (d) benar 15.
Proses KDD merupakan barisan langkah-langkah transformasi sebagai berikut :
a.Input data Data Preprocessing Data Mining PostprocessingInformation b.Input data Data Preprocessing PostprocessingData MiningInformation c.Input data Data Preprocessing PostprocessingInformation Data Mining d. Input data Data PreprocessingInformationData Mining Postprocessing
Jawab : B. Input data -> Data Preprocessing -> Postprocessing -> Data Mining -> Information 16.
Berikut bidang-bidang apa saja yang memainkan peranan penting dalam data mining a. (b), (c), (d) benar semua b. Database technology, parallel computing dan distributed computing c. Artificial Inteligence dan pattern recognition d. Statistic
Jawab : A. (b), (c), (d) benar semua 17.
Tipe tugas data mining mana yang merupakan tipe tugas model predictive ? a. Classification dan Regression
b. Association rule discovery dan clustering
c. Clustering
d. Sequential Pattern Discovery
Jawab : A. Classification dan Regression 18.
Tugas data mining mana yang sesuai, untuk kasus bagaimana mendeteksi adanya penipuan dalam transaksi kartu kredit di akun? a. Anomaly habit
b. Clustering
c. Classification
d. Association rule discovery
Jawab : A. Anomaly habit 19
Tipe atribut untuk himpunan data: { small, medium, large } adalah a. ratio
b. ordinal
Jawab : B. Ordinal
c. interval
d. nominal
20.
Tipe atribut untuk himpunan data: { single, married, divorced} adalah a. ratio
b. ordinal
c. interval
d. nominal
Jawab : D. Nominal 21.
Diketahui dua objek data biner : x = (1,0,1,0,0,0,1,1 ); y = ( 0, 1 , 1 , 0 , 1 , 0 , 1 , 0 ) Jika digunakan koefesien similariti Simple Matching Coeffesient (SMC), berapa nilai koeefisien similariti antara x dan y , ? a. 4/8
b. 5/8
c. 3/8
d. 2/8
Jawab : D. 4/8 22.
Diketahui dua objek data : x = (1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) ; y = ( 1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) Dengan menggunakan Euqlidean Distance, berapa nilai disimilariti antara x dan y ? a. 0
b. 1
c. 0.75
d. 2
Jawab : A. 0 23.
Diketahui dua vektor :
x=(1,1,1,1 );y=(2,2,2,2 )
Dengan menggunakan Euclidean Distance, berapa nilai disimilariti antara x dan y ? a. 1
b. 2
c. 0.75
d. 0.5
Jawab : A. 1 24.
Algoritma C4.5 dan ID3 dalam problem Classification digunakan untuk
a. membangun tabel Training set b. membangun Decision Tree c. membangun matrix conclusion d. membangun tabel Test set
Jawab : B. Membangun Decision Tree 25.
Selesaikan Problem Clustering untuk 4 (empat) objek berikut, dengan menggunakan algoritma KMeans No
Objek
X
Y
1
A
1
1
2
B
2
1
3
C
4
3
4
D
5
4
Bila diinginkan K= 2, berarti 4 objek ini akan dikelompokkan menjadi 2 (dua), yaitu: Kelompok I dan Kelompok II. Misal ditetapkan pada Iterasi pertama Kelompok I mempunyai titik centroid m1 = (1,1), dan Kelompok II mempunyai titik centroid m2 = (2,1). Bila menggunakan pengukur jarak Euclidean Distance, maka output iterasi pertama adalah: a. Kelompok I = {A,B,C,D}; Kelompok II = { } b. Kelompok I = {A,B }; Kelompok II = {C,D} c. Kelompok I = {A,B,C}; Kelompok II = { D} d. Kelompok I = {A}; Kelompok II = {B,C,D}
Jawab : D. Kelompok I = {A}; Kelompok II = {B,C,D} K=2
m1=(1,1)
m2=(2,1)
Objek A B
x 1 2
y 1 1
Jarak dari m1
Jarak dari m2
G1-P 1 2
√(1 − 1)2 + (1 − 1)2 = 0 √(1 − 2)2 + (1 − 1)2 = 1 √(2 − 1)2 + (1 − 1)2 = 1 √(2 − 2)2 + (1 − 1)2 = 1 C 4 3 2 √(4 − 1)2 + (3 − 1)2 = 3,6 √(4 − 2)2 + (3 − 1)2 = 2,83 2 2 2 2 D 5 4 2 √(5 − 1) + (4 − 1) = 5 √(5 − 2) + (4 − 1) = 4,24 Maka output Euclidean Distance iterasi pertama adalah (D) kelompok 1 = {A} kelompok {B,C,D}
(Regresi linier) Tabel berikut digunakan untuk menjawab soal nomor 26, 27, 28, 29, dan 30. Misalkan diketahui data harga rumah (y) dalam hubungannya dengan luas bangunan (x) seperti dalam tabel berikut.
No
x
y
(ratus m2)
(ratus juta rupiah)
1
2
4
2
3
6
3
2
6
4
3
8
Kita ingin menemukan persamaan garis linier yang mewakili pola hubungan antara x dengan y dengan menggunakan regresi linier y = b0 + b1 x, b1 = {(x- R)*(y- T)}/ (x – R)2 ,
di mana R = ( x)/ n dan T = ( y )/ n .
b0 = T – b1* R
n = jumlah data (record).
26.
Dari data diatas maka nilai b1 adalah a. 4
b. 3
c. 1
d. 2
Jawab : D. 2 𝑏1 =
∑{(𝑥 − 𝑅)(y − T)} ∑(𝑥 − 𝑅)2
(∑𝑥) 10 = 4 = 2,5 𝑛 (∑𝑦) 24 = 𝑛 = 4 =6
R=
T (2 − 2,5)(4 − 6) + (3 − 2,5)(6 − 6) + (2 + 2,5)(6 − 6) + (3 − 2,5)(8 − 6) 𝑏1 = (2 − 2,5)2 − (3 − 2,5)2 − (2 − 2,5)2 − (3 − 2,5)2 𝑏1 = 2 27.
Dari soal no. 36, maka b0 adalah a. 4
b. 3
c. 1
d. 2
Jawab : C.1
𝑏0 = 𝑇 − (𝑏1 x R) 𝑏0 = 6 − (2 x 2,5) 𝑏0 = 1 28.
Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketahui x = 3 ? a. 6
b. 7
c. 8
d. 9
Jawab : B. 7
𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 3) 𝑦=7 29.
Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketehui x = 4 ? a. 9
b. 7
c. 8
d. 6
Jawab : A. 9 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 4) 𝑦=9 30.
Dari jawaban soal no. 26 dan 27 berapakah nilai y, apabila x = 2.5 ? a. 7
b. 6
c. 8
d. 9
Jawab : B. 6 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 2,5) 𝑦=6
Tabel ini adalah catatan transaksi pembelian kaos di Toko Kaos BRAZIL. Tabel tersebut digunakan untuk menjawab soal nomor 31 - 37. Transaksi
Warna
1
M, P, H
2
P, O
3
P, B
4
M, P, O
5
M, B
6
P, B
7
P, O
8
M, P, H, B
9
M, P, B
10
K
M: Merah; P: Putih; H: Hijau; O: Orange; B: Biru; K: Kuning
Support (x) = (Ʃ x) / y x = himpunan item yang dibeli; y = jumlah seluruh transaksi ;
Rule: A B
( If A then B )
A = himpunan antecedent B= himpunan consequent
Confidence (A B) = support (AՍB) / support (A)
31.
Berapa support untuk himpunan {M} ? a. 5/10
b. 4/10
c. 6/10
d. 3/10
Jawab : A. 5/10 T 1 2 3 4 5 6 7 8 9 10 ∑
M 1 1 1 1 1 5 3 10
I 1 1 1 1 1 1 1 1 8 8 10
H 1 1 2 2 10
O 1 1 1 3 3 10
B 1 1 1 1 1 5 5 10
K 1 1 1 10
JumlH Transaksi M 5 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 32.
Berapa support untuk himpunan {H} ? a. 5/10
b. 4/10
c. 2/10
d. 3/10
Jawab : C. 2/10 JumlH Transaksi H 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 33.
Berapa support untuk himpunan {M, P}? a. 5/10
b. 3/10
Jawab : D. 4/10 JumlH Transaksi 𝑀1 P 4 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10
c. 6/10
d. 4/10
34.
Berapa support untuk himpunan {M, P, H}? a. 2/10
b. 4/10
c. 6/10
d. 3/10
Jawab : A. 2/10 JumlH Transaksi 𝑀1 𝑃1 𝐻 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 35.
Berapa confidence untuk aturan asosiasi : {M, P} {H} ? a. 20 %
b. 40%
c. 50 %
d. 30 %
Jawab : C. 50% Rule {𝑀1 𝑝} -> {H} {MP} 1 1 4 1 8 1 9 1
{H} 1 0 1 0
∑=𝟐
2
Confidence : 10 x 100 % = 50 % 36.
Berapa confidence untuk aturan asosiasi: { H} {M, P} ? a. 66.66 %
b. 40%
c. 50 %
d. 100 %
Jawab : D. 100% Rule {H} -> {𝑀1 𝑝} {MP} 1 1 4 0 8 1 9 0
{H} 1 1 1 1
∑=𝟐
2
Confidence : 4 x 100 % = 100 % 37.
Bila diterapkan syarat minimum confidence 75 % maka dari ke empat aturan berikut aturan mana yang akan dipilih? a. {P} {M, H}
b. { H } {M, P}
c. {M, P} {H}
d. {M} {P, H}
Jawab : B. { H } -> {M, P} Min 75% 2 B.{H} -> {𝑀1 𝑝} | 2 x 100 % = 100 % 38.
Jika diketahui support {A,B,C} = 4/10 dan support {A,B} = 6/10 , maka confidence dari aturan asosiasi {A,B} {C} adalah a. 66,66 %
b. 50 %
c. 33,33 %
d. 100 %
Jawab : A. 66.66% 4 6
39.
x 100 % = 66,66 %
Jumlah Rule yang terbentuk dari pohon keputusan Model M1 pada soal No. 1 adalah: a. 2
b. 3
c. 4
d. 5
Jawab : B. 3 40.
Jumlah Rule yang terbentuk dari pohon keputusan Model M2 pada soal No. 1 adalah: a. 2
b. 3
Jawab : C. 4
c. 4
d. 5