Tugas Konsep Data Mining - Kelompok 6 [PDF]

TUGAS KONSEP DATA MINING

Kelompok 6 Disusun Oleh : 1. Elsa Susanti

(12116319)

2. Indra Cahya K

(18116144)

3.

(1511

5 0 1 MB

Report DMCA / Copyright

DOWNLOAD FILE

Tugas Data Mining

0 0 55 KB Read more

Tugas Besar Data Mining Fix (Kelompok 1)

0 0 702 KB Read more

Data Mining

0 0 136 KB Read more

Data Mining

0 0 572 KB Read more

Data Mining

5 0 277 KB Read more

Data Mining

0 0 258 KB Read more

Data Mining

0 0 435 KB Read more

Data Mining

0 0 428 KB Read more

Belajar Konsep Kelompok 6

0 0 668 KB Read more

Modul Data Mining

5 0 1 MB Read more

File loading please wait...

Citation preview

TUGAS KONSEP DATA MINING

Kelompok 6 Disusun Oleh : 1. Elsa Susanti

(12116319)

2. Indra Cahya K

(18116144)

3.

(15116955)

Rafka Ivary

4. Shorim Mujadid R

(17116030)

KELAS : 3KA16

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI SISTEM INFORMASI UNIVERSITAS GUNADARMA 2019/2020

Boleh menggunakan kalkulator !

Fenomena Model overfitting adalah fenomena ketika tree bertambah besar Test error rate nya mulai naik walaupun Training error rate menurun.

Tabel Training Set, Pohon Keputusan ( decision tree), dan Tabel Test Set berikut untuk soal no 1 dan 2 .

Diketahui Training Set, Decision tree, dan Test Set untuk masalah klasifikasi makhluk mamalia :

Training set Name

Body temperatur

Gives Birth

Four legged

Hibernates

Class Label

salamander

cold blooded

no

yes

yes

non mamalia

guppy

cold blooded

yes

no

no

non mamalia

eagle

warm blooded

no

no

no

non mamalia

poorwill

warm blooded

no

no

yes

non mamalia

Berikut dua model decision tree yang dibangun dari Training set.

Body temperature Warm blooded

Body temperature Cold blooded

Warm blooded

Non Mammals

Gives birth yes

no

Mammals

Non Mammals

Cold blooded

Non Mammals

Hibernates no

yes

Non Mammals

Four legged yes

no

Model M1 Non Mammals

Mammals

Model M2

Isilah kolom M1 dan kolom M2 pada Tabel Test Set, masing-masing diperoleh dari decision tree Model M1 dan decision tree Model M2. Test Set

Name

Body temperatur

Gives

Four

Birth

legged

Hibernates

Class Label

M1

M2

human

warm blooded

yes

no

no

Mammals

?

?

pigeon

warm blooded

no

no

no

Non Mammals

?

?

elephant

warm blooded

yes

yes

no

Mammals

?

?

leopard shark

cold blooded

yes

no

no

Non Mammals

?

?

turtle

cold blooded

no

yes

no

Non Mammals

?

?

penguin

cold blooded

no

no

no

Non Mammals

?

?

eel

cold blooded

no

no

no

Non Mammals

?

?

dolphin

warm blooded

yes

no

no

Mammals

?

?

spiny anteater

warm blooded

no

yes

yes

Mammals

?

?

gila monster

cold blooded

no

yes

yes

Non Mammals

?

?

Kemudian jawab soal no. 1 dan no.2 berikut. 1.

Decision tree Model M1 mempunyai Test error rate sebesar : a. 30 %

b. 10 %

c. 20 %

d. 40 %

Jawab : A. 30% 2.

Sedangkan decision tree Model M2 mempunyai Test error rate sebesar : a. 30 %

b. 10 %

c. 20 %

d. 40 %

Jawab : D. 40% 3.

Untuk mengukur disimilarity antara dua atribut x dan y, berikut mana yang merupakan rumus pengukuran Eulidean distance? n

n

a.



(xk – yk)2



b.

(xk – yk)

k 1

k 1 n

c. √ (



(xk – yk)2 )

d. √ (xk – yk)2

k 1

Jawab : C. √(∑𝒏𝒌=𝟏(𝑿𝒌 − 𝒚𝒌)2 ) Classification menggunakan teknik Naïve Bayes Classifier. No

Home Owner

Marital status

Annual Income ($

Cheat

Ribu) 1

Yes

Single

> 80

No

2

No

Married

>80

No

3

No

Single

80

No

5

No

Divorced

>80

Yes

6

No

Married

80

No

8

No

Single

>80

Yes

9

No

Married

80

Yes

Tabel Classification ini untuk soal no 4-10 .

4.

Dari tabel diatas berapa probabilitas dari P(Cheat= No )? a. 1/7

b. 4/7

c. 2/7

d. 7/10

Jawab : D. 7/10 5.

Dari tabel diatas berapa probabilitas dari P(Cheat= Yes) ? a. 3/10

b. 4/3

c. 2/3

d. 1/3

Jawab : A. 3/10 6.

Dari tabel diatas berapa probabilitas dari: P(Annual Income >80  Cheat = No) dan P(Annual Income >80  Cheat = Yes) ?

a. 1/10 dan 4/10

b. 4/10 dan 4/10

Jawab : D. 4/7 dan 3/3

c. 2/10 dan 4/10

d. 4/7 dan 3/3

7.

Dari tabel diatas berapa probabilitas dari P(Home owner = Yes Cheat = No) dan P(Home owner = Yes  Cheat=Yes ) ?

a. 3/7 dan 0/3

b. 4/3 dan 4/3

c. 2/3 dan 4/3

d. 1/3 dan 4/3

Jawab : A. 3/7 dan 0/3 8.

Dari tabel diatas berapa probabilitas dari P(Marital status = Married Cheat = No) dan P(Marital status = Married  Cheat=Yes)?

a. 5/5 & 5/5

b. 5/5 & 3/5

c. 3/5 & 5/5

d. 4/7 & 0/3

Jawab : D. 4/7 & 0/3 9.

Bila input adalah X = {Home Owner = Yes; Marital Status = Married; Income > 80 }, maka berapa probabilitas P( X Cheat = No)? a. (3/7 * 4/7 * 4/7) * 7/10

b. 1

c. (3/3 * 0/3 * 0/3) * 3/10

d. 2

Jawab : A. (3/7 * 4/7 *4/7) * 7/10 10.

Dari kondisi input soal no.9, maka berapa probabilitas P( X Cheat = Yes) ? a. 1

b. (3/3 * 0/3 * 0/3) * 3/10

c. (3/7* 4/7 * 4/7) * 7/10

d. 2

Jawab : B. (3/3 * 0/3 * 0/3) * 3/10 11.

Data mining adalah a. Proses cleaning pada data yang menjadi fokus KDD. b. Proses pencarian fitur-fitur yang berguna untuk merepresentasikan data yang bergantung pada

tujuan yang ingin dicapai. c. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan teknik atau metode terterntu. d. Proses menciptakan himpunan data target, pemilihan himpunan data atau memfokuskan pada subset variable atau sampel data, dimana penemuan (discovery) akan dilakukan.

Jawab : C. Proses menemukan pola atau informasi menarik dari dalam repositori data yang berukuran besar dengan menggunakan Teknik atau metode tertentu 12.

Hasil keputusan teknik classification dengan model desicion tree berada pada node : a. Akar (root )

b. Non daun

c. Non daun atau akar

d. Daun (leaf)

Jawab : D. Daun (leaf) 13.

Berikut, tugas mana yang dipandang sebagai tugas data mining ? a. mencari record pribadi menggunakan DBMS b. menemukan halaman Web khusus melalui query pada internet-search-engine c. meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record. d. mengurutkan basis data mahasiswa berdasarkan nomor pokok mahasiswa

Jawab : C. Meramalkan harga saham mendatang dari suatu perusahaan menggunakan hystorical record 14.

Berikut pernyataan mana yang benar ? a. Data mining adalah bagian terintegrasi dari knowledge discovery in databases (KDD). b. (a) dan (d) benar c. KDD adalah bagian terintegrasi dari data mining d. Data preprocessing adalah bagian terintegrasi dari KDD

Jawab : B. (a) dan (d) benar 15.

Proses KDD merupakan barisan langkah-langkah transformasi sebagai berikut :

a.Input data  Data Preprocessing Data Mining  PostprocessingInformation b.Input data  Data Preprocessing PostprocessingData MiningInformation c.Input data  Data Preprocessing  PostprocessingInformation Data Mining d. Input data  Data PreprocessingInformationData Mining  Postprocessing

Jawab : B. Input data -> Data Preprocessing -> Postprocessing -> Data Mining -> Information 16.

Berikut bidang-bidang apa saja yang memainkan peranan penting dalam data mining a. (b), (c), (d) benar semua b. Database technology, parallel computing dan distributed computing c. Artificial Inteligence dan pattern recognition d. Statistic

Jawab : A. (b), (c), (d) benar semua 17.

Tipe tugas data mining mana yang merupakan tipe tugas model predictive ? a. Classification dan Regression

b. Association rule discovery dan clustering

c. Clustering

d. Sequential Pattern Discovery

Jawab : A. Classification dan Regression 18.

Tugas data mining mana yang sesuai, untuk kasus bagaimana mendeteksi adanya penipuan dalam transaksi kartu kredit di akun? a. Anomaly habit

b. Clustering

c. Classification

d. Association rule discovery

Jawab : A. Anomaly habit 19

Tipe atribut untuk himpunan data: { small, medium, large } adalah a. ratio

b. ordinal

Jawab : B. Ordinal

c. interval

d. nominal

20.

Tipe atribut untuk himpunan data: { single, married, divorced} adalah a. ratio

b. ordinal

c. interval

d. nominal

Jawab : D. Nominal 21.

Diketahui dua objek data biner : x = (1,0,1,0,0,0,1,1 ); y = ( 0, 1 , 1 , 0 , 1 , 0 , 1 , 0 ) Jika digunakan koefesien similariti Simple Matching Coeffesient (SMC), berapa nilai koeefisien similariti antara x dan y , ? a. 4/8

b. 5/8

c. 3/8

d. 2/8

Jawab : D. 4/8 22.

Diketahui dua objek data : x = (1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) ; y = ( 1, 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 2 ) Dengan menggunakan Euqlidean Distance, berapa nilai disimilariti antara x dan y ? a. 0

b. 1

c. 0.75

d. 2

Jawab : A. 0 23.

Diketahui dua vektor :

x=(1,1,1,1 );y=(2,2,2,2 )

Dengan menggunakan Euclidean Distance, berapa nilai disimilariti antara x dan y ? a. 1

b. 2

c. 0.75

d. 0.5

Jawab : A. 1 24.

Algoritma C4.5 dan ID3 dalam problem Classification digunakan untuk

a. membangun tabel Training set b. membangun Decision Tree c. membangun matrix conclusion d. membangun tabel Test set

Jawab : B. Membangun Decision Tree 25.

Selesaikan Problem Clustering untuk 4 (empat) objek berikut, dengan menggunakan algoritma KMeans No

Objek

X

Y

1

A

1

1

2

B

2

1

3

C

4

3

4

D

5

4

Bila diinginkan K= 2, berarti 4 objek ini akan dikelompokkan menjadi 2 (dua), yaitu: Kelompok I dan Kelompok II. Misal ditetapkan pada Iterasi pertama Kelompok I mempunyai titik centroid m1 = (1,1), dan Kelompok II mempunyai titik centroid m2 = (2,1). Bila menggunakan pengukur jarak Euclidean Distance, maka output iterasi pertama adalah: a. Kelompok I = {A,B,C,D}; Kelompok II = { } b. Kelompok I = {A,B }; Kelompok II = {C,D} c. Kelompok I = {A,B,C}; Kelompok II = { D} d. Kelompok I = {A}; Kelompok II = {B,C,D}

Jawab : D. Kelompok I = {A}; Kelompok II = {B,C,D} K=2

m1=(1,1)

m2=(2,1)

Objek A B

x 1 2

y 1 1

Jarak dari m1

Jarak dari m2

G1-P 1 2

√(1 − 1)2 + (1 − 1)2 = 0 √(1 − 2)2 + (1 − 1)2 = 1 √(2 − 1)2 + (1 − 1)2 = 1 √(2 − 2)2 + (1 − 1)2 = 1 C 4 3 2 √(4 − 1)2 + (3 − 1)2 = 3,6 √(4 − 2)2 + (3 − 1)2 = 2,83 2 2 2 2 D 5 4 2 √(5 − 1) + (4 − 1) = 5 √(5 − 2) + (4 − 1) = 4,24 Maka output Euclidean Distance iterasi pertama adalah (D) kelompok 1 = {A} kelompok {B,C,D}

(Regresi linier) Tabel berikut digunakan untuk menjawab soal nomor 26, 27, 28, 29, dan 30. Misalkan diketahui data harga rumah (y) dalam hubungannya dengan luas bangunan (x) seperti dalam tabel berikut.

No

x

y

(ratus m2)

(ratus juta rupiah)

1

2

4

2

3

6

3

2

6

4

3

8

Kita ingin menemukan persamaan garis linier yang mewakili pola hubungan antara x dengan y dengan menggunakan regresi linier y = b0 + b1 x, b1 = {(x- R)*(y- T)}/  (x – R)2 ,

di mana R = ( x)/ n dan T = ( y )/ n .

b0 = T – b1* R

n = jumlah data (record).

26.

Dari data diatas maka nilai b1 adalah a. 4

b. 3

c. 1

d. 2

Jawab : D. 2 𝑏1 =

∑{(𝑥 − 𝑅)(y − T)} ∑(𝑥 − 𝑅)2

(∑𝑥) 10 = 4 = 2,5 𝑛 (∑𝑦) 24 = 𝑛 = 4 =6

R=

T (2 − 2,5)(4 − 6) + (3 − 2,5)(6 − 6) + (2 + 2,5)(6 − 6) + (3 − 2,5)(8 − 6) 𝑏1 = (2 − 2,5)2 − (3 − 2,5)2 − (2 − 2,5)2 − (3 − 2,5)2 𝑏1 = 2 27.

Dari soal no. 36, maka b0 adalah a. 4

b. 3

c. 1

d. 2

Jawab : C.1

𝑏0 = 𝑇 − (𝑏1 x R) 𝑏0 = 6 − (2 x 2,5) 𝑏0 = 1 28.

Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketahui x = 3 ? a. 6

b. 7

c. 8

d. 9

Jawab : B. 7

𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 3) 𝑦=7 29.

Dari jawaban soal no. 26 dan 27 berapakah prediksi nilai y, apabila diketehui x = 4 ? a. 9

b. 7

c. 8

d. 6

Jawab : A. 9 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 4) 𝑦=9 30.

Dari jawaban soal no. 26 dan 27 berapakah nilai y, apabila x = 2.5 ? a. 7

b. 6

c. 8

d. 9

Jawab : B. 6 𝑦 = 𝑏0 + 𝑏1 𝑋 𝑦 = 1 + (2 x 2,5) 𝑦=6

Tabel ini adalah catatan transaksi pembelian kaos di Toko Kaos BRAZIL. Tabel tersebut digunakan untuk menjawab soal nomor 31 - 37. Transaksi

Warna

1

M, P, H

2

P, O

3

P, B

4

M, P, O

5

M, B

6

P, B

7

P, O

8

M, P, H, B

9

M, P, B

10

K

M: Merah; P: Putih; H: Hijau; O: Orange; B: Biru; K: Kuning

Support (x) = (Ʃ x) / y x = himpunan item yang dibeli; y = jumlah seluruh transaksi ;

Rule: A  B

( If A then B )

A = himpunan antecedent B= himpunan consequent

Confidence (A  B) = support (AՍB) / support (A)

31.

Berapa support untuk himpunan {M} ? a. 5/10

b. 4/10

c. 6/10

d. 3/10

Jawab : A. 5/10 T 1 2 3 4 5 6 7 8 9 10 ∑

M 1 1 1 1 1 5 3 10

I 1 1 1 1 1 1 1 1 8 8 10

H 1 1 2 2 10

O 1 1 1 3 3 10

B 1 1 1 1 1 5 5 10

K 1 1 1 10

JumlH Transaksi M 5 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 32.

Berapa support untuk himpunan {H} ? a. 5/10

b. 4/10

c. 2/10

d. 3/10

Jawab : C. 2/10 JumlH Transaksi H 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 33.

Berapa support untuk himpunan {M, P}? a. 5/10

b. 3/10

Jawab : D. 4/10 JumlH Transaksi 𝑀1 P 4 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10

c. 6/10

d. 4/10

34.

Berapa support untuk himpunan {M, P, H}? a. 2/10

b. 4/10

c. 6/10

d. 3/10

Jawab : A. 2/10 JumlH Transaksi 𝑀1 𝑃1 𝐻 2 = 𝑇𝑜𝑡𝑎𝑙 𝑇𝑟𝑎𝑛𝑠𝑎𝑘𝑠𝑖 10 35.

Berapa confidence untuk aturan asosiasi : {M, P}  {H} ? a. 20 %

b. 40%

c. 50 %

d. 30 %

Jawab : C. 50% Rule {𝑀1 𝑝} -> {H} {MP} 1 1 4 1 8 1 9 1

{H} 1 0 1 0

∑=𝟐

2

Confidence : 10 x 100 % = 50 % 36.

Berapa confidence untuk aturan asosiasi: { H}  {M, P} ? a. 66.66 %

b. 40%

c. 50 %

d. 100 %

Jawab : D. 100% Rule {H} -> {𝑀1 𝑝} {MP} 1 1 4 0 8 1 9 0

{H} 1 1 1 1

∑=𝟐

2

Confidence : 4 x 100 % = 100 % 37.

Bila diterapkan syarat minimum confidence 75 % maka dari ke empat aturan berikut aturan mana yang akan dipilih? a. {P}  {M, H}

b. { H }  {M, P}

c. {M, P}  {H}

d. {M}  {P, H}

Jawab : B. { H } -> {M, P} Min 75% 2 B.{H} -> {𝑀1 𝑝} | 2 x 100 % = 100 % 38.

Jika diketahui support {A,B,C} = 4/10 dan support {A,B} = 6/10 , maka confidence dari aturan asosiasi {A,B}  {C} adalah a. 66,66 %

b. 50 %

c. 33,33 %

d. 100 %

Jawab : A. 66.66% 4 6

39.

x 100 % = 66,66 %

Jumlah Rule yang terbentuk dari pohon keputusan Model M1 pada soal No. 1 adalah: a. 2

b. 3

c. 4

d. 5

Jawab : B. 3 40.

Jumlah Rule yang terbentuk dari pohon keputusan Model M2 pada soal No. 1 adalah: a. 2

b. 3

Jawab : C. 4

c. 4

d. 5

Tugas Konsep Data Mining - Kelompok 6 [PDF]

TUGAS KONSEP DATA MINING Kelompok 6 Disusun Oleh : 1. Elsa Susanti (12116319) 2. Indra Cahya K (18116144) 3. (1511

Tugas Data Mining

Tugas Besar Data Mining Fix (Kelompok 1)

Data Mining

Data Mining

Data Mining

Data Mining

Data Mining

Data Mining

Belajar Konsep Kelompok 6

Modul Data Mining

File loading please wait...

Citation preview

TUGAS KONSEP DATA MINING

Kelompok 6 Disusun Oleh : 1. Elsa Susanti

(12116319)

2. Indra Cahya K

(18116144)

3.

(1511