Laporan Praktikum 3 [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

LAPORAN PRAKTIKUM 3 DATA MINING “Decision Tree”



Oleh MUHAMMAD ZULFAN Nim Kelas Program Studi No. Praktikum Dosen Pembimbing



: : : : :



1657301066 TI 4.3 Teknik Informatika 03 / PDM/ TI/ 2019 Muhammad Arhami,S.Si.,M.Kom



KEMENTRIAN RISET DAN KEMENTRIAN TINGGI POLITEKNIK NEGERI LHOKSEUMAWE 2019



LEMBARAN PENGESAHAN No. Praktikum



: 03/ PDM/ TI/ 2019



Judul Praktikum



: Decision Tree



Nama



: Muhammad Zulfan



NIM



: 1657301066



Jurusan



: Teknologi Informasi dan Komputer



Program Studi



: Teknik Informatika



Tanggal Percobaan



: 11 Okteber 2019



Tanggal Penyerahan



: 18 Oktober 2019



Dosen Pembimbing



: Muhammad Arhami,S.Si.,M.Kom



Mahasiswa



Buket Rata, 18 Oktober 2019 Dosen pembimbing



Muhammad Zulfan NIM 1657301054



Muhammad Arhami,S.Si.,M.Kom NIP 19741029 200003 1 001



ii



DAFTAR ISI Halaman LEMBARAN PENGESAHAN ............................................................................. ii DAFTAR ISI ......................................................................................................... iii BAB 1 PENDAHULUAN ..................................................................................... 1 1.1



Tujuan ..................................................................................................... 1



1.2



Latar Belakang ....................................................................................... 1



BAB 1I



LANDASAN TEORI .......................................................................... 4



2.1



Definisi Decision Tree............................................................................. 4



2.2



Kelebihan dan Kekurangan Decision Tree .......................................... 5



2.2.1



Kelebihan Decision Tree ................................................................... 5



2.2.2



Kekurangan Decisiom Tree............................................................... 5



BAB III PERCOBAAN......................................................................................... 6 3.1



Alat Dan Bahan....................................................................................... 6



3.2



Langkah Percobaan................................................................................ 6



3.3



Percobaan, Hasil dan Analisa ................................................................ 6



3.3.1



Percobaan 1 ....................................................................................... 6



3.3.2



Percobaan 2 ....................................................................................... 7



3.3.3



Percobaan 3 ....................................................................................... 9



3.3



Analisa Manual Percobaan 1 ............................................................... 10



BAB IV KESIMPULAN ..................................................................................... 12 1.1



Kesimpulan ........................................................................................... 12



DAFTAR PUSTAKA ..............................................................................................



iii



BAB 1 PENDAHULUAN 1.1 Tujuan 1. Mahasiswa mampu mendefinisikan Algoritma Decision Tree. 2. Mahasiswa mampu menjelaskan permasalahan kualitas data dan penyelesaiannya. 3. Mahasiswa mampu mengetahui cara kerja Decision Tree. 1.2 Latar Belakang Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu data mining ini. Menurut, Wikipedia data mining adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan. Sedangkan menurut, Davies (2004) Secara sederhana data mining adalah penambangan atau penmuan informasi baru dengan mencari pola atau aturan tertendu dari sejumlah data yang sangat besar. Menurut Han dan Kamber (2011, p36), data mining adalah proses menemukan pola yang menarik dan pengetahuan dari data yang berjumlah 1



besar. Sedangkan menurut Linoff dan Berry (2011, p7) Data mining adalah suatu pencarian dan analisa dari jumlah data yang sangat besar dan bertujuan untuk mencari arti dari pola dan aturan. Lalu menurut Connolly dan Begg,(2010), Data mining adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Dan menurut Vercellis (2009, p77), Data mining adalah aktivitas yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada database yang besar, dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial berguna untuk knowledge workers yang berhubungan dengan pengambilan keputusan dan pemecahan masalah. Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru berdasarkan atribut dan sample-sample dari training data.Algoritma k-Nearest Neighbor menggunakan Neighborhood Classification sebagai nilai prediksi dari nilai instance yang baru. Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. berikut langkahlangkah dalam data mining : 1) Data cleaning (untuk menghilangkan noise data yang tidak konsisten) 2) Data integration (di mana sumber data yang terpecah dapat disatukan). 3) Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database).



2



4) Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi). 5) Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data). 6) Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik). 7) Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).



3



BAB 1I LANDASAN TEORI 2.1 Definisi Decision Tree Menurut Han dan Kamber (2011, p332), Decision Tree adalah top-down pohon rekursif dari algoritma induksi, yang menggunakan ukuran seleksi atribut untuk memilih atribut yang diuji. Algoritma decision tree mencoba untuk meningkatkan



akurasi



dengan



menghapus



cabang-cabang



pohon



yang



mencerminkan noise dalam data. Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2009). Decision Tree adalah sistem pendukung keputusan yang berupa pohon grafik keputusan. Decision Tree digunakan untuk belajar classification function yang menyimpulkan nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria, 2013). Dalam situasi lain kemampuan untuk menjelaskan alasan pengambilan keputusan adalah sesuatu yang sangat penting. Misalnya pada perusahaan asuransi ada larangan resmi untuk mendeskriminasi berdasarkan variabel-variabel tertentu. Perusahaan asuransi dapat mencari sendiri keadaan yang mencerminkan bahwa mereka tidak menggunakan deskriminasi yang ilegal dalam memutuskan seseorang diterima atau ditolak. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunanhimpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Anggota himpunan hasil menjadi mirip satu dengan yang lain dengan masing-masing rangkaian pembagian. Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual, atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi (Tan dkk, 2004). 4



2.2 Kelebihan dan Kekurangan Decision Tree 2.2.1



Kelebihan Decision Tree 1) Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik. 2) Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sampel diuji hanya berdasarkan kriteria atau kelas tertentu. 3) Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional. 4) Dalam analisis multivarian, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.



2.2.2



Kekurangan Decisiom Tree 1) Terjadi overlapping terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan. 2) Pengakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah pohon keputusan yang besar. 3) Kesulitan dalam mendesain pohon keputusan yang optimal. 4) Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon didesain. 5



BAB III PERCOBAAN



3.1 Alat Dan Bahan 1) Komputer dengan system operasi windows. 2) Program aplikasi Weka. 3) Modul Pratikum Data Warehousing dan Data Mining 3.2 Langkah Percobaan 1) Jalankan Weka 2) Klick Menu Explore 3) Tekan Open File 4) Pilih file dengan ekstensi arff 5) Klick tombol classify pada menu 6) Pilih tombol choose, Folder Lazy, Pilih j48 7) Klik start 8) Klik kanan pada trees - J48 9) Pilih Visualize Tree 3.3 Percobaan, Hasil dan Analisa 3.3.1



Percobaan 1



Input :



6



Output :



Analisa : Dari tree diatas dapat disimpulkan root node Own_house untuk true yang menghasilkan internal node yes yang nilainya mutlak yaitu YES(6,0), Sedangkan untuk false menghasilkan internal node has_job yang belum mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan leaf nod true yang menghasilkan nilai mutlak YES(3,0), dan NO(6,0). 3.3.2



Percobaan 2



Input :



7



Output :



Analisa : Dari tree diatas dapat disimpulkan root node menghasilkan tiga internal nood, untuk 31..40 menghasilkan nilai mutlak yaitu YES(4,0), Sedangkan untuk =>40 menghasilkan internal node credit_rating yang belum mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan leaf nod true yang menghasilkan nilai mutlak YES(3,0), dan NO(2,0). Untuk