Analisis Perbandingan Algoritma Klasifikasi Data Mining Model Decision Tree, KNN, Dan Naïve Bayes Pada Dataset Prestasi Siswa [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Analisis Perbandingan Algoritma Klasifikasi Data Mining Model Decision Tree, KNN, dan Naïve Bayes pada Dataset Prestasi Siswa Kemala Adinda Salwa Teknik Informatika / Pendidikan Teknologi Informasi, Universitas Negeri Surabaya [email protected]



Abstrak - Prestasi belajar siswa adalah kemampuan siswa dalam menyelesaikan tugas akademik dan non akademik dengan kriteria penilaian yang telah ditentukan. Hasil proses pembelajaran sekolah dapat digunakan untuk membaca prestasi atau prestasi siswa, sehingga pencapaian tingkat keberhasilan sekolah siswa dapat mempengaruhi kualitas pendidikan sekolah. Sangat penting untuk meningkatkan kualitas pendidikan dan mengevaluasinya berdasarkan data prestasi siswa. Sehingga, penelitian ini dilaksanakan untuk menilai data prestasi siswa. Tujuan dari penelitian ini untuk menerapkan metode data mining dan membandingkan beberapa algoritma yang berbeda dalam proses data mining untuk mengevaluasi prestasi siswa di sekolah melalui metode klasifikasi. Algoritma yang digunakan dalam metode klasifikasi adalah algoritma Decision Tree, KNN dan Naïve Bayes. Dataset prestasi siswa didapatkan dengan mengunduh dari website Kaggle yang digunakan pada penelitian ini. Hasil pengujian algoritma diperoleh dengan membandingkan akurasi dari masing-masing algoritma yang digunakan. Hasil pengujian klasifikasi data menunjukkan bahwa nilai akurasi dengan algoritma pohon keputusan adalah 70% dan nilai akurasi dengan algoritma KNN adalah 73%, sedangkan nilai akurasi dengan algoritma Naive Bayes adalah 63%. Sehingga dapat dikatakan bahwa algoritma Naïve Bayes memiliki hasil prediksi terbaik dan paling akurat untuk memprediksi prestasi siswa di sekolah. Kata Kunci — Data Mining, prestasi siswa, klasifikasi, algoritma, Decision Tree, KNN, Naïve Bayes.



A. PENDAHULUAN



Prestasi akademik adalah sesuatu yang menunjukkan pencapaian pada tingkat keberhasilan dalam kaitannya dengan suatu tujuan setelah melakukan usaha belajar yang dilakukan seseorang menjadi optimal. Upaya belajar tersebut dapat dilakukan oleh seorang siswa di sekolah, dimana sekolah merupakan tempat siswa untuk memperoleh ilmunya. Prestasi seorang siswa dapat dilihat dari hasil proses belajar selama di sekolah.



Semua sekolah di Indonesia pasti memiliki tujuan untuk memperoleh pengakuan sebagai suatu sekolah yang dapat memberikan pendidikan dan pengarahan pembelajaran bermutu. Dalam mendukung tujuan tersebut perlu partisipasi siswa dalam meningkatkan keberhasilan prestasi siswa di sekolah. Maka perlu dilakukan evaluasi prestasi siswa untuk mengetahui sejauh mana prestasi siswa untuk mencapai pendidikan yang bermutu. Dalam mengevaluasi prestasi siswa dapat menggunakan data mining dalam prosesnya untuk peningkatan mutu pendidikan yang lebih baik. Metode klasifikasi data mining digunakan untuk proses menempatkan suatu pola ke dalam satu set kategori berdasarkan pola yang bersangkutan dengan tujuan membuat prediksi kelas atribut yang labelnya tidak diketahui. Berdasarkan dataset yang dimiliki akan dijadikan input untuk kelas objek. Pada penelitian ini akan dilakukan komparasi atau perbandingan dari ketiga algoritma klasifikasi untuk mengetahui akurasi paling tinggi dalam evaluasi prestasi siswa.



B. TINJAUAN PUSTAKA



Tinjauan pustaka menampilkan teori-teori yang berhubungan dengan pembuatan penelitian, sebagai berikut: C. Data Mining Data mining merupakan proses penggalian informasi yang berguna dengan tujuan menemukan data yang baru. Data baru tersebut terbentuk dari gabungan ilmu komputer yang akan ditampilkan pola baru. Melalui pola baru bisa ditemukan jawaban dari suatu kasus dengan cara menganalisisnya. D. Decision Tree Algoritma decision tree termasuk salah satu algoritma metode klasifikasi yang dikenal dengan nilai akurasi sangat kuat dalam penerapan data mining. Algoritma decision tree memiliki konsep yaitu mengubah data menjadi bentuk



pohon keputusan yang mempresentasikan aturan-aturan keputusan yang ada. E. K-Nearest Neighbor (KNN) K-Nearest Neighbor (KNN) merupakan salah satu jenis algoritma yang dapat digunakan guna menyelesaikan permasalahan klasifikasi. Algoritma ini bertujuan untuk mengklasifikasikan data baru dengan didasarkan pada atribut dan data training. Dimana proses kerja algoritma Algoritma K-Nearest Neighbor mendasarkan pada pencarian data yang mempunyai jarak paling dekat dalam data pelatihan sebagai nilai prediksi. Algoritma ini, selain dikenal untuk pemecahan masalah klasifikasi, dikenal juga dalam seringnya memberikan hasil yang signifikan. F. Naïve Bayes Algoritma Naïve Bayes termasuk metode yang menggunakan metode probabilitas dan statistik bertujuan untuk menemukan peluang terbesar berdasarkan pengalaman di masa sebelumnya. Dalam menentukan hasil prediksi algoritma ini membutuhkan data training yang kecil dan hal tersebut sangat menguntungka.



G. METODOLOGI



Penelitian ini menggunakan framework Knowledge Discovery Database (KDD) untuk metodologi penelitiannya. Framework KDD merupakan keseluruhan proses data mengolah dan mengidentifikasi pola data yang digunakan, dimana pola tersebut bersifat tidak diketahui sebelumnya, pola yang berguna dan tersembunyi dari data. Secara garis besar terdapat lima tahapan melakukan KDD dalam data mining, sebagai berikut: A. Pre-KDD Tahapan pertama dalam framework KDD adalah preKDD dimana dilakukannya proses pemahaman tentang informasi tentang penelitian yang akan dilakukan. Pemahaman yang dilakukan berupa mengidentifikasi dan pemanggilan data yang dibutuhkan dalam penelitian. Setelah itu, dapat dilanjutkan pada proses menentukan tujuan dari penelitian yang akan dilakukan. B. Selection Pada tahapan seleksi dilakukan pemilihan data yang memuat himpunan dataset dari sampel data. Proses ini dilakukan sebelum proses penggalian informasi dimulai. Pada penelitian ini digunakan metode uji Chi-Square test untuk tahapan seleksi. Metode uji Chi-square test adalah salah satu jenis uji dataset yang sering digunakan dalam penelitian data mining dengan kemampuan membandingkan antar atribut pada data yang telah dikategorikan. C. Pre-Processing Tahapan pre-processing ini dilakukan proses pembersihan data yang akan digunakan terlebih dahulu.



Proses pembuangan data pada tahapan pre-processing ini yaitu membuang duplikasi data, memeriksa data yang tidak berkaitan dengan atribut target dan perbaikan kesalahan pada data. D. Transformation Tahapan transformation adalah tahapan untuk proses data mining dengan dilakukannya suatu transformasi data menjadi bentuk yang lebih baik. Transformasi tersebut mempermudah pada saat proses data mining seperti mengubah data kategorik menjadi numerik E. Data Mining Data mining termasuk sebuah proses penggalian suatu informasi yang mempunyai tujuan untuk mencari dan menemukan informasi melalui metode atau algoritma.Pada penelitian ini digunakan metode atau algoritma Decision Tree, K-Nearest Neighbor (KNN) dan Naïve Bayes. F.



Interpretation/Evaluation Tahapan ini dilakukannya penerjemahan terhadap polapola yang dihasilkan dari tahapan sebelumnya. Selain itu, terdapat perbandingan hasil evaluasi melalui metode yang digunakan. Kemudian, memilih metode yang terbaik berdasarkan hasil performa yang didapat. Hasil tersebut diperoleh dari nilai Accuracy, F-Score, dan AUC.



G. PEMBAHASAN



Pada pembahasan diuraikan mengenai hasil dari dilakukannya penelitian dan pembahasan terkait dengan penelitian yang sudah dilakukan seperti tahapan pengujian yang mempunyai tujuan untuk mengetahui hasil dari pengujian dataset yang digunakan untuk ditemukannya pencarian akurasi terbaik melalui diterapkannya algoritma Decision Tree, K-Nearest Neighbor dan Naïve Bayes. A. Persiapan Pengolahan Data Awal Pada penelitian ini, data yang digunakan didapatkan dari sumber situs web Kaggel yang menyediakan berbagai macam dataset. Data tersebut merupakan hasil pemeriksaan terhadap 1000 siswa yang melakukan test untuk mengetahui permorfa atau prestasi siswa. Pada dataset kinerja siswa ini terdiri dari 8 atribut yang akan dilakukan proses seleksi dan didapatkan 3 atribut sebagai atribut predictor dan 1 atribut sebagai atribut target. Data tersebut merupakan data sampel dari kinerja akademi siswa dan akan dilakukan pemanggilan data tersebut menggunakan jupyter notebook. B. Pengolahan Awal Data Dataset prestasi siswa yang telah dipanggil pada tahap sebelumnya memiliki 8 atribut yaitu gender, race/ethnicity, parental level of education, lunch, test preparation course, math score, reading score, dan writing score. Seleksi untuk dataset tersebut menggunakan metode uji Chi-Square Test dimana atribut test preparation course digunakan sebagai



atribut target. Dari tahapan seleksi ini diperoleh value dengan atribut targetnya adalah test preparation course dari masing-masing atribut, seperti pada tabel:



Tabel 2. Perbandingan data accuracy dan AUC Algoritma Decision Tree KNN Naïve Bayes



Tabel 1. Nilai value yang diperoleh dari uji Chi-Square No 1. 2. 3.



Atribut Value Gender 0.901 Race/ethnicity 0.241 Parental level of 0.089 education 4. Lunch 0.638 5. Math score 0.238 6. Reading score 0.003 7. Writing score 0.000 Dari hasil uji Chi-Square test tersebut dapat dilihat atribut gender, race/ethnicity, lunch, dan math score memiliki nilai value lebih dari 0.05, maka atribut-atribut tersebut terseleksi dan akan dilakukan proses drop untuk tidak dimasukkan pada proses selanjutnya. Setelah itu, data yang telah terseleksi di transformasi dari data kategorik menjadi data numerik agar mudah untuk mengolah datanya. Pada data yang telah terseleksi dilakukan metode oversampling yaitu salah satu metode data mining yang menyeimbangkan jumlah distribusi data. Metode ini sangat dibutuhkan dalam penelitian validitas prediktif seperti ini dengan keadaan dataset yang datanya terbatas. Selanjutnya, dilakukan pemisahan data training dengan data testing. Melalui data training dapat membentuk sebuah model classifier dimana sebagai bentuk representasi data yang selanjutnya akan digunakan untuk prediksi. Sedangkan melalui data testing dapat digunakan untuk mengetahui pengukuran terkait sejauh mana algoritma yang digunakan dengan keberhasilannya mampu melakukan suatu proses klasifikasi dengan benar. Pada penelitian ini data training dan data testing dibagi dengan perbandingan 30% untuk data testing dan 70% untuk data training. C. Analisis Hasil Dari hasil pengolahan awal diatas mulai dari tahapan pemanggilan data, seleksi data sampai dengan tahapan split atau adanya pembagian data menjadi data training dan data testing. Selanjutnya, data diuji pada beberapa algoritma yang ada dengan cara membandingkan hasil dari nilai akurasi dan hasil AUC (Area Under Curve). Berikut merupakan hasil perbandingan nilai akurasi dan hasil AUC melalui algoritma-algoritma yang digunakan :



Accuracy 70% 73% 63%



AUC 0.70 0.73 0.63



Berdasarkan tabel 2 diatas dapat diketahui bahwa algoritma yang memiliki nilai akurasi tertinggi dengan nilai 0.73 didapatkan algoritma K-Nearest Neighbor. Sedangkan untuk algoritma lainnya yaitu algoritma Decision tree memperoleh nilai akurasi 0.70 dan algoritma Naïve Bayes nilai akurasinya 0.63. Untuk nilai AUC yang diperoleh dari algortima Decision tree sebesar 0.70, nilai AUC algoritma KNN sebesar 0.73 dan untuk nilai AUC algoritma Naïve Bayes sebesar 0.63. Hal ini diperoleh bahwa nilai AUC tertinggi didapatkan pada algoritma KNN.



D. KESIMPULAN



Berdasarkan dari hasil dilakukannya pengujian dan analisis pada penelitian ini mempunyai suatu tujuan untuk mengetahui perbandingan nilai akurasi dari berbagai jenis algoritma untuk metode klasifikasi dalam data mining. Hasil perbandingan dari algoritma Decision tree, K-Nearest Neighbor dan Naïve Bayes didapatkan nilai akurasi dan nilai AUC tertinggi didapatkan nilai akurasi algoritma KNN sebesar 73% dan nilai AUC sebesar 0.73.



REFERENSI [1] [2]



[3] [4]



[5]



[6]



Heryana, A. (2020). Jumlah kelompok Fungsi Syarat data. Jurnal Universitas Esa Unggul, 1-20. Mandias, G. F. (2015). Penerapan data mining untuk evaluasi prestasi mahasiswa di Universitas Klabat dengan metode klasifikasi. Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I). Marthasari, G. I. (2017). Implementasi teknik Data Mining untuk evaluasi kinerja mahasiswa berdasarkan data akademik. Fountain of Informatics Journal, 2(2), 20-27. Utomo, Syam Suryo, Cahyanto, Triawan Adi, & Prakoso, Bakhtiar Hadi, dkk. (2018). Penggunaan Algoritma Random Over Sampling Untuk Mengatasi Masalah Imbalance Data Pada Klasifikasi Gizi. Citec Journal, 17(2), 50-59. Windarto, A. P., Hartama, D., & Damanik, I. S. (2019). Penerapan klasifikasi c4. 5 dalam meningkatkan sistem pembelajaran mahasiswa. KOMIK (Konferensi Nasional Teknologi Informasi dan Komputer), 3(1). Kurniawan, Y. I. (2018). Perbandingan Algoritma Naive Bayes dan C.45 dalam Klasifikasi Data Mining. Jurnal Teknologi Informasi dan Ilmu Komputer, 5(4), 455.