Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas Di Kota Semarang Menggunakan Chebyshev Distance K-Means [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

SKRIPSI KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN SEMARANG USING CHEBYSHEV DISTANCE K-MEANS Diajukan untuk memenuhi salah satu syarat Memperoleh gelar Sarjana Teknik Informatika



Disusun Oleh :



Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1



FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016



PERSETUJUAN SKRIPSI Nama



: M. Abdillah Luthfi



NIM



: A11.2012.07225



Program Studi



: Teknik Informatika-S1



Fakultas



: Ilmu Komputer



Judul Tugas Akhir



: Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebychev Distance KMeans.



Tugas Akhir ini telah diperiksa dan disetujui, Semarang, Oktober 2016



Menyetujui : Pembimbing



Menyetujui : Dekan Fakultas Ilmu Komputer



Purwanto, Ph.D NPP.0686.11.1994.051



Dr. Abdul Syukur NPP.0686.11.1992.017



ii



PENGESAHAN DEWAN PENGUJI Nama



: M. Abdillah Luthfi



NIM



: A11.2012.07225



Program Studi



: Teknik Informatika-S1



Fakultas



: Ilmu Komputer



Judul Tugas Akhir



: KLASTERISASI DAERAH RAWAN KECELAKAAN LALU



LINTAS



MENGGUNAKAN



DI



KOTA



CHEBYSHEV



SEMARANG DISTANCE



K-



MEANS



Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir pada



Oktober 2016. Menurut pandangan kami, tugas akhir



ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom). Semarang, Oktober 2016 Dewan Penguji : Penguji 1 Anggota



Penguji 2 Anggota



Hanny Haryanto,S.Kom,M.T NPP. 0686.11.2009.371



Edy Mulyanto, S.Si, M.Kom NPP.0686.11.1993.040



Penguji 3 Ketua Penguji



Setia Astuti, S.Si, M.Kom NPP. 0686.11.1994.058



iii



PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM



: A11.2012.07225



Menyatakan bahwa karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya.



Dibuat di



: Semarang



Pada tanggal : Oktober 2016 Yang menyatakan



(M. Abdillah Luthfi)



iv



PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM



: A11.2012.07225



Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy, ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/ mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : Oktober 2016 Yang menyatakan



(M. Abdillah Luthfi)



(M. Abdillah Luthfi) v



KATA PENGANTAR Alhamdulillah, puji syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas Akhir ini dengan judul β€œKlasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebyshev Distance K-Means” dengan baik tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi syarat kelulusan akademik. Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesarbesarnya kepada semua pihak yang telah membantu dalam proses penyusunan Tugas Akhir ini, yaitu kepada : 1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan menyelesaikan Tugas Akhir ini. 2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian Nuswantoro. 3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik Informatika Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang dengan sabar selalu memberikan arahan, bimbingan dan motivasi dalam penyusunan Tugas Akhir ini. 6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan



ilmu



dan



pengalamannya



masing-masing,



sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan.



vi



7. Kedua Orang Tua yang selalu saya cintai dan banggakan. 8. Semua pihak yang namanya tidak dapat disebutkan satu per satu.



Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin



Semarang, Oktober 2016



Penulis



vii



ABSTRAK Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma KMeans klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas. Dalam penelitian ini dilakukan pengelompokkan data menggunakan Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416 lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426. Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone Areas.



viii



DAFTAR ISI



HALAMAN JUDUL................................................................................................ i PERSETUJUAN SKRIPSI ..................................................................................... ii PENGESAHAN DEWAN PENGUJI .................................................................... iii PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................................. v KATA PENGANTAR ........................................................................................... vi ABSTRAK ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ............................................................................................ xii BAB I PENDAHULUAN ...................................................................................... 1 1.1



Latar Belakang ......................................................................................... 1



1.2



Rumusan Masalah .................................................................................... 4



1.3



Batasan Masalah ....................................................................................... 4



1.4



Tujuan Penelitian ...................................................................................... 5



1.5



Manfaat Penelitian .................................................................................... 5



BAB II ..................................................................................................................... 6 TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6 2.1



Penelitian Terkait ..................................................................................... 6



2.2



Landasan Teori ....................................................................................... 12



2.2.1



Kecelakaan Lalu Lintas ................................................................... 12



2.2.2



Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12



2.2.3



Pengertian Jalan .............................................................................. 13



2.2.4



Data Mining .................................................................................... 14



2.2.5



CRISP-DM ...................................................................................... 16



2.2.6



Clustering ........................................................................................ 19



2.2.7



Algoritma K-Means ........................................................................ 19



2.2.8



Davies Bouldin Index ...................................................................... 21



2.3



Kerangka Pemikiran ............................................................................... 22



ix



BAB III ................................................................................................................. 23 METODE PENELITIAN ...................................................................................... 23 3.1



Data Penelitian ....................................................................................... 23



3.2



Tahapan Penelitian ................................................................................. 25



BAB IV ................................................................................................................. 29 4.1



Pengolahan Data ..................................................................................... 29



4.1.1



Persiapan Data ................................................................................. 29



4.1.2



Preprocessing .................................................................................. 29



4.2



Proses Klastering .................................................................................... 30



4.2.1



Chebychev Distance K-Means ........................................................ 31



4.2.2



Euclidean K-Means ......................................................................... 39



4.3



Proses Menggunakan Rapidminer .......................................................... 44



4.4



Pengujian Klastering .............................................................................. 54



4.5



Hasil Pengujian ....................................................................................... 58



BAB V................................................................................................................... 59 5.1



Kesimpulan ............................................................................................. 59



5.2



Saran ....................................................................................................... 59



DAFTAR PUSTAKA ........................................................................................... 60



x



DAFTAR TABEL Tabel 2. 1 Penelitian Terkait ................................................................................... 8 Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13 Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24 Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24 Tabel 4. 1 Pemilihan Atribut ................................................................................. 29 Tabel 4. 2 Data Awal ............................................................................................ 30 Tabel 4. 3 Iterasi 1 ................................................................................................. 32 Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33 Tabel 4. 5 Iterasi ke-2............................................................................................ 33 Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35 Tabel 4. 7 Iterasi ke-3............................................................................................ 35 Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37 Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37 Tabel 4. 10 Iterasi ke-10........................................................................................ 37 Tabel 4. 11 Iterasi 1 ............................................................................................... 40 Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42 Tabel 4. 13 Iterasi 2 ............................................................................................... 42 Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43 Tabel 4. 15 Iterasi ke-11........................................................................................ 43 Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44 Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45 Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45 Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49 Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49 Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53 Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means ............................................................................................................................... 55 Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56 Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57 Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58



xi



DAFTAR GAMBAR Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15 Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17 Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20 Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22 Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23



xii



BAB I PENDAHULUAN



1.1 Latar Belakang Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5 [1]. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam berbagai bidang kehidupan masyarakat. Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas (Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas) [4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius mengingat besarnya kerugian yang ditimbulkan.



1



2



Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan, diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2% akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan akibat dari beberapa faktor yang saling tergantung satu sama lain [5]. Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk pelanggaran lainnya [7]. Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya, dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan, kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu lintas [8]. Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota Semarang. Data mining merupakan metode pengolahan data berskala besar,



3



oleh karena itu data mining memiliki peranan penting dalam berbagai bidang. Secara umum kajian data mining membahas metode-metode seperti clustering, klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik antara satu data dengan data yang lain [11]. Salah satu ciri clustering yang baik atau optimal adalah menghasilkan cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan distance measure. Jika menggunakan distance measure yang berbeda maka hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10]. Dalam perkembangan clustering terdapat berbagai algoritma yang salah satunya adalah K-Means. K-Means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster/kelompok dan data yang memiliki karakteristik yang berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [9]. Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita.



4



Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance. Berdasarkan hasil dari latar belakang di atas, penelitian yang akan diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada agar monitoring terhadap keselamatan pengendara di jalan raya dapat diantisiasi sejak dini.



1.2 Rumusan Masalah Berdasarkan



latar



belakang



diatas,



maka



dapat



dirumuskan



permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah.



1.3 Batasan Masalah Batasan permasalahan dalam penelitian ini adalah : 1. Data yang digunakan dalam penelitian ini adalah data sekunder yang berasal dari Polrestabes Kota Semarang. 2. Algoritma yang digunakan dalam penelitian ini adalah K-Means.



5



3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor di Kota Semarang dari tahun 2014-2015. 4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti kecelakaan lalu lintas antar kendaraan bermotor, kendaraan bermotor dengan pejalan kaki. 5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang terjadi di wilayah ruas jalan kota. 6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota Semarang terhadap kecelakaan lalu lintas. 7. Tidak membahas penanggulangan kecelakaan.



1.4 Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada algoritma K-Means yang dapat mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas.



1.5 Manfaat Penelitian Dengan adanya penelitian ini diharapkan dapat : 1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang. 2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama dengan menggunakan algoritma K-Means. 3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam berkendara. 4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota Semarang yang rawan terhadap kecelakaan.



BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI



2.1 Penelitian Terkait Tinjauan studi yang menjadi sumber referensi dari penelitian yang penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan beberapa penelitian yang terkait dan relevan dengan penelitian ini. Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam penelitian



ini,



peneliti



menggunakan



metode



clustering



untuk



mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada penggunaan data temporal dalam periode bulanan. Sedangkan dalam penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih bersumber pada deskripsi kejadian dan belum melibatkan data geometri (kondisi fisik) jalan raya [2]. Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans. Dalam penelitian ini penulis menggunakan metode k-means dan manhattan distance sebagai distance measure (perhitungan jarak). Penelitian ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3 cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian, didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat



6



7



cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat dijadikan sebagai acuan dalam klasterisasi kualitas beras [15]. Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita. Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi. Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni (APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar. Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM) dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh.



8



Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari pihak berwenang[16]. Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance.



Tabel 2. 1 Penelitian Terkait No 1



Peneliti



Pembahasan



Metode



Lizda



Iswari Pemanfaatan



dan



Ervina K-Means Untuk Pemetaan



Gita Ayu



Hasil



Hasil



Algoritma K-Means Dalam penelitian ini masih



Klasterisasi



Data



Kecelakaan Lalu Lintas



terbatas



pada



penggunaan



data temporal dalam periode bulanan. Sedangkan dalam penentuan



parameter



klasterisasi yang digunakan dalam penelitian ini masih bersumber



pada



deskripsi



kejadian



dan



belum



melibatkan



data



geometri



(kondisi fisik) jalan raya.



2



Silvi



Clustering Kualitas Beras K-Means



Penelitian ini menggunakan



Agustina,



Berdasarkan



20 data uji, dimana ke-20



Dhimas



Ciri



Fisik



data tersebut dibagi menjadi



9



Yhudo, Hadi Menggunakan Metode K-



3 cluster dengan cluster 1



Santoso,



merupakan beras kualitas



Means



Nofiandi



buruk,



Marnasusanto,



kualitas sedang, dan cluster



Arif



3 beras kualitas baik. Dari



Tirtana,



cluster



2



beras



Fakhris



hasil penelitian, didapatkan



Khusnu



3 pusat cluster akhir yaitu pusat



cluster



1



(5,89333;2,05), pusat cluster 2 (6,28199;2,546), dan pusat cluster



3



(6,96583;2,999167)



serta



dihasilkan validasi sebesar 92,8%



yang



menunjukan



bahwa program ini dapat dijadikan



sebagai



acuan



dalam klasterisasi kualitas beras. 3



Erga Sari



Aprina Penerapan Algoritma K- K-Means



Dari hasil uji coba didapat



Means Untuk Menentukan



kabupaten/kota



Tingkat Kesehatan Bayi



memiliki



dan



Pada



indikator kesehatan tinggi



Kabupaten dan Kota di



yang tingkat kesehatan pada



Jawa Tengah



indikator



Balita



yang



hasil



tersebut



analisa



buruk



karena jumlah penderitanya banyak.



Penanganan



masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi.



10



4.



Firli Irhamni, Optimalisasi



SOM dan Penelitian



Fitri



Pengelompokan



Davies



Damayanti,



Kecamatan



Berdasarkan Bouldin



Bain Khusnul Indikator



Pendidikan



ini



tentang



pengelompokan kecamatan untuk



pemerataan



pendidikan



menggunakan



K, Mifftachul Menggunakan



Metode



indicator pendidikan yang



A



Davies



terdapat



Clustering



dan



Bouldin Index



pasa



suatu



kecamatan sebagai salah satu organisasi



pemerintah.



Parameter



penyebab



keberhasilan



pendidikan



dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah



rendahnya



Angka



Partisipasi



nilai Murni



(APM) dan nilai Angka Partisipasi



Kasar



(APK).



Indikator



lain



yang



mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang



meliputi



jumlah



sekolah, ruang kelas, dan tenaga



pengajar.



Pengelompokan kecamatan berdasarkan



tingkat



pendidikan SMA/SMK/MA tersebut



menggunakan



metode clustering yaitu Self Organizing Map (SOM) dan hasil



clustering



tersebut



11



kemudian metode



diolah Davies



dengan Bouldin



Index(DBI)



untuk



menunjukkan seberapa baik cluster



yang



diperoleh.



Penelitian ini memberikan kontribusi



terhadap



pengambilan kebijakan dari pihak berwenang 5



Mario



Pemilihan



Anggara,



Measure Pada K-Means



Henry Sujiani, Clustering



Distance K-Means



penelitiannya mendapatkan hasil



pengujian



terhadap



Untuk



pengelompokan member di



Helfi Nasution Pengelompokkan Member



alvaro fitness menggunakan



Di Alvaro Fitness



k-means clustering dengan menggunakan



3



distance



macam measure.



Didapatkan bahwa dalam pengujian



silhouette



coefficient



clustering,



Chebyshev



Distance



memiliki



nilai



silhouette



coefficient-nya 0.242821. Euclidean



sebesar Sedangkan



Distance



Manhattan memiliki



dan



Distance nilai



silhouette



coefficient sebesar 0.232149 dan



0.240016.



Hal



itu



menunjukan bahwa distance measure untuk



paling



optimal kasus



12



pengelompokkan member di Alvaro



fitness



Chebyshev Distance.



2.2 Landasan Teori 2.2.1 Kecelakaan Lalu Lintas Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau tanpa pemakai jalan lainnya mengakibatkan korban manusia atau kerugian harta benda [6]. 2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas Suatu tempat dikatakan β€œdaerah” atau β€œlokasi” apabila diketahui letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya dengan β€œdaerah rawan kecelakaan”, sedangkan Departemen Pemukiman dan Prasana Wilayah menyebutnya dengan β€œlokasi rawan kecelakaan”. Daerah yang memiliki angka kecelakaan tinggi, resiko kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan dapat disebut juga dengan daerah rawan kecelakaan [18]. Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan apabila [19] : 1. Memiliki angka kecelakaan yang tinggi. 2. Lokasi kejadian kecelakaan relatif bertumpuk. 3. Lokasi kecelakaan berupa persimpangan, atau segmen ruas jalan sepanjang 100 – 300 m untuk jalan perkotaan, atau segmen ruas jalan sepanjang 1 km utnuk jalan antar kota.



adalah



13



4. Kecelakaan terjadi dalam ruang dan rentan waktu yang relatif sama. 5. Memiliki penyebab kecelakaan dengan factor yang spesifik.



2.2.3 Pengertian Jalan Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang berada pada permukaan tanah, diatas permukaan tanah, dibawah permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan rel dan jalan kabel [6]. Jalan dibagi kedalam kelas – kelas bukan hanya didasarkan pada fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini : Tabel 2. 2 Klasifikasi Kelas Jalan Tipe Tipe I



Klasifikasi Klas I



Klas II



Tipe II Klas I



Klas II



Klas III



Keterangan Jalan dengan standar tinggi untuk melayani antar wilayah atau antar kota untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi untuk melayani antar wilayah atau didalam metropolitan untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi, 2 jalur atau lebih untuk antar kota atau dalam kota, kecepatan tinggi, volume lalu lintas tinggi dengan masih ada beberapa pembatas jalan masuk. Jalan dengan standar tinggi, 2 lajur atau lebih untuk melayani antar /dalam kota, kecepatan tinggi, volume lalu lintas sedang dengan/ tanpa pembatas jalan masuk. Jalan dengan standar menengah, 2 lajur atau lebih melayani antas distrik, kecepatan sedang, volume lalu lintas tinggi, tanpa pembatas jalan masuk.



14



Klas IV



Jalan dengan standar rendah, I lajur dua arah sebagai jalan penghubung.



2.2.4 Data Mining Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan bermanfaat bagi pemilik data. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [12] : a. Description (Deskripsi) Peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. b. Estimation (Estimasi) Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang lebih kearah numerik daripada ke arah kategori. c. Prediction (Prediksi) Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu yang belum terjadi). d. Association (Asosiasi) Asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. e. Clustering Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.



15



f. Classification (Klasifikasi) Penyusunan data menjadi beberapa kelompok yang ditentukan.



2.2.4.1 Tahap-Tahap Data mining Rangkaian proses data mining dibagi menjadi beberapa tahap yang bersifat interaktif seperti pada gambar 2.1.



Cleaning and Integration



Selection and Transformation



Data Mining



Evaluation and Presentation Knowledge



Data WareHouse Patterns



Gambar 2. 1 Tahap-Tahap Data mining [17]



a. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. b. Cleaning Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan ketik (tipografi).



16



c. Transformation Pengubahan data ke dalam format yang sesuai untuk dapat diproses dalam data mining. Misal, beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal, maka data berupa angka numerik yang berlanjut perlu dibagi menjadi beberapa interval. d. Data mining Proses pencarian pola atau informasi yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. e. Pattern Evaluation Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.



2.2.5 CRISP-DM Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler,



SPSS



dan



NCR.



CRISP-DM



menyediakan



standarproses data mining sebagai strategi pemecahan masalah secara umumdari bisnis atau unit penelitian.



17



Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase [12] yaitu : 1. Fase Pemahaman Bisnis (Business Understanding) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulkan data. b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data.



18



d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preparation Phase) a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan (Modelling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitasdan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikan proyek.



19



b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks penyebaran: Penerapan proses data mining secara pararel pada departemen lain. 2.2.6 Clustering Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek yang mempunyai karakteristik yang umum di data yang cukup besar. Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan utama dari metode clustering sehingga dalam setiap cluster akan diisi data yang memiliki tingkat kemiripan yang tinggi [13]. Sebuah cluster adalah kumpulan data yang memiliki kemiripan karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster lain. Clustering bersifat unsupervised learning karena pengelompokan data yang didasarkan pada kesamaan antar objek. 2.2.7 Algoritma K-Means Beberapa teknik clustering yang paling sederhana diantara teknik lainnya adalah Klastering K-Means. K-means merupakan salah satu metode pengelompokan data (clustering) nonhierarki yang termasuk dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk dua atau lebih kelompok. Metode ini mengelompokan data yang berkarakteristik sama menjadi satu kelompok dan data yang berkaraktersitik berbeda dikelompokkan kedalam kelompok lain. Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :



20



Chebyshev Distance 𝑑𝑖𝑗 =



π‘šπ‘Žπ‘₯ π‘˜



|π‘₯𝑖𝑗 βˆ’ π‘₯π‘—π‘˜ |



(2.1)



Dimana : K = Dimensi data 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah.



START



Jumlah K Inisiasi Pusat



Hitung jarak data ke pusat



Kelompokkan data berdasarkan jarak minimum



Pusat cluster lama = pusat cluster baru



Pusat cluster baru tidak ada Selisih Pusat cluster lama dan baru



End



Gambar 2. 3 Flowchart Algoritma K-Means



21



2.2.8 Davies Bouldin Index Davies Bouldin Index merupakan metode evaluasi cluster dari hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif β‰₯ 0) maka semakin baik cluster yang diperoleh dari pengelompokan KMeans yang digunakan [20]. 𝑁



1 π‘£π‘Žπ‘Ÿ(π‘₯) = βˆ‘(π‘₯𝑖 βˆ’ π‘₯Μ… )2 π‘βˆ’1



(2.2)



𝑖=1



𝑅𝑖 =



max 𝑅𝑖𝑗 𝑗 = 1, . . π‘˜, 𝑖 β‰  𝑗



𝑅 𝑖𝑗 =



π‘£π‘Žπ‘Ÿ(𝐢𝑖 ) + π‘£π‘Žπ‘Ÿ(𝐢𝑗 ) ||𝑐𝑖 βˆ’ 𝑐𝑗 ||



𝑖≠𝑗



(2.3)



(2.4)



π‘˜



1 𝐷𝐡𝐼 = . βˆ‘ 𝑅𝑖 π‘˜



(2.5)



𝑖=1



Dimana π‘₯Μ…



: rata-rata dari cluster x dan N adalah jumlah anggota cluster



Var



: variance dari data



𝐢𝑖



: cluster i dan 𝑐𝑖 adalah centroid dari cluster i



22



2.3 Kerangka Pemikiran Masalah



Studi Pustaka



Bagaimana mengklasterisasi daerah rawan kecelakaan lalu lintas di Kota Semarang



Buku dan Jurnal tentang data mining, algoritma k-means dan daerah rawan kecelakaan



Metode Algoritma K-Means dengan menggunakan chebyshev distance



Penerapan Data Kecelakaan Polrestabes Semarang 2014-2015



Pengembangan Microsoft Excel dan Rapidminer



Pengujian Davies Bouldin Indeks (DBI)



Hasil Pengelompokkan dan penentuan status daerah di Kota Semarang yang rawan terhadap kecelakaan menggunakan chebyshev distance k-means



Gambar 2. 4 Kerangka Pemikiran



BAB III METODE PENELITIAN 3.1 Data Penelitian Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman data Satlantas Polrestabes Kota Semarang :



Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel di bawah ini :



23



24



Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas Atribut



Keterangan



Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan tempat kejadian terjadinya kecelakaan Uraian Singkat Kejadian



Atribut



yang menginformasikan



uraian



singkat terjadinya kecelakaan Korban



Atribut yang menginformasikan jumlah korban pada saat terjadinya kecelakaan tersebut baik koban meninggal dunia, luka berat, luka ringan, serta menjelaskan pula kerugiaan materiil yang didapat akibat terjadinya kecelakaan tersebut



Yang terlibat



Atribut yang menginformasikan pengguna jalan (kendaraan bermotor, pejalan kaki, dsb.) yang terlibat dalam kecelakaan tersebut



Identitas Pengemudi



Atribut yang menginformasikan tentang identitas



korban



yang



terlibat



dalam



kecelakaan tersebut.



Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas



NO 1 2 3 4 5



DATA LAKA LANTAS POLRESTABES SEMARANG BULAN JANUARI S/D DESEMBER 2014 Nama Jalan Jumlah Kecelakaan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Medoho



59 18 1 26 2



Jumlah Kendaraan yang terlibat



Jumlah Korban



116 34 2 55 4



80 25 1 41 2



25



6 7 8 9 10



Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono



3 5 2 2 16



6 10 4 3 32



3.2 Tahapan Penelitian Tahapan analisis data pada penelitian ini menggunakan data kecelakaan lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan data tersebut harus melalui beberapa tahap pengolahan awal data. Agar mendapatkan data yang berkualitas yaitu dengan teknik data cleaning. Tahapan penelitian menggunakan metode Cross Industry Standard Process- Data Mining (CRISP-DM). 1. Tahap Pemahaman Bisnis (Bussines Understanding Phase) Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas karena dengan penelitian ini nantinya dapat digunakan oleh pihak kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau rawan terhadap kecelakaan. 2. Tahap Pemahaman Data (Data Understanding Phase) Pengumpulan data sekunder dilakukan dengan cara mengambil data kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan 2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014 sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang diambil dari bulan januari hingga bulan november yaitu sebanyak 748 kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan identitas korban.



4 6 2 4 25



26



3. Tahapan Pengolahan Data (Data Preparation Phase) Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak semua data dan atribut dapat digunakan, karena masih ada data yang mengandung missing value (memiliki keterangan yang kurang lengkap) oleh karena itu dilakukan cleaning data dan selection data, data reduksi. Cleaning data dan selection data merupakan tahap awal dalam processing data mining. Pembersihan ini dilakukan untuk membuang datadata yang informasi terter, seperti tidak adanya informasi identitas korban, umur, pekerjaan. Data reduksi adalah data yang informative, data dengan record dan jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang terdiri dari 3 atribut yang akan diolah. 4. Fase pemodelan (Modeling Phase) Tahap pemodelan merupakan tahap pengolahan dataset yang dimodelkan dengan algoritma k-means sehingga perhitungan dan Pengelompokan data. ο‚· Algoritma K-Means Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :



27



Chebyshev Distance 𝑑𝑖𝑗 =



π‘šπ‘Žπ‘₯ π‘˜



|π‘₯𝑖𝑗 βˆ’ π‘₯π‘—π‘˜ |



(3.1)



Dimana : K = Dimensi data π‘₯𝑖𝑗 = Data dari jumlah kecelakaan, jumlah kendaraan yang



terlibat, jumlah korban π‘₯π‘—π‘˜ =



Centroid



𝑑𝑖𝑗 = Jarak antara π‘₯𝑖𝑗 dan π‘₯π‘—π‘˜ dan || adalah nilai mutlak. 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah. 5. Fase Evaluasi (Evaluation Phase) Pada fase ini dilakukan penilaian menggunakan Davies Bouldin Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses clustering tersebut, dengan membandingkan pengelompokan sebanyak 3 klaster menggunakan Chebychev K-Means dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. 6. Fase Penyebaran Fase yang terakhir adalah fase penyebaran dimana data yang telah dievaluasi



diimplementasikan



sehingga



dapat



digunakan



untuk



menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data diuji dengan menggunakan tool rapidminer. Dengan menggunakan pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil clustering yang dilakukan menggunakan perhitungan pada Microsoft



28



Excel dengan Rapidminer dalam penentuan status daerah terhadap kecelakaan lalu lintas di Kota Semarang.



BAB IV ANALISA DAN PEMBAHASAN



4.1



Pengolahan Data 4.1.1



Persiapan Data Dalam penelitian ini data yang digunakan merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas Polrestabes Kota Semarang seperti yang sudah dijelaskan pada Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian: Tabel 4. 1 Pemilihan Atribut Atribut Waktu & Tempat Kejadian



√



(Jumlah Kecelakaan)



4.1.2



Uraian Singkat Kejadian



X



Korban



√



Kendaraan Yang terlibat



√



Identitas Pengemudi



X



Preprocessing Preprocessing yang dilakukan adalah penghapusan data missing value (memiliki keterangan yang kurang lengkap) Pada tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak memiliki keterangan yang kurang lengkap seperti kejadian kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya keterangan identitas korban, umur, pekerjaan, maka jalan tersebut tidak digunakan.



29



30



Dari rekaman data yang diperoleh, semua data terisi sesuai dengan ketentuan tidak ada yang kosong, sehingga semua data yang diperoleh dapat digunakan pada proses selanjutnya. Setelah data yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel sehingga diperoleh hasil simplikasi dan generalisasi seperti yang terlihat dibawah ini : Tabel 4. 2 Data Awal



No 1 2 3 4 5 6 7 8 9 10 116 117 118 119



4.2



Nama Jalan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Raya Medoho Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono -



Prof. Suharso Pawiyatan Luhur IV Tlogosari raya Suratmo



Jumlah Kecelakaan (X1)



Jumlah Kendaraan yang Terlibat (X2)



Jumlah Korban (X3)



103 25 2 51 6 4 12 3 5 32 2



200 48 4 104 11 8 22 6 9 65 4



143 33 2 74 7 5 14 3 7 48 2



2 2 3



4 4 6



2 1 3



Proses Klastering Proses klastering yaitu proses pengelompokan data berdasarkan kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam



31



menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering dengan perhitungan algoritma k-mean sebagai berikut :



4.2.1



Chebychev Distance K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Chebychev Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :



Chebyshev Distance 𝑑𝑖𝑗 =



π‘šπ‘Žπ‘₯ π‘˜



|π‘₯𝑖𝑗 βˆ’ π‘₯π‘—π‘˜ |



(4.1)



Dimana : K = Dimensi data 𝑑11 = max( |103 βˆ’ 2|, |200 βˆ’ 2|, |143 βˆ’ 2|) = 198 Jarak data pertama dengan pusat klaster kedua: 𝑑12 = max( |103 βˆ’ 3|, |200 βˆ’ 3|, |143 βˆ’ 3|) = 197 Jarak data pertama dengan pusat klaster ketiga: 𝑑13 = max( |103 βˆ’ 4|, |200 βˆ’ 4|, |143 βˆ’ 4|) = 196



32



Hasil perhitungan terdapat pada table berikut: Tabel 4. 3 Iterasi 1 Data ke1 2 3 4 5 6 7 8 9 10 . . . . 116 117 118 119



Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) 103 200 25 48 2 4 51 104 6 11 4 8 12 22 3 6 5 9 32 65 . . . . . . . . 2 4 2 4 2 4 3 6



Jumlah Korban (X3) 143 33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3



C1 198 46 2 102 9 6 20 4 7 63 . . . . 2 2 2 4



C2 197 45 1 101 8 5 19 3 6 62 . . . . 1 1 2 3



C3 196 44 2 100 7 4 18 2 5 61 . . . . 2 2 3 2



Anggota klaster C3 C3 C2 C3 C3 C3 C3 C3 C3 C3 . . . . C2 C2 C1 C3



4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua. 5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 = =3 3



𝐢11 = 𝐢12



33



𝐢13 =



1+2+1 = 1.33333333 3



Untuk klaster dua ada 20 data, sehingga:



𝐢21 = 𝐢22 = 𝐢23 =



2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 20 4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 20 2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2 20



= 2.05 =4 = 2.6



Untuk klaster ketiga ada 96 data, sehingga: 103 + 25 + 51 + β‹― + 4 + 3 + 3 = 13.55208 96 200 + 48 + 104 + β‹― + 8 + 5 + 6 = = 27.6875 96 143 + 33 + 74 + β‹― + 4 + 4 + 3 = = 18.38542 96



𝐢31 = 𝐢32 𝐢33



Tabel 4. 4 Centroid baru untuk iterasi 2 Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



C1



2



3



1.33333



C2



2.05



4



2.6



C3



13.55208



27.6875



18.38542



6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi klaster tidak berubah. Tabel 4. 5 Iterasi ke-2 Jumlah Data Kecelakaan ke(X1)



Jumlah Kendaraan yang terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



Claster ke-1 (C1) 197



Claster Claster ke-2 (C2) ke-3 (C3) 196 172.3125



Anggota klaster C3



45



44



20.3125



C3



1



0.6



23.6875



C2



100.2 98.53846 75.21978



C3



34



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



9



5



9



7



10 . . . .



32 . . . .



65 . . . .



48 . . . .



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



7.2 5.538462 17.78022



C2



4.2 2.538462 20.78022



C2



18.2 16.53846



6.78022



C3



2.2 0.538462 22.78022



C2



5.2 4.153846 19.78022



C2



61.2 59.53846 36.21978



C3



. . . .



. . . . . . . . 0.2 1.461538 24.78022



. . . . C1



0.2 1.461538 24.78022



C1



0.866667 1.846154 24.78022



C1



2.2 0.538462 22.78022



C2



Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu menghitung titik pusat klaster baru.



Untuk klaster pertama terdapat 18 data, sehingga:



𝐢11 = 𝐢12 = 𝐢13 =



2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 18 4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4 18 2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1 18



= 2.055556



= 3.833333 = 2.055556



Untuk klaster kedua terdapat 63 data, sehingga: 𝐢21 =



2+6+4+β‹―+4+3+3 = 4.539683 63



4 + 11 + 8 + β‹― + 8 + 5 + 6 = 9.142857 63 2 + 7 + 5 + β‹―+ 4 + 4 + 3 𝐢23 = 5.936508 63



𝐢22 =



35



Untuk klaster ketiga terdapat 38 data, sehingga: 103 + 25 + 51 + β‹― + 9 + 12 + 9 = 26.97368 38 200 + 48 + 104 + β‹― + 18 + 25 + 20 𝐢32 = = 55.31579 38 143 + 33 + 74 + β‹― + 12 + 18 + 11 𝐢33 = = 37.10526 38 𝐢31 =



Tabel 4. 6 Centroid baru untuk iterasi 3



C1 C2 C3



Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



2.055556



4.539683 26.97368



3.833333



2.055556



9.142857



5.936508



55.31579



37.10526



Tabel 4. 7 Iterasi ke-3 Jumlah Data Kecelakaan ke(X1)



Jumlah Kendaraan yang terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



9



5



9



7



10 . . .



32 . . .



65 . . .



48 . . .



Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 196.1667 190.8571 144.6842



Anggota klaster C3



44.16667 38.85714 7.315789



C3



0.166667 5.142857 51.31579



C1



100.1304 94.41379 48.68421



C3



7.130435 1.413793 44.31579



C2



4.130435 1.586207 47.31579



C2



18.13043 12.41379 33.31579



C2



2.130435 3.586207 49.31579



C1



5.130435



0.87931 46.31579



C2



61.13043 55.41379 10.89474



C3



. . .



. . .



. . .



. . .



36



.



.



.



.



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



. . . 0.434783 5.586207 51.31579



. C1



0.434783 5.586207 51.31579



C1



1.434783 5.586207 51.31579



C1



2.130435 3.586207 49.31579



C1



Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu menghitung titik pusat klaster baru.



Untuk klaster pertama terdapat 39 data, sehingga: 2+3+2+β‹―+2+2+3 = 2.435897 39 4 + 6 + 4 + β‹―+ 4 + 4 + 6 𝐢12 = = 4.74359 39 2+3+2+β‹―+2+1+3 𝐢13 = = 2.948718 39 𝐢11 =



Untuk klaster kedua terdapat 57 data, sehingga:



6 + 4 + 12 + β‹― + 4 + 6 + 4 = 6.894737 57 11 + 8 + 22 + β‹― + 8 + 12 + 8 𝐢22 = = 14.07018 57 7 + 5 + 14 + β‹― + 4 + 8 + 4 𝐢23 = = 8.929825 57 𝐢21 =



Untuk klaster ketiga terdapat 23 data, sehingga:



𝐢31 =



103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21 23



=



37.3913 𝐢32 = 200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43 23



76.52174



=



37



𝐢33 = 143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32 23



=



52.04348 Tabel 4. 8 Centroid baru untuk iterasi 4



C1 C2 C3



Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



2.055556



4.539683 26.97368



3.833333



2.055556



9.142857



5.936508



55.31579



37.10526



Tabel 4. 9 Informasi Centroid akhir Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



C1



4.795699



9.655914



6.16129



C2



20.76471



43.76471



28.58824



C3



61



122.7778



84.66667



Tabel 4. 10 Iterasi ke-10 Jumlah Data Kecelakaan ke(X1)



Jumlah Kendaraan yang terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 190.3441 156.2353 77.22222



Anggota klaster C3



38.34409 4.411765 74.77778



C2



5.655914 39.76471 118.7778



C1



94.34409 60.23529 18.77778



C3



1.344086 32.76471 111.7778



C1



1.655914 35.76471 114.7778



C1



12.34409 21.76471 100.7778



C1



3.655914 37.76471 116.7778



C1



38



9



5



9



7



10 . . . .



32 . . . .



65 . . . .



48 . . . .



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



0.83871 34.76471 113.7778



C1



55.34409 21.23529 57.77778



C2



. . . . . . . . . . . . 5.655914 39.76471 118.7778



. . . . C1



5.655914 39.76471 118.7778



C1



5.655914 39.76471 118.7778



C1



3.655914 37.76471 116.7778



C1



Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.10 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster



39



pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.



4.2.2



Euclidean K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Euclidean Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :



Euclidean Distance 2



2



2



𝐷(𝑖,𝑗) = √(𝑋1𝑖 βˆ’ 𝑋1𝑗 ) + (𝑋2𝑖 βˆ’ 𝑋2𝑗 ) + β‹― + (π‘‹π‘˜π‘– βˆ’ π‘‹π‘˜π‘— )



dimana: D (i,j) = Jarak data ke i ke pusat cluster j Xki = Data ke i pada atribut data ke k Xkj = Titik pusat ke j pada atribut ke k 𝐷11 = √(103 βˆ’ 2)2 + (200 βˆ’ 2)2 + (143 βˆ’ 2)2 = 263.222 Jarak data pertama dengan pusat klaster kedua: 𝐷12 = √(103 βˆ’ 3)2 + (200 βˆ’ 3)2 + (143 βˆ’ 3)2 = 261.551 Jarak data pertama dengan pusat klaster ketiga: 𝐷13 = √(103 βˆ’ 4)2 + (200 βˆ’ 4)2 + (143 βˆ’ 4)2 = 259.881



(4.2)



40



Hasil perhitungan terdapat pada table berikut: Tabel 4. 11 Iterasi 1 Data ke-



Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



9



5



9



7



10 . . . .



32 . . . .



65 . . . .



48 . . . .



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



C1 C2 C3 263.2223 261.5511 259.8807



Anggota klaster C3



60.04998 58.38664 56.72742



C3



2 1.732051 2.828427



C2



134.1231 132.4613 130.8014



C3



11.04536 9.433981 7.874008



C3



7 5.477226 4.123106



C3



25.37716 23.72762 22.09072



C3



4.242641



3



2.44949



C3



9.110434 7.483315



5.91608



C3



83.57631 81.91459 80.25584



C3



. . . .



. . . . . . . . 2 1.732051 2.828427



. . . . C2



2 1.732051 2.828427



C2



2.236068 4.242641



2.44949 3.605551 3



2.44949



C1 C3



4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua.



41



5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 𝐢12 = =3 3 1+2+1 = = 1.333333 3 𝐢11 =



𝐢13



Untuk klaster kedua terdapat 19 data, sehingga: 𝐢21 =



2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2…+ 2 + 2 + 2 19



= 2.052632 𝐢22 =



4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 19



=4 𝐢23 =



2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2 19



= 2.473684 Untuk klaster ketiga terdapat 97 data, sehingga: 103 + 25 + 51 + β‹― + 4 + 3 + 3 = 13.43299 97 200 + 48 + 104 + β‹― + 8 + 5 + 6 = = 27.4433 97 143 + 33 + 74 + β‹― + 4 + 4 + 3 = = 18.24742 97



𝐢31 = 𝐢32 𝐢32



42



Tabel 4. 12 Centroid baru untuk iterasi 2 Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



C1



2



3



1.33333



C2



2.052632



4



2.473684



C3



13.43299



27.4433



18.24742



Tabel 4. 13 Iterasi 2 Data ke-



Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



9



5



9



7



10 . . . .



32 . . . .



65 . . . .



48 . . . .



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



C1 262.8297



C2 C3 261.446 231.0006



Anggota klaster C3



59.63873



58.2618 27.82108



C3



1.20185 0.476599 30.72914



C2



133.7253 132.3324



101.885



C3



10.58825 9.223299 21.26349



C2



6.51494 5.116104 25.34793



C2



24.92879 23.57554 7.051494



C3



3.574602 2.274756 28.30453



C2



8.781293 7.360334 23.18998



C2



83.19722 81.79542 51.38536



C3



. . . . . . . . . . . . 1.20185 0.476599 30.72914



. . . . C2



1.20185 0.476599 30.72914



C2



1.054093 1.474624



31.2694



C1



3.574602 2.274756 28.30453



C2



43



Tabel 4. 14 Informasi centroid akhir Euclidean Distance Jumlah



Jumlah Kendaraan



Jumlah Korban



Kecelakaan (x1)



yang Terlibat (x2)



(x3)



C1



4.795699



9.655914



6.16129



C2



20.76471



43.76471



28.58824



C3



61



122.7778



84.66667



Tabel 4. 15 Iterasi ke-11 Jumlah Data Kecelakaan ke(X1)



Jumlah Kendaraan yang terlibat (X2)



Jumlah Korban (X3)



1



103



200



143



2



25



48



33



3



2



4



2



4



51



104



74



5



6



11



7



6



4



8



5



7



12



22



14



8



3



6



3



9



5



9



7



10 . . . .



32 . . . .



65 . . . .



48 . . . .



116



2



4



2



117



2



4



2



118



2



4



1



119



3



6



3



Claster Claster ke-1 (C1) ke-2 (C2) 254.1649 210.3857



Claster ke-3 (C3) 105.499



Anggota klaster C3



50.97842 7.439025 97.76073



C2



7.557885 51.38366 156.2784



C1



125.0509 81.26926



23.7988



C3



1.990061 41.92343 146.8039



C1



2.173427 46.00624 150.8964



C1



16.30104 27.62859



132.48



C1



5.155967 48.95422 153.8522



C1



1.084157 43.85388 148.7061



C1



74.52194 30.88667 74.32171



C2



. . . . . . . . . . . . 7.557885 51.38366 156.2784



. . . . C1



7.557885 51.38366 156.2784



C1



8.151332 51.90816 156.8097



C1



5.155967 48.95422 153.8522



C1



44



Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.15 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.



4.3



Proses Menggunakan Rapidminer Setelah melalui proses preprocessing data akan diproses dengan menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan nilai dari setiap variable seperti table berikut. Tabel 4. 16 Data yang diimport ke Rapidminer Jumlah Jumlah Kecelakaan Kendaraan 103



200



Jumlah Korban 143



45



25 2 51 6 4 12 3 5 32 . . . . 2 2 2 3



48 4 104 11 8 22 6 9 65 . . . . 4 4 4 6



33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3



Nantinya data di atas akan diproses menggunakan rapidminer dengan Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel centroid dan tabel hasil clustering sebagai berikut: Tabel 4. 17 Centroid Table Chebychev K-Means Cluster_0 Cluster_1 Cluster_2 4.795698924731183 20.764705882352942 61.0



Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban



9.655913978494624 43.76470588235294



122.77777777777777



6.161290322580645 28.58823529411765



84.66666666666667



Tabel 4. 18 Hasil Klastering Chebychev K-Means No 1 2 3 4 5 6



Id 1 2 3 4 5 6



Cluster cluster_2 cluster_1 cluster_0 cluster_2 cluster_0 cluster_0



Jumlah Kecelakaan 103 25 2 51 6 4



Jumlah Kendaraan yang terlibat 200 48 4 104 11 8



Jumlah Korban 143 33 2 74 7 5



46



7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42



7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42



cluster_0 cluster_0 cluster_0 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_2 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_1 cluster_2 cluster_2 cluster_1 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_2 cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_0 cluster_0



12 3 5 32 58 18 4 16 45 5 25 2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10



22 6 9 65 102 35 8 34 96 9 60 4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20



14 3 7 48 77 24 5 43 59 7 38 2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12



47



43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78



43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78



cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0



76 3 16 11 19 9 3 6 6 21 8 7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12



154 6 35 23 40 20 6 11 12 43 16 14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25



99 4 20 15 27 8 6 8 8 32 10 9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18



48



79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114



79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114



cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0



2 9 3 5 3 2 3 2 2 5 3 3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3



4 20 6 10 6 4 7 4 4 10 6 7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5



2 11 3 8 4 2 7 4 3 6 6 4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4



49



115 116 117 118 119



115 116 117 118 119



cluster_0 cluster_0 cluster_0 cluster_0 cluster_0



2 2 2 2 3



4 4 4 4 6



3 2 2 1 3



Tabel 4. 19 Tabel Centroid Euclidean K-Means Cluster_0 Cluster_1 Cluster_2 Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban



20.7647



4.7957



61



43.7647



9.65591



122.778



28.5882



6.16129



84.6667



Tabel 4. 20 Hasil Klastering Euclidean K-Means No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17



Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17



Cluster cluster_2 cluster_0 cluster_1 cluster_2 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_2 cluster_0 cluster_1 cluster_0 cluster_2 cluster_1 cluster_0



Jumlah Kecelakaan 103 25 2 51 6 4 12 3 5 32 58 18 4 16 45 5 25



Jumlah Kendaraan 200 48 4 104 11 8 22 6 9 65 102 35 8 34 96 9 60



Jumlah Korban 143 33 2 74 7 5 14 3 7 48 77 24 5 43 59 7 38



50



18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53



18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53



cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_0 cluster_2 cluster_2 cluster_0 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_2 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_1 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1



2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10 76 3 16 11 19 9 3 6 6 21 8



4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20 154 6 35 23 40 20 6 11 12 43 16



2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12 99 4 20 15 27 8 6 8 8 32 10



51



54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89



54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89



cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1



7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12 2 9 3 5 3 2 3 2 2 5 3



14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25 4 20 6 10 6 4 7 4 4 10 6



9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18 2 11 3 8 4 2 7 4 3 6 6



52



90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119



90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119



cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1



3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3 2 2 2 2 3



7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5 4 4 4 4 6



4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4 3 2 2 1 3



Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2



53



juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table 4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian sebagai berikut: a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan (tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan. b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga, sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17 jalan. c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih tinggi daripada klaster pertama dan klaster kedua, sehingga dapat disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan (sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.



Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan kecelakaan lalu lintas yang tertera pada table 4.21 berikut: Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas Tidak Rawan



Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok, Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto, Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar, Imam Bonjol, Gajah Mada, Purwosari, Citarum raya, Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol



54



Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang, Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng, Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto, Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo, Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja, Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi, Kokrosono,



DI



panjaitan,



Basudewo,



Raden



Patah,



Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman, Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O Simpang Lima, Ketileng Raya, Elang Raya, Manyaran, Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan Luhur IV, Tlogosari raya, Suratmo Rawan



Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang, Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo, Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu, Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang, Untung Suropati



Sangat Rawan



Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta, Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo, Siliwangi, Raya kaligawe



4.4



Pengujian Klastering Pengujian ini dilakukan untuk menentukan jumlah claster paling optimal dalam proses clustering tersebut, dengan membandingkan pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means



55



dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. Berikut merupakan langkah perhitungan Davies Bouldin Index dengan menggunakan persamaan (2.2) sampai (2.5) : 1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster. 2. Cari nilai rata-rata dari masing masing nilai cluster. 3. Hitung variance data dari masing-masing dalam cluster dengan menggunakan persamaan (2.2). 4. Cari R Max dari langkah 2 dan 3. 5. Hasil akhir adalah nilai DBI dari cluster.



Langkah pertama, data yang digunakan dalam langkah ini adalah data yang telah ter-cluster dari Chebychev K-Means dan Euclidean KMeans yang didapat dari perhitungan manual menggunakan Excel. Dalam contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil klasternya : Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11



Jarak Cluster 77.22222 3 4.411765 2 5.655914 1 18.77778 3 1.344086 1 1.655914 1 12.34409 1 3.655914 1 0.83871 1 21.23529 2 20.77778 3



56



12 13 14 15



8.764706 1.655914 14.41176 26.77778



2 1 2 3



Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15



Jarak 105.499 7.439025 7.557885 23.7988 1.990061 2.173427 16.30104 5.155967 1.084157 30.88667 22.34936 10.27208 2.173427 18.04857 40.39588



Cluster 3 2 1 3 1 1 1 1 1 2 3 2 1 2 3



Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang tertera di table 4.22 1. Cari nilai rata-rata dari masing-masing nilai cluster π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 1 =



5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914 7



= 3.878648 4.411765 + 21.23529 + 8.764706 + 14.41176 = 12.20588 4 77.22222 + 18.77778 + 20.77778 + 26.77778 π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 3 = = 35.88889 4 π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 2 =



57



2. Hitung variance data dari masing-masing dalam cluster Cluster1 1 (5.655914 βˆ’ 3.878648)2 + (1.344086 βˆ’ 3.878648)2 7βˆ’1



π‘£π‘Žπ‘Ÿ (π‘₯) =



+ (1.655914 βˆ’ 3.878648)2 + (12.34409 βˆ’ 3.878648)2 + (3.655914 βˆ’ 3.878648)2 + (0.63671 βˆ’ 3.878648)2 + (1.655914 βˆ’ 3.878648)2 = 16.73637



Cluster2 π‘£π‘Žπ‘Ÿ (π‘₯) =



1 (4.411765 βˆ’ 12.20588)2 + (21.23529 βˆ’ 12.20588)2 4βˆ’1 + (8.764706 βˆ’ 12.20588)2 + (14.41176 βˆ’ 12.20588)2 = 52.99539



Cluster3 π‘£π‘Žπ‘Ÿ (π‘₯) =



1 (77.22222 βˆ’ 35.88889)2 + (18.77778 βˆ’ 35.88889)2 4βˆ’1 + (20.77778 βˆ’ 35.88889)2 + (26.77778 βˆ’ 35.88889)2 = 770.8642



3. Cari R max 𝑅123 =



16.73637 + 52.99539 + 770.8642 = 19.01107 ||3.878648 βˆ’ 12.20588 βˆ’ 35.88889||



4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya: 𝐷𝐡𝐼 =



1 (19.01107) = 6.337024 3



Dengan langkah yang sama dilakukan pada Euclidean K-Means dan perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat dilihat pada table 4.24. berikut: Tabel 4. 24 Perbandingan Nilai DBI Sample Klaster



Nilai DBI



Chebychev Distance K-Means



6.337024



Euclidean Disance K-Means



9.38884



58



Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer Klaster



Nilai DBI



Chebychev K-Means



0.416



Euclidean K-Means



0.426



Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev KMeans dengan nilai DBI 0.416. 4.5



Hasil Pengujian Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang menggunakan Chebychev K-Means paling optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean Distance (0.426).



BAB V KESIMPULAN DAN SARAN 5.1



Kesimpulan Dari hasil penelitian yang dilakukan, maka dapat disimpulkan bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI) memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling rendah diantara keduanya dinilai paling optimal.



5.2



Saran Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai berikut: 1. Penelitian ini dapat dikembangkan dengan algoritma data mining lainnya



khususnya



algoritma



didalam



teknik



clustering,



membandingkan atau mengkombinasikan dengan algoritma lain untuk mendapatkan hasil yang lebih optimal. 2. Dapat dikembangkan dengan menggunakan system atau apikasi yang menarik dan informatif dalam menyediakan informasi daerah rawan kecelakaan lalu lintas di Kota Semarang.



59



DAFTAR PUSTAKA [1]



Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. β€œStudi Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam”. Jurnal Karya Teknik Sipil. 2015.



[2]



E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam Indonesia. 2015.



[3]



Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. β€œPemetaan Kecelakaan Lalu Lintas Berbasis Klasifikasi NaΓ―ve Bayes dengan Parameter Infrastruktur Jalan”.



[4]



Natalis Rans. β€œPengaplikasian Algoritma Classification Based on Predictive Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas (Studi pada Kepolisian Daerah Sulawesi Tenggara)”. Universitas Gadjah Mada. Yogyakarta. 2014.



[5]



International Labour Organization, "A. Worker's Education Manual International Labour Office," Accident Prevention , 1998.



[6]



β€œUndang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan (LLAJ),”2009.



[7]



Aztria Dharma. β€œIdentifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan Dalu-dalu sampai Pasir Pengaraian)”. Universitas Pasir Pengaraian.



[8]



H. M. T. R. P. Simanungkalit, Y. Aswad. β€œAnalisa faktor penyebab kecelakaan



lalu



lintas



di



ruas



jalan



Sisingamangaraja



Kota



Medan”.Universitas Sumatera Utara. 2014. [9]



J. O. Ong, β€œImplementasi Algotritma K-means clustering untuk menentukan strategi marketing president university,” Jurnal Ilmiah Teknik Industri vol.12, 2013.



[10] M. Anggara, H. Sujiani, H. Nasution, β€œPemilihan Distance Measure Pada KMeans Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,” vol. 1, no. 1, pp. 1–6, 2016.



60



61



[11] D. Sinwar, R. Kaushik, β€œStudy of Euclidean and Manhattan Distance Metrics using Simple K-Means Clustering,” Int. J. Res. Appl. Sci. Eng. Technol., vol. [12, no. 5, pp. 270–274, 2014. [12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons, Inc. [13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. [14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah". Universitas Dian Nuswantoro. Semarang. 2015. [15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu, β€œClustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans Algorima,” Clust. K-Means, pp. 1–7, 2012. [16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., β€œOptimalisasi Pengelompokan



Kecamatan



Berdasarkan



Indikator



Pendidikan



Menggunakan Metode Clustering dan Davies Bouldin Index,” Universitas Trunojoyo. Madura. 2014. [17] Irwan Budiman. β€œ Data Clustering Menggunakan Metodologi CRISP-DM untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma,” Universitas Diponegoro. 2012. [18] Bayu Pramadya K.S. β€œAnalisis Penentuan Lokasi Rawan Kecelakaan Lalu Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator Kerawanan),” Universitas Jember. 2012. [19] Isa Al Qurni. β€œ Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional Kabupaten Kendal,” Universitas Negeri Semarang. 2013. [20] Alith Fajar M. β€œKlasterisasi Proses Seleksi Pemain Menggunakan Algoritma K-Means,” Universitas Dian Nuswantoro. Semarang. 2015