15 0 1 MB
SKRIPSI KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN SEMARANG USING CHEBYSHEV DISTANCE K-MEANS Diajukan untuk memenuhi salah satu syarat Memperoleh gelar Sarjana Teknik Informatika
Disusun Oleh :
Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1
FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016
PERSETUJUAN SKRIPSI Nama
: M. Abdillah Luthfi
NIM
: A11.2012.07225
Program Studi
: Teknik Informatika-S1
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebychev Distance KMeans.
Tugas Akhir ini telah diperiksa dan disetujui, Semarang, Oktober 2016
Menyetujui : Pembimbing
Menyetujui : Dekan Fakultas Ilmu Komputer
Purwanto, Ph.D NPP.0686.11.1994.051
Dr. Abdul Syukur NPP.0686.11.1992.017
ii
PENGESAHAN DEWAN PENGUJI Nama
: M. Abdillah Luthfi
NIM
: A11.2012.07225
Program Studi
: Teknik Informatika-S1
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: KLASTERISASI DAERAH RAWAN KECELAKAAN LALU
LINTAS
MENGGUNAKAN
DI
KOTA
CHEBYSHEV
SEMARANG DISTANCE
K-
MEANS
Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir pada
Oktober 2016. Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom). Semarang, Oktober 2016 Dewan Penguji : Penguji 1 Anggota
Penguji 2 Anggota
Hanny Haryanto,S.Kom,M.T NPP. 0686.11.2009.371
Edy Mulyanto, S.Si, M.Kom NPP.0686.11.1993.040
Penguji 3 Ketua Penguji
Setia Astuti, S.Si, M.Kom NPP. 0686.11.1994.058
iii
PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM
: A11.2012.07225
Menyatakan bahwa karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : Oktober 2016 Yang menyatakan
(M. Abdillah Luthfi)
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM
: A11.2012.07225
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy, ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/ mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : Oktober 2016 Yang menyatakan
(M. Abdillah Luthfi)
(M. Abdillah Luthfi) v
KATA PENGANTAR Alhamdulillah, puji syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas Akhir ini dengan judul βKlasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebyshev Distance K-Meansβ dengan baik tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi syarat kelulusan akademik. Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesarbesarnya kepada semua pihak yang telah membantu dalam proses penyusunan Tugas Akhir ini, yaitu kepada : 1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan menyelesaikan Tugas Akhir ini. 2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian Nuswantoro. 3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik Informatika Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang dengan sabar selalu memberikan arahan, bimbingan dan motivasi dalam penyusunan Tugas Akhir ini. 6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan
ilmu
dan
pengalamannya
masing-masing,
sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan.
vi
7. Kedua Orang Tua yang selalu saya cintai dan banggakan. 8. Semua pihak yang namanya tidak dapat disebutkan satu per satu.
Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin
Semarang, Oktober 2016
Penulis
vii
ABSTRAK Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma KMeans klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas. Dalam penelitian ini dilakukan pengelompokkan data menggunakan Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416 lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426. Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone Areas.
viii
DAFTAR ISI
HALAMAN JUDUL................................................................................................ i PERSETUJUAN SKRIPSI ..................................................................................... ii PENGESAHAN DEWAN PENGUJI .................................................................... iii PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................................. v KATA PENGANTAR ........................................................................................... vi ABSTRAK ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ............................................................................................ xii BAB I PENDAHULUAN ...................................................................................... 1 1.1
Latar Belakang ......................................................................................... 1
1.2
Rumusan Masalah .................................................................................... 4
1.3
Batasan Masalah ....................................................................................... 4
1.4
Tujuan Penelitian ...................................................................................... 5
1.5
Manfaat Penelitian .................................................................................... 5
BAB II ..................................................................................................................... 6 TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6 2.1
Penelitian Terkait ..................................................................................... 6
2.2
Landasan Teori ....................................................................................... 12
2.2.1
Kecelakaan Lalu Lintas ................................................................... 12
2.2.2
Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12
2.2.3
Pengertian Jalan .............................................................................. 13
2.2.4
Data Mining .................................................................................... 14
2.2.5
CRISP-DM ...................................................................................... 16
2.2.6
Clustering ........................................................................................ 19
2.2.7
Algoritma K-Means ........................................................................ 19
2.2.8
Davies Bouldin Index ...................................................................... 21
2.3
Kerangka Pemikiran ............................................................................... 22
ix
BAB III ................................................................................................................. 23 METODE PENELITIAN ...................................................................................... 23 3.1
Data Penelitian ....................................................................................... 23
3.2
Tahapan Penelitian ................................................................................. 25
BAB IV ................................................................................................................. 29 4.1
Pengolahan Data ..................................................................................... 29
4.1.1
Persiapan Data ................................................................................. 29
4.1.2
Preprocessing .................................................................................. 29
4.2
Proses Klastering .................................................................................... 30
4.2.1
Chebychev Distance K-Means ........................................................ 31
4.2.2
Euclidean K-Means ......................................................................... 39
4.3
Proses Menggunakan Rapidminer .......................................................... 44
4.4
Pengujian Klastering .............................................................................. 54
4.5
Hasil Pengujian ....................................................................................... 58
BAB V................................................................................................................... 59 5.1
Kesimpulan ............................................................................................. 59
5.2
Saran ....................................................................................................... 59
DAFTAR PUSTAKA ........................................................................................... 60
x
DAFTAR TABEL Tabel 2. 1 Penelitian Terkait ................................................................................... 8 Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13 Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24 Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24 Tabel 4. 1 Pemilihan Atribut ................................................................................. 29 Tabel 4. 2 Data Awal ............................................................................................ 30 Tabel 4. 3 Iterasi 1 ................................................................................................. 32 Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33 Tabel 4. 5 Iterasi ke-2............................................................................................ 33 Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35 Tabel 4. 7 Iterasi ke-3............................................................................................ 35 Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37 Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37 Tabel 4. 10 Iterasi ke-10........................................................................................ 37 Tabel 4. 11 Iterasi 1 ............................................................................................... 40 Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42 Tabel 4. 13 Iterasi 2 ............................................................................................... 42 Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43 Tabel 4. 15 Iterasi ke-11........................................................................................ 43 Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44 Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45 Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45 Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49 Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49 Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53 Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means ............................................................................................................................... 55 Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56 Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57 Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58
xi
DAFTAR GAMBAR Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15 Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17 Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20 Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22 Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23
xii
BAB I PENDAHULUAN
1.1 Latar Belakang Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5 [1]. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam berbagai bidang kehidupan masyarakat. Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas (Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas) [4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius mengingat besarnya kerugian yang ditimbulkan.
1
2
Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan, diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2% akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan akibat dari beberapa faktor yang saling tergantung satu sama lain [5]. Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk pelanggaran lainnya [7]. Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya, dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan, kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu lintas [8]. Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota Semarang. Data mining merupakan metode pengolahan data berskala besar,
3
oleh karena itu data mining memiliki peranan penting dalam berbagai bidang. Secara umum kajian data mining membahas metode-metode seperti clustering, klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik antara satu data dengan data yang lain [11]. Salah satu ciri clustering yang baik atau optimal adalah menghasilkan cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan distance measure. Jika menggunakan distance measure yang berbeda maka hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10]. Dalam perkembangan clustering terdapat berbagai algoritma yang salah satunya adalah K-Means. K-Means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster/kelompok dan data yang memiliki karakteristik yang berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [9]. Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita.
4
Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance. Berdasarkan hasil dari latar belakang di atas, penelitian yang akan diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada agar monitoring terhadap keselamatan pengendara di jalan raya dapat diantisiasi sejak dini.
1.2 Rumusan Masalah Berdasarkan
latar
belakang
diatas,
maka
dapat
dirumuskan
permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah.
1.3 Batasan Masalah Batasan permasalahan dalam penelitian ini adalah : 1. Data yang digunakan dalam penelitian ini adalah data sekunder yang berasal dari Polrestabes Kota Semarang. 2. Algoritma yang digunakan dalam penelitian ini adalah K-Means.
5
3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor di Kota Semarang dari tahun 2014-2015. 4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti kecelakaan lalu lintas antar kendaraan bermotor, kendaraan bermotor dengan pejalan kaki. 5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang terjadi di wilayah ruas jalan kota. 6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota Semarang terhadap kecelakaan lalu lintas. 7. Tidak membahas penanggulangan kecelakaan.
1.4 Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada algoritma K-Means yang dapat mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas.
1.5 Manfaat Penelitian Dengan adanya penelitian ini diharapkan dapat : 1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang. 2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama dengan menggunakan algoritma K-Means. 3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam berkendara. 4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota Semarang yang rawan terhadap kecelakaan.
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI
2.1 Penelitian Terkait Tinjauan studi yang menjadi sumber referensi dari penelitian yang penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan beberapa penelitian yang terkait dan relevan dengan penelitian ini. Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam penelitian
ini,
peneliti
menggunakan
metode
clustering
untuk
mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada penggunaan data temporal dalam periode bulanan. Sedangkan dalam penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih bersumber pada deskripsi kejadian dan belum melibatkan data geometri (kondisi fisik) jalan raya [2]. Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans. Dalam penelitian ini penulis menggunakan metode k-means dan manhattan distance sebagai distance measure (perhitungan jarak). Penelitian ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3 cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian, didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat
6
7
cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat dijadikan sebagai acuan dalam klasterisasi kualitas beras [15]. Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita. Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi. Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni (APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar. Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM) dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh.
8
Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari pihak berwenang[16]. Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance.
Tabel 2. 1 Penelitian Terkait No 1
Peneliti
Pembahasan
Metode
Lizda
Iswari Pemanfaatan
dan
Ervina K-Means Untuk Pemetaan
Gita Ayu
Hasil
Hasil
Algoritma K-Means Dalam penelitian ini masih
Klasterisasi
Data
Kecelakaan Lalu Lintas
terbatas
pada
penggunaan
data temporal dalam periode bulanan. Sedangkan dalam penentuan
parameter
klasterisasi yang digunakan dalam penelitian ini masih bersumber
pada
deskripsi
kejadian
dan
belum
melibatkan
data
geometri
(kondisi fisik) jalan raya.
2
Silvi
Clustering Kualitas Beras K-Means
Penelitian ini menggunakan
Agustina,
Berdasarkan
20 data uji, dimana ke-20
Dhimas
Ciri
Fisik
data tersebut dibagi menjadi
9
Yhudo, Hadi Menggunakan Metode K-
3 cluster dengan cluster 1
Santoso,
merupakan beras kualitas
Means
Nofiandi
buruk,
Marnasusanto,
kualitas sedang, dan cluster
Arif
3 beras kualitas baik. Dari
Tirtana,
cluster
2
beras
Fakhris
hasil penelitian, didapatkan
Khusnu
3 pusat cluster akhir yaitu pusat
cluster
1
(5,89333;2,05), pusat cluster 2 (6,28199;2,546), dan pusat cluster
3
(6,96583;2,999167)
serta
dihasilkan validasi sebesar 92,8%
yang
menunjukan
bahwa program ini dapat dijadikan
sebagai
acuan
dalam klasterisasi kualitas beras. 3
Erga Sari
Aprina Penerapan Algoritma K- K-Means
Dari hasil uji coba didapat
Means Untuk Menentukan
kabupaten/kota
Tingkat Kesehatan Bayi
memiliki
dan
Pada
indikator kesehatan tinggi
Kabupaten dan Kota di
yang tingkat kesehatan pada
Jawa Tengah
indikator
Balita
yang
hasil
tersebut
analisa
buruk
karena jumlah penderitanya banyak.
Penanganan
masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi.
10
4.
Firli Irhamni, Optimalisasi
SOM dan Penelitian
Fitri
Pengelompokan
Davies
Damayanti,
Kecamatan
Berdasarkan Bouldin
Bain Khusnul Indikator
Pendidikan
ini
tentang
pengelompokan kecamatan untuk
pemerataan
pendidikan
menggunakan
K, Mifftachul Menggunakan
Metode
indicator pendidikan yang
A
Davies
terdapat
Clustering
dan
Bouldin Index
pasa
suatu
kecamatan sebagai salah satu organisasi
pemerintah.
Parameter
penyebab
keberhasilan
pendidikan
dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah
rendahnya
Angka
Partisipasi
nilai Murni
(APM) dan nilai Angka Partisipasi
Kasar
(APK).
Indikator
lain
yang
mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang
meliputi
jumlah
sekolah, ruang kelas, dan tenaga
pengajar.
Pengelompokan kecamatan berdasarkan
tingkat
pendidikan SMA/SMK/MA tersebut
menggunakan
metode clustering yaitu Self Organizing Map (SOM) dan hasil
clustering
tersebut
11
kemudian metode
diolah Davies
dengan Bouldin
Index(DBI)
untuk
menunjukkan seberapa baik cluster
yang
diperoleh.
Penelitian ini memberikan kontribusi
terhadap
pengambilan kebijakan dari pihak berwenang 5
Mario
Pemilihan
Anggara,
Measure Pada K-Means
Henry Sujiani, Clustering
Distance K-Means
penelitiannya mendapatkan hasil
pengujian
terhadap
Untuk
pengelompokan member di
Helfi Nasution Pengelompokkan Member
alvaro fitness menggunakan
Di Alvaro Fitness
k-means clustering dengan menggunakan
3
distance
macam measure.
Didapatkan bahwa dalam pengujian
silhouette
coefficient
clustering,
Chebyshev
Distance
memiliki
nilai
silhouette
coefficient-nya 0.242821. Euclidean
sebesar Sedangkan
Distance
Manhattan memiliki
dan
Distance nilai
silhouette
coefficient sebesar 0.232149 dan
0.240016.
Hal
itu
menunjukan bahwa distance measure untuk
paling
optimal kasus
12
pengelompokkan member di Alvaro
fitness
Chebyshev Distance.
2.2 Landasan Teori 2.2.1 Kecelakaan Lalu Lintas Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau tanpa pemakai jalan lainnya mengakibatkan korban manusia atau kerugian harta benda [6]. 2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas Suatu tempat dikatakan βdaerahβ atau βlokasiβ apabila diketahui letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya dengan βdaerah rawan kecelakaanβ, sedangkan Departemen Pemukiman dan Prasana Wilayah menyebutnya dengan βlokasi rawan kecelakaanβ. Daerah yang memiliki angka kecelakaan tinggi, resiko kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan dapat disebut juga dengan daerah rawan kecelakaan [18]. Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan apabila [19] : 1. Memiliki angka kecelakaan yang tinggi. 2. Lokasi kejadian kecelakaan relatif bertumpuk. 3. Lokasi kecelakaan berupa persimpangan, atau segmen ruas jalan sepanjang 100 β 300 m untuk jalan perkotaan, atau segmen ruas jalan sepanjang 1 km utnuk jalan antar kota.
adalah
13
4. Kecelakaan terjadi dalam ruang dan rentan waktu yang relatif sama. 5. Memiliki penyebab kecelakaan dengan factor yang spesifik.
2.2.3 Pengertian Jalan Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang berada pada permukaan tanah, diatas permukaan tanah, dibawah permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan rel dan jalan kabel [6]. Jalan dibagi kedalam kelas β kelas bukan hanya didasarkan pada fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini : Tabel 2. 2 Klasifikasi Kelas Jalan Tipe Tipe I
Klasifikasi Klas I
Klas II
Tipe II Klas I
Klas II
Klas III
Keterangan Jalan dengan standar tinggi untuk melayani antar wilayah atau antar kota untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi untuk melayani antar wilayah atau didalam metropolitan untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi, 2 jalur atau lebih untuk antar kota atau dalam kota, kecepatan tinggi, volume lalu lintas tinggi dengan masih ada beberapa pembatas jalan masuk. Jalan dengan standar tinggi, 2 lajur atau lebih untuk melayani antar /dalam kota, kecepatan tinggi, volume lalu lintas sedang dengan/ tanpa pembatas jalan masuk. Jalan dengan standar menengah, 2 lajur atau lebih melayani antas distrik, kecepatan sedang, volume lalu lintas tinggi, tanpa pembatas jalan masuk.
14
Klas IV
Jalan dengan standar rendah, I lajur dua arah sebagai jalan penghubung.
2.2.4 Data Mining Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan bermanfaat bagi pemilik data. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [12] : a. Description (Deskripsi) Peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. b. Estimation (Estimasi) Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang lebih kearah numerik daripada ke arah kategori. c. Prediction (Prediksi) Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu yang belum terjadi). d. Association (Asosiasi) Asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. e. Clustering Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.
15
f. Classification (Klasifikasi) Penyusunan data menjadi beberapa kelompok yang ditentukan.
2.2.4.1 Tahap-Tahap Data mining Rangkaian proses data mining dibagi menjadi beberapa tahap yang bersifat interaktif seperti pada gambar 2.1.
Cleaning and Integration
Selection and Transformation
Data Mining
Evaluation and Presentation Knowledge
Data WareHouse Patterns
Gambar 2. 1 Tahap-Tahap Data mining [17]
a. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. b. Cleaning Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan ketik (tipografi).
16
c. Transformation Pengubahan data ke dalam format yang sesuai untuk dapat diproses dalam data mining. Misal, beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal, maka data berupa angka numerik yang berlanjut perlu dibagi menjadi beberapa interval. d. Data mining Proses pencarian pola atau informasi yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. e. Pattern Evaluation Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
2.2.5 CRISP-DM Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler,
SPSS
dan
NCR.
CRISP-DM
menyediakan
standarproses data mining sebagai strategi pemecahan masalah secara umumdari bisnis atau unit penelitian.
17
Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase [12] yaitu : 1. Fase Pemahaman Bisnis (Business Understanding) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulkan data. b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data.
18
d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preparation Phase) a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan (Modelling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitasdan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikan proyek.
19
b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks penyebaran: Penerapan proses data mining secara pararel pada departemen lain. 2.2.6 Clustering Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek yang mempunyai karakteristik yang umum di data yang cukup besar. Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan utama dari metode clustering sehingga dalam setiap cluster akan diisi data yang memiliki tingkat kemiripan yang tinggi [13]. Sebuah cluster adalah kumpulan data yang memiliki kemiripan karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster lain. Clustering bersifat unsupervised learning karena pengelompokan data yang didasarkan pada kesamaan antar objek. 2.2.7 Algoritma K-Means Beberapa teknik clustering yang paling sederhana diantara teknik lainnya adalah Klastering K-Means. K-means merupakan salah satu metode pengelompokan data (clustering) nonhierarki yang termasuk dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk dua atau lebih kelompok. Metode ini mengelompokan data yang berkarakteristik sama menjadi satu kelompok dan data yang berkaraktersitik berbeda dikelompokkan kedalam kelompok lain. Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :
20
Chebyshev Distance πππ =
πππ₯ π
|π₯ππ β π₯ππ |
(2.1)
Dimana : K = Dimensi data 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah.
START
Jumlah K Inisiasi Pusat
Hitung jarak data ke pusat
Kelompokkan data berdasarkan jarak minimum
Pusat cluster lama = pusat cluster baru
Pusat cluster baru tidak ada Selisih Pusat cluster lama dan baru
End
Gambar 2. 3 Flowchart Algoritma K-Means
21
2.2.8 Davies Bouldin Index Davies Bouldin Index merupakan metode evaluasi cluster dari hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif β₯ 0) maka semakin baik cluster yang diperoleh dari pengelompokan KMeans yang digunakan [20]. π
1 π£ππ(π₯) = β(π₯π β π₯Μ
)2 πβ1
(2.2)
π=1
π
π =
max π
ππ π = 1, . . π, π β π
π
ππ =
π£ππ(πΆπ ) + π£ππ(πΆπ ) ||ππ β ππ ||
πβ π
(2.3)
(2.4)
π
1 π·π΅πΌ = . β π
π π
(2.5)
π=1
Dimana π₯Μ
: rata-rata dari cluster x dan N adalah jumlah anggota cluster
Var
: variance dari data
πΆπ
: cluster i dan ππ adalah centroid dari cluster i
22
2.3 Kerangka Pemikiran Masalah
Studi Pustaka
Bagaimana mengklasterisasi daerah rawan kecelakaan lalu lintas di Kota Semarang
Buku dan Jurnal tentang data mining, algoritma k-means dan daerah rawan kecelakaan
Metode Algoritma K-Means dengan menggunakan chebyshev distance
Penerapan Data Kecelakaan Polrestabes Semarang 2014-2015
Pengembangan Microsoft Excel dan Rapidminer
Pengujian Davies Bouldin Indeks (DBI)
Hasil Pengelompokkan dan penentuan status daerah di Kota Semarang yang rawan terhadap kecelakaan menggunakan chebyshev distance k-means
Gambar 2. 4 Kerangka Pemikiran
BAB III METODE PENELITIAN 3.1 Data Penelitian Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman data Satlantas Polrestabes Kota Semarang :
Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel di bawah ini :
23
24
Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas Atribut
Keterangan
Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan tempat kejadian terjadinya kecelakaan Uraian Singkat Kejadian
Atribut
yang menginformasikan
uraian
singkat terjadinya kecelakaan Korban
Atribut yang menginformasikan jumlah korban pada saat terjadinya kecelakaan tersebut baik koban meninggal dunia, luka berat, luka ringan, serta menjelaskan pula kerugiaan materiil yang didapat akibat terjadinya kecelakaan tersebut
Yang terlibat
Atribut yang menginformasikan pengguna jalan (kendaraan bermotor, pejalan kaki, dsb.) yang terlibat dalam kecelakaan tersebut
Identitas Pengemudi
Atribut yang menginformasikan tentang identitas
korban
yang
terlibat
dalam
kecelakaan tersebut.
Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas
NO 1 2 3 4 5
DATA LAKA LANTAS POLRESTABES SEMARANG BULAN JANUARI S/D DESEMBER 2014 Nama Jalan Jumlah Kecelakaan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Medoho
59 18 1 26 2
Jumlah Kendaraan yang terlibat
Jumlah Korban
116 34 2 55 4
80 25 1 41 2
25
6 7 8 9 10
Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono
3 5 2 2 16
6 10 4 3 32
3.2 Tahapan Penelitian Tahapan analisis data pada penelitian ini menggunakan data kecelakaan lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan data tersebut harus melalui beberapa tahap pengolahan awal data. Agar mendapatkan data yang berkualitas yaitu dengan teknik data cleaning. Tahapan penelitian menggunakan metode Cross Industry Standard Process- Data Mining (CRISP-DM). 1. Tahap Pemahaman Bisnis (Bussines Understanding Phase) Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas karena dengan penelitian ini nantinya dapat digunakan oleh pihak kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau rawan terhadap kecelakaan. 2. Tahap Pemahaman Data (Data Understanding Phase) Pengumpulan data sekunder dilakukan dengan cara mengambil data kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan 2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014 sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang diambil dari bulan januari hingga bulan november yaitu sebanyak 748 kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan identitas korban.
4 6 2 4 25
26
3. Tahapan Pengolahan Data (Data Preparation Phase) Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak semua data dan atribut dapat digunakan, karena masih ada data yang mengandung missing value (memiliki keterangan yang kurang lengkap) oleh karena itu dilakukan cleaning data dan selection data, data reduksi. Cleaning data dan selection data merupakan tahap awal dalam processing data mining. Pembersihan ini dilakukan untuk membuang datadata yang informasi terter, seperti tidak adanya informasi identitas korban, umur, pekerjaan. Data reduksi adalah data yang informative, data dengan record dan jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang terdiri dari 3 atribut yang akan diolah. 4. Fase pemodelan (Modeling Phase) Tahap pemodelan merupakan tahap pengolahan dataset yang dimodelkan dengan algoritma k-means sehingga perhitungan dan Pengelompokan data. ο· Algoritma K-Means Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :
27
Chebyshev Distance πππ =
πππ₯ π
|π₯ππ β π₯ππ |
(3.1)
Dimana : K = Dimensi data π₯ππ = Data dari jumlah kecelakaan, jumlah kendaraan yang
terlibat, jumlah korban π₯ππ =
Centroid
πππ = Jarak antara π₯ππ dan π₯ππ dan || adalah nilai mutlak. 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah. 5. Fase Evaluasi (Evaluation Phase) Pada fase ini dilakukan penilaian menggunakan Davies Bouldin Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses clustering tersebut, dengan membandingkan pengelompokan sebanyak 3 klaster menggunakan Chebychev K-Means dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. 6. Fase Penyebaran Fase yang terakhir adalah fase penyebaran dimana data yang telah dievaluasi
diimplementasikan
sehingga
dapat
digunakan
untuk
menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data diuji dengan menggunakan tool rapidminer. Dengan menggunakan pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil clustering yang dilakukan menggunakan perhitungan pada Microsoft
28
Excel dengan Rapidminer dalam penentuan status daerah terhadap kecelakaan lalu lintas di Kota Semarang.
BAB IV ANALISA DAN PEMBAHASAN
4.1
Pengolahan Data 4.1.1
Persiapan Data Dalam penelitian ini data yang digunakan merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas Polrestabes Kota Semarang seperti yang sudah dijelaskan pada Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian: Tabel 4. 1 Pemilihan Atribut Atribut Waktu & Tempat Kejadian
β
(Jumlah Kecelakaan)
4.1.2
Uraian Singkat Kejadian
X
Korban
β
Kendaraan Yang terlibat
β
Identitas Pengemudi
X
Preprocessing Preprocessing yang dilakukan adalah penghapusan data missing value (memiliki keterangan yang kurang lengkap) Pada tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak memiliki keterangan yang kurang lengkap seperti kejadian kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya keterangan identitas korban, umur, pekerjaan, maka jalan tersebut tidak digunakan.
29
30
Dari rekaman data yang diperoleh, semua data terisi sesuai dengan ketentuan tidak ada yang kosong, sehingga semua data yang diperoleh dapat digunakan pada proses selanjutnya. Setelah data yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel sehingga diperoleh hasil simplikasi dan generalisasi seperti yang terlihat dibawah ini : Tabel 4. 2 Data Awal
No 1 2 3 4 5 6 7 8 9 10 116 117 118 119
4.2
Nama Jalan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Raya Medoho Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono -
Prof. Suharso Pawiyatan Luhur IV Tlogosari raya Suratmo
Jumlah Kecelakaan (X1)
Jumlah Kendaraan yang Terlibat (X2)
Jumlah Korban (X3)
103 25 2 51 6 4 12 3 5 32 2
200 48 4 104 11 8 22 6 9 65 4
143 33 2 74 7 5 14 3 7 48 2
2 2 3
4 4 6
2 1 3
Proses Klastering Proses klastering yaitu proses pengelompokan data berdasarkan kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam
31
menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering dengan perhitungan algoritma k-mean sebagai berikut :
4.2.1
Chebychev Distance K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Chebychev Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :
Chebyshev Distance πππ =
πππ₯ π
|π₯ππ β π₯ππ |
(4.1)
Dimana : K = Dimensi data π11 = max( |103 β 2|, |200 β 2|, |143 β 2|) = 198 Jarak data pertama dengan pusat klaster kedua: π12 = max( |103 β 3|, |200 β 3|, |143 β 3|) = 197 Jarak data pertama dengan pusat klaster ketiga: π13 = max( |103 β 4|, |200 β 4|, |143 β 4|) = 196
32
Hasil perhitungan terdapat pada table berikut: Tabel 4. 3 Iterasi 1 Data ke1 2 3 4 5 6 7 8 9 10 . . . . 116 117 118 119
Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) 103 200 25 48 2 4 51 104 6 11 4 8 12 22 3 6 5 9 32 65 . . . . . . . . 2 4 2 4 2 4 3 6
Jumlah Korban (X3) 143 33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3
C1 198 46 2 102 9 6 20 4 7 63 . . . . 2 2 2 4
C2 197 45 1 101 8 5 19 3 6 62 . . . . 1 1 2 3
C3 196 44 2 100 7 4 18 2 5 61 . . . . 2 2 3 2
Anggota klaster C3 C3 C2 C3 C3 C3 C3 C3 C3 C3 . . . . C2 C2 C1 C3
4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua. 5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 = =3 3
πΆ11 = πΆ12
33
πΆ13 =
1+2+1 = 1.33333333 3
Untuk klaster dua ada 20 data, sehingga:
πΆ21 = πΆ22 = πΆ23 =
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 20 4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 20 2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2 20
= 2.05 =4 = 2.6
Untuk klaster ketiga ada 96 data, sehingga: 103 + 25 + 51 + β― + 4 + 3 + 3 = 13.55208 96 200 + 48 + 104 + β― + 8 + 5 + 6 = = 27.6875 96 143 + 33 + 74 + β― + 4 + 4 + 3 = = 18.38542 96
πΆ31 = πΆ32 πΆ33
Tabel 4. 4 Centroid baru untuk iterasi 2 Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
2
3
1.33333
C2
2.05
4
2.6
C3
13.55208
27.6875
18.38542
6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi klaster tidak berubah. Tabel 4. 5 Iterasi ke-2 Jumlah Data Kecelakaan ke(X1)
Jumlah Kendaraan yang terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
Claster ke-1 (C1) 197
Claster Claster ke-2 (C2) ke-3 (C3) 196 172.3125
Anggota klaster C3
45
44
20.3125
C3
1
0.6
23.6875
C2
100.2 98.53846 75.21978
C3
34
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10 . . . .
32 . . . .
65 . . . .
48 . . . .
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
7.2 5.538462 17.78022
C2
4.2 2.538462 20.78022
C2
18.2 16.53846
6.78022
C3
2.2 0.538462 22.78022
C2
5.2 4.153846 19.78022
C2
61.2 59.53846 36.21978
C3
. . . .
. . . . . . . . 0.2 1.461538 24.78022
. . . . C1
0.2 1.461538 24.78022
C1
0.866667 1.846154 24.78022
C1
2.2 0.538462 22.78022
C2
Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu menghitung titik pusat klaster baru.
Untuk klaster pertama terdapat 18 data, sehingga:
πΆ11 = πΆ12 = πΆ13 =
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 18 4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4 18 2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1 18
= 2.055556
= 3.833333 = 2.055556
Untuk klaster kedua terdapat 63 data, sehingga: πΆ21 =
2+6+4+β―+4+3+3 = 4.539683 63
4 + 11 + 8 + β― + 8 + 5 + 6 = 9.142857 63 2 + 7 + 5 + β―+ 4 + 4 + 3 πΆ23 = 5.936508 63
πΆ22 =
35
Untuk klaster ketiga terdapat 38 data, sehingga: 103 + 25 + 51 + β― + 9 + 12 + 9 = 26.97368 38 200 + 48 + 104 + β― + 18 + 25 + 20 πΆ32 = = 55.31579 38 143 + 33 + 74 + β― + 12 + 18 + 11 πΆ33 = = 37.10526 38 πΆ31 =
Tabel 4. 6 Centroid baru untuk iterasi 3
C1 C2 C3
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
2.055556
4.539683 26.97368
3.833333
2.055556
9.142857
5.936508
55.31579
37.10526
Tabel 4. 7 Iterasi ke-3 Jumlah Data Kecelakaan ke(X1)
Jumlah Kendaraan yang terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10 . . .
32 . . .
65 . . .
48 . . .
Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 196.1667 190.8571 144.6842
Anggota klaster C3
44.16667 38.85714 7.315789
C3
0.166667 5.142857 51.31579
C1
100.1304 94.41379 48.68421
C3
7.130435 1.413793 44.31579
C2
4.130435 1.586207 47.31579
C2
18.13043 12.41379 33.31579
C2
2.130435 3.586207 49.31579
C1
5.130435
0.87931 46.31579
C2
61.13043 55.41379 10.89474
C3
. . .
. . .
. . .
. . .
36
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
. . . 0.434783 5.586207 51.31579
. C1
0.434783 5.586207 51.31579
C1
1.434783 5.586207 51.31579
C1
2.130435 3.586207 49.31579
C1
Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu menghitung titik pusat klaster baru.
Untuk klaster pertama terdapat 39 data, sehingga: 2+3+2+β―+2+2+3 = 2.435897 39 4 + 6 + 4 + β―+ 4 + 4 + 6 πΆ12 = = 4.74359 39 2+3+2+β―+2+1+3 πΆ13 = = 2.948718 39 πΆ11 =
Untuk klaster kedua terdapat 57 data, sehingga:
6 + 4 + 12 + β― + 4 + 6 + 4 = 6.894737 57 11 + 8 + 22 + β― + 8 + 12 + 8 πΆ22 = = 14.07018 57 7 + 5 + 14 + β― + 4 + 8 + 4 πΆ23 = = 8.929825 57 πΆ21 =
Untuk klaster ketiga terdapat 23 data, sehingga:
πΆ31 =
103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21 23
=
37.3913 πΆ32 = 200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43 23
76.52174
=
37
πΆ33 = 143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32 23
=
52.04348 Tabel 4. 8 Centroid baru untuk iterasi 4
C1 C2 C3
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
2.055556
4.539683 26.97368
3.833333
2.055556
9.142857
5.936508
55.31579
37.10526
Tabel 4. 9 Informasi Centroid akhir Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
4.795699
9.655914
6.16129
C2
20.76471
43.76471
28.58824
C3
61
122.7778
84.66667
Tabel 4. 10 Iterasi ke-10 Jumlah Data Kecelakaan ke(X1)
Jumlah Kendaraan yang terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 190.3441 156.2353 77.22222
Anggota klaster C3
38.34409 4.411765 74.77778
C2
5.655914 39.76471 118.7778
C1
94.34409 60.23529 18.77778
C3
1.344086 32.76471 111.7778
C1
1.655914 35.76471 114.7778
C1
12.34409 21.76471 100.7778
C1
3.655914 37.76471 116.7778
C1
38
9
5
9
7
10 . . . .
32 . . . .
65 . . . .
48 . . . .
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
0.83871 34.76471 113.7778
C1
55.34409 21.23529 57.77778
C2
. . . . . . . . . . . . 5.655914 39.76471 118.7778
. . . . C1
5.655914 39.76471 118.7778
C1
5.655914 39.76471 118.7778
C1
3.655914 37.76471 116.7778
C1
Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.10 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster
39
pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.
4.2.2
Euclidean K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Euclidean Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :
Euclidean Distance 2
2
2
π·(π,π) = β(π1π β π1π ) + (π2π β π2π ) + β― + (πππ β πππ )
dimana: D (i,j) = Jarak data ke i ke pusat cluster j Xki = Data ke i pada atribut data ke k Xkj = Titik pusat ke j pada atribut ke k π·11 = β(103 β 2)2 + (200 β 2)2 + (143 β 2)2 = 263.222 Jarak data pertama dengan pusat klaster kedua: π·12 = β(103 β 3)2 + (200 β 3)2 + (143 β 3)2 = 261.551 Jarak data pertama dengan pusat klaster ketiga: π·13 = β(103 β 4)2 + (200 β 4)2 + (143 β 4)2 = 259.881
(4.2)
40
Hasil perhitungan terdapat pada table berikut: Tabel 4. 11 Iterasi 1 Data ke-
Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10 . . . .
32 . . . .
65 . . . .
48 . . . .
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
C1 C2 C3 263.2223 261.5511 259.8807
Anggota klaster C3
60.04998 58.38664 56.72742
C3
2 1.732051 2.828427
C2
134.1231 132.4613 130.8014
C3
11.04536 9.433981 7.874008
C3
7 5.477226 4.123106
C3
25.37716 23.72762 22.09072
C3
4.242641
3
2.44949
C3
9.110434 7.483315
5.91608
C3
83.57631 81.91459 80.25584
C3
. . . .
. . . . . . . . 2 1.732051 2.828427
. . . . C2
2 1.732051 2.828427
C2
2.236068 4.242641
2.44949 3.605551 3
2.44949
C1 C3
4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua.
41
5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 πΆ12 = =3 3 1+2+1 = = 1.333333 3 πΆ11 =
πΆ13
Untuk klaster kedua terdapat 19 data, sehingga: πΆ21 =
2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2β¦+ 2 + 2 + 2 19
= 2.052632 πΆ22 =
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 19
=4 πΆ23 =
2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2 19
= 2.473684 Untuk klaster ketiga terdapat 97 data, sehingga: 103 + 25 + 51 + β― + 4 + 3 + 3 = 13.43299 97 200 + 48 + 104 + β― + 8 + 5 + 6 = = 27.4433 97 143 + 33 + 74 + β― + 4 + 4 + 3 = = 18.24742 97
πΆ31 = πΆ32 πΆ32
42
Tabel 4. 12 Centroid baru untuk iterasi 2 Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
2
3
1.33333
C2
2.052632
4
2.473684
C3
13.43299
27.4433
18.24742
Tabel 4. 13 Iterasi 2 Data ke-
Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10 . . . .
32 . . . .
65 . . . .
48 . . . .
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
C1 262.8297
C2 C3 261.446 231.0006
Anggota klaster C3
59.63873
58.2618 27.82108
C3
1.20185 0.476599 30.72914
C2
133.7253 132.3324
101.885
C3
10.58825 9.223299 21.26349
C2
6.51494 5.116104 25.34793
C2
24.92879 23.57554 7.051494
C3
3.574602 2.274756 28.30453
C2
8.781293 7.360334 23.18998
C2
83.19722 81.79542 51.38536
C3
. . . . . . . . . . . . 1.20185 0.476599 30.72914
. . . . C2
1.20185 0.476599 30.72914
C2
1.054093 1.474624
31.2694
C1
3.574602 2.274756 28.30453
C2
43
Tabel 4. 14 Informasi centroid akhir Euclidean Distance Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
4.795699
9.655914
6.16129
C2
20.76471
43.76471
28.58824
C3
61
122.7778
84.66667
Tabel 4. 15 Iterasi ke-11 Jumlah Data Kecelakaan ke(X1)
Jumlah Kendaraan yang terlibat (X2)
Jumlah Korban (X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10 . . . .
32 . . . .
65 . . . .
48 . . . .
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
Claster Claster ke-1 (C1) ke-2 (C2) 254.1649 210.3857
Claster ke-3 (C3) 105.499
Anggota klaster C3
50.97842 7.439025 97.76073
C2
7.557885 51.38366 156.2784
C1
125.0509 81.26926
23.7988
C3
1.990061 41.92343 146.8039
C1
2.173427 46.00624 150.8964
C1
16.30104 27.62859
132.48
C1
5.155967 48.95422 153.8522
C1
1.084157 43.85388 148.7061
C1
74.52194 30.88667 74.32171
C2
. . . . . . . . . . . . 7.557885 51.38366 156.2784
. . . . C1
7.557885 51.38366 156.2784
C1
8.151332 51.90816 156.8097
C1
5.155967 48.95422 153.8522
C1
44
Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.15 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.
4.3
Proses Menggunakan Rapidminer Setelah melalui proses preprocessing data akan diproses dengan menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan nilai dari setiap variable seperti table berikut. Tabel 4. 16 Data yang diimport ke Rapidminer Jumlah Jumlah Kecelakaan Kendaraan 103
200
Jumlah Korban 143
45
25 2 51 6 4 12 3 5 32 . . . . 2 2 2 3
48 4 104 11 8 22 6 9 65 . . . . 4 4 4 6
33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3
Nantinya data di atas akan diproses menggunakan rapidminer dengan Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel centroid dan tabel hasil clustering sebagai berikut: Tabel 4. 17 Centroid Table Chebychev K-Means Cluster_0 Cluster_1 Cluster_2 4.795698924731183 20.764705882352942 61.0
Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban
9.655913978494624 43.76470588235294
122.77777777777777
6.161290322580645 28.58823529411765
84.66666666666667
Tabel 4. 18 Hasil Klastering Chebychev K-Means No 1 2 3 4 5 6
Id 1 2 3 4 5 6
Cluster cluster_2 cluster_1 cluster_0 cluster_2 cluster_0 cluster_0
Jumlah Kecelakaan 103 25 2 51 6 4
Jumlah Kendaraan yang terlibat 200 48 4 104 11 8
Jumlah Korban 143 33 2 74 7 5
46
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
cluster_0 cluster_0 cluster_0 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_2 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_1 cluster_2 cluster_2 cluster_1 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_2 cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_0 cluster_0
12 3 5 32 58 18 4 16 45 5 25 2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10
22 6 9 65 102 35 8 34 96 9 60 4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20
14 3 7 48 77 24 5 43 59 7 38 2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12
47
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0
76 3 16 11 19 9 3 6 6 21 8 7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12
154 6 35 23 40 20 6 11 12 43 16 14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25
99 4 20 15 27 8 6 8 8 32 10 9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18
48
79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114
79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114
cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0
2 9 3 5 3 2 3 2 2 5 3 3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3
4 20 6 10 6 4 7 4 4 10 6 7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5
2 11 3 8 4 2 7 4 3 6 6 4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4
49
115 116 117 118 119
115 116 117 118 119
cluster_0 cluster_0 cluster_0 cluster_0 cluster_0
2 2 2 2 3
4 4 4 4 6
3 2 2 1 3
Tabel 4. 19 Tabel Centroid Euclidean K-Means Cluster_0 Cluster_1 Cluster_2 Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban
20.7647
4.7957
61
43.7647
9.65591
122.778
28.5882
6.16129
84.6667
Tabel 4. 20 Hasil Klastering Euclidean K-Means No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Cluster cluster_2 cluster_0 cluster_1 cluster_2 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_2 cluster_0 cluster_1 cluster_0 cluster_2 cluster_1 cluster_0
Jumlah Kecelakaan 103 25 2 51 6 4 12 3 5 32 58 18 4 16 45 5 25
Jumlah Kendaraan 200 48 4 104 11 8 22 6 9 65 102 35 8 34 96 9 60
Jumlah Korban 143 33 2 74 7 5 14 3 7 48 77 24 5 43 59 7 38
50
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_0 cluster_2 cluster_2 cluster_0 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_2 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_1 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1
2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10 76 3 16 11 19 9 3 6 6 21 8
4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20 154 6 35 23 40 20 6 11 12 43 16
2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12 99 4 20 15 27 8 6 8 8 32 10
51
54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1
7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12 2 9 3 5 3 2 3 2 2 5 3
14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25 4 20 6 10 6 4 7 4 4 10 6
9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18 2 11 3 8 4 2 7 4 3 6 6
52
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1
3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3 2 2 2 2 3
7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5 4 4 4 4 6
4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4 3 2 2 1 3
Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2
53
juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table 4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian sebagai berikut: a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan (tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan. b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga, sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17 jalan. c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih tinggi daripada klaster pertama dan klaster kedua, sehingga dapat disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan (sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.
Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan kecelakaan lalu lintas yang tertera pada table 4.21 berikut: Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas Tidak Rawan
Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok, Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto, Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar, Imam Bonjol, Gajah Mada, Purwosari, Citarum raya, Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol
54
Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang, Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng, Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto, Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo, Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja, Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi, Kokrosono,
DI
panjaitan,
Basudewo,
Raden
Patah,
Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman, Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O Simpang Lima, Ketileng Raya, Elang Raya, Manyaran, Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan Luhur IV, Tlogosari raya, Suratmo Rawan
Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang, Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo, Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu, Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang, Untung Suropati
Sangat Rawan
Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta, Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo, Siliwangi, Raya kaligawe
4.4
Pengujian Klastering Pengujian ini dilakukan untuk menentukan jumlah claster paling optimal dalam proses clustering tersebut, dengan membandingkan pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means
55
dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. Berikut merupakan langkah perhitungan Davies Bouldin Index dengan menggunakan persamaan (2.2) sampai (2.5) : 1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster. 2. Cari nilai rata-rata dari masing masing nilai cluster. 3. Hitung variance data dari masing-masing dalam cluster dengan menggunakan persamaan (2.2). 4. Cari R Max dari langkah 2 dan 3. 5. Hasil akhir adalah nilai DBI dari cluster.
Langkah pertama, data yang digunakan dalam langkah ini adalah data yang telah ter-cluster dari Chebychev K-Means dan Euclidean KMeans yang didapat dari perhitungan manual menggunakan Excel. Dalam contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil klasternya : Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11
Jarak Cluster 77.22222 3 4.411765 2 5.655914 1 18.77778 3 1.344086 1 1.655914 1 12.34409 1 3.655914 1 0.83871 1 21.23529 2 20.77778 3
56
12 13 14 15
8.764706 1.655914 14.41176 26.77778
2 1 2 3
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Jarak 105.499 7.439025 7.557885 23.7988 1.990061 2.173427 16.30104 5.155967 1.084157 30.88667 22.34936 10.27208 2.173427 18.04857 40.39588
Cluster 3 2 1 3 1 1 1 1 1 2 3 2 1 2 3
Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang tertera di table 4.22 1. Cari nilai rata-rata dari masing-masing nilai cluster πππ’π π‘ππ 1 =
5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914 7
= 3.878648 4.411765 + 21.23529 + 8.764706 + 14.41176 = 12.20588 4 77.22222 + 18.77778 + 20.77778 + 26.77778 πππ’π π‘ππ 3 = = 35.88889 4 πππ’π π‘ππ 2 =
57
2. Hitung variance data dari masing-masing dalam cluster Cluster1 1 (5.655914 β 3.878648)2 + (1.344086 β 3.878648)2 7β1
π£ππ (π₯) =
+ (1.655914 β 3.878648)2 + (12.34409 β 3.878648)2 + (3.655914 β 3.878648)2 + (0.63671 β 3.878648)2 + (1.655914 β 3.878648)2 = 16.73637
Cluster2 π£ππ (π₯) =
1 (4.411765 β 12.20588)2 + (21.23529 β 12.20588)2 4β1 + (8.764706 β 12.20588)2 + (14.41176 β 12.20588)2 = 52.99539
Cluster3 π£ππ (π₯) =
1 (77.22222 β 35.88889)2 + (18.77778 β 35.88889)2 4β1 + (20.77778 β 35.88889)2 + (26.77778 β 35.88889)2 = 770.8642
3. Cari R max π
123 =
16.73637 + 52.99539 + 770.8642 = 19.01107 ||3.878648 β 12.20588 β 35.88889||
4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya: π·π΅πΌ =
1 (19.01107) = 6.337024 3
Dengan langkah yang sama dilakukan pada Euclidean K-Means dan perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat dilihat pada table 4.24. berikut: Tabel 4. 24 Perbandingan Nilai DBI Sample Klaster
Nilai DBI
Chebychev Distance K-Means
6.337024
Euclidean Disance K-Means
9.38884
58
Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer Klaster
Nilai DBI
Chebychev K-Means
0.416
Euclidean K-Means
0.426
Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev KMeans dengan nilai DBI 0.416. 4.5
Hasil Pengujian Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang menggunakan Chebychev K-Means paling optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean Distance (0.426).
BAB V KESIMPULAN DAN SARAN 5.1
Kesimpulan Dari hasil penelitian yang dilakukan, maka dapat disimpulkan bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI) memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling rendah diantara keduanya dinilai paling optimal.
5.2
Saran Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai berikut: 1. Penelitian ini dapat dikembangkan dengan algoritma data mining lainnya
khususnya
algoritma
didalam
teknik
clustering,
membandingkan atau mengkombinasikan dengan algoritma lain untuk mendapatkan hasil yang lebih optimal. 2. Dapat dikembangkan dengan menggunakan system atau apikasi yang menarik dan informatif dalam menyediakan informasi daerah rawan kecelakaan lalu lintas di Kota Semarang.
59
DAFTAR PUSTAKA [1]
Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. βStudi Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajamβ. Jurnal Karya Teknik Sipil. 2015.
[2]
E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam Indonesia. 2015.
[3]
Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. βPemetaan Kecelakaan Lalu Lintas Berbasis Klasifikasi NaΓ―ve Bayes dengan Parameter Infrastruktur Jalanβ.
[4]
Natalis Rans. βPengaplikasian Algoritma Classification Based on Predictive Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas (Studi pada Kepolisian Daerah Sulawesi Tenggara)β. Universitas Gadjah Mada. Yogyakarta. 2014.
[5]
International Labour Organization, "A. Worker's Education Manual International Labour Office," Accident Prevention , 1998.
[6]
βUndang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan (LLAJ),β2009.
[7]
Aztria Dharma. βIdentifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan Dalu-dalu sampai Pasir Pengaraian)β. Universitas Pasir Pengaraian.
[8]
H. M. T. R. P. Simanungkalit, Y. Aswad. βAnalisa faktor penyebab kecelakaan
lalu
lintas
di
ruas
jalan
Sisingamangaraja
Kota
Medanβ.Universitas Sumatera Utara. 2014. [9]
J. O. Ong, βImplementasi Algotritma K-means clustering untuk menentukan strategi marketing president university,β Jurnal Ilmiah Teknik Industri vol.12, 2013.
[10] M. Anggara, H. Sujiani, H. Nasution, βPemilihan Distance Measure Pada KMeans Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,β vol. 1, no. 1, pp. 1β6, 2016.
60
61
[11] D. Sinwar, R. Kaushik, βStudy of Euclidean and Manhattan Distance Metrics using Simple K-Means Clustering,β Int. J. Res. Appl. Sci. Eng. Technol., vol. [12, no. 5, pp. 270β274, 2014. [12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons, Inc. [13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. [14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah". Universitas Dian Nuswantoro. Semarang. 2015. [15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu, βClustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans Algorima,β Clust. K-Means, pp. 1β7, 2012. [16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., βOptimalisasi Pengelompokan
Kecamatan
Berdasarkan
Indikator
Pendidikan
Menggunakan Metode Clustering dan Davies Bouldin Index,β Universitas Trunojoyo. Madura. 2014. [17] Irwan Budiman. β Data Clustering Menggunakan Metodologi CRISP-DM untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma,β Universitas Diponegoro. 2012. [18] Bayu Pramadya K.S. βAnalisis Penentuan Lokasi Rawan Kecelakaan Lalu Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator Kerawanan),β Universitas Jember. 2012. [19] Isa Al Qurni. β Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional Kabupaten Kendal,β Universitas Negeri Semarang. 2013. [20] Alith Fajar M. βKlasterisasi Proses Seleksi Pemain Menggunakan Algoritma K-Means,β Universitas Dian Nuswantoro. Semarang. 2015