Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas Di Kota Semarang Menggunakan Chebyshev Distance K-Means [PDF]

0 0 0
Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up

Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas Di Kota Semarang Menggunakan Chebyshev Distance K-Means [PDF]

SKRIPSI KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS CLUSTER

15 0 1 MB

Report DMCA / Copyright

DOWNLOAD FILE

Sop Kecelakaan Lalu Lintas

2 0 329 KB Read more

Responsi Kecelakaan Lalu Lintas

1 0 144 KB Read more

KAK Kajian Daerah Rawan Kecelakaan (Black Spot) Di Kota Denpasar

2 0 100 KB Read more

Formulir Pendataan Kecelakaan Lalu Lintas

0 0 318 KB Read more

Prosedur Pencegahan Kecelakaan Lalu Lintas

0 0 3 MB Read more

Makalah Eptm Kecelakaan Lalu Lintas

1 0 191 KB Read more

Epidemiologi Kecelakaan Lalu Lintas (6) - For Merge

1 0 2 MB Read more

Perencanaan Kota Di Semarang

0 0 743 KB Read more

BAB I Bencana Kecelakaan Lalu Lintas Masal

0 0 114 KB Read more

Surat Pernyataan Bersama Kecelakaan Lalu Lintas

0 0 156 KB Read more

File loading please wait...

Citation preview

SKRIPSI KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN SEMARANG USING CHEBYSHEV DISTANCE K-MEANS Diajukan untuk memenuhi salah satu syarat Memperoleh gelar Sarjana Teknik Informatika

Disusun Oleh :

Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1

FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016

PERSETUJUAN SKRIPSI Nama

: M. Abdillah Luthfi

NIM

: A11.2012.07225

Program Studi

: Teknik Informatika-S1

Fakultas

: Ilmu Komputer

Judul Tugas Akhir

: Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebychev Distance KMeans.

Tugas Akhir ini telah diperiksa dan disetujui, Semarang, Oktober 2016

Menyetujui : Pembimbing

Menyetujui : Dekan Fakultas Ilmu Komputer

Purwanto, Ph.D NPP.0686.11.1994.051

Dr. Abdul Syukur NPP.0686.11.1992.017

ii

PENGESAHAN DEWAN PENGUJI Nama

: M. Abdillah Luthfi

NIM

: A11.2012.07225

Program Studi

: Teknik Informatika-S1

Fakultas

: Ilmu Komputer

Judul Tugas Akhir

: KLASTERISASI DAERAH RAWAN KECELAKAAN LALU

LINTAS

MENGGUNAKAN

DI

KOTA

CHEBYSHEV

SEMARANG DISTANCE

K-

MEANS

Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir pada

Oktober 2016. Menurut pandangan kami, tugas akhir

ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom). Semarang, Oktober 2016 Dewan Penguji : Penguji 1 Anggota

Penguji 2 Anggota

Hanny Haryanto,S.Kom,M.T NPP. 0686.11.2009.371

Edy Mulyanto, S.Si, M.Kom NPP.0686.11.1993.040

Penguji 3 Ketua Penguji

Setia Astuti, S.Si, M.Kom NPP. 0686.11.1994.058

iii

PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM

: A11.2012.07225

Menyatakan bahwa karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di

: Semarang

Pada tanggal : Oktober 2016 Yang menyatakan

(M. Abdillah Luthfi)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM

: A11.2012.07225

Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy, ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/ mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : Oktober 2016 Yang menyatakan

(M. Abdillah Luthfi)

(M. Abdillah Luthfi) v

KATA PENGANTAR Alhamdulillah, puji syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas Akhir ini dengan judul “Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebyshev Distance K-Means” dengan baik tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi syarat kelulusan akademik. Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesarbesarnya kepada semua pihak yang telah membantu dalam proses penyusunan Tugas Akhir ini, yaitu kepada : 1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan menyelesaikan Tugas Akhir ini. 2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian Nuswantoro. 3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik Informatika Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang dengan sabar selalu memberikan arahan, bimbingan dan motivasi dalam penyusunan Tugas Akhir ini. 6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan

ilmu

dan

pengalamannya

masing-masing,

sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan.

vi

7. Kedua Orang Tua yang selalu saya cintai dan banggakan. 8. Semua pihak yang namanya tidak dapat disebutkan satu per satu.

Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin

Semarang, Oktober 2016

Penulis

vii

ABSTRAK Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma KMeans klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas. Dalam penelitian ini dilakukan pengelompokkan data menggunakan Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416 lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426. Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone Areas.

viii

DAFTAR ISI

HALAMAN JUDUL................................................................................................ i PERSETUJUAN SKRIPSI ..................................................................................... ii PENGESAHAN DEWAN PENGUJI .................................................................... iii PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................................. v KATA PENGANTAR ........................................................................................... vi ABSTRAK ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ............................................................................................ xii BAB I PENDAHULUAN ...................................................................................... 1 1.1

Latar Belakang ......................................................................................... 1

1.2

Rumusan Masalah .................................................................................... 4

1.3

Batasan Masalah ....................................................................................... 4

1.4

Tujuan Penelitian ...................................................................................... 5

1.5

Manfaat Penelitian .................................................................................... 5

BAB II ..................................................................................................................... 6 TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6 2.1

Penelitian Terkait ..................................................................................... 6

2.2

Landasan Teori ....................................................................................... 12

2.2.1

Kecelakaan Lalu Lintas ................................................................... 12

2.2.2

Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12

2.2.3

Pengertian Jalan .............................................................................. 13

2.2.4

Data Mining .................................................................................... 14

2.2.5

CRISP-DM ...................................................................................... 16

2.2.6

Clustering ........................................................................................ 19

2.2.7

Algoritma K-Means ........................................................................ 19

2.2.8

Davies Bouldin Index ...................................................................... 21

2.3

Kerangka Pemikiran ............................................................................... 22

ix

BAB III ................................................................................................................. 23 METODE PENELITIAN ...................................................................................... 23 3.1

Data Penelitian ....................................................................................... 23

3.2

Tahapan Penelitian ................................................................................. 25

BAB IV ................................................................................................................. 29 4.1

Pengolahan Data ..................................................................................... 29

4.1.1

Persiapan Data ................................................................................. 29

4.1.2

Preprocessing .................................................................................. 29

4.2

Proses Klastering .................................................................................... 30

4.2.1

Chebychev Distance K-Means ........................................................ 31

4.2.2

Euclidean K-Means ......................................................................... 39

4.3

Proses Menggunakan Rapidminer .......................................................... 44

4.4

Pengujian Klastering .............................................................................. 54

4.5

Hasil Pengujian ....................................................................................... 58

BAB V................................................................................................................... 59 5.1

Kesimpulan ............................................................................................. 59

5.2

Saran ....................................................................................................... 59

DAFTAR PUSTAKA ........................................................................................... 60

x

DAFTAR TABEL Tabel 2. 1 Penelitian Terkait ................................................................................... 8 Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13 Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24 Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24 Tabel 4. 1 Pemilihan Atribut ................................................................................. 29 Tabel 4. 2 Data Awal ............................................................................................ 30 Tabel 4. 3 Iterasi 1 ................................................................................................. 32 Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33 Tabel 4. 5 Iterasi ke-2............................................................................................ 33 Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35 Tabel 4. 7 Iterasi ke-3............................................................................................ 35 Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37 Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37 Tabel 4. 10 Iterasi ke-10........................................................................................ 37 Tabel 4. 11 Iterasi 1 ............................................................................................... 40 Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42 Tabel 4. 13 Iterasi 2 ............................................................................................... 42 Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43 Tabel 4. 15 Iterasi ke-11........................................................................................ 43 Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44 Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45 Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45 Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49 Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49 Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53 Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means ............................................................................................................................... 55 Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56 Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57 Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58

xi

DAFTAR GAMBAR Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15 Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17 Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20 Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22 Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23

xii

BAB I PENDAHULUAN

1.1 Latar Belakang Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5 [1]. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam berbagai bidang kehidupan masyarakat. Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas (Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas) [4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius mengingat besarnya kerugian yang ditimbulkan.

1

2

Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan, diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2% akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan akibat dari beberapa faktor yang saling tergantung satu sama lain [5]. Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk pelanggaran lainnya [7]. Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya, dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan, kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu lintas [8]. Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota Semarang. Data mining merupakan metode pengolahan data berskala besar,

3

oleh karena itu data mining memiliki peranan penting dalam berbagai bidang. Secara umum kajian data mining membahas metode-metode seperti clustering, klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik antara satu data dengan data yang lain [11]. Salah satu ciri clustering yang baik atau optimal adalah menghasilkan cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan distance measure. Jika menggunakan distance measure yang berbeda maka hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10]. Dalam perkembangan clustering terdapat berbagai algoritma yang salah satunya adalah K-Means. K-Means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster/kelompok dan data yang memiliki karakteristik yang berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [9]. Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita.

4

Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance. Berdasarkan hasil dari latar belakang di atas, penelitian yang akan diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada agar monitoring terhadap keselamatan pengendara di jalan raya dapat diantisiasi sejak dini.

1.2 Rumusan Masalah Berdasarkan

latar

belakang

diatas,

maka

dapat

dirumuskan

permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah.

1.3 Batasan Masalah Batasan permasalahan dalam penelitian ini adalah : 1. Data yang digunakan dalam penelitian ini adalah data sekunder yang berasal dari Polrestabes Kota Semarang. 2. Algoritma yang digunakan dalam penelitian ini adalah K-Means.

5

3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor di Kota Semarang dari tahun 2014-2015. 4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti kecelakaan lalu lintas antar kendaraan bermotor, kendaraan bermotor dengan pejalan kaki. 5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang terjadi di wilayah ruas jalan kota. 6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota Semarang terhadap kecelakaan lalu lintas. 7. Tidak membahas penanggulangan kecelakaan.

1.4 Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada algoritma K-Means yang dapat mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas.

1.5 Manfaat Penelitian Dengan adanya penelitian ini diharapkan dapat : 1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang. 2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama dengan menggunakan algoritma K-Means. 3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam berkendara. 4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota Semarang yang rawan terhadap kecelakaan.

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Penelitian Terkait Tinjauan studi yang menjadi sumber referensi dari penelitian yang penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan beberapa penelitian yang terkait dan relevan dengan penelitian ini. Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam penelitian

ini,

peneliti

menggunakan

metode

clustering

untuk

mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada penggunaan data temporal dalam periode bulanan. Sedangkan dalam penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih bersumber pada deskripsi kejadian dan belum melibatkan data geometri (kondisi fisik) jalan raya [2]. Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans. Dalam penelitian ini penulis menggunakan metode k-means dan manhattan distance sebagai distance measure (perhitungan jarak). Penelitian ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3 cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian, didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat

6

7

cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat dijadikan sebagai acuan dalam klasterisasi kualitas beras [15]. Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita. Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi. Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni (APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar. Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM) dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh.

8

Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari pihak berwenang[16]. Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance.

Tabel 2. 1 Penelitian Terkait No 1

Peneliti

Pembahasan

Metode

Lizda

Iswari Pemanfaatan

dan

Ervina K-Means Untuk Pemetaan

Gita Ayu

Hasil

Hasil

Algoritma K-Means Dalam penelitian ini masih

Klasterisasi

Data

Kecelakaan Lalu Lintas

terbatas

pada

penggunaan

data temporal dalam periode bulanan. Sedangkan dalam penentuan

parameter

klasterisasi yang digunakan dalam penelitian ini masih bersumber

pada

deskripsi

kejadian

dan

belum

melibatkan

data

geometri

(kondisi fisik) jalan raya.

2

Silvi

Clustering Kualitas Beras K-Means

Penelitian ini menggunakan

Agustina,

Berdasarkan

20 data uji, dimana ke-20

Dhimas

Ciri

Fisik

data tersebut dibagi menjadi

9

Yhudo, Hadi Menggunakan Metode K-

3 cluster dengan cluster 1

Santoso,

merupakan beras kualitas

Means

Nofiandi

buruk,

Marnasusanto,

kualitas sedang, dan cluster

Arif

3 beras kualitas baik. Dari

Tirtana,

cluster

2

beras

Fakhris

hasil penelitian, didapatkan

Khusnu

3 pusat cluster akhir yaitu pusat

cluster

1

(5,89333;2,05), pusat cluster 2 (6,28199;2,546), dan pusat cluster

3

(6,96583;2,999167)

serta

dihasilkan validasi sebesar 92,8%

yang

menunjukan

bahwa program ini dapat dijadikan

sebagai

acuan

dalam klasterisasi kualitas beras. 3

Erga Sari

Aprina Penerapan Algoritma K- K-Means

Dari hasil uji coba didapat

Means Untuk Menentukan

kabupaten/kota

Tingkat Kesehatan Bayi

memiliki

dan

Pada

indikator kesehatan tinggi

Kabupaten dan Kota di

yang tingkat kesehatan pada

Jawa Tengah

indikator

Balita

yang

hasil

tersebut

analisa

buruk

karena jumlah penderitanya banyak.

Penanganan

masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi.

10

4.

Firli Irhamni, Optimalisasi

SOM dan Penelitian

Fitri

Pengelompokan

Davies

Damayanti,

Kecamatan

Berdasarkan Bouldin

Bain Khusnul Indikator

Pendidikan

ini

tentang

pengelompokan kecamatan untuk

pemerataan

pendidikan

menggunakan

K, Mifftachul Menggunakan

Metode

indicator pendidikan yang

A

Davies

terdapat

Clustering

dan

Bouldin Index

pasa

suatu

kecamatan sebagai salah satu organisasi

pemerintah.

Parameter

penyebab

keberhasilan

pendidikan

dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah

rendahnya

Angka

Partisipasi

nilai Murni

(APM) dan nilai Angka Partisipasi

Kasar

(APK).

Indikator

lain

yang

mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang

meliputi

jumlah

sekolah, ruang kelas, dan tenaga

pengajar.

Pengelompokan kecamatan berdasarkan

tingkat

pendidikan SMA/SMK/MA tersebut

menggunakan

metode clustering yaitu Self Organizing Map (SOM) dan hasil

clustering

tersebut

11

kemudian metode

diolah Davies

dengan Bouldin

Index(DBI)

untuk

menunjukkan seberapa baik cluster

yang

diperoleh.

Penelitian ini memberikan kontribusi

terhadap

pengambilan kebijakan dari pihak berwenang 5

Mario

Pemilihan

Anggara,

Measure Pada K-Means

Henry Sujiani, Clustering

Distance K-Means

penelitiannya mendapatkan hasil

pengujian

terhadap

Untuk

pengelompokan member di

Helfi Nasution Pengelompokkan Member

alvaro fitness menggunakan

Di Alvaro Fitness

k-means clustering dengan menggunakan

3

distance

macam measure.

Didapatkan bahwa dalam pengujian

silhouette

coefficient

clustering,

Chebyshev

Distance

memiliki

nilai

silhouette

coefficient-nya 0.242821. Euclidean

sebesar Sedangkan

Distance

Manhattan memiliki

dan

Distance nilai

silhouette

coefficient sebesar 0.232149 dan

0.240016.

Hal

itu

menunjukan bahwa distance measure untuk

paling

optimal kasus

12

pengelompokkan member di Alvaro

fitness

Chebyshev Distance.

2.2 Landasan Teori 2.2.1 Kecelakaan Lalu Lintas Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau tanpa pemakai jalan lainnya mengakibatkan korban manusia atau kerugian harta benda [6]. 2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas Suatu tempat dikatakan “daerah” atau “lokasi” apabila diketahui letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya dengan “daerah rawan kecelakaan”, sedangkan Departemen Pemukiman dan Prasana Wilayah menyebutnya dengan “lokasi rawan kecelakaan”. Daerah yang memiliki angka kecelakaan tinggi, resiko kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan dapat disebut juga dengan daerah rawan kecelakaan [18]. Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan apabila [19] : 1. Memiliki angka kecelakaan yang tinggi. 2. Lokasi kejadian kecelakaan relatif bertumpuk. 3. Lokasi kecelakaan berupa persimpangan, atau segmen ruas jalan sepanjang 100 – 300 m untuk jalan perkotaan, atau segmen ruas jalan sepanjang 1 km utnuk jalan antar kota.

adalah

13

4. Kecelakaan terjadi dalam ruang dan rentan waktu yang relatif sama. 5. Memiliki penyebab kecelakaan dengan factor yang spesifik.

2.2.3 Pengertian Jalan Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang berada pada permukaan tanah, diatas permukaan tanah, dibawah permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan rel dan jalan kabel [6]. Jalan dibagi kedalam kelas – kelas bukan hanya didasarkan pada fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini : Tabel 2. 2 Klasifikasi Kelas Jalan Tipe Tipe I

Klasifikasi Klas I

Klas II

Tipe II Klas I

Klas II

Klas III

Keterangan Jalan dengan standar tinggi untuk melayani antar wilayah atau antar kota untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi untuk melayani antar wilayah atau didalam metropolitan untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi, 2 jalur atau lebih untuk antar kota atau dalam kota, kecepatan tinggi, volume lalu lintas tinggi dengan masih ada beberapa pembatas jalan masuk. Jalan dengan standar tinggi, 2 lajur atau lebih untuk melayani antar /dalam kota, kecepatan tinggi, volume lalu lintas sedang dengan/ tanpa pembatas jalan masuk. Jalan dengan standar menengah, 2 lajur atau lebih melayani antas distrik, kecepatan sedang, volume lalu lintas tinggi, tanpa pembatas jalan masuk.

14

Klas IV

Jalan dengan standar rendah, I lajur dua arah sebagai jalan penghubung.

2.2.4 Data Mining Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan bermanfaat bagi pemilik data. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [12] : a. Description (Deskripsi) Peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. b. Estimation (Estimasi) Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang lebih kearah numerik daripada ke arah kategori. c. Prediction (Prediksi) Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu yang belum terjadi). d. Association (Asosiasi) Asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. e. Clustering Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

15

f. Classification (Klasifikasi) Penyusunan data menjadi beberapa kelompok yang ditentukan.

2.2.4.1 Tahap-Tahap Data mining Rangkaian proses data mining dibagi menjadi beberapa tahap yang bersifat interaktif seperti pada gambar 2.1.

Cleaning and Integration

Selection and Transformation

Data Mining

Evaluation and Presentation Knowledge

Data WareHouse Patterns

Gambar 2. 1 Tahap-Tahap Data mining [17]

a. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. b. Cleaning Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan ketik (tipografi).

16

c. Transformation Pengubahan data ke dalam format yang sesuai untuk dapat diproses dalam data mining. Misal, beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal, maka data berupa angka numerik yang berlanjut perlu dibagi menjadi beberapa interval. d. Data mining Proses pencarian pola atau informasi yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. e. Pattern Evaluation Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

2.2.5 CRISP-DM Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler,

SPSS

dan

NCR.

CRISP-DM

menyediakan

standarproses data mining sebagai strategi pemecahan masalah secara umumdari bisnis atau unit penelitian.

17

Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase [12] yaitu : 1. Fase Pemahaman Bisnis (Business Understanding) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulkan data. b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data.

18

d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preparation Phase) a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan (Modelling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitasdan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikan proyek.

19

b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks penyebaran: Penerapan proses data mining secara pararel pada departemen lain. 2.2.6 Clustering Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek yang mempunyai karakteristik yang umum di data yang cukup besar. Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan utama dari metode clustering sehingga dalam setiap cluster akan diisi data yang memiliki tingkat kemiripan yang tinggi [13]. Sebuah cluster adalah kumpulan data yang memiliki kemiripan karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster lain. Clustering bersifat unsupervised learning karena pengelompokan data yang didasarkan pada kesamaan antar objek. 2.2.7 Algoritma K-Means Beberapa teknik clustering yang paling sederhana diantara teknik lainnya adalah Klastering K-Means. K-means merupakan salah satu metode pengelompokan data (clustering) nonhierarki yang termasuk dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk dua atau lebih kelompok. Metode ini mengelompokan data yang berkarakteristik sama menjadi satu kelompok dan data yang berkaraktersitik berbeda dikelompokkan kedalam kelompok lain. Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :

20

Chebyshev Distance 𝑑𝑖𝑗 =

𝑚𝑎𝑥 𝑘

|𝑥𝑖𝑗 − 𝑥𝑗𝑘 |

(2.1)

Dimana : K = Dimensi data 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah.

START

Jumlah K Inisiasi Pusat

Hitung jarak data ke pusat

Kelompokkan data berdasarkan jarak minimum

Pusat cluster lama = pusat cluster baru

Pusat cluster baru tidak ada Selisih Pusat cluster lama dan baru

End

Gambar 2. 3 Flowchart Algoritma K-Means

21

2.2.8 Davies Bouldin Index Davies Bouldin Index merupakan metode evaluasi cluster dari hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif ≥ 0) maka semakin baik cluster yang diperoleh dari pengelompokan KMeans yang digunakan [20]. 𝑁

1 𝑣𝑎𝑟(𝑥) = ∑(𝑥𝑖 − 𝑥̅ )2 𝑁−1

(2.2)

𝑖=1

𝑅𝑖 =

max 𝑅𝑖𝑗 𝑗 = 1, . . 𝑘, 𝑖 ≠ 𝑗

𝑅 𝑖𝑗 =

𝑣𝑎𝑟(𝐶𝑖 ) + 𝑣𝑎𝑟(𝐶𝑗 ) ||𝑐𝑖 − 𝑐𝑗 ||

𝑖≠𝑗

(2.3)

(2.4)

𝑘

1 𝐷𝐵𝐼 = . ∑ 𝑅𝑖 𝑘

(2.5)

𝑖=1

Dimana 𝑥̅

: rata-rata dari cluster x dan N adalah jumlah anggota cluster

Var

: variance dari data

𝐶𝑖

: cluster i dan 𝑐𝑖 adalah centroid dari cluster i

22

2.3 Kerangka Pemikiran Masalah

Studi Pustaka

Bagaimana mengklasterisasi daerah rawan kecelakaan lalu lintas di Kota Semarang

Buku dan Jurnal tentang data mining, algoritma k-means dan daerah rawan kecelakaan

Metode Algoritma K-Means dengan menggunakan chebyshev distance

Penerapan Data Kecelakaan Polrestabes Semarang 2014-2015

Pengembangan Microsoft Excel dan Rapidminer

Pengujian Davies Bouldin Indeks (DBI)

Hasil Pengelompokkan dan penentuan status daerah di Kota Semarang yang rawan terhadap kecelakaan menggunakan chebyshev distance k-means

Gambar 2. 4 Kerangka Pemikiran

BAB III METODE PENELITIAN 3.1 Data Penelitian Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman data Satlantas Polrestabes Kota Semarang :

Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel di bawah ini :

23

24

Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas Atribut

Keterangan

Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan tempat kejadian terjadinya kecelakaan Uraian Singkat Kejadian

Atribut

yang menginformasikan

uraian

singkat terjadinya kecelakaan Korban

Atribut yang menginformasikan jumlah korban pada saat terjadinya kecelakaan tersebut baik koban meninggal dunia, luka berat, luka ringan, serta menjelaskan pula kerugiaan materiil yang didapat akibat terjadinya kecelakaan tersebut

Yang terlibat

Atribut yang menginformasikan pengguna jalan (kendaraan bermotor, pejalan kaki, dsb.) yang terlibat dalam kecelakaan tersebut

Identitas Pengemudi

Atribut yang menginformasikan tentang identitas

korban

yang

terlibat

dalam

kecelakaan tersebut.

Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas

NO 1 2 3 4 5

DATA LAKA LANTAS POLRESTABES SEMARANG BULAN JANUARI S/D DESEMBER 2014 Nama Jalan Jumlah Kecelakaan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Medoho

59 18 1 26 2

Jumlah Kendaraan yang terlibat

Jumlah Korban

116 34 2 55 4

80 25 1 41 2

25

6 7 8 9 10

Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono

3 5 2 2 16

6 10 4 3 32

3.2 Tahapan Penelitian Tahapan analisis data pada penelitian ini menggunakan data kecelakaan lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan data tersebut harus melalui beberapa tahap pengolahan awal data. Agar mendapatkan data yang berkualitas yaitu dengan teknik data cleaning. Tahapan penelitian menggunakan metode Cross Industry Standard Process- Data Mining (CRISP-DM). 1. Tahap Pemahaman Bisnis (Bussines Understanding Phase) Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas karena dengan penelitian ini nantinya dapat digunakan oleh pihak kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau rawan terhadap kecelakaan. 2. Tahap Pemahaman Data (Data Understanding Phase) Pengumpulan data sekunder dilakukan dengan cara mengambil data kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan 2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014 sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang diambil dari bulan januari hingga bulan november yaitu sebanyak 748 kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan identitas korban.

4 6 2 4 25

26

3. Tahapan Pengolahan Data (Data Preparation Phase) Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak semua data dan atribut dapat digunakan, karena masih ada data yang mengandung missing value (memiliki keterangan yang kurang lengkap) oleh karena itu dilakukan cleaning data dan selection data, data reduksi. Cleaning data dan selection data merupakan tahap awal dalam processing data mining. Pembersihan ini dilakukan untuk membuang datadata yang informasi terter, seperti tidak adanya informasi identitas korban, umur, pekerjaan. Data reduksi adalah data yang informative, data dengan record dan jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang terdiri dari 3 atribut yang akan diolah. 4. Fase pemodelan (Modeling Phase) Tahap pemodelan merupakan tahap pengolahan dataset yang dimodelkan dengan algoritma k-means sehingga perhitungan dan Pengelompokan data.  Algoritma K-Means Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut :

27

Chebyshev Distance 𝑑𝑖𝑗 =

𝑚𝑎𝑥 𝑘

|𝑥𝑖𝑗 − 𝑥𝑗𝑘 |

(3.1)

Dimana : K = Dimensi data 𝑥𝑖𝑗 = Data dari jumlah kecelakaan, jumlah kendaraan yang

terlibat, jumlah korban 𝑥𝑗𝑘 =

Centroid

𝑑𝑖𝑗 = Jarak antara 𝑥𝑖𝑗 dan 𝑥𝑗𝑘 dan || adalah nilai mutlak. 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah. 5. Fase Evaluasi (Evaluation Phase) Pada fase ini dilakukan penilaian menggunakan Davies Bouldin Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses clustering tersebut, dengan membandingkan pengelompokan sebanyak 3 klaster menggunakan Chebychev K-Means dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. 6. Fase Penyebaran Fase yang terakhir adalah fase penyebaran dimana data yang telah dievaluasi

diimplementasikan

sehingga

dapat

digunakan

untuk

menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data diuji dengan menggunakan tool rapidminer. Dengan menggunakan pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil clustering yang dilakukan menggunakan perhitungan pada Microsoft

28

Excel dengan Rapidminer dalam penentuan status daerah terhadap kecelakaan lalu lintas di Kota Semarang.

BAB IV ANALISA DAN PEMBAHASAN

4.1

Pengolahan Data 4.1.1

Persiapan Data Dalam penelitian ini data yang digunakan merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas Polrestabes Kota Semarang seperti yang sudah dijelaskan pada Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian: Tabel 4. 1 Pemilihan Atribut Atribut Waktu & Tempat Kejadian

√

(Jumlah Kecelakaan)

4.1.2

Uraian Singkat Kejadian

X

Korban

√

Kendaraan Yang terlibat

√

Identitas Pengemudi

X

Preprocessing Preprocessing yang dilakukan adalah penghapusan data missing value (memiliki keterangan yang kurang lengkap) Pada tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak memiliki keterangan yang kurang lengkap seperti kejadian kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya keterangan identitas korban, umur, pekerjaan, maka jalan tersebut tidak digunakan.

29

30

Dari rekaman data yang diperoleh, semua data terisi sesuai dengan ketentuan tidak ada yang kosong, sehingga semua data yang diperoleh dapat digunakan pada proses selanjutnya. Setelah data yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel sehingga diperoleh hasil simplikasi dan generalisasi seperti yang terlihat dibawah ini : Tabel 4. 2 Data Awal

No 1 2 3 4 5 6 7 8 9 10 116 117 118 119

4.2

Nama Jalan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Raya Medoho Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono -

Prof. Suharso Pawiyatan Luhur IV Tlogosari raya Suratmo

Jumlah Kecelakaan (X1)

Jumlah Kendaraan yang Terlibat (X2)

Jumlah Korban (X3)

103 25 2 51 6 4 12 3 5 32 2

200 48 4 104 11 8 22 6 9 65 4

143 33 2 74 7 5 14 3 7 48 2

2 2 3

4 4 6

2 1 3

Proses Klastering Proses klastering yaitu proses pengelompokan data berdasarkan kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam

31

menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering dengan perhitungan algoritma k-mean sebagai berikut :

4.2.1

Chebychev Distance K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Chebychev Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :

Chebyshev Distance 𝑑𝑖𝑗 =

𝑚𝑎𝑥 𝑘

|𝑥𝑖𝑗 − 𝑥𝑗𝑘 |

(4.1)

Dimana : K = Dimensi data 𝑑11 = max( |103 − 2|, |200 − 2|, |143 − 2|) = 198 Jarak data pertama dengan pusat klaster kedua: 𝑑12 = max( |103 − 3|, |200 − 3|, |143 − 3|) = 197 Jarak data pertama dengan pusat klaster ketiga: 𝑑13 = max( |103 − 4|, |200 − 4|, |143 − 4|) = 196

32

Hasil perhitungan terdapat pada table berikut: Tabel 4. 3 Iterasi 1 Data ke1 2 3 4 5 6 7 8 9 10 . . . . 116 117 118 119

Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) 103 200 25 48 2 4 51 104 6 11 4 8 12 22 3 6 5 9 32 65 . . . . . . . . 2 4 2 4 2 4 3 6

Jumlah Korban (X3) 143 33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3

C1 198 46 2 102 9 6 20 4 7 63 . . . . 2 2 2 4

C2 197 45 1 101 8 5 19 3 6 62 . . . . 1 1 2 3

C3 196 44 2 100 7 4 18 2 5 61 . . . . 2 2 3 2

Anggota klaster C3 C3 C2 C3 C3 C3 C3 C3 C3 C3 . . . . C2 C2 C1 C3

4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua. 5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 = =3 3

𝐶11 = 𝐶12

33

𝐶13 =

1+2+1 = 1.33333333 3

Untuk klaster dua ada 20 data, sehingga:

𝐶21 = 𝐶22 = 𝐶23 =

2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 20 4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 20 2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2 20

= 2.05 =4 = 2.6

Untuk klaster ketiga ada 96 data, sehingga: 103 + 25 + 51 + ⋯ + 4 + 3 + 3 = 13.55208 96 200 + 48 + 104 + ⋯ + 8 + 5 + 6 = = 27.6875 96 143 + 33 + 74 + ⋯ + 4 + 4 + 3 = = 18.38542 96

𝐶31 = 𝐶32 𝐶33

Tabel 4. 4 Centroid baru untuk iterasi 2 Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

C1

2

3

1.33333

C2

2.05

4

2.6

C3

13.55208

27.6875

18.38542

6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi klaster tidak berubah. Tabel 4. 5 Iterasi ke-2 Jumlah Data Kecelakaan ke(X1)

Jumlah Kendaraan yang terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

Claster ke-1 (C1) 197

Claster Claster ke-2 (C2) ke-3 (C3) 196 172.3125

Anggota klaster C3

45

44

20.3125

C3

1

0.6

23.6875

C2

100.2 98.53846 75.21978

C3

34

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

9

5

9

7

10 . . . .

32 . . . .

65 . . . .

48 . . . .

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

7.2 5.538462 17.78022

C2

4.2 2.538462 20.78022

C2

18.2 16.53846

6.78022

C3

2.2 0.538462 22.78022

C2

5.2 4.153846 19.78022

C2

61.2 59.53846 36.21978

C3

. . . .

. . . . . . . . 0.2 1.461538 24.78022

. . . . C1

0.2 1.461538 24.78022

C1

0.866667 1.846154 24.78022

C1

2.2 0.538462 22.78022

C2

Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu menghitung titik pusat klaster baru.

Untuk klaster pertama terdapat 18 data, sehingga:

𝐶11 = 𝐶12 = 𝐶13 =

2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 18 4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4 18 2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1 18

= 2.055556

= 3.833333 = 2.055556

Untuk klaster kedua terdapat 63 data, sehingga: 𝐶21 =

2+6+4+⋯+4+3+3 = 4.539683 63

4 + 11 + 8 + ⋯ + 8 + 5 + 6 = 9.142857 63 2 + 7 + 5 + ⋯+ 4 + 4 + 3 𝐶23 = 5.936508 63

𝐶22 =

35

Untuk klaster ketiga terdapat 38 data, sehingga: 103 + 25 + 51 + ⋯ + 9 + 12 + 9 = 26.97368 38 200 + 48 + 104 + ⋯ + 18 + 25 + 20 𝐶32 = = 55.31579 38 143 + 33 + 74 + ⋯ + 12 + 18 + 11 𝐶33 = = 37.10526 38 𝐶31 =

Tabel 4. 6 Centroid baru untuk iterasi 3

C1 C2 C3

Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

2.055556

4.539683 26.97368

3.833333

2.055556

9.142857

5.936508

55.31579

37.10526

Tabel 4. 7 Iterasi ke-3 Jumlah Data Kecelakaan ke(X1)

Jumlah Kendaraan yang terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

9

5

9

7

10 . . .

32 . . .

65 . . .

48 . . .

Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 196.1667 190.8571 144.6842

Anggota klaster C3

44.16667 38.85714 7.315789

C3

0.166667 5.142857 51.31579

C1

100.1304 94.41379 48.68421

C3

7.130435 1.413793 44.31579

C2

4.130435 1.586207 47.31579

C2

18.13043 12.41379 33.31579

C2

2.130435 3.586207 49.31579

C1

5.130435

0.87931 46.31579

C2

61.13043 55.41379 10.89474

C3

. . .

. . .

. . .

. . .

36

.

.

.

.

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

. . . 0.434783 5.586207 51.31579

. C1

0.434783 5.586207 51.31579

C1

1.434783 5.586207 51.31579

C1

2.130435 3.586207 49.31579

C1

Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu menghitung titik pusat klaster baru.

Untuk klaster pertama terdapat 39 data, sehingga: 2+3+2+⋯+2+2+3 = 2.435897 39 4 + 6 + 4 + ⋯+ 4 + 4 + 6 𝐶12 = = 4.74359 39 2+3+2+⋯+2+1+3 𝐶13 = = 2.948718 39 𝐶11 =

Untuk klaster kedua terdapat 57 data, sehingga:

6 + 4 + 12 + ⋯ + 4 + 6 + 4 = 6.894737 57 11 + 8 + 22 + ⋯ + 8 + 12 + 8 𝐶22 = = 14.07018 57 7 + 5 + 14 + ⋯ + 4 + 8 + 4 𝐶23 = = 8.929825 57 𝐶21 =

Untuk klaster ketiga terdapat 23 data, sehingga:

𝐶31 =

103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21 23

=

37.3913 𝐶32 = 200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43 23

76.52174

=

37

𝐶33 = 143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32 23

=

52.04348 Tabel 4. 8 Centroid baru untuk iterasi 4

C1 C2 C3

Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

2.055556

4.539683 26.97368

3.833333

2.055556

9.142857

5.936508

55.31579

37.10526

Tabel 4. 9 Informasi Centroid akhir Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

C1

4.795699

9.655914

6.16129

C2

20.76471

43.76471

28.58824

C3

61

122.7778

84.66667

Tabel 4. 10 Iterasi ke-10 Jumlah Data Kecelakaan ke(X1)

Jumlah Kendaraan yang terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 190.3441 156.2353 77.22222

Anggota klaster C3

38.34409 4.411765 74.77778

C2

5.655914 39.76471 118.7778

C1

94.34409 60.23529 18.77778

C3

1.344086 32.76471 111.7778

C1

1.655914 35.76471 114.7778

C1

12.34409 21.76471 100.7778

C1

3.655914 37.76471 116.7778

C1

38

9

5

9

7

10 . . . .

32 . . . .

65 . . . .

48 . . . .

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

0.83871 34.76471 113.7778

C1

55.34409 21.23529 57.77778

C2

. . . . . . . . . . . . 5.655914 39.76471 118.7778

. . . . C1

5.655914 39.76471 118.7778

C1

5.655914 39.76471 118.7778

C1

3.655914 37.76471 116.7778

C1

Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.10 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster

39

pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.

4.2.2

Euclidean K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Euclidean Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu :

Euclidean Distance 2

2

2

𝐷(𝑖,𝑗) = √(𝑋1𝑖 − 𝑋1𝑗 ) + (𝑋2𝑖 − 𝑋2𝑗 ) + ⋯ + (𝑋𝑘𝑖 − 𝑋𝑘𝑗 )

dimana: D (i,j) = Jarak data ke i ke pusat cluster j Xki = Data ke i pada atribut data ke k Xkj = Titik pusat ke j pada atribut ke k 𝐷11 = √(103 − 2)2 + (200 − 2)2 + (143 − 2)2 = 263.222 Jarak data pertama dengan pusat klaster kedua: 𝐷12 = √(103 − 3)2 + (200 − 3)2 + (143 − 3)2 = 261.551 Jarak data pertama dengan pusat klaster ketiga: 𝐷13 = √(103 − 4)2 + (200 − 4)2 + (143 − 4)2 = 259.881

(4.2)

40

Hasil perhitungan terdapat pada table berikut: Tabel 4. 11 Iterasi 1 Data ke-

Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

9

5

9

7

10 . . . .

32 . . . .

65 . . . .

48 . . . .

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

C1 C2 C3 263.2223 261.5511 259.8807

Anggota klaster C3

60.04998 58.38664 56.72742

C3

2 1.732051 2.828427

C2

134.1231 132.4613 130.8014

C3

11.04536 9.433981 7.874008

C3

7 5.477226 4.123106

C3

25.37716 23.72762 22.09072

C3

4.242641

3

2.44949

C3

9.110434 7.483315

5.91608

C3

83.57631 81.91459 80.25584

C3

. . . .

. . . . . . . . 2 1.732051 2.828427

. . . . C2

2 1.732051 2.828427

C2

2.236068 4.242641

2.44949 3.605551 3

2.44949

C1 C3

4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua.

41

5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 𝐶12 = =3 3 1+2+1 = = 1.333333 3 𝐶11 =

𝐶13

Untuk klaster kedua terdapat 19 data, sehingga: 𝐶21 =

2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2…+ 2 + 2 + 2 19

= 2.052632 𝐶22 =

4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 19

=4 𝐶23 =

2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2 19

= 2.473684 Untuk klaster ketiga terdapat 97 data, sehingga: 103 + 25 + 51 + ⋯ + 4 + 3 + 3 = 13.43299 97 200 + 48 + 104 + ⋯ + 8 + 5 + 6 = = 27.4433 97 143 + 33 + 74 + ⋯ + 4 + 4 + 3 = = 18.24742 97

𝐶31 = 𝐶32 𝐶32

42

Tabel 4. 12 Centroid baru untuk iterasi 2 Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

C1

2

3

1.33333

C2

2.052632

4

2.473684

C3

13.43299

27.4433

18.24742

Tabel 4. 13 Iterasi 2 Data ke-

Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

9

5

9

7

10 . . . .

32 . . . .

65 . . . .

48 . . . .

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

C1 262.8297

C2 C3 261.446 231.0006

Anggota klaster C3

59.63873

58.2618 27.82108

C3

1.20185 0.476599 30.72914

C2

133.7253 132.3324

101.885

C3

10.58825 9.223299 21.26349

C2

6.51494 5.116104 25.34793

C2

24.92879 23.57554 7.051494

C3

3.574602 2.274756 28.30453

C2

8.781293 7.360334 23.18998

C2

83.19722 81.79542 51.38536

C3

. . . . . . . . . . . . 1.20185 0.476599 30.72914

. . . . C2

1.20185 0.476599 30.72914

C2

1.054093 1.474624

31.2694

C1

3.574602 2.274756 28.30453

C2

43

Tabel 4. 14 Informasi centroid akhir Euclidean Distance Jumlah

Jumlah Kendaraan

Jumlah Korban

Kecelakaan (x1)

yang Terlibat (x2)

(x3)

C1

4.795699

9.655914

6.16129

C2

20.76471

43.76471

28.58824

C3

61

122.7778

84.66667

Tabel 4. 15 Iterasi ke-11 Jumlah Data Kecelakaan ke(X1)

Jumlah Kendaraan yang terlibat (X2)

Jumlah Korban (X3)

1

103

200

143

2

25

48

33

3

2

4

2

4

51

104

74

5

6

11

7

6

4

8

5

7

12

22

14

8

3

6

3

9

5

9

7

10 . . . .

32 . . . .

65 . . . .

48 . . . .

116

2

4

2

117

2

4

2

118

2

4

1

119

3

6

3

Claster Claster ke-1 (C1) ke-2 (C2) 254.1649 210.3857

Claster ke-3 (C3) 105.499

Anggota klaster C3

50.97842 7.439025 97.76073

C2

7.557885 51.38366 156.2784

C1

125.0509 81.26926

23.7988

C3

1.990061 41.92343 146.8039

C1

2.173427 46.00624 150.8964

C1

16.30104 27.62859

132.48

C1

5.155967 48.95422 153.8522

C1

1.084157 43.85388 148.7061

C1

74.52194 30.88667 74.32171

C2

. . . . . . . . . . . . 7.557885 51.38366 156.2784

. . . . C1

7.557885 51.38366 156.2784

C1

8.151332 51.90816 156.8097

C1

5.155967 48.95422 153.8522

C1

44

Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.15 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.

4.3

Proses Menggunakan Rapidminer Setelah melalui proses preprocessing data akan diproses dengan menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan nilai dari setiap variable seperti table berikut. Tabel 4. 16 Data yang diimport ke Rapidminer Jumlah Jumlah Kecelakaan Kendaraan 103

200

Jumlah Korban 143

45

25 2 51 6 4 12 3 5 32 . . . . 2 2 2 3

48 4 104 11 8 22 6 9 65 . . . . 4 4 4 6

33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3

Nantinya data di atas akan diproses menggunakan rapidminer dengan Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel centroid dan tabel hasil clustering sebagai berikut: Tabel 4. 17 Centroid Table Chebychev K-Means Cluster_0 Cluster_1 Cluster_2 4.795698924731183 20.764705882352942 61.0

Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban

9.655913978494624 43.76470588235294

122.77777777777777

6.161290322580645 28.58823529411765

84.66666666666667

Tabel 4. 18 Hasil Klastering Chebychev K-Means No 1 2 3 4 5 6

Id 1 2 3 4 5 6

Cluster cluster_2 cluster_1 cluster_0 cluster_2 cluster_0 cluster_0

Jumlah Kecelakaan 103 25 2 51 6 4

Jumlah Kendaraan yang terlibat 200 48 4 104 11 8

Jumlah Korban 143 33 2 74 7 5

46

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

cluster_0 cluster_0 cluster_0 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_2 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_1 cluster_2 cluster_2 cluster_1 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_2 cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_0 cluster_0

12 3 5 32 58 18 4 16 45 5 25 2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10

22 6 9 65 102 35 8 34 96 9 60 4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20

14 3 7 48 77 24 5 43 59 7 38 2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12

47

43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78

43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78

cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0

76 3 16 11 19 9 3 6 6 21 8 7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12

154 6 35 23 40 20 6 11 12 43 16 14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25

99 4 20 15 27 8 6 8 8 32 10 9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18

48

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114

79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114

cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0

2 9 3 5 3 2 3 2 2 5 3 3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3

4 20 6 10 6 4 7 4 4 10 6 7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5

2 11 3 8 4 2 7 4 3 6 6 4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4

49

115 116 117 118 119

115 116 117 118 119

cluster_0 cluster_0 cluster_0 cluster_0 cluster_0

2 2 2 2 3

4 4 4 4 6

3 2 2 1 3

Tabel 4. 19 Tabel Centroid Euclidean K-Means Cluster_0 Cluster_1 Cluster_2 Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban

20.7647

4.7957

61

43.7647

9.65591

122.778

28.5882

6.16129

84.6667

Tabel 4. 20 Hasil Klastering Euclidean K-Means No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Cluster cluster_2 cluster_0 cluster_1 cluster_2 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_2 cluster_0 cluster_1 cluster_0 cluster_2 cluster_1 cluster_0

Jumlah Kecelakaan 103 25 2 51 6 4 12 3 5 32 58 18 4 16 45 5 25

Jumlah Kendaraan 200 48 4 104 11 8 22 6 9 65 102 35 8 34 96 9 60

Jumlah Korban 143 33 2 74 7 5 14 3 7 48 77 24 5 43 59 7 38

50

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_0 cluster_2 cluster_2 cluster_0 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_2 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_1 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1

2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10 76 3 16 11 19 9 3 6 6 21 8

4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20 154 6 35 23 40 20 6 11 12 43 16

2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12 99 4 20 15 27 8 6 8 8 32 10

51

54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89

54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89

cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1

7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12 2 9 3 5 3 2 3 2 2 5 3

14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25 4 20 6 10 6 4 7 4 4 10 6

9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18 2 11 3 8 4 2 7 4 3 6 6

52

90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119

90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119

cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1

3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3 2 2 2 2 3

7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5 4 4 4 4 6

4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4 3 2 2 1 3

Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2

53

juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table 4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian sebagai berikut: a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan (tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan. b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga, sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17 jalan. c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih tinggi daripada klaster pertama dan klaster kedua, sehingga dapat disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan (sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.

Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan kecelakaan lalu lintas yang tertera pada table 4.21 berikut: Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas Tidak Rawan

Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok, Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto, Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar, Imam Bonjol, Gajah Mada, Purwosari, Citarum raya, Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol

54

Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang, Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng, Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto, Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo, Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja, Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi, Kokrosono,

DI

panjaitan,

Basudewo,

Raden

Patah,

Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman, Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O Simpang Lima, Ketileng Raya, Elang Raya, Manyaran, Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan Luhur IV, Tlogosari raya, Suratmo Rawan

Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang, Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo, Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu, Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang, Untung Suropati

Sangat Rawan

Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta, Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo, Siliwangi, Raya kaligawe

4.4

Pengujian Klastering Pengujian ini dilakukan untuk menentukan jumlah claster paling optimal dalam proses clustering tersebut, dengan membandingkan pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means

55

dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. Berikut merupakan langkah perhitungan Davies Bouldin Index dengan menggunakan persamaan (2.2) sampai (2.5) : 1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster. 2. Cari nilai rata-rata dari masing masing nilai cluster. 3. Hitung variance data dari masing-masing dalam cluster dengan menggunakan persamaan (2.2). 4. Cari R Max dari langkah 2 dan 3. 5. Hasil akhir adalah nilai DBI dari cluster.

Langkah pertama, data yang digunakan dalam langkah ini adalah data yang telah ter-cluster dari Chebychev K-Means dan Euclidean KMeans yang didapat dari perhitungan manual menggunakan Excel. Dalam contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil klasternya : Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11

Jarak Cluster 77.22222 3 4.411765 2 5.655914 1 18.77778 3 1.344086 1 1.655914 1 12.34409 1 3.655914 1 0.83871 1 21.23529 2 20.77778 3

56

12 13 14 15

8.764706 1.655914 14.41176 26.77778

2 1 2 3

Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Jarak 105.499 7.439025 7.557885 23.7988 1.990061 2.173427 16.30104 5.155967 1.084157 30.88667 22.34936 10.27208 2.173427 18.04857 40.39588

Cluster 3 2 1 3 1 1 1 1 1 2 3 2 1 2 3

Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang tertera di table 4.22 1. Cari nilai rata-rata dari masing-masing nilai cluster 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1 =

5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914 7

= 3.878648 4.411765 + 21.23529 + 8.764706 + 14.41176 = 12.20588 4 77.22222 + 18.77778 + 20.77778 + 26.77778 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 3 = = 35.88889 4 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2 =

57

2. Hitung variance data dari masing-masing dalam cluster Cluster1 1 (5.655914 − 3.878648)2 + (1.344086 − 3.878648)2 7−1

𝑣𝑎𝑟 (𝑥) =

+ (1.655914 − 3.878648)2 + (12.34409 − 3.878648)2 + (3.655914 − 3.878648)2 + (0.63671 − 3.878648)2 + (1.655914 − 3.878648)2 = 16.73637

Cluster2 𝑣𝑎𝑟 (𝑥) =

1 (4.411765 − 12.20588)2 + (21.23529 − 12.20588)2 4−1 + (8.764706 − 12.20588)2 + (14.41176 − 12.20588)2 = 52.99539

Cluster3 𝑣𝑎𝑟 (𝑥) =

1 (77.22222 − 35.88889)2 + (18.77778 − 35.88889)2 4−1 + (20.77778 − 35.88889)2 + (26.77778 − 35.88889)2 = 770.8642

3. Cari R max 𝑅123 =

16.73637 + 52.99539 + 770.8642 = 19.01107 ||3.878648 − 12.20588 − 35.88889||

4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya: 𝐷𝐵𝐼 =

1 (19.01107) = 6.337024 3

Dengan langkah yang sama dilakukan pada Euclidean K-Means dan perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat dilihat pada table 4.24. berikut: Tabel 4. 24 Perbandingan Nilai DBI Sample Klaster

Nilai DBI

Chebychev Distance K-Means

6.337024

Euclidean Disance K-Means

9.38884

58

Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer Klaster

Nilai DBI

Chebychev K-Means

0.416

Euclidean K-Means

0.426

Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev KMeans dengan nilai DBI 0.416. 4.5

Hasil Pengujian Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang menggunakan Chebychev K-Means paling optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean Distance (0.426).

BAB V KESIMPULAN DAN SARAN 5.1

Kesimpulan Dari hasil penelitian yang dilakukan, maka dapat disimpulkan bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI) memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling rendah diantara keduanya dinilai paling optimal.

5.2

Saran Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai berikut: 1. Penelitian ini dapat dikembangkan dengan algoritma data mining lainnya

khususnya

algoritma

didalam

teknik

clustering,

membandingkan atau mengkombinasikan dengan algoritma lain untuk mendapatkan hasil yang lebih optimal. 2. Dapat dikembangkan dengan menggunakan system atau apikasi yang menarik dan informatif dalam menyediakan informasi daerah rawan kecelakaan lalu lintas di Kota Semarang.

59

DAFTAR PUSTAKA [1]

Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. “Studi Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam”. Jurnal Karya Teknik Sipil. 2015.

[2]

E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam Indonesia. 2015.

[3]

Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. “Pemetaan Kecelakaan Lalu Lintas Berbasis Klasifikasi Naïve Bayes dengan Parameter Infrastruktur Jalan”.

[4]

Natalis Rans. “Pengaplikasian Algoritma Classification Based on Predictive Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas (Studi pada Kepolisian Daerah Sulawesi Tenggara)”. Universitas Gadjah Mada. Yogyakarta. 2014.

[5]

International Labour Organization, "A. Worker's Education Manual International Labour Office," Accident Prevention , 1998.

[6]

“Undang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan (LLAJ),”2009.

[7]

Aztria Dharma. “Identifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan Dalu-dalu sampai Pasir Pengaraian)”. Universitas Pasir Pengaraian.

[8]

H. M. T. R. P. Simanungkalit, Y. Aswad. “Analisa faktor penyebab kecelakaan

lalu

lintas

di

ruas

jalan

Sisingamangaraja

Kota

Medan”.Universitas Sumatera Utara. 2014. [9]

J. O. Ong, “Implementasi Algotritma K-means clustering untuk menentukan strategi marketing president university,” Jurnal Ilmiah Teknik Industri vol.12, 2013.

[10] M. Anggara, H. Sujiani, H. Nasution, “Pemilihan Distance Measure Pada KMeans Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,” vol. 1, no. 1, pp. 1–6, 2016.

60

61

[11] D. Sinwar, R. Kaushik, “Study of Euclidean and Manhattan Distance Metrics using Simple K-Means Clustering,” Int. J. Res. Appl. Sci. Eng. Technol., vol. [12, no. 5, pp. 270–274, 2014. [12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons, Inc. [13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. [14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah". Universitas Dian Nuswantoro. Semarang. 2015. [15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu, “Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans Algorima,” Clust. K-Means, pp. 1–7, 2012. [16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., “Optimalisasi Pengelompokan

Kecamatan

Berdasarkan

Indikator

Pendidikan

Menggunakan Metode Clustering dan Davies Bouldin Index,” Universitas Trunojoyo. Madura. 2014. [17] Irwan Budiman. “ Data Clustering Menggunakan Metodologi CRISP-DM untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma,” Universitas Diponegoro. 2012. [18] Bayu Pramadya K.S. “Analisis Penentuan Lokasi Rawan Kecelakaan Lalu Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator Kerawanan),” Universitas Jember. 2012. [19] Isa Al Qurni. “ Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional Kabupaten Kendal,” Universitas Negeri Semarang. 2013. [20] Alith Fajar M. “Klasterisasi Proses Seleksi Pemain Menggunakan Algoritma K-Means,” Universitas Dian Nuswantoro. Semarang. 2015