Gemastik [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

PEMODELAN TOPIK DATA TWITTER BMKG MENGGUNAKAN METODE PEMODELAN LATENT DIRICHLET ALLOCATION (LDA)



Disusun Oleh: 1. Karimah 2. Silfa Kurnia Aditya 3. Syifa Tri Gardini



JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA YOGYAKARTA 2017



KATA PENGANTAR



Assalamualaikum Wr. Wb. Puji syukur kehadirat Allah SWT yang telah melimpahkan Rahmat, Hidayah, serta Karunia-Nya, sehingga makalah Gemastik Data mining dengan tema “Deep Learning from Big Data for Big Insight and Big Solution for Indonesia” dapat terselesaikan dengan baik dan Alhamdulillah dengan hasil yang memuaskan atas izin Allah SWT. Dalam penulisan makalah, penulis mengalami beberapa kesulitan dan hambatan. Terbatasnya kemampuan, pengetahuan, dan wawasan menjadi hambatan besar dalam penyusunan laporan akhir ini. Namun berkat kerja keras dan dukungan dari berbagai pihak, pada akhirnya penulis dapat menyelesaikan dengan semaksimal mungkin. Oleh karena itu dalam kesempatan ini penulis mengucapkan terimakasih kepada: 1. Allah SWT, untuk semua kesempatan, rakhmat, karunia, nikmat dan ridho Nya sehingga diberi kelancaran serta kemudahan untuk menyelesaikan makalah Gemastik Data mining ini. 2. Kedua orang tua dan keluarga, terimakasih selalu memberikan dukungan baik moral maupun financial dan selalu mendoakan saya. 3. Bapak Nandang Sutrisno, SH., LL.M., M.Hum., Ph.D, selaku rektor Universitas Islam Indonesia. 4.



Bapak Imam Djati Widodo, Dr. M.Eng.Sc selaku dekan Fakultas Teknologi Industri Universitas Islam Indonesia.



5. Bapak Hendrik, S.T., M.Eng. selaku ketua jurusan Teknik Informatika Universitas Islam Indonesia. 6. Ahmad Fathan Hidayatullah, S.T., M.Cs.. selaku dosen pembimbing Gemastik Data mining Teknik Informatika Universitas Islam Indonesia.



ii



7. Teman-teman seperjuangan serta seluruh pihak yang ikut membantu, baik secara langsung maupun tidak langsung. Penulis hanya bisa berdoa, semoga Allah membalas kebaikan-kebaikan mereka dengan setimpal. Amin. Saran dan kritik yang membangun penulis harapkan dapat memberikan manfaat bagi peningkatan penulis di masa yang akan datang. Semoga makalah ini kelak dapat memberikan manfaat bagi penulis khususnya dan pembaca umumnya. Aamiin. Wassalammu’alaikumWr. Wb.



`



Yogyakarta, 8 September 2017



Penyusun



iii



DAFTAR ISI



KATA PENGANTAR .................................................................................................... ii DAFTAR ISI................................................................................................................. iv 1.1.



Latar Belakang ............................................................................................... 1



1.2.



Tujuan Penelitian ............................................................................................ 2



1.3.



Manfaat Penelitian .......................................................................................... 3



1.5.



Sistematika Penulisan...................................................................................... 3



BAB II ........................................................................................................................... 5 METODOLOGI PENELITIAN ..................................................................................... 5 2.1.



Identifikasi Masalah ........................................................................................ 5



2.2.



Metode LDA (Latent Dirichlet Allocation) ........................................................ 6



2.3.



Persiapan Data ................................................................................................ 7



2.4.



Pembentukan Topic modeling .......................................................................... 8



BAB III .......................................................................................................................... 9 DESAIN DAN IMPLEMENTASI .................................................................................. 9 3.1.



Preprocessing................................................................................................... 9



3.2.



Pra-Proses Data ............................................................................................ 10



3.2.1.



Mengkonversi Dokumen ke Dalam bentuk List ..................................... 10



3.2.2.



Mengkonversi Dokumen ke Dalam bentuk Dictionary ........................... 11



3.2.3.



Mengkonversi Dictionary dan List ke dalam Matriks Dokumen ............. 11



3.3.



Pemodelan Topik dengan Latent Dirichlet Allocation .................................... 11



3.3.1



Pembentukan Model Topik dengan Latent Dirichlet Allocation .............. 11



3.3.2



Eksperimen Pemodelan Topik dengan LDA........................................... 12



BAB IV ........................................................................................................................ 13 ANALISIS ................................................................................................................... 13 4.1.



Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation ............ 13



4.2. Penjelasan Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation ................................................................................................................. 15 4.1.



Kesimpulan ................................................................................................... 18 iv



4.2.



Saran ............................................................................................................. 18



v



BAB I PENDAHULUAN 1.1. Latar Belakang Sosial media adalah istilah yang tidak hanya mencakup berbagai platform media baru, tetapi juga menyiratkan dimasukkannya sistem seperti FriendFeed, Facebook, dan Twitter yang pada umumnya dianggap sebagai jejaring sosial (Hopkins, 2008). Sosial media menjadi media komunikasi publik yang sudah tidak asing lagi bagi umat manusia di seluruh dunia khususnya Indonesia. Salah satu sosial media yang banyak dimanfaatkan masyarakat adalah Twitter. Selain untuk bertukar informasi, Twitter juga memungkinkan pengguna untuk menuliskan pesan atau tweets. Selain itu, kita dapat mengetahui topik yang sedang banyak dibicarakan oleh pengguna Twitter. Pengguna Twitter hanya dapat mengirim dan membaca pesan blog seperti pada umumnya dengan batas maksimal sejumlah 140 karakter, pesan tersebut dikenal dengan tweet [1]. Penelitian ini memanfaatkan data Twitter yang terdiri dari data mentah dan data bersih hasil preprocessing. Tweet yang digunakan berasal dari beberapa akun BMKG yang memberikan info tentang bencana, cuaca, dan iklim di beberapa wilayah di Pulau Jawa. Data tersebut kemudian dilakukan proses analis dan ekstraksi data pada Twitter. Hal tersebut bertujuan untuk menentukan topik permasalahan yang sedang diperbincangkan. Proses ekstraksi dan analisis dilakukan melalui empat tahapan, yaitu: proses penarikan data (crawling), penyimpanan (storing), analisis (analyzing), dan visualisasi (vizualizing) [2]. Selanjutnya dilakukan pemodelan topik dengan menggunakan teknik topic modeling dan deep learning dengan metode Latent Dirichlet Allocation (LDA). Setiap postingan atau tweets memiliki keanekaragaman kata yang berbedabeda. Sementara itu, saat ini Twitter menjadi sarana untuk menggerakan masa dan menyalurkan aspirasi masyarakat kepada pemerintah mengenai politik, ekonomi,



1



sosial budaya dan masih banyak lagi. Sebaliknya pemerintah bisa mendapatkan timbal balik untuk mengetahui keinginan masyarakat dan meningkatkan kerjanya. Namun, terdapat beberapa permasalahan seperti kesulitan untuk memahami makna atau arti dari tweets yang dibuat, sehingga tidak mudah untuk menentukan sebuah topik permasalahan yang sedang ramai diperbincangkan. Dengan melakukan topic modeling diharapkan akan diperoleh informasi mengenai topik apa saja yang diinformasikan oleh BMKG kepada masyarakat melalui Twitter. Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan representasi dokumen berupa kata-kata kunci dari dokumen [3]. Kata-kata kunci tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen untuk ditemukan kembali sesuai kebutuhan pengguna [3]. Untuk memodelkan probabilistik generatif pada sekumpulan data teks (corpus) digunakan sebuah metode yang dinamakan Latent Dirichlet Allocation (LDA). LDA adalah model Bayesian Hirarki, di mana sekumpulan data teks dimodelkan sebagai model campuran dari berbagai topik [4]. 1.2. Tujuan Penelitian Adapun tujuan dari penelitian ini adalah: 1. Melakukan pemodelan topik pada data tweet BMKG untuk mengetahui topiktopik terkait bencana, iklim, dan cuaca di Pulau Jawa. Topik yang diperoleh diharapkan dapat menggambarkan permasalahan dan informasi penting terkait BMKG yang sering terjadi di Pulau Jawa. 2. Menerapkan metode Latent Dirichlet Allocation (LDA) untuk melakukan pemodelan topik pada tweet yang di-posting oleh akun Twitter BMKG. 3. Mengaplikasikan model Latent Dirichlet Allocation (LDA) untuk mendapatkan topik permasalahan yang banyak diperbincangkan masyarakat di Twitter.



2



1.3. Manfaat Penelitian Adapun manfaat dari penelitian ini adalah: 1. Mendapatkan topik utama terkait bencana, cuaca, dan iklim di Pulau Jawa pada data tweet BMKG. 2. Mengetahui cara untuk melakukan pemodelan topik dengan menerapkan metode Latent Dirichlet Allocation (LDA) pada data tweet yang di-posting oleh akun Twitter BMKG. 3. Membantu pemerintah pada khususnya dan kalangan lainnya untuk mengetahui topik permasalahan yang sedang diperbincangkan.



1.4. Batasan yang digunakan Adapun batasan yang digunakan untuk penelitian ini adalah: 1. Data bersumber dari beberapa akun Twitter resmi BMKG di daerah di Pulau Jawa. 2. Penelitian ini hanya menggunakan metode LDA untuk melakukan topic modeling.



1.5. Sistematika Penulisan Guna memahami lebih jelas sistematika penulisan penelitian ini, dilakukan dengan cara mengelompokkan materi menjadi beberapa sub-bab dengan sistematika penulisan sebagai berikut : BAB I



PENDAHULUAN Bab ini berisi latar belakang masalah, tujuan, manfaat, batasan masalah yang digunakan dalam sistematika penulisan penelitian ini.



BAB II



METODOLOGI Bab ini berisi analisis metode data mining yang digunakan untuk pemodelan topik menggunakan LDA (Latent Dirichlet Allocation),



3



diantaranya yaitu identifikasi masalah, metode LDA (Latent Dirichlet Allocation, mempersiapkan data, menganalisis topic modeling. BAB III



DESAIN DAN IMPLEMENTASI Berisi preprocessing, praprocess data seperti mengkonversi dokumen ke dalam bentuk list, mengkonversi dokumen ke dalam bentuk dictionary, mengkonversi dictionary dan list ke dalam matriks dokumen, serta berisi pemodelan topik dengan Latent Dirichlet Allocation yang terdiri dari eksperimen pemodelan topik dengan LDA, dan pembentukan model topik dengan Latent Dirichlet Allocation.



BAB IV



ANALISIS Berisi hasil pembentukan model topik dengan Latent Dirichlet Allocation.



BAB V



KESIMPULAN Bab ini berisi kesimpulan dari pembahasan pada bab sebelumnya dan saran atas kekurangan dari hasil penelitian yang telah dilakukan.



4



BAB II METODOLOGI PENELITIAN Bab ini akan dijelaskan tentang metodologi penelitian yang akan digunakan dalam penyusunan makalah Gemastik Data Mining. Adapun urutan dari pengerjaan makalah Data mining dapat dilihat pada Gambar 1. Gambar 1. Langkah-langkah metodologi Penelitian



Identifikasi Masalah



2.1.



Metode LDA (Latent Dirichlet Allocation)



Mempersiapkan Data



Menganalisis Topik Modeling



Identifikasi Masalah Tahap identifikasi masalah ini diambil dari hasil observasi beberapa akun



BMKG. Hasil observasi menunjukan bahwa setiap postingan atau tweets memiliki keanekaragaman kata yang berbeda-beda dan topiknya pun sangat beragam dan selalu berubah-ubah dengan cepat. Sehingga terjadilah kesulitan untuk memahami makna atau arti dari tweets yang dibuat, sehingga tidak mudah untuk menentukan sebuah topik permasalahan yang sedang ramai diperbincangkan. Berdasarkan dari kondisi tersebut, maka dirasa perlu untuk melakukan pemodelan topik yang diharapkan akan diperoleh informasi mengenai topik apa saja yang diinformasikan oleh BMKG kepada masyarakat melalui Twitter.



5



2.2.



Metode LDA (Latent Dirichlet Allocation) Tahap ini dilakukan dengan tujuan agar dapat memahami konsep serta metode



LDA sehingga sesuai dengan permasalahan yang telah diidentifikasi dan dapat memecahkan solusi yang akan digunakan dalam makalah Data mining Gemastik ini. Penelitian ini menggunakan metode LDA (Latent Dirichlet Allocation) untuk melakukan pemodelan topik. LDA merupakan model yang digunakan untuk menemukan struktur tematik pada sebuah dokumen . Tujuan dari LDA adalah untuk mengambil data dari dokumen yang kemudian data tersebut digunakan untuk menentukan topik. Topik tersebut adalah sebuah entitas yang mencoba untuk mengukur interaksi antar kata [5]. Diasumsikan bahwa setiap kata di sebuah dokumen telah diberi warna yang bersesuaian dengan definisinya, dan warna tersebut merepresentasikan topik [5]. Berikut ini merupakan ilustrasi dari metode LDA.



Gambar 2. Contoh Model Metode LDA [5] Setelah melakukan pewarnaan, kemudian dilakukan pendistribusian topik. Dapat dikatakan bahwa sebuah dokumen dihasilkan dari pendistribusi topik yang telah dilakukan dan dokumen tersebut direpresentasikan sebagai topik. Ide dasarnya adalah bahwa dokumen dapat direpresentasikan sebagai model campuran dari berbagai topik



6



yang disebut juga laten, di mana setiap topik dikarakateristikan oleh kata [4]. (Blei, 2012) merepresentasikan metode LDA sebagai model probabilistic secara visual seperti pada berikut:



Gambar 3. Visualisasi Topic modeling dengan Metode LDA [5] Sesuai visualisasi model di atas, terdapat tiga tingkatan pada LDA Modeling [6]. Parameter α dan β digunakan untuk pendistribusian topik di tingkat corpus, variabel θ merepresentasikan distribusi topik untuk dokumen, dan variabel Z dan W adalah variabel merepresentasikan topik dari kata.



2.3.



Persiapan Data Penelitian ini menggunakan bahasa pemrograman Python 2.7.0 dengan library



NLTK, numpy, sklearn, pandas, matplotlib, scrapy, tweepy, jsonpickle dan tweetpreprocessor. Data tweet diperoleh secara berkala menggunakan Twitter API v1.1. Code python ditulis menggunakan editor notepad++ dan disimpan dengan format ekstensi .py. Code tersebut kemudian dieksekusi menggunakan command prompt pada Windows. Data yang telah didapat kemudian disimpan dengan format ekstensi .txt. 7



Sebanyak 19066 data yang telah didapat kemudian dilakukan proses preprocessing. Berikut ini rincian data twitter dari 8 akun yang dijutunjukan pada Tabel 1. Tabel 1. Rincian Data Twitter



No



2.4.



Nama Akun



Jumlah Data



1.



@infoBMKG



3206



2.



@BMKGjogja



3249



3.



@BMKG_semarang



3241



4.



@BMKGBandung



761



5.



@BMKG_bwi



3241



6.



@stageof_bji



1450



7.



@BMKG_juanda



3229



8.



@InaTEWS



689



Pembentukan Topic modeling Tahap pembentukan topic modeling bertujuan untuk menghasilkam model



topik yang paling tepat dari hasil pengolahan data. Model topik dikatakan tepat apabila mampu menghasilkan luaran yang baik pada tahap validasi model topik [6]. Untuk menghasilkan model topik yang tepat, hal yang dilakukan adalah dengan melakukan eksperimen pada nilai input parameter [6]. Parameter yang digunakan adalah number of topics dan words in topic. Parameter number of topics menentukan jumlah topik dalam satu dokumen, sementara parameter number of words in topic menunjukkan jumlah kata penyusun topik [6].



8



BAB III DESAIN DAN IMPLEMENTASI 3.1. Preprocessing Preprocessing dalam text mining bertujuan untuk mempersiapkan data sebelum diproses pada langkah selanjutnya [7]. Selain itu preprocessing dilakukan untuk menghindari data yang kurang sempurna, gangguan pada data, dan data-data yang tidak konsisten (Hemalatha, dkk, 2012) [1]. Tahapan text preprocessing pada penelitian ini diantaranya tokenization yaitu tahap pemotongan string input berdasarkan kata yang menyusunnya (Nugroho, 2011), case folding yaitu menyeragamkan bentuk huruf menjadi huruf besar atau huruf kecil [1], menghapus tag HTML tags dan karakter Unicode, menghapus emoticon, menghapus karakter non ASCII, menghapus karakter khusus Twitter (@username, RT, #hashtag,), menghapus URL seperti (http://www.alamat.com), menghapus tanda baca, menghapus angka, dan remove stopword yaitu menghilangkan kata yang tidak memiliki pengaruh signifikan dalam kalimat tersebut. Berikut ini merupakan gambaran proses pre-processing:



Gambar 4. Proses Preprocessing [9]



9



Berikut ini merupakan hasil preprocessing dari data tweets BMKG:



Gambar 5. Data sebelum dilakukan preprocessing



Gambar 6. Data setelah dilakukan preprocessing



3.2. Pra-Proses Data 3.2.1. Mengkonversi Dokumen ke Dalam bentuk List



10



Tahap selanjutnya adalah tahap mengkonversi dokumen yang sudah bersih ke dalam bentuk list, tujuan dari tahap ini adalah menyimpan data yang sudah di preprocessing ke dalam bentuk list. list tersebut diberi nama ‘texts’. 3.2.2. Mengkonversi Dokumen ke Dalam bentuk Dictionary Tahap selanjutnya adalah tahap mengkonversi dokumen ke dalam bentuk dictionary, tujuan dari tahap ini adalah menyimpan data yang sudah bersih ke dalam bentuk dictionary. Setelah itu, memberikan indeks yang berfungsi untuk mengidentifikasi kata tersebut. Dalam melakukan konversi dokumen ke dalam bentuk dictionary digunakan library gensim dengan modul corpora. Agar lebih mempermudah, simpan file dictionary dengan nama ‘dictionary.dict’. 3.2.3. Mengkonversi Dictionary dan List ke dalam Matriks Dokumen Tahap selanjutnya adalah tahap mengkonversi dictionary kedalam matriks dokumen, yang disebut corpus. Library yang digunakan yaitu gensim dengan modul corpora. Setelah corpus berhasil, kemudian corpus akan disimpan dengan nama ‘corpus.mm’. 3.3. Pemodelan Topik dengan Latent Dirichlet Allocation Tahapan pemodelan topik dengan Latent Dirichlet Allocation merupakan tahapan yang dilakukan untuk membentuk model topik. Ada dua hal dalam tahapan ini, yaitu pembentukan model topik dengan Latent Dirichlet Allocation, dan eksperimen pemodelan topik dengan LDA. 3.3.1



Pembentukan Model Topik dengan Latent Dirichlet Allocation Pada tahap pembentukan model topik library yang digunakan adalah



gensim dengan modul models. Dalam pembentukan model topik, diperlukan input parameter, yaitu jumlah topic (num_topics), jumlah kata dalam topik (num_words), dan passes. Yang dimaksud dengan passes adalah jumlah iterasi dalam pembentukan model topik. Ketiga input parameter ini nantinya akan 11



dilakukan eksperimen untuk mencari nilai perplexity yang optimal. Nilai perplexity yang semakin kecil menunjukkan model yang dibentuk semakin baik. 3.3.2



Eksperimen Pemodelan Topik dengan LDA Tahap eksperimen pemodelan topik dengan Latent Dirichlet Allocation



merupakan tahapan yang dilakukan untuk membentuk model topik terbaik dengan melakukan eksperimen pada input parameter, yaitu passes (jumlah iterasi), dan jumlah topik. Sehingga eksperimen akan dibedakan kedalam dua tahap, yaitu penentuan jumlah iterasi dan penentuan jumlah topik. 1) Untuk menentukan jumlah iterasi, tahan ini adalah tahapan yang penting ketika akan menentukan model. Untuk mendapatkan model yang terbaik, jika jumlah iterasi terlalu sedikit maka hasil model yang diperoleh belum stabil dan underfitting(bila model terlalu sederhana, maka error himpunan training dan test errors), jika iterasi terlalu banyak maka model yang diperoleh overfitting (bila model terlalu kompleks, seperti memiliki terlalu banyak parameter). Untuk menentukan jumlah iterasi (passes). 2) Setelah menentukan jumlah iterasi, eksperimen dilakukan pada jumlah topik. Tahap ini merupakan bagian penting untuk menghasilkan akurasi model yang lebih baik. Penentuan jumlah topik diawali dengan memberikan nilai pada num_topics. Sebagai contoh apabila num_topics diberikan nilai 10, maka jumlah topik yang dihasilkan adalah 10 dimulai dari topik 0 hingga topik 10.



12



BAB IV ANALISIS 4.1. Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation Berikut ini merupakan contoh hasil pemodel topik yang dilakukan dengan eksperimen input parameter num_topics sejumlah 10, num_words sejumlah 10, dan passes sejumlah 50 yang ditunjukkan pada gambar 7. Gambar tersebut merupakan bentuk visualisasi untuk masing-masing topik. Visualisasi topik ini terdiri dari dua bagian, bagian kiri merepresentasikan topik secara global dimana topik digambarkan dengan lingkaran dua dimensi yang pusat lingkarannya ditentukan oleh komputasi jarak antar topik menggunakan penskalaan multidimensional. Bagian kanan menggambarkan grafik batang dimana setiap batangnya merepresentasikan istilah yang paling relevan untuk menggambarkan sebuah topik. Lapisan yang terdapat pada grafik batang mewakili frekuensi spesifik topik dari istilah tersebut. Bagian kanan dan kiri saling berhubungan untuk menafsirkan topik yang telah dipilih. Gambar 7 merupakan bentuk visualisai pemodelan topik 6 (lingkaran 1) yang menghasilkan 30 term yang relevan diantaranya adalah gempa, info, BMKG, wib, mag, sr, lok, kedlmn, bt, ls, baratdaya, jateng, jatim, tenggara, pgr, dirasakan, pusat, vii, laut, kab, cilacap, pacitan, sep, mar, aug, jul, baratlaut, jun, barat dan bandung, sehingga dari 30 term tersebut akan menghasilkan sebuah topik.



13



Gambar 7. Hasil visualisasi pemodelan topik 6



Berikut ini hasil pembentukan model topik Latent Dirichlet Allocation yang menampilan nilai perplexity dengan num_topics sejumlah 10, num_words sejumlah 10, dan passes sejumlah 50 yang ditunjukan pada Tabel 2. Untuk perhitungan perplexity, sudah termasuk dalam package gensim pada bahasa python secara otomatis. Perplexity berfungsi untuk menghitung rata-rata jarak geometris dari matriks data yang mewakili setiap kata dengan menggunakan potongan dokumen corpus. Tabel 2. Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation



Topik 1



Topik 2



Topik 3



Topik 4



0.175*"wilayah" 0.142*"cuaca" 0.134*"BMKG"



0.129*"maret" 0.093*"juni" 0.084*"hujan"



0.116*"stasiun" 0.115*"oktober" 0.084*"hujan"



0.054*"kemalajateng" 0.048*"retweeted" 0.048*"gempabumi"



0.132*"peringatan"



0.049*"berpotensi"



0.064*"curah"



0.036*"jatenggayeng"



0.085*"jawa"



0.040*"terjadi"



0.055*"meteorologi"



0.020*"kamis"



14



0.076*"timur" 0.055*"april"



0.033*"wilayah" 0.027*"ekstrem"



0.049*"semarang" 0.037*"gelombang"



0.018*"foto" 0.017*"facebook"



0.024*"desember" 0.020*"juli" 0.020*"jambi"



0.027*"infoiklimjogja" 0.024*"indonesia" 0.021*"potensi"



0.031*"tinggi" 0.029*"distribusi" 0.028*"tertinggi"



0.017*"tsunami" 0.016*"memasang" 0.016*"maturnuwun"



Topik 5 0.154*"sumber" 0.073*"kota"



Topik 6 0.092*"gempa" 0.064*"info"



Topik 7 0.149*"prakiraan" 0.126*"berlaku"



Topik 8 0.161*"jawa" 0.156*"cuaca"



Topik 9 0.152*"BMKG" 0.122*"wilayah"



0.067*"wil"



0.063*"BMKG"



0.120*"cuaca"



0.153*"tengah"



0.122*"cuaca"



0.056*"evaluasi"



0.061*"wib"



0.107*"mulai"



0.122*"prakiraan"



0.120*"peringatan"



0.048*"via" 0.039*"prakicu" 0.034*"adipala"



0.061*"mag" 0.061*"sr" 0.057*"lok"



0.072*"banjarnegara" 0.050*"september" 0.049*"tanggal" 0.048*"agustus" 0.046*"wib" 0.039*"provinsi"



0.065*"selatan" 0.039*"kalimantan" 0.037*"sumatera"



0.032*"jabar" 0.028*"meteor" 0.027*"termsk"



0.052*"kedlmn" 0.052*"bt" 0.048*"ls"



0.034*"ii" 0.025*"sig" 0.024*"mmi"



0.034*"peringatan" 0.035*"jabodetabek" 0.029*"mei" 0.034*"barat" 0.027*"berlaku" 0.031*"mei"



4.2. Penjelasan Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation Berikut ini merupakan penjelasan hasil pembentukan topic modeling dengan menggunakan Latent Dirichlet Allocation: 1) Topik 0 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “pukul” yaitu 0.194. Sehingga dapat disimpulkan, bahwa Topik 0 merepresentasikan topik tentang waktu terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 2) Topik 1 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “wilayah” yaitu 0.175. Sehingga



15



dapat disimpulkan, bahwa Topik 1 merepresentasikan topik tentang wilayah terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 3) Topik 2 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “maret” yaitu 0.129. Sehingga dapat disimpulkan, bahwa Topik 2 merepresentasikan topik tentang maret, bulan terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 4) Topik 3 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “stasiun” yaitu 0.116. Sehingga dapat disimpulkan, bahwa Topik 3 merepresentasikan topik tentang stasiun terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 5) Topik 4 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “kemalajateng” yaitu 0.054. Sehingga dapat disimpulkan, bahwa Topik 4 merepresentasikan topik tentang kemalajateng. 6) Topik 5 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “sumber” yaitu 0.154. Sehingga dapat disimpulkan, bahwa Topik 5 merepresentasikan topik tentang sumber terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 7) Topik 6 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “gempa” yaitu 0.092. Sehingga dapat disimpulkan, bahwa Topik 6 merepresentasikan topik tentang gempa yang terjadi. 8) Topik 7 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “prakiraan” yaitu 0.149. Sehingga dapat disimpulkan, bahwa Topik 7 merepresentasikan topik tentang prakiraan terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 9) Topik 8 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “jawa” yaitu 0.161. Sehingga dapat



16



disimpulkan, bahwa Topik 8 merepresentasikan topik tentang pulau jawa ketika terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain. 10) Topik 9 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat diketahui perplexity terbesar ada pada kata “BMKG” yaitu 0.152. Sehingga dapat disimpulkan, bahwa Topik 9 merepresentasikan topik tentang BMKG ketika terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lainlain.



17



BAB V KESIMPULAN Pada bab ini dibahas mengenai kesimpulan dari semua proses yang telah dilakukan dan saran yang dapat diberikan untuk pengembangan yang lebih baik. 4.1. Kesimpulan Kesimpulan yang didapatkan dari proses pengerjaan makalah Gemastik Data Mining yang telah dilakukan adalah dari hasil pemodelan topik data tweet BMKG adalah: 1)



Terdapat 10 topik yang menggambarkan permasalahan dan informasi terkait BMKG. 10 topik tersebut adalah waktu, wilayah, maret (bulan), stasiun, kemalajateng, sumber, gempa, prakiraan, jawa, dan BMKG.



2)



Model Latent Dirichlet Allocation (LDA) merupakan metode yang cocok untuk melakukan pemodelan topik.



3)



Melalui Latent Dirichlet Allocation (LDA) didapatkan topik permasalahan yang banyak diperbincangkan masyarakat di Twitter.



4.2. Saran Dari pengerjaan makalah Gemastik Data Mining ini, terdapat beberapa saran untuk pengembangan penelitian ke depan. 1) Data yang digunakan sebaiknya dalam jumlah banyak dan besar dan bersumber tidak hanya dari Twitter tetapi dari beberapa media sosial yang lain yang lebih kompleks agar hasil yang diperoleh lebih bervariasi dan lebih akurat. 2) Untuk memperoleh hasil yang lebih optimal diperlukan suatu normalisasi katakata



penting



sebelum



dilakukan



pemodelan



topik,



sebagai



contoh



menormalisasi kata tidak baku menjadi baku seperti yg menjadi yang, dgn menjadi dengan, dan masih banyak lagi.



18



DAFTAR PUSTAKA [1]



Hidayatullah, Ahmad Fathan, and Azhari SN Azhari. "Analisis sentimen dan klasifikasi kategori terhadap tokoh publik pada Twitter." Seminar Nasional Informatika (SEMNASIF). Vol. 1. No. 1. (2015).



[2]



Kumar, Shamanth, Fred Morstatter, and Huan Liu. Twitter data analytics. New York: Springer, (2014).



[3]



Pravitasari, Anindya Apriliyanti. "Penggunaan Probabilistic Latent Semantic Analysis (PLSA) pada Pengelompokan Data Teks." Biastatistika 9.2 (2016): 2227.



[4]



Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). "Indexing by latent semantic analysis." Journal of the American society for information science 41.6 (1990), 391.



[5]



Blei, David M. "Probabilistic topic models." Communications of the ACM 55.4 (2012): 77-84.



[6]



Made Kusnanta Bramantya Putra, I. “Analisis Topik Informasi Publik Media Sosial di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation (LDA)”. Skripsi. Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh November. ( 2017).



[7]



Hidayatullah, Ahmad Fathan. "Pengaruh Stopword terhadap Performa Klasifikasi Tweet Berbahasa Indonesia." JISKa Jurnal Informatika Sunan Kalijaga 1.1 (2016).



[8]



Putra, Riky Sutriadi. "Analisis Sentimen Twitter dengan Klasifikasi Naïve Bayes menggunakan Seleksi Fitur Mutual Information dan Inverse Document Frequency." Skripsi. Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. (2017).



[9]



Hidayatullah, A. F., and M. R. Ma’arif. "Pre-processing Tasks in Indonesian 19



Twitter Messages." Journal of Physics: Conference Series, Vol. 801. No. 1, IOP Publishing, (2017).



20