Catatan Kecil EM-Algorithm [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Catatan Expectation Maximization Algorithm



oleh : Hendri Karisma (23512060)



Program Studi Magister Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung 2013



Machine Learning Pada dasarnya pembelajaran mesin dibagi menjadi beberapa tiga jenis, yaitu supervised, unsupervised, dan reinforcement learning. Dari masing-masing jenis pembelajaran mesin ini memiliki berbagai metode yang memiliki spesifikasi berbeda dan dapat menyelesaikan masalah dengan kondisi yang berbeda satu sama lainnya, sehingga berbagai kasus belum tentu dapat diselesaikan dengan algoritma yang sama, ataupun dengan jenis pembelajaran mesin yang sama. Masing-masing jenis machine learning memiliki karakteristik yang berbeda. Supervised Learning memiliki karakteristik masalah yang diselesaikan biasanya berupa klasifikasi, dataset yang dimiliki oleh kasus yang berbentuk klasifikasi biasanya selain memiliki atribut untuk setiap instances-nya namun juga sudah memiliki kelas yang jelas, sehingga task selanjutnya dari hipotesis atau model yang ditemukan adalah melakukan klasifikasi terhadap instance yang baru dan belum memiliki label (belum diklasifikasi). Unsupervised Learning biasanya memiliki kata kunci clustering atau melakukan peng-klusteran terhadap sekelompok data atau sekelompok instances yang tidak memiliki label, sehingga memiliki informasi bahwa terdapat sekumpulan data yang membentuk cluster, namun kita belum tahu apa pengetahuan atau hipotesis yang membuat instances tersebut saling berkumpul (membuat kelompok) menjadi satu cluster atau lebih. Sedang reinforcement learning biasanya berupa permasalah yang membutuhkan aktifitas eksplorasi, sehingga cukup sesusai jika digunakan untuk membangun suatu intelijen pada suatau game (terutama puzzle). Dalam artikel ini akan sedikit dijelaskan mengenai Expectation Maximization Algorithm dengan. Maximization Algorithm dengan menggunakan model probabilitas pada distribusi gaussian. Expectation Maximization Algortihm Expectation



maximization



algorithm



merupakan



algoritma



unsupservised



learningyang memiliki kemampuan untuk melakukan pencarian knowledge dari sekumpulan data yang tidak memiliki label atau target class tertentu, dengan cara melihat



2



nilai setiap instances yang didistribusikan kedalam Gaussian distribution, lebih tepatnya adalah mixture Gaussian, lalu dilakukan iterasi menaik untuk mencari nilai likehood tertenggi untuk setiap instance (melihat kedekatan instances terhadap setiap kluster). Expectation



Maximization



Algorithm



(EM



Algorithm)



merupakan



sendirimerupakan adalah suatu algoritma yang memanfaatkan mixture dari Gaussian mixture. Pada dasarnya E-M Algorithm terdiri dari dua langkah yaitu, expectation dan maximization. Melakukan perhitungan expektasi terhadap suatu nilai probabilitas likelihood, lalu langkah kedua memperbaiki nilai probabilitas terebut dengan merubah parameter pada mixture Gaussian sehingga mencapai maximum likelihood. Terdapat beberapa hal yang perlu ditekankan dalam algoritma EM Algorithm yaitu: 1.



Maximum Likelihood Estimation (MLE)



2.



Mixtures of Gaussians



3.



Estimation-Maximization (EM)



Maximum likelihood sendiri pada dasarnya merupkan teori probabilitas pada suatu instances



(misalkan



π‘₯𝑖 ∈ 𝑋)terhadapsuatu



target



class𝑧𝑗



{j=1,2…n}.



Dataset



X



didistribusikan kedalam Gaussian Distribution seperti pada gambar 3.



Gambar 1sample distribusi normal



3



Persamaan yang digunakan untuk Gaussian distribution adalah : 𝑃 π‘₯; πœ‡, 𝜎



2



1



=



2πœ‹.πœ‡



𝑒



βˆ’



π‘₯ βˆ’πœ‡ 2 2𝜎 2



……………………………..(1)



Dengan πœ‡ adalah mean dan 𝜎 merupakan variance atau standar deviasi. 1



π‘š 𝑖=1 π‘₯𝑖 ………………………………………………(2)



πœ‡=π‘š 𝜎2 =



1 π‘š



π‘š 𝑖=1(π‘₯𝑖



βˆ’ πœ‡)2 ……………………………………...(3)



Dan setiap data π‘₯𝑖 akan dilakukan komputasi untuk setiap probabilitas terhadap kluster 𝑧𝑗 .



𝑝(π‘₯) =



𝑛 2 𝑗 βˆ’1 𝑝(π‘₯𝑗 ; πœ‡π‘— , πœŽπ‘— )



1 𝑛 𝑗 βˆ’1 2πœ‹πœŽ 𝑗



=



𝑒



(π‘₯ 𝑗 βˆ’πœ‡ 𝑗 )2 2𝜎 2 𝑗



……………………(4)



Guna meningkat fitness dari distribusi cluster yang dibangun maka dilakukan matriks covariance dan juga vector mean untuk meningkatkan akurasi dari Gaussian distribution (Multivariate) yang dibuat. π‘₯ π‘₯ 0 πœ‡= 𝑦 = (π‘‘π‘’π‘“π‘Žπ‘’π‘™π‘‘); Ξ£ = π‘₯ 0



𝑦 0.5 0 𝑦 = (π‘π‘œπ‘›π‘‘π‘œβ„Ž) 0 0.5 ………………………(5)



Sehingga persamaan nilai π‘₯𝑖 menjadi: 1



𝑝(π‘₯; πœ‡, Ξ£) = 2πœ‹



𝑛 1 2 |Ξ£|2



𝑒



1 βˆ’ π‘₯βˆ’πœ‹ 𝑇 Ξ£ βˆ’1 (π‘₯βˆ’πœ‹) 2



……………………………(6)



Dan visualisasi dalam bentuk tiga dimensinya adalah seperti pada contoh berikut :



4



Gambar 2 Contoh kondisi grafik dengan mean dan varian tertentu (multivariate)



Namun pada EM Algorithm menggunakan mixture Gaussian atau dengan kata lain lebih dari satu Gaussian yang digunakan atau mencari mixture dari distribusi yang didapatkan. EM Algorithm memiliki tugas untuk menemukan setiap Gaussian yang terdapat pada distribusi mixture Gaussian dan mengembangkan setiap Gaussian yang ditemukan pada kondisi optimum (sehingga model lebih fit) itulah yang disebut dengan maximization, dan merupakan proses clustering. Sehingga berikut adalah algoritma secara penuh E-M Algorithm.



5



Repeat{ Expectation Step



(π’Š)



π’˜π’‹ = 𝒑(𝒛(π’Š) = 𝒋|𝒙(π’Š) ; 𝝓, 𝝁, 𝚺) =



π‘š 𝑖=1



𝑇 1 βˆ’ π‘₯ (𝑖) βˆ’πœ‡ 𝑗 Ξ£βˆ’1 (π‘₯ (𝑖) βˆ’πœ‡ 𝑗 ) 1 2 𝑒 𝑛 1 2πœ‹ 2 |Ξ£j |2



π‘˜ 𝑗 =1



.πœ™



(𝑖)



𝑀𝑗



Maximization 1 πœ™π‘— = π‘š



πœ‡π‘— =



Σ𝑗 =



(𝑖) π‘š 𝑖=1 𝑀𝑗



π‘š (𝑖)



𝑀𝑗 𝑖=1



(𝑖) (𝑖) π‘š 𝑖=1 𝑀𝑗 π‘₯ (𝑖) π‘š 𝑖=1 𝑀𝑗



π‘₯ (𝑖) βˆ’ πœ‡π‘—



π‘₯ (𝑖) βˆ’ πœ‡π‘—



𝑇



(𝑖) π‘š 𝑖=1 𝑀𝑗



} Contoh visualisasi expectation maximization ketika Gaussian didapatkan dan proses EM-Algorithm telah dieksekusi.



Gambar 3 Contoh distribusi norma mixture gaussian (multivariate)



6



Gambar 4 Contoh visualisasi hasil akhir E-M Algorithm



Referensi 1. Arthur, Samuel. (1959): Some Studies in Machine Learning Using the Game of Checkers, IBM Journal of Research and Development Vol:44, 06 April 2010. http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=5389202 2. Mitchell, Tom M. (1997) : Machine Learning,McGraw-Hill Science, Portland. 3. Andrew Ng, Lecture Notes: Machine Learning, Standford



7