Pengantar Analisis Data Kategorik Deepublish - Free View [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Kategori :



Penerbit Deepublish (CV BUDI UTAMA) Jl. Elang 3 No.3, Drono, Sardonoharjo, Ngaglik, Sleman Jl. Kaliurang Km 9,3 Yogyakarta 55581 Telp/Fax : (0274) 4533427 Email : [email protected] Penerbit Deepublish



www.deepublish.co.id



@deepublisher



Pengantar Analisis Data Kategorik Metode dan Aplikasi Menggunakan Program R



Jaka Nugraha



Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut.



Metode dan Aplikasi Menggunakan Program R



Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri.



Pengantar Analisis Data Kategorik



D



alam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik.



Jaka Nugraha



Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R



UU No 19



Tahun 2002



Tentang Hak Cipta



Fungsi dan Sifat hak Cipta Pasal 2 1. Hak Cipta merupakan hak eksklusif bagi pencipta atau pemegang Hak Cipta untuk mengumumkan atau memperbanyak ciptaannya, yang timbul secara otomatis setelah suatu ciptaan dilahirkan tanpa mengurangi pembatasan menurut peraturan perundang-undangan yang berlaku. Hak Terkait Pasal 49 1. Pelaku memiliki hak eksklusif untuk memberikan izin atau melarang pihak lain yang tanpa persetujuannya membuat, memperbanyak, atau menyiarkan rekaman suara dan/atau gambar pertunjukannya. Sanksi Pelanggaran Pasal 72 1. Barangsiapa dengan sengaja dan tanpa hak melakukan perbuatan sebagaimana dimaksud dalam pasal 2 ayat (1) atau pasal 49 ayat (2) dipidana dengan pidana penjara masing-masing paling singkat 1 (satu) bulan dan/atau denda paling sedikit Rp 1.000.000,00 (satu juta rupiah), atau pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp 5.000.000.000,00 (lima miliar rupiah). 2. Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling banyak Rp 500.000.000,00 (lima ratus juta rupiah)



ii



Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R



Dr. Jaka Nugraha



iii



Jl. Elang 3, No 3, Drono, Sardonoharjo, Ngaglik, Sleman Jl.Kaliurang Km.9,3 – Yogyakarta 55581 Telp/Faks: (0274) 4533427 Hotline: 0838-2316-8088 Website: www.deepublish.co.id e-mail: [email protected]



Katalog Dalam Terbitan (KDT) NUGRAHA, Jaka Pengantar Analisis Data Kategorik/oleh Jaka Nugraha.--Ed.1, Cet. 1-Yogyakarta: Deepublish, September 2013. xvi, 299 hlm.; 23 cm ISBN 978-602-280-095-8 1. Pemrosesan Data



Desain cover Penata letak



I. Judul 004



: Herlambang Rahmadhani : Suryadi Pradana Dewanto



PENERBIT DEEPUBLISH (Grup Penerbitan CV BUDI UTAMA) Anggota IKAPI (076/DIY/2012) Isi diluar tanggungjawab percetakan Hak cipta dilindungi undang-undang Dilarang keras menerjemahkan, memfotokopi, atau memperbanyak sebagian atau seluruh isi buku ini tanpa izin tertulis dari Penerbit. iv



KATA PENGANTAR Dalam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik. Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Dalam buku ini tidak dibahas secara teoritis tetapi lebih ditekankan pada penggunaan secara teknis sehingga tidak memerlukan pemahaman khusus seperti kalkulus atau aljabar matriks. Pembaca harus memiliki latar belakang yang meliputi materi metode statistika yang mencakup estimasi parameter dan uji signifikansi dan model regresi. Kami berharap bahwa buku ini menjadi buku ajar untuk matakuliah Analisis Data Kategorik pada jurusan Statistika. Disamping itu buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri. Saya berharap bahwa ini akan menarik bagi pembaca yang lebih suka pada sisi aplikasi. Buku ini tidak membahas pembuktian



v



persamaan maupun pembuktian distribusi asimtotis. Saya menghindari rincian tentang perhitungan yang rumit. Untuk membantu perhitungan, sebagian dari materi dalam buku ini sudah tersedia secara luas di sebagian besar paket-paket komersial seperti S Plus, SAS, SPSS maupun MINITAB. Akan tetapi saya lebih fokus pada penggunaan software R, mengingat software ini dapat diakses secara bebas oleh siapapun. Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut. Semoga buku ini membantu mahasiswa dalam memahami analisis data kategorik dan membantuk para peneliti yang berkaitan dengan data kategori. Yogyakarta, 11 April 2013 Penulis Jaka Nugraha Jurusan Statistika UII [email protected] [email protected] vi



DAFTAR ISI



KATA PENGANTAR............................................................................. v DAFTAR ISI...........................................................................................vii DAFTAR TABEL.................................................................................. xiii BAB I 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. 1.10. 1.11. 1.12. 1.13. 1.14. 1.15. 1.16. 1.17. 1.18.



PENDAHULUAN .............................................................. 1 Pengertian Statistika .......................................................... 1 Populasi dan Sampel. ........................................................ 3 Parameter dan Statistik ..................................................... 4 Data dan Variabel .............................................................. 5 Variabel Random.............................................................. 16 Fungsi Peluang Diskrit dan Fungsi Distribusi ............. 18 Distribusi Khusus............................................................. 20 Distribusi Lain-Lain ......................................................... 26 Distribusi Probabilitas dalam Program R ..................... 29 Plot Data dan Grafik dalam R ........................................ 33 Inferensi untuk Parameter Proporsi () ........................ 36 Fungsi Likelihood dan Maximum Likelihood Estimator (MLE) ............................................................... 40 Uji Proporsi dengan Pendekatan Distribusi Normal ............................................................................... 41 Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal....................................... 43 Statistik Wald dan Statistik Rasio Likelihood .............. 44 Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R ............................................... 46 Interval Konfidensi Eksak Menggunakan Program R ......................................................................... 47 Latihan ............................................................................... 48 vii



BAB II 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. BAB III



TABEL KONTIGENSI...................................................... 51 Tabel Kontigensi 2x2 ........................................................ 52 Membandingkan Dua Proporsi dalam Tabel 2x2 ....................................................................................... 66 Menghitung RR dan OR Menggunakan Program R.......................................................................... 70 Tabel Kontigensi bxk ...................................................... 70 Uji Eksak untuk Sampel Kecil ........................................ 83 Ukuran Assosiasi .............................................................. 86 Uji Cochran-Mantel-Haenszel Untuk Tabel 2x2xJ ................................................................................... 90 Uji Chi Kuadrat pada Tabel Kontigensi Multidimensi ..................................................................... 92 Soal Latihan ....................................................................... 98 MODEL LOG LINEAR PADA TABEL KONTIGENSI..................................................... 99



3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. BAB IV 4.1. 4.2.



Model Log Linear Dalam Tabel Kontigensi Dua Arah .................................................................................. 100 Model Log Linear untuk Tabel Kontigensi Tiga Arah .................................................................................. 107 Contoh Data I .................................................................. 111 Contoh Data II................................................................. 114 Model Log Linear pada Tabel Kontigensi Multi Arah .................................................................................. 118 Program R untuk Model Log Linear ........................... 119 Soal Latihan ..................................................................... 126 REGRESI LOGISTIK ...................................................... 129 Distribusi Binomial dan Regresi Logistik ................... 129 Model Regresi Logistik dengan Variabel Independen Tunggal ...................................................... 130



viii



4.3.



Model Regresi Logistik dengan Variabel Independen Banyak ....................................................... 133 4.4. Maximum Likelihood Estimator untuk Regresi Logistik ............................................................................ 133 4.5. Inferensi Regresi Logistik ............................................. 136 4.6. Regresi Logistik Multivariabel ..................................... 147 4.7. Strategi Pemilihan Model.............................................. 148 4.8. Regresi Rogistik dalam Program R.............................. 154 4.9. Model Logistik pada Respon Multi Kategori ............. 157 4.10. Model Pilihan Diskrit .................................................... 175 4.11. Soal Latihan..................................................................... 182 BAB V 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. BAB VI 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7.



REGRESI POISSON ....................................................... 183 Distribusi Poisson .......................................................... 183 Model Regresi Poisson .................................................. 185 Estimasi Parameter ........................................................ 186 Pemilihan model Terbaik .............................................. 188 Contoh Data I................................................................. 192 Contoh Data II ................................................................ 198 Contoh Data III ............................................................... 203 Soal latihan ...................................................................... 205 GENERALIZED LINEAR MODEL (GLM) ................ 209 Pendahuluan ................................................................... 209 Fungsi Penghubung (Link) dan Keluarga Eksponensial ................................................................... 210 Estimasi Parameter ..................................................... 212 Inferensi Parameter ‛erdasarkan Fungsi Likelihood ....................................................................... 215 Uji Kecocokan Model Dengan Nilai Devians............. 216 Estimasi Interval dengan GLM .................................... 218 GLM pada Program R ................................................... 221



ix



BAB VII 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. 7.16. 7.17. 7.18. 7.19. 7.20. 7.21. 7.22. 7.23. 7.24. 7.25. BAB VIII



PENGANTAR PROGRAM R....................................... 227 Pendahuluan ................................................................... 227 Manipulasi Data ............................................................. 228 Operasi Matematika ....................................................... 231 Vektor ............................................................................... 232 Array dan Matrik............................................................ 233 Data Frame ...................................................................... 234 List .................................................................................... 235 Variabel Waktu (Dates) ................................................. 235 Penggabungan Data frame............................................ 236 Membuka File Data ........................................................ 237 Editing Data Secara Langsung ..................................... 237 Membuat Plots ................................................................ 238 Membuat Plots dari Distribusi Empiris ...................... 239 Plot Kontur (Contour Plots) ......................................... 240 Menambahkan Legend dan Stuff ................................. 241 Menambahkan Panah, Teks dan Penanda .................. 242 Multiple Plots .................................................................. 243 Menyimpan Plots ........................................................... 243 Menambahkan Tulisan Miring dan Simbol Matematik dalam Plots .................................................. 245 Statistik............................................................................. 246 Matematika dalam R ...................................................... 248 Menyusun Program ....................................................... 252 Menyimpan Data ............................................................ 254 Menyimpan Output ....................................................... 254 Maximum Likelihood Estimation (MLE) .................... 255 APLIKASI STATISTIKA MENGGUNAKAN R-COMMANDER ........................................................... 257



8.1. 8.2.



Memulai R-Commander................................................ 257 Input data ........................................................................ 260



x



8.3.



Menggunakan Comannder R untuk Diskripsikan Data .......................................................... 262 8.4. Memodifikasi Dataset .................................................... 264 8.5. Membagi data ................................................................. 266 8.6. Menggunakan Comannder R untuk Mengeksplorasi Data ..................................................... 267 8.7. Menggunakan Comannder R untuk menerapkan uji statistik ................................................ 271 8.8. Uji Non-parametrik........................................................ 275 8.9. Korelasi dan Regresi ...................................................... 277 8.10. Menyimpan Grafik......................................................... 282 8.11. Menyimpan Hasil Perhitungan .................................... 283 8.12. Menu pada R Commander (version 1.4-10) ............... 284 DAFTAR PUSTAKA ................................................................ 295 GLOSARIUM ...................................................................................... 297 PROFIL PENULIS.............................................................................. 301



xi



xii



DAFTAR TABEL



Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu ......................................................................... 19 Tabel 1.2. Tabel distribusi probabilitas lulusan ............................. 20 Tabel 1.3. Distribusi Binomial dengan n=10 dan =0.2,0.5,0.8 ....................................................................... 22 Tabel 1.4. Daftar penulisan distribusi dalam program R ............. 29 Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 ................................................................................. 38 Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:  0} banyaknya anggota S adalah tak terhingga. Variabel random X yaitu tinggi mahasiswa adalah X = {x | x >0} banyaknya anggota X adalah tak terhingga. 1.6. Fungsi Peluang Diskrit dan Fungsi Distribusi Suatu variabel random diskrit X



yang bernilai x1, x2,



mempunyai fungsi peluang P(x1), P(x2 ,



,xn.



, P xn). Bila X adalah



variabel random, maka fungsi distribusinya (fungsi distribusi kumulatif) didefinisikan sebagai FX(x) = P X x , untuk semua x



18



sehingga a. FX(x) kontinu dari kanan b. FX(X=-)=0 dan FX(X=)=1 Jika varibel random X telah diurutkan ( xi > xi-1) maka p(X=xi) = F(xi) – F(xi-1). Suatu fungsi P(x) disebut suatu fungsi peluang (distribusi peluang) jika dan hanya jika P x



untuk semua x dan







 P( x )  1 . i



i 0



Contoh 1.3 Bila sepasang dadu dilemparkan, maka ruang sampelnya adalah S ={



,



,



..,



}.



Variabel random X adalah jumlah bilangan pada muka yang tampak X={2,3,4,5,6,7,8,9,10,11,12}. Distribusi peluangnya dapat dituliskan dalam tabel berikut ; Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu X



2



3



4



5



6



7



8



9



10



11



12



P(X)



1/36



2/36



3/36



4/36



5/36



6/36



5/36



4/36



3/36



2/36



1/36



F(X)



1/36



3/36



6/36



10/36



15/36



21/36



26/36



30/36



33/36



35/36



36/36



Contoh 1.4 Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak lulus (G). Jika terdapat 3 calon maka ruang sampel nya S = {LLL, LLG, LGL, GLL, LGG, GLG, GGL, GGG}



19



S adalah ruang sampel yang merupakan himpunan semua kemungkinan kejadian (hasil). Variabel random X yaitu banyaknya calon yang lulus, maka X = {0, 1, 2, 3} P(X) adalah banyaknya X=x dalam ruang sampel dibagi banyaknya anggota keseluruhan ruang sampel. Distribusi peluangnya dapat dituliskan dalam tabel berikut Tabel 1.2. Tabel distribusi probabilitas lulusan X



0



1



2



3



P(X)



1/8



3/8



3/8



1/8



F(X)



1/8



4/8



7/8



8/8



Contoh 1.5 Mengukur berat tinggi badan calon mahasiswa baru, maka hasil pengukuran untuk seorang calon adalah S = {x | x > 0} banyaknya anggota S adalah tak terhingga Variabel random X yaitu tinggi mahasiswa X = {x | x >0} banyaknya anggota X adalah tak terhingga Peluang X=x adalah P(X=x) = 1/  0 1.7. Distribusi Khusus Terdapat tiga distribusi yang akan banyak dibahas disini yaitu distribusi binomial, multinomial dan Poisson.



20



1.7.1.



Distribusi Binomial Seringkali,



data kategori



diperoleh dari



pengamatan



sebanyak n yang saling independen dan identik yang mempunyai dua kemungkinan hasil yaitu sukses€ dan gagal€. Jika hasil suatu pengamatan tidak berpengaruh terhadap hasil pada pengamatan lain maka dapat dikatakan n pengamatan saling independen. Yang dimaksud



dengan



pengamatan



identik



adalah



pengamatan



dilakukan pada kasus dan kondisi yang sama. Pada kejadian sukses€ dan gagal€, pengamatan saling independen disebut Bernoulli trials. Misalkan π menyatakan probabilitas sukses dan X adalah banyaknya sukses dari n pengamatan. Dengan asumsi n pengamatan saling independen dan identik, Variabel random X mempunyai distribusi binomial dengan parameter π. Jadi, suatu percobaan atau pengamatan masuk kedalam distribusi binomial jika memiliki ciri-ciri a. Percobaan terdiri atas n ulangan b. ulangan-ulangan itu bersifat bebas satu sama lain c. dalam setiap ulangan hasilnya dapat digolongkan sebagai berhasil atau gagal d. peluang berhasil dilambangkan π dan untuk setiap ulangan adalah sama (tidak berubah-ubah) Sebaran peluang binom dapat nyatakan ke dalam rumus:



 n  x n x   (1   ) ; x  0, 1, ...., n P( x)   x  dengan 0    1 0 untuk x yang lainnya 



21



Contoh 1.6 Sebuah pertanyaan (kuis) yang terdiri dari 10 pilihan ganda yang masing-masing mempunyai 5 alternatif dan hanya satu plihan yang benar. X menyatakan banyaknya jawaban yang benar. Probabilitas jawaban benar untuk masing-masing pertanyaan adalah 0.20 maka n=10 dan π= 0. 0 Probabilitas semua jawaban salah (x=0 ) sama dengan



10  P( X  0)   0.20 (1  0.2)10 0  0.107 0  Probabilitas banyaknya jawaban yang benar kurang dari 7 (x q dihitung menggunakan fungsi qbinom(q,n,p) a. P(X=3|n=12,=0.9) = 1.6038e-07 > dbinom(3,12,0.9); [1] 1.6038e-07 b. P(X3|n=12,=0.9) =1.65835e-07 > pbinom(3,12,0.9); [1] 1.65835e-07 c. P(Xx|n=12,=0.9)>0.5 maka x=12 > qbinom(0.5,12,0.9); [1] 11



30



d. P(Xx|n=12,=0.5)>0.9 maka x=11 > qbinom(0.5,12,0.9); [1] 11 e. Dari contoh 1.7. P(X=x|n=10,=0.2) =0.1073742 > dbinom(0,10,0.2); [1] 0.1073742 P(X6|n=10,=0.2) > pbinom(6,10,0.2); [1] 0.9991356 Contoh 1.10 Variabel random X berdistribusi Poisson, X~Pois() : P(X=x) dihitung menggunakan fungsi dpois(x, ) P(Xx) dihitung menggunakan fungsi ppois(x, ) P(Xx)> q dihitung menggunakan fungsi qpois(q,) a. P(X=2|=4)= 0.1465251 > dpois(2,4); [1] 0.1465251 b. P(X2|=4)= 0.2381033 > ppois(2,4); [1] 0.2381033 c. P(Xx|=4)>0.5 maka x = 4 > qpois(0.5,4); [1] 4



31



Contoh 1.11 Variabel random X berdistribusi Normal, X~N(,2) : P(X=x) dihitung menggunakan fungsi dnorm(x,,) P(Xx) dihitung menggunakan fungsi pnorm(x,,) P(Xx)> q dihitung menggunakan fungsi qnorm(q,,) a. P(X=2|=1,=4)= 0.09666703 > dnorm(2,1,4); [1] 0.09666703 b. P(X pnorm(2,1,4); [1] 0.5987063 c. P(Xx|=1,=4)>0.5 maka x = 1 > qnorm(0.5,1,4); [1] 1 Sementara itu untuk distribusi multinomial dapat diperoleh dari library combinat yaitu menggunakan fungsi >dmnom(x,size,prob) dengan x berupa vektor, size adalah total pengamatan, prob adalah parameter probabilitas (i). Contoh 1.12 Pengamatan multinomial yang dapat dikategorikan menjadi 4 kelompok terhadap



objek. Diketahui π1= . , π2= . , π3=0.3 dan



π4=0.3. Hitung peluang dari diperoleh x1=1, x2=1,x3=4 dan x4=4. >library(combinat); >dmnom(c(1,1,4,4),10,c(0.2,0.2,0.3,0.3)); [1] 0.01653372



32



Pengamatan multinomial yang dapat dikategorikan menjadi 3 kelompok terhadap



objek. Diketahui π1= . , π2= . , π3=0.25.



Hitung peluang dari diperoleh x1=1, x2=5,x3=2 dan x4=1. >dmnom(c(5,2,1),8,c(0.5,0.25,0.25)); [1] 0.08203125



Untuk membangkitkan data yang berdistribusi multinomial dapat digunakan library multinomRob yaitu menggunakan fungsi rmultinomial(n, p, rows=max(c(length(n), nrow(p)))) rmultz2(n, p, draws=length(n))



Contoh 1.13 >library(multinomRob) >rmultz2(n=5, p= c(0.2,0.3, 0.5), draws=10); [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 2 0 0



1 0



2 1 1 1



2



[2,] 2 2 1 1 1 2 2 1 2



2



[3,] 1 3 4 3 4 1 2 3 2



1



1.10. Plot Data dan Grafik dalam R Penyajian data dilakukan dalam rangka memperjelas secara visual kondisi data yang bermanfaat dalam pengambilan kesimpulan baik secara deskriptif maupun inferensi. Banyak cara menyajikan data, seperti dalam tabel maupun gambar (diagram). Histogram dan Diagram batang adalah visualisasi data frekuensi yang seringa diguanakan. Diagram ini dicirikan dengan adanya sumbu datar dan sumbu tegak. Salah satu sumbu menjelaskan ferkuensi dan sumbu lain menerangkan kategori. Tinggi/panjang batang pada suatu tingkat kategori menyatakan frekuensi tingkat itu. Fungsi yang digunakan untuk membuat histogram adalah hist(x,...). x adalah data yang disajikan dalam vektor. 33



Contoh 1.14 > x=c(1,2,1,3,2,4,5,3,2,1,3,4,5,3,2,1,3,4,5,3,2,1); > hist(x); Dipeloleh gambar sebagai berikut :



3 0



1



2



Frequency



4



5



6



Histogram of x



1



2



3



4



5



x



Untuk membuat grafik maupun plot data dapat digunakan beberapa fungsi : plot, lines, abline, points, curve. a. plot(x) : plot data x (dalam vektor) berdasarkan urutan data b. plot(x,y) : plot data x terhadap y c. plot(fx,a,b) : plot fungsi fx pada interval a sampai dengan b. d. curve(fy,add=TRUE) : menyisipkan grafik dari fungsi fy pada kurva sebelumya Contoh 1.15 > x=c(1,2,4,5,6,7,12,17,19); > y=c(0,6,4,5,8,7,2,7,9); > plot(x)



34



> plot(x,y,xlab="nilai MX", ylab="nilai BX",type="l");



> fx fy plot(fx,-10,10)



35



> curve(fy,add=TRUE)



1.11. Inferensi untuk Parameter Proporsi () Dalam praktek, nilai parameter dalam distribusi binomial dan distribusi



multinomial



tidak



diketahui.



Estimasi



parameter



dilakukan menggunakan data sampel Salah satu metode yang



36



digunakan untuk mengestimasi parameter adalah Maximum Likelihood Estimator (MLE). Terdapat dua cara untuk inferensi parameter , yaitu metode eksak dan metode pendekatan distribusi normal. Metode eksak digunakan pada sampel kecil dan metode pendekatan distribusi normal digunakan ketika jumlah sampel besar. Dalam inferensi statistik, kita mengenal nilai  yang merupakan probabilitas kesalahan Tipe I yang



biasa disebut



dengan tingkat signifikansi. Untuk menguji hipotesis H0, peneliti menetapkan nilai  yang digunakan.



Nilai  terkecil sedemikian



hingga dapat menolak H0 disebut P-value. P-value dapat dihitung berdasarkan distribusi statistiknya. Pada distribusi probabilitas diskrit, penggunaaan P-value bersifat konservatif. Artinya, tidak dimungkinkan bagi P-value untuk mencapai nilai signifikansi yang diinginkan secara tepat. Sehingga probabilitas sesungguhnya dari kesalahan tipe I bernilai kurang dari 0.05. Sebagai contoh, dimisalkan pengujian H0:  =0.50 melawan H1 :  > 0.50 Dari 10 pengujian klinik diperoleh sukses sebanyak y=9. Kejadian ini mempunyai probabilitas P-value = P(Y=9) + P(Y=10) = 0.010 + 0.001 = 0.011. Oleh karena itu probabilitas mendapatkan nilai P-value sebesar 0.011 lebih kecil dari 0.05. Sementara itu tingkat signifikansi yang diinginkan adalah 0.05 dan probabilitas aktual kesalahan tipe I adalah 0.011. Oleh karena P-value berarti bahwa H0 akan ditolak. 37



.



pada y = 9 atau 10, hal ini



Tabel 1.3 menunjukkan distribusi binomial dengan n= 10 dan  =0.5, 0.2, 0.8. Tabel 1.5 menunjukkan korespondesi distribusi binomial terhadap nilai P-value (probabilitas sisi kanan) pada beberapa nilai Y. Untuk



statistik



uji



pada



distribusi



kontinu,



P-value



mempunyai distribusi uniform pada interval [0, 1]. Ketika H0 benar, P-value dapat bernilai antara 0 dan 1. Kita bisa menemukan nilai statistik uji sedemikian hingga nilai P-value sesuai dengan yang kita inginkan. Akan tetapi pada distribusi diskret, nilai hal itu tidak bisa dilakukan. Sebagai contoh untuk uji satu sisi, P-value = 1.000 ekuivalen dengan P(y=0) = 0.001, P-value = 0.999 ekuivalen dengan P(y=1) = 0.010, ... P-value = 0.001 ekuivalen dengan P(y=10) = 0.010. Lengkapnya disajikan pada Tabel 1.5 berikut: Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 Y 0 1 2 3 4 5 6 7 8 9 10



P(y) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001



P-value 1.000 0.999 0.989 0.945 0.828 0.623 0.377 0.172 0.055 0.011 0.001 38



Mid P-value 1.000 0.994 0.967 0.887 0.726 0.500 0.274 0.113 0.033 0.006 0.001



Pada sample data diskret berukuran kecil, ahli statistika memilih menggunakan tipe lain dari P-value yang disebut sebagai Mid P-value. Nilai ini hanya diperoleh melalui penambahan separuh probabilitas dari hasil observasi kepada probabilitas dari hasil yang lebih ekstrim. Untuk mengilustrasikannya, sebagai contoh untuk y =9 pada n=10 pengulangan dengan hipotesis H1 π > . Maka nilai P–value adalah: P–value = P(9) + P(10) = 0.010 + 0.001 = 0.011. Nilai Mid P-value nya adalah: mid P-value = P(9)/2 + P(10) = 0.010/2 + 0.001 = 0.006. Tabel 1.5 juga menunjukkan mid P-values untuk berbagai niai y pada n = 10. Dengan menggunakan nilai mid P-values, H0 akan ditolak jika data sampel diperoleh y



, sebab nilai mid P-values



nya P(8)/2 + P(9) + P(10) =0.022+ 0.010 + 0.001 = 0.033. Sedangkan untuk nilai P-values, H0 akan ditolak jika data sampel diperoleh y



.



Selanjutnya untuk hopotesis H1: π < 0.50 Misalkan dengan n=10, dari data sample diperoleh y = 9, maka P-value = P(y=0) + P(y=1)+· · ·+P(y=9) = 0.999 Mid P-value = P(y=0) + P(y=1)+· · ·+ P(y=9)/2 = 0.994 Sehingga dapat disimpulkan bahwa H0 tidak ditolak.



39



Untuk berbagai nilai y, nilai P-values dan mid P-values pada n=10 disajikan pada Tabel 1.6. Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:  0.5 Diperoleh statistik uji 60 (  0.5) Z  100 2 0.5(1  0.5) 100



H0 ditolak jika Z > z . Jika digunakan



= 0.05 maka dari tabel



normal standar diperoleh z = z0.05 = 1.65. sehingga dapat disimpulkan bahwa H0 ditolak. 42



1.14. Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal. Interval konfidensi untuk parameter  dengan tingkat kepercayaan 100( − )% dengan menggunakan pendekatan sampel besar adalah



p(1  p) n



p  z / 2 .SE dengan SE  dengan z



/2



menyatakan persentil distribusi normal standar yang



mempunyai probabilitas sisi kanan sama dengan contoh untuk kepercayaan 95%, berarti



z



/2



/2. Sebagai



= 0.05,



= z0.025 = 1.96.



Sebagai contoh kejadian binomial dengan n=100 dan y=60. Interval konfidensi 95% untuk parameter  adalah



0.6  1.96.



0.6(1  0.6)  0.6  0.04899 100



atau dapat dinyatakan sebagai 0.55101 <  < 0.64899 Jika digunakan interval konfidensi 99% untuk parameter  adalah



0.6  2.576.



0.6(1  0.6)  0.6  0.126 100



atau dapat dinyatakan sebagai 0.474 <  < 0.726



43



Dengan konfidensi semakin besar (signifikansi semakin kecil), maka interval yang diperoleh juga semakin lebar. 1.15. Statistik Wald dan Statistik Rasio Likelihood Misalkan parameter yang akan diuji adalah



dengan



hipotesis H 0: 0



=



0



lawan H1:







0



adalah suatu konstanta yang diketahui nilainya. Statistik uji



yang paling sederhana adalah menggunakan pendekatan sampel besar (pendekatan normal). Ketika H0 benar, maka statistik Wald,



( ˆ   0 ) SE mendekati distribusi normal standar. ˆ adalah MLE dari z



parameter  dan



SE  var( ˆ ) . Sehingga z2 berdistribusi chi kuadrat dengan derajad bebas satu (df=1). Statistik z dinamakan statistik Wald. Cara lain untuk menguji hipotesis H0 adalah menggunakan fungsi likelihood, yaitu rasio likelihood. Statistik rasio likelihood adalah



 L0   2 log   L1  L0 adalah nilai fungsi likelihood pada kondisi H0 benar L0 = L(0)



44



L1 adalah nilai fungsi likelihood dari penaksir MLE ( ˆ ) . L1= L( ˆ ) Karena L( ˆ ) < L() untuk semua , maka L1 > L0



0



L(  0 ) 1 L( ˆ )



Statistik rasio likelihood berdistribusi Chi kuadrat dengan df=1. Jika  merupakan vektor, maka df-nya sama dengan banyaknya parameter yang diuji. Statistik uji yang lain adalah Score Test. Pada uji proporsi binomial



z



 0 (1   0 ) ( p  p0 ) dengan SE  n SE



mendekati distribusi normal standar. Sebagai contoh inferensi berdasarkan statistik Wald, Score dan rasio likelihood menggunakan contoh hipotesis H0: π = 0.50 vs H1: π  0.50 Dari n=10 terdapat 9 sukses, sehingga proporsi sampelnya p = 0.90. Untuk uji Wald :



SE 



0.9(1  0.9) 0.9  0.5  0.095 sehingga z   4.22 atau z2 = 10 0.095 (4.22)2 =17.8



45



Untuk uji Score :



SE 



0.50(1  0.50) 0.9  0.5  0.158 sehingga z   2.53 atau z2 = 10 0.158 (2.53)2 =6.4



Untuk uji rasio likelihood :



L0 



10! (0.5) 9 (0.5)1  0.00977 9!1!



dan



10! (0.9) 9 (0.1)1  0.3874 9!1!  L0   0.00977   2 log   2 log   2 log( 0.0252)  7.36  L1   0.3874  p=0.9 sehingga L1 



Dapat disimpulkan bahwa pada kasus ini (sampel kecil) statistik Wald adalah yang paling powerfull. Statistik rasio likelihood lebih powerfull pada kasus sampel besar. 1.16. Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R Statistik Wald dapat diperoleh melalui fungsi binconf dalam library Hmisc dengan menu option dipilih method= asymptotic€. >library(Hmisc, T) >binconf(x=3, n=25, method="asymptotic") PointEst Lower Upper 0.12



-0.007382581



0.2473826



Untuk mencari interval konfidensi yang didasarkan pada statistik Score dapat menggunakan fungsi prop.test.



46



>prop.test(x=3,n=25,conf.level=0.95,correct=F) 1-sample proportions test without continuity correction data: 3 out of 25, null probability 0.5 X-squared = 14.44, df = 1, p-value = 0.0001447 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.04166817 0.29955794 sample estimates: p 0.12



Selain itu



juga menggunakan fungsi binconf dalam library



Hmisc. Pada menu option, pilih method= wilson >library(Hmisc, T) >binconf(x=3, n=25, alpha=.05, method="wilson") PointEst Lower Upper 0.12 0.04166817 0.2995579



1.17. Interval Konfidensi Eksak Menggunakan Program R Terdapat beberapa fungsi yang dapat digunakan untuk menghitung interval konfidensi eksak. Jika diketahui banyaknya sukses kejadian binomial x=0 dari pengamatan n=25, maka interval konfidensinya dapat dihitung menggunakan perintah a. fungsi binom.test >binom.test(x=3, n=25, conf.level=.95) # R Exact binomial test data: 3 and 25 number of successes = 3, number of trials = 25, p-value = 0.0001565 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval:



47



0.0254654 0.3121903 sample estimates: probability of success 0.12



b. fungsi binconf dalam library Hmisc menggunakan metode exact€. >library(Hmisc, T) >binconf(x =30, n = 25, alpha = .05, method = "exact") PointEst Lower Upper 0.12 0.0254654 0.3121903 c. Statistik Pearson’s Chi-Squared dapat diperoleh menggunakan fungsi chisq.test >chisq.test(x=c(6022,2001),p=c(.75,.25)) Chi-squared test for given probabilities data: c(6022, 2001) X-squared = 0.015, df = 1, p-value = 0.9025



1.18. Latihan 1.1 Pada contoh-contoh berikut, lakukan identifikasi variabel respon, variabel independen dan skala pengukuranya : a. Sikap terhadap undang undang pornografi (suka, tidak suka), gender (laki-laki, perempuan), pendidikan orang tua ( Sekolah menengah, perguruan tinggi). b. Penyakit jantung (ya, tidak), tekanan darah, kadar kolesterol. c. Pendidikan (SD, SLTA, Diploma, Sarjana), agama (Islam, katolik, yahudi, protestan), suara untuk pemilihan presiden



(Golkar, Demokrat, PDIP,PKS, PKB, PAN,



lainnya), pendapatan per tahun.



48



d. Status



pernikahan



(menikah,



belum



menikan,



janda/duda), kualitas hidup (sangat bagus, bagus, cukup, kurang). 1.2 Mana skala pengukuran berikut ini yang paling sesuai, nomial atau ordinal? a. Keikut sertaan dalam partai politik (Golkar, Demokrat, PDIP, lainnya) b. Pendidikan terakhir (tidak punya, sekolah menengah, sarjana, master, doktor) c. Kondisi pasien (bagus, cukup, serius, kritis) d. Minuman favorit ( bir, jus, susu, soft drink, anggur, lainnya) e. Berapa sering mengalami depresi (tidak pernah, kadangkadang, sering, selalu). 1.3 Terdapat 100 pertanyaan pilihan ganda, masing-masing soal terdapat 4 jawaban tetapi hanya satu jawaban yang benar. Untuk setiap pertanyaan, seorang siswa memilih satu jawaban a. Tentukanlah distribusi jumlah siswa memilih jawaban yang benar dalam ujian b. Berdasar nilai mean dan deviasi standar dari distribusi, apakah merupakan suatu yang menggembirakan jika siswa membuat paling sedikit 50 jawaban yang benar? Jelaskan alasannya. 1.4 Di sebuah kota, dari data kepolisian diketahui rata-rata banyaknya pencurian motor sebesar 4 kasus per bulan. Berapa peluangnya bahwa di kota tersebut pada bulan Januari akan terjadi pencurian motor sebanyak 49



a. kurang dari 3 kasus? b. tidak satupun kasus? 1.5 Misalkan, peluang seseorang yang terinfeksi virus flu burung akan meninggal sebesar 0,2. Berapa peluang dari 16 pasien yang terinfeksi akan terdapat lebih dari 14 pasien sembuh? 1.6 Pengamatan terhadap 20 pasien yang terinfeksi virus flu burung, terdapat 5 pasien meninggal dunia. Berdasarkan data tersebut akan dilakukan pengujian terhadap hipotesis yang menyatakan bahwa peluang sembuh terhadap infeksi virus flu burung lebih dari 75%. a. Hitung nilai P-value dan nilai mid P-value. b. Jika digunakan



= . , kesimpulanya apa?



c. Lakukan pengujian menggunakan statistik Wald, Score dan rasio likelihood. 1.7 Lakukan pengujian seperti soal 1.6, jika dari 150 terdapat 15 pasien meninggal dunia.



50



BAB II TABEL KONTIGENSI



Tabulasi merupakan salah satu teknik penyajian data agar mudah difahami dalam waktu singkat. Salah satu bentuk penyajian tabulasi adalah tabel kontigensi atau tabulasi silang. Tabel kontigensi adalah merupakan satu bentuk distribusi frekuensi untuk dua variabel atau lebih. Akan tetapi, tidak semua pengolah data (penganalisis) mengetahui dengan baik bagaimana menyajikan tabulasi yang cocok agar suatu laporan dapat berbobot. Apabila data yang dianalisis memuat dua variabel atau lebih kita dapat melakukan analisis hubungan antara variabel-variabel tersebut. Berbicara tentang hubungan (asosiasi) antara dua variabel atau lebih adalah membahas tentang ada tidaknya hubungan dan hubungan kausal serta pengaruh faktor interaksi antara variabel bebas terhadap variabel tak bebas.



Dalam analisis data, pada



umumnya peneliti cenderung akan memperhatikan sedemikian banyak variabel,



maka pendekatan



analisis asosiasi



untuk



multivariat, misalnya analisis tabulasi silang menjadi sangat penting. Pada dasarnya analisis hubungan dengan tabel tabulasi silang dapat dilakukan pada setiap data survey, dengan catatan semua variabel numerik (skala interval dan rasio) ditransformasi menjadi variabel kategorik, misalnya variabel Pasangan Usia Subur (15-49 tahun) diubah menjadi variabel kelompok 5 tahunan, yaitu : kelompok I (15-19), kelompok II (20-24), kelompok III (25-29) sampai dengan kelompok VII (45-49). 51



Sebuah tabel yang merupakan klasifikasi silang (cross classifies) dari dua variabel dinamakan tabel kontigensi dua arah. Masingmasing variabel menempati posisi baris dan kolom. Jika masingmasing variabel mempunyai level 2 maka akan diperoleh tabel 2x2. Jika satu variabel baris mempunyai level 5 dan variabel kolom mempunyai level 3 maka akan diperoleh



tabel 5x3. Kita mulai



pembahasan untuk tabel 2x2. 2.1. Tabel Kontigensi 2x2 Pada pengumpulan data sering dijumpai bahwa informasi yang berasal dari sampel mempunyai struktur yang paling sederhana, yaitu data diklasifikasikan atau dikategorikan dalam kelas-kelas, sehingga data berupa frekuensi dari kelas tertentu (Nugraha, 2003). Contoh dari data yang berupa dua klasifikasi adalah jenis kelamin (pria, wanita), agama (Islam, non Islam), kondisi produk (baik, cacat) dll. Tabel kontigensi 2x2 merupakan klasifikasi objek pengamatan berdasar dua variabel dan masing masing variabel mempunyai dua kategori. Tabel 2.1. merepresentasikan frekuensi terobservasi pada tabel kontigensi 2x2 untuk Variabel I (A) pada posisi baris dan Variabel II (B) pada posisi kolom. Tabel 2.1. Tabel kontigensi Faktor A dan Faktor B Variabel I (A) A1 A2 Total



Variabel II (B) B1 B2 n11 n12 n21 n22 no1 no2



52



Total n1o n2o N



Diasumsikan bahwa masing-masing objek memiliki salah satu sifat/klasifikasi A (A1 atau A2) dan salah satu sifat B (B1 atau B2). nij adalah banyaknya objek yang memiliki sifat Ai dan Bj untuk i,j=1,2. noj = n1j + n2j ; nio = ni1 + ni2 dan n = no1 + no2 = n1o + n20



Sebagai contoh data pengobatan sakit kepala dengan menggunakan obat aspirin dan placebo. Setelah pasien diberi obat, beberapa saat kemudian ditanyakan apakah masih merasakan sakit kepala atau tidak. Tabel 2.2. Penggunaan Aspirin terhadap sakit kepala Grup



2.1.1.



Sakit Kepala



Total



Ya



Tidak



Placebo



189



10845



11034



Aspirin



104



10933



11037



Total



293



21778



22071



Input Data dan Manipulasi Data dalam Program R Terdapat beberapa cara untuk memasukan data tabel



kontigensi dalam program R. 2.1.1.1. Tabel Dua Arah Sebagai Matrik Salah satu cara input data adalah menggunakan fungsi matrix (fungsi ini sama dengan fungsi array). Fungsi matrix dan fungsi array



dibahas pada Bab VII.



Sebagai contoh data



penggunaan aspirin, inputing data dapat dilakukan sebagai berikut: >MI dimnames(MI) names(dimnames(MI)) tot MI/tot Grup Placebo aspirin



Sakit Kepala Ya 0.008563273 0.004712066



Tidak 0.4913688 0.4953559



Untuk menghitung total baris (nio) dan total kolom (noj) dan total proporsi (poj dan pio) dapat digunakan fungsi apply. > > > >



rowtot prop.test(MI,correct=F) 2-sample test for equality of proportions without continuity correction data: MI X-squared = 25.0139, df = 1, p-value = 5.692e-07 alternative hypothesis: two.sided 95 percent confidence interval: 0.004687751 0.010724297 sample estimates: prop 1 0.01712887



Cara



pengujian



yang



prop 2 0.00942285



lain



dapat



dilakukan



dengan



mentransformasi data sebagai berikut > MI.test names(MI.test) [1] "statistic" "parameter" "p.value" "estimate" "null.value" [6] "conf.int" "alternative" "method" "data.name" > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > MI.test$conf.int 69



[1] 0.004597134 0.010814914 attr(,"conf.level") [1] 0.95 > round(MI.test$conf.int,3) [1] 0.005 0.011 attr(,"conf.level") [1] 0.95 > MI.test$estimate[1]/MI.test$estimate[2] % relative risk prop 1 1.817802



2.3. Menghitung RR dan OR Menggunakan Program R RR dan OR cukup mudah dihitung. Bermacam-macam langkah bisa dilakukan. Misalkan dari data Tabel 2.2, > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > odds odds[1]/odds[2] prop 1 1.832054 > (MI[1,1]*MI[2,2])/(MI[2,1]*MI[1,2]) [1] 1.832054



Interval konfidensi untuk OR: > theta ASE logtheta.CI exp(logtheta.CI) [1] 1.440036 2.330790



2.4. Tabel Kontigensi bxk Dalam suatu penelitian, observasi terhadap obyek penelitian tidak hanya satu variabel akan tetapi lebih dari satu variabel. Jika 70



setiap obyek dilakukan observasi lebih dari satu variabel kategori, maka data hasil observasi dapat disajikan dalam bentuk tabel yang disebut



tabel



tabulasi



silang.



Misalkan



observasi



terhadap



karyawan perusahaan, variabel kategori yang dapat diobservasi adalah jenis kelamin, status perkawinan, pendidikan dan lain-lain. Pada Tabel tabulasi silang, jika dilakukan analisis lebih lanjut, akan diperoleh informasi tentang ada tidaknya keterkaitan antara variabel kategori satu dengan variabel kategori yang lain dengan menggunakan uji independensi. Bentuk tabel tabulasi silang dari suatu observasi adalah sebagai berikut : Tabel 2.9. Tabel kontigensi dua arah Kategori I 1 2



1 n11 n21



Kategori II 2 n12 n21



k n1L n2L



Total n1. n2.



B Total



nk1 n.1



nk1 n.2



n2L n.L



nk. N



Proporsi masing-masing sel disajikan dalam tabel 2.10. Tabel 2.10. Proporsi pada tabel kontigensi dua arah Kategori I 1 2



1 π11 π21



Kategori II 2 π12 π21



k π1k π2k



Total π1o π2o



B Total



πb1 Πo1



πb1 Πo2



πbk Πok



πbo 1



Contoh: Suatu survey tentang ketenagakerjaan ingin mengetahui apakah tingkat pendidikan (SMP, SMA, D3 dan S1) mempunyai hubungan dengan jenis pekerjaan (Adm, Penjualan, Operator,



71



Teknisi) yang diharapkan. Dari sampel sebanyak 200 pencari kerja, data hasil observasi dapat ditabelkan sebagai berikut : Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan dan jenis pekerjaan Pendidikan



Jenis Pekerjaan



Total



Adm.



Penjualan



Operator



Teknisi



SMP



5



6



7



22



40



SMA



6



10



30



14



60



D3



8



35



20



7



70



S1



24



4



2



0



30



Total



43



55



59



43



200



2.4.1.



Nilai Frekuensi Harapan Nilai frekuensi harapan dihitung berdasarkan asumsi



bahwa variabel baris (grup) dan variabel kolom



saling



independen atau proporsi sukses pada kedua grup adalah sama. Dengan asumsi independen, berarti distribusi bersama (joint distribution)



dapat



dihitung



menggunakan



distribusi



marginalnya. Probabilitas dua kejadian yang saling independen mempunyai sifat P(A & B) = P(A)*P(B). Dengan kata lain, Jika kategori I (baris) dan kategori II (kolom) saling bebas, maka nilai proporsi baris ke i kolom ke j (sel (i,j)) adalah perkalian proporsi baris ke i dengan proporsi kolom ke j atau ij =io x oj



72



 ij 



ni 0 n 0 j x n n



Nilai harapan dengan asumsi independen pada masingmasing sel dihitung mengunakan rumus



eij  n ij 



nio .noj n



eij adalah nilai harapan pada baris i dan kolom j atau sel (i,j). Misalkan dari data pada Tabel 2.2. nilai harapan pada baris pertama dan kolom pertama,



e11 



11034 x293  146.48 22071



Hasil selengkapnya disajikan pada Tabel 2.12. Tabel 2.12. Nilai Harapan penggunaan aspirin Grup



Sakit Kepala



Total



Ya



Tidak



Placebo



146.48



10887.52



11034



Aspirin



146.52



1089.48



11037



Total



293



21778



22071



Nilai harapan dari Tabel 2.11 adalah disajikan dalam Tabel 2.13 sebagai berikut :



73



Tabel 2.13. Frekuensi harapan klasifikansi karayawan menurut pendidikan dan jenis pekerjaan Pendidikan



Total



Jenis Pekerjaan Adm.



Penjualan



Operator



Teknisi



SMP



8.60



11.00



11.80



8.60



40



SMA



12.90



19.50



17.70



12.90



60



D3



15.05



19.25



20.65



15.05



70



S1



6.45



8.25



8.85



6.45



30



Total



43



55



59



43



200



2.4.2.



Chi-Kuadrat untuk Uji Independensi Tabel kontigensi dua arah secara umum disajikan dalam



tabel berikut Tabel 2.14. Tabel kontigensi bxk Faktor A dan Faktor B Faktor I



Faktor II



Jumlah



B1



B2



.....



Bk



A1



n11



n12



.....



n1k



n1o



A2



n21



n22



......



n1k



n2o



.



.....



.....



.....



.....



......



.



.....



.....



.....



.....



.....



Ab



nb1



nb2



nbk



nbo



Jumlah



no1



no2



nok



N



........



Berkaitan dengan tabel tersebut, kita ingin menguji apakah Faktor satu dan Faktor II saling independen yang dapat dihipotesiskan sebagai berikut :



74



H0 : Faktor I dan Faktor II independen H1 : Faktor I dan Faktor II tidak independen Penjelasan



hipotesis



statistik



dan



statistik



uji



akan



disampaikan pada pembahasan berikutnya. Dalam tabel kontigensi dua arah, Chi-Kuadrat dapat digunakan untuk menguji independensi dua variabel marginal. Uji Chi-Kuadrat sering dinamakan



goodness-of-fit test tetapi



sebenarnya yang diuji adalah badness-of-fit test, karena besarnya nilai Chi-Kuadrat mengindikasikan ketidak sesuaian antar frekuensi observasi (nij) dan frekuensi harapan (eij). Terdapat dua statistik Chi-Kuadrat yaitu Pearson Chi-Kuadrat (2) dan likelihood ratio Chi-Kuadrat (G2). 2.4.2.1. Statistik Chi-Kuadrat Pearson Statistik Pearson Chi-Kuadrat adalah b



k



   2



(nij   ij ) 2



i 1 j 1



 ij



nij adalah frekuensi observasi sel pada baris ke i dan kolom ke j. ij merupakan parameter dari rata rata frekuensi sel pada baris ke i dan kolom ke j. Statistik 2 digunakan untuk menguji H0 (variabel baris dan kolom saling independen), Statistik ini disampaikan pada tahun 1900 oleh Karl Pearson. Statistik ini mempunyai nilai minimum nol ketika nij = ij . Pada sampel terbatas, besarnya nilai selisih (nij − ij ) menghasilkan nilai 2 yang besar dan bertentangan dengan H0. Oleh karena itu nilai 2 yang besar mengindikasikan bahwa sampel tidak sesuai dengan H0. Pada sampel besar 2 75



mempunyai distribusi



mendekati distribusi Chi-Kuadrat dengan derajad bebas (b-1)(k1). Pendekatan ini akan baik jika ij semakin besar dan ij



.



Distribusi Chi-Kuadrat mempunyai mean sama dengan derajat bebasnya (df = degrees of freedom) dan variansinya sama dengan 2 kali df. Semakin besar df maka semakin mendekati distribusi normal. Sebagaimana dalam gambar berikut merupakan grafik distribusi Chi-Kuadrat pada df = 1, 5, 10, dan 20.



Grafik 2.1. Distribusi Chi-Kuadrat Grafik di atas dapat diperoleh menggunakan perintah >fxcurve(fx,0,40,type = "l",ylab="Probability Density")



76



>fx1curve(fx1,type = "l",add=TRUE)



>fx2curve(fx2,type = "l",add=TRUE)



77



0.10 0.05 0.00



Probability Density



0.15



>fx3curve(fx3,type = "l",add=TRUE)



0



10



20



30



40



x



2.4.2.2. Statistik Rasio Likelihood Uji rasio likelihood menentukan nilai parameter



yang



memaksimumkan fungsi likelihood dibawah asumsi H0 benar. Statistik ujinya merupakan logaritma dari rasio fungsi likelihood



78



b k  nij G 2  2 nij log  i 1 j 1  ij



   



Statistik uji ini mempunyai nilai non negatif dan berdistribusi Chi-Kuadrat



dengan derajad bebas (b-1)(k-1).



statistik likelihood-ratio Chi-Kuadrat



G2 disebut



yang bernilai besar



ketika H0 salah. G mempunyai nilai minimum nol ketika nij = 2



ij. Besarnya nilai G2 menandakan besarnya kecenderungan menolak H0. Ketika H0 benar dan ij besar, statistik 2 dan G2 mempunyai distribusi yang sama yaitu Chi-Kuadrat



dan



nilainyapun juga relatif sama. 2.4.2.3. Uji Independensi Dalam tabel kontigensi dua arah dengan probabilitas bersama ij , hipotesis nol untuk menguji independensi dua variabel (baris dan kolom) adalah H0 : ij = i00j untuk semua i dan j. Biasanya i0



dan 0j tidak diketahui, sehingga diestimasi



menggunakan data sampel.



eij  ˆ  npio poj  n



ni 0 n0 j ni 0 n0 j  n n n



Sehingga statistik uji untuk 2 dan G2 adalah .   2



b



k



 i 1 j 1



(nij  eij ) 2 eij



dan G 2  2



b



k



 n i 1 j 1



79



ij



 nij log e  ij



   



Kedua statistik ini mempunyai distribusi Chi-Kuadrat dengan derajad bebas sama dengan (b-1)(k-1). H0 ditolak pada tingkat sign  jika 2 > 2(:(b-1)(k-1)). Rumus di atas dapat disajikan dalam bentuk :



 1 n22 j nij2 1 1   .....     n10 nb 0 n0 j n0 j n2.. 



 2  N



nbj2



n



.0



  1  



Derajad bebas ini merupakan selisih banyaknya parameter dalam H0 dan H1. b



 i 1



i0



Pada variabel baris diketahui bahwa



 1 sehingga terdapat (b-1) dari i0 yang nilainya bebas



dipilih. Demikian juga pada variabel kolom diketahui bahwa k



 j 1



0j



 1 sehingga terdapat (k-1) dari i0 yang nilainya bebas



dipilih. Jadi dibawah H0 benar, terdapat parameter sebanyak ((b-1) + (k-1)). Pada hipotesis alternatif (H1) menyatakan variabel baris dan variabel kolom tidak independen. Dari sel b



sebanyak bk dan



k



  i 1 j 1



ij



 1 , terdapat derajad bebas (bk -1).



Derajad bebas adalah selisih banyaknya parameter dalam H0 dan H1 yaitu df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)



Pendekatan distribusi Normal Fisher dan Yates membuktikan bahwa jika derajat bebas cukup besar , (b-1)(k-1) > 30, ternyata bentu 80



2  2 mendekati



distribusi



normal



dengan



rataan



2(b  1)(k  1)  1 dan



simpangan baku 1. Oleh karena itu



2 2 -



Z=



2(b  1)(k  1)  1



Z berdistribusi normal standart. Pendekatan ini hanya dapat dipertanggung-jawabkan jika eij cukup besar. Jika eij harganya kecil-kecil maka dapat digunakan pendekatan lain (oleh Haldane), yaitu jika derajat babas cukup besar (lebih dari 30) dan harga eij kecil-kecil, maka statistik 2 mendekati distribusi normal dengan rata-rata







n(b  1)(k  1) n 1



sedangkan variansinya 2 



n2 2n 1  2 (n1  1 )(n2   2 )  n3 n 1



dengan



n1 



(b  1)(n  b) , n2  (b  1)(n  k ) (n  1) (n  1)



    1  n 1  k 2   n  b 2    n0 j ni 0 ,  1   2   (n  2) (n  2)



Selanjutnya pengujian dengan distribusi normal standar z



2  



Contoh : Akan diuji apakah jenis kelamin (Gender) berasosiasi dengan partai yang dianut (Demokrat, Agama, Republik). Dari



81



responden sebanyak 2757, dapat diklasifikasikan sebagai berikut Tabel 2.15. Data gender dan partai afiliasi Gender



Partai Demokrat Agama Wanita 762 327 (703.7) (319.6) Laki 484 239 (542.3) (246.4) Total 1246 566 Keterangan : frekuensi harapan



Republik Total 468 1557 (533.7) 477 1200 (411.3) 945 2757 dinyatakan dalam tanda



kurung. Dalam program R, untuk menghitung statistik Pearson s ChiKuadrat dapat digunakan fungsi chisq.test > gender dimnames(gender) chisq.test(gender) Pearson's Chi-squared test data: gender X-squared = 30.0701, df = 2, p-value = 2.954e-07



Dalam



beberapa



kasus,



nilai



P-value



dapat



didekati



menggunakan simulasi. > chisq.test(gender,simulate.p.value=TRUE,B=10000) Pearson's Chi-squared test with simulated p-value (based on 10000 replicates) data: gender X-squared = 30.0701, df = NA, p-value = 1e-04



82



2.5. Uji Eksak untuk Sampel Kecil Sejauh ini, interval konfidensi dan statistik uji yang dibahas didasarkan pada metode sampel besar. Statistik 2 maupun G2 sesuai untuk sampel besar. Ketika n kecil, lebih baik menggunakan distribusi eksak dibanding dengan pendekatan sampel besar. 2.5.1.



Uji Eksak Fisher’s untuk Tabel 2 × 2 Uji chi kuadrat merupakan uji pendekatan(bukan eksak).



Untuk uji eksak dikemukakan oleh Fisher. Didasarkan atas sampling tanpa pengembalian dari distribusi hipergeometrik. H 0 benar (kedua pengamatan independen), peluang komposisi pengamatan seperti Tabel 2.1 (dengan asumsi jumlah margin tetap ) adalah   n10  n20    n !n !n !n ! n11  n01  n11    10 20 02 01 P(n11 )  n11!n12!n21!n22!n! n     n01 



P-value merupakan jumlah semua nilai probabilitas P(n11) yang mendukung H1. Selanjutnya Ho ditolak jika P-value lebih kecil dari . Statistik uji ini disebut uji eksak Fisher s yang disampaikan oleh R. A. Fisher pada tahun 1934. Contoh Data Fisher Tea Fisher memberkan contoh percobaan sebagai berikut : Ketika minum teh dicampur milk, teman



Fisher di Rothamsted



Experiment Station dekat London disuruh menebak minuman apa yang dituang pertama kali dalam gelas, milk atau teh. Fisher membuat rancangan percobaan dengan delapan gelas, empat



83



diantaranya teh yang dituang duluan dan empat gelas yang lainnya adalah milk. Selanjutnya delapan gelas tersebut disajikan secara random dan diperoleh hasil dalam tabel berikut ini, Tabel . . Data Fisher Tea€ Dituang I



Dugaan



Total



Milk



Tea



Milk



3



1



4



Tea



1



3



4



Total



4



4



8



Distribusi untuk percobaan tersebut adalah hipergeometrik yang total margin pada baris pertama dan kedua masing-masing sama dengan 4. Nilai n11 yang mungkin adalah (0, 1,2, 3, 4). Berdasarkan Tabel 2.12, terdapat tiga pendugaan yang benar diantara empat gelas dengan milk yang dituang duluan. Probabilitas susunan tersebut sama dengan



 4  4  4! 4!    3 1 16  0.229 P(3)      3!1! 1!3!  8! 70 8    4!4!  4 Selanjutnya hanya terdapat satu susunan ekstrem yang mendukung hipotesis H1 yaitu jika dugaannya sama dengan n11 = n22 = 4 dan n12 = n21 = 0, dan probabilitasnya



84



 4  4     4 0 1 P(4)       0.014 70 8     4



Tabel



2.13 memberikan nilai probabilitas pada berbagai



nilai n11. P-value untuk H1 adalah P = P(3) + P(4) = 0.257. Dari hasil ini berarti dapat disimpulkan H0 tidak ditolak. Tabel 2.17. Probabilitas dan P-value data Fisher Tea€ n11



Probabilitas



P-Value



Exac



2



2



Chi



tabel 0



0.014



1.000



diterima



8.0



3.84



Ditolak



1



0.229



0.986



diterima



2.0



Diterima



2



0.514



0.757



diterima



0.0



Diterima



3



0.229



0.243



diterima



2.0



Diterima



4



0.014



0.014



ditolak



8.0



Ditolak



Jika H0 ditolak maka faktor baris dan kolom tidak independen yang dapat diartikan bahwa rasa minuman dipengaruhi oleh urutan/cara menuangkan. 2.5.2.



Program R untuk Uji Eksak Fisher’s Uji Eksak Fisher~s dalam program R dapat diakses melalui



fungsi fisher.test. > teh fisher.test(teh) Fisher's Exact Test for Count Data data: teh p-value = 0.4857 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval:



85



0.2117329 621.9337505 sample estimates: odds ratio 6.408309 > fisher.test(teh,alternative="greater") Fisher's Exact Test for Count Data data: teh p-value = 0.2429 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 0.3135693 Inf sample estimates: odds ratio 6.408309



Pengujian independensi dua faktor secara eksak dapat juga diimplementasikan pada tabel dua arah yang berukuran axb dengan menggunakan fungsi fisher.test tersebut. Pengujian ini merupakan generalisasi dari Fisher~s exact test pada tabel



x .



> library(ctest)



Dari contoh Tabel 2.10, pengujian eksak Fisher adalah sebagai berikut > fisher.test(gender) Fisher’s Exact Test for Count Data data: gendergap p-value = 0.03115 alternative hypothesis: two.sided



2.6. Ukuran Assosiasi Untuk mengetahui derajad faktor



keeratan hubungan antara dua



dapat digunakan beberapa ukuran asosisi berikut yang



didasarkan pada statistik Chi squred.



86



a. Koefisien kontigensi kuadrat tengah (2)



2 



2 n



, 0 < 2 < 



b. Koefisien kontigensi Pearson (P)



2 n ,0sum.arrayodds.ratio(sum.array(fit.array)) [1] 17.70244 >odds.ratio(sum.array(fit.array, perm=c(1,2,3))) [1] 25.13620 >odds.ratio(sum.array(fit.array, perm=c(2,1,3))) [1] 61.87182 >loglin(fitted(fitACM),margin=list(c(1,2),c(2,3), c(1,3)), param=T,fit=T) >options(contrasts=c("contr.treatment","contr.poly")) >fit.glmsum(resid(fit, type="pearson")^2) [1] 0.4011004



122



Statistik uji rasio Likelihood dapat diperoleh menggunakan fungsi summary untuk loglm dan glm. Sedangkan fungsi print untuk loglin. >summary(fitAC.AM.CM) Formula: count ~ alkohol + rokok + film + alkohol: rokok + alkohol:film + rokok:film Statistics: X^2 df P(> X^2) Likelihood Ratio 0.3742223 1 0.5407117 Pearson 0.4011002 1 0.5265216



Membandingkan model menggunakan fungsi anova. >anova(fitAC.M, fitAC.AM.CM, fitAM.CM, fitA.C.M) LR tests for hierarchical log-linear models Model 1: count ~ rokok + alkohol + film Model 2: count ~ rokok + alkohol + film Model 3: count ~ rokok + alkohol + film Model 4: count ~ rokok + alkohol + film Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 843.8266437 3 Model 2 843.8266437 3 0.0000000 0 0.00000 Model 3 187.7543029 2 656.0723408 1 0.00000 Model 4 0.3739859 1 187.3803170 1 0.00000 Saturated 0.0000000 0 0.3739859 1 0.54084 >fit.glm2 summary(fit.glm2, cor = F) Coefficients: Value Std. Error t value (Intercept) 5.633420 0.05970077 94.360930 film -5.309042 0.47506865 -11.175316 rokok -1.886669 0.16269584 -11.596294 alkohol 0.487719 0.07576708 6.437083 film: rokok 2.847889 0.16383796 17.382353 film:alkohol2.986014 0.46454749 6.427791 rokok:alkohol 2.054534 0.17406289 11.803401



123



(Dispersion Parameter for Poisson family taken to be 1) Null Deviance: 2851.461 on 7 degrees of freedom Residual Deviance: 0.3739859 on 1 degrees of freedom Number of Fisher Scoring Iterations: 3



Untuk loglm, estimasi parameter menggunakan fungsi model.matrix >options(contrasts=c("contr.treatment","contr.poly")) >Xsqrt(diag(solve(t(X)%*%diag(c(fitAC.AM.CM$fitted))%*%X))) (Intercept) 0.05970110 film1



alkohol1



rokok1



0.47519394



0.16269591



alkohol1: rokok1



0.07576733 0.16383935



alkohol1:film1 rokok1:film1 0.46467452



0.17406330 >table.napsatable.kecelakaanlibrary(MASS) >fitG.I.L.SfitGI.GL.GS.IL.IS.LSfitGIL.GIS.GLS.ILSanova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS, fitGIL.GIS.GLS.ILS) LR tests for hierarchical log-linear models Model 1: count ~ belt + location + gender + injury Model 2: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury Model 3: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 2792.76245 11 Model 2 23.35137 5 2769.41113 6 0.00000 Model 3 1.32489 1 22.02648 4 0.00020 Saturated 0.00000 0 1.32489 1 0.24972 >fitGI.IL.IS.GLS X^2) Likelihood Ratio 7.462791 4 0.1133613 Pearson 7.487374 4 0.1122673 >fitted(fitGI.IL.IS.GLS) >fit.arrayodds.ratioapply(fit.array,c(1,4),odds.ratio)) injury belt Tidak Ya Tidak 1.326766 1.326766 Ya 1.166682 1.166682 >apply(fit.array,c(2,4),odds.ratio) injury location Tidak Ya



125



Urban 0.6614758 0.6614758 Rural 0.5816641 0.5816641 >apply(fit.array,c(3,4),odds.ratio) injury gender Tidak Ya Wanita 1.170603 1.170603 Laki 1.029362 1.029362 >apply(fit.array,c(1,2),odds.ratio) Urban Rural Tidak 0.5799410 0.5799411 Ya 0.5799411 0.5799412 >apply(fit.array,c(1,3),odds.ratio) Wanita Laki Tidak 2.134127 2.134127 Ya 2.134127 2.134127 >apply(fit.array,c(2,3),odds.ratio) Wanita Laki Urban 0.4417123 0.4417123 Rural 0.4417122 0.4417123



Untuk menghitung dissimilarity matrix menggunakan perintah >Fitted.values sum(abs(table.kecelakaan $count - Fitted.values))/(2* sum(table.kecelakaan $count)) [1] 0.002507361



3.7. Soal Latihan 1. Hasil survei tentang tingkat kepuasan kondisi tempat tinggal (tower block, apartemen dan rumah). Tingkat kepuasan diukur berdasarkan derajat kontak mereka dengan penghuni lainnya. Data dikelompokkan berdasarkan tipe rumah seperti yang dicantumkan pada Tabel 3.9.



126



Tabel 3.9. Hasil Surver kepuasan tempat tinggal Derajad



Tingkat Kepuasan



Kontak



Rendah



Sedang



Tinggi



Rendah



Tinggi



Rendah



Rendah



Rendah



Tinggi



62



30



50



48



101



101



Apartemen



135



140



75



115



112



198



Rumah



62



132



47



107



60



105



Tower Block



Tingkat kepuasan terdiri atas tiga level, yaitu rendah, sedang, dan tinggi; derajat kontak terdiri atas dua level yaitu rendah dan tinggi; sedangkan tipe rumah terdiri atas tiga kategori yaitu tower block, apartment. dan rumah. Lakukan analisis untuk mengetahui apakan ketiga variabel yaitu derajad kontak, jenis tempat tinggal dan tingkat kepuasan saling berhubungan. 2. Penelitian dilakukan terhadap pelajar SLTA. Survei berkaitan dengan strata sosial, pendidikan orang tua dan rencana studi lanjut. Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA Strata sosial



Pendidikan orang tua



Pra Sejahtera Sejahtera 1 Sejahtera 2



Rencana studi lanjut Tidak



Ya



Rendah



749



35



Tinggi



233



133



Rendah



627



38



Tinggi



330



303



Rendah



420



37



Tinggi



374



467



Berdasarkan data tersebut, lakukan analisis bagaimana pola hubungan ketiga variabel.



127



128



BAB IV REGRESI LOGISTIK



Pada bab ini akan dibahas pemodelan statistik untuk variabel respon berupa data biner, yaitu respons untuk masing-masing subjek dapat dinyatakan sebagai sukses€ dan gagal€. Model untuk data biner ini lebih dikenal dengan nama regresi logistik. 4.1. Distribusi Binomial dan Regresi Logistik Misalkan variabel yi adalah variabel respon berupa data biner (bernilai nol atau satu)



1 jika " sukses" pada subjek ke - i yi   0 jika " gagal" pada subjek ke - i dengan yi merupakan realisasi dari variabel random Yi. Probabilitas Yi dapat dinyatakan sebagai P(Yi=1) = i dan P(Yi=1) = (1-i) Distribusi Yi merupakan distribusi Bernoulli dengan parameter i dan dapat dituliskan dalam bentuk



P(Yi  yi )   iyi (1   i )1 yi untuk yi = 0, 1. Nilai harapan dan variansi Yi masing-masing adalah E(Yi) = i = i dan Var(Yi) = i(1-i) Nampak jelas bahwa mean dan variansinya tergantung pada i. Dalam analisis regresi, parameter i nilai dipengaruhi oleh variabel X yaitu i = i(Xi). 129



Variabel Xi disebut variabel independen (prediktor) pada subjek ke-i. Oleh karena mean dan variansi tergantung pada nilai i maka



model linear tidak dapat digunakan. Model linear



mengasumsikan bahwa prediktor mempengaruhi mean pada variansi tetap (sama). Kondisi ini tidak dipenuhi pada respon data biner. Misalkan



variabel



X



merupakan



faktor



yang



dapat



diklasifikasikan ke dalam k grup, i=1,....,k. Akan dianalisis pengaruh faktor X terhadap nilai i. Individu/subjek yang terletak dalam satu grup mempunyai nilai X yang sama. ni menyatakan banyaknya observasi dalam grup i dan yi menyatakan banyaknya sukses€ dalam grup i, sehingga yi=0,1,...,ni. Jika ni observasi dalam masing-masing



grup



adalah



independen



dan



mempunyai



probabilitas }sukses€ i, maka Yi berdistribusi binomial.



 ni  P(Yi  yi )    iyi (1   i ) ni  yi  yi  Mean dan variansi Yi adalah E(Yi) = i = nii dan Var(Yi) = nii(1-i) Distribusi binomial merupakan generalisasi dari distribusi Bernoulli. Jika ni= 1 maka distribusi binomial akan menjadi distribusi Bernoulli. 4.2. Model



Regresi



Logistik



dengan



Variabel



Independen



Tunggal Berdasarkan data bivariat (X, Y) dimana X variabel prediktor dan Y variabel respon biner, π x menyatakan probabilitas sukses€ pada nilai x sehingga π x merupakan parameter dalam distribusi



130



binomial. dengan demikian kita akan berbicara tentang peluang Y=1 yang tergantung pada variabel tak bebas X. Regresi logistik dapat didefinisikan sebagai sebuah fungsi



 ( x) 



exp(  0  1 x) 1  exp(  0  1 x)



Logit dari probabilitas ini merupakan fungsi linear,



  ( x)    0  1 x log it[ ( x)]  log  1   ( x)  Transformasi logit merupakan logaritma natural dari nilai odds. Dari persamaan ini, regresi logistik mengindikasikan bahwa a. untuk



>0, kenaikan satu satuan x pengaruhnya terhadap



1



kenaikan nilai logit. Jika x maka π(x)1 dan Jika x- maka π(x)0 b. untuk



0 dapat



digambarkan sebagai berikut



Gambar 4.1. Grafik  terhadap X Pada regresi logistik dengan parameter



, gradien (slope) garis



1



singgung kurva sama dengan π(x)



− π(x)].



1



Misalnya pada π(x) = 0.50 mempunyai slope 1



(0.50)(0.50) = 0.25



Sebaliknya pada π x = 0.90 atau π x = 0.10, mempunyai slope 0.09 1



. Slopenya mendekati nol ketika π x mendekati satu atau nol.



π x = 0.50 terjadi pada x = −



/



0



1



. Nilai x ini biasanya disebut



median effective level (dinotasikan dengan EL50) yang menyatakan probabilitas sukses sama dengan probabilitas gagal.



132



4.3. Model Regresi Logistik dengan Variabel Independen Banyak Regresi Logistik adalah regresi yang menggunakan dua nilai yang berbeda untuk menyatakan variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Fungsi distribusi yang digunakan adalah distribusi logistik dengan notasi



(X) untuk



menyatakan mean bersyarat dari Y jika diberikan vektor kovariate X = (x1,x2,



xp)T. Model regresi logistiknya adalah



exp(X Tβ) dengan XT= 0+ x11 + 1  exp(X Tβ)



(X) =  = (0,1,



. + xpp



., p)T adalah vektor parameter. Didefinisikan suatu



transformasi logit (X) yaitu : g(X) = log



π(X) = XT 1  π(X)



sehingga g(X) linear dalam parameter . 4.4. Maximum Likelihood Estimator untuk Regresi Logistik Misalkan suatu sampel terdiri n observasi dari pasangan (Xi,yi), i= ,



,n. Model regresi logistik (Xi) =



exp(X iTβ ) 1  exp(X iTβ )



Untuk menentukan model regresi, harga  ditaksir lebih dahulu dengan menggunakan Metode Kemungkinan Maksimum. log likelihood n



log L(  )   yi log(  i )  (ni  yi ) log(1   i ) i 1



133



Fungsi



Dari fungsi log likelihood ini dicari derivarif pertama dan derivarif kedua. Penaksir parameter  merupakan nilai  yang memaksimumkan fungsi log likelihood pada data sampel (X, Y). Nilai maksimum dicapat dengan syarat  log L(  ) 0  dan



 2 log L(  ) H ( )   T matrik H()



disebut matrik Hessian yang



merupakan matrik



definet negatif. Berdasarkan kondisi derivatif pertama, penaksir parameter  menggunakan



metode



kemungkinan



maksimum



adalah



penyelesaian dari persamaan n







p



[yi - (Xi)] = 0 dan







xij [yi - (Xi)] = 0



j  0 i 1



i 1



untuk j = ,



n



.,p.



Derivatif kedua fungsi log likelihood terhadap semua parameternya



disebut matrik Hessian (H) yang mempunyai



elemen n  2 log L(  ) xij2 i (1   i )    2  j i 1



dan n  2 log L(  )   xij xiu  i (1   i )  j  u i 1



134



Misalkan



 1 x11 ... x1 p  1 x ... x 2 p  21  X  ... ... ...     1 x n1 ... x np  dan matrik V adalah



0 ... 0 ˆ1 (1  ˆ1 )    0 0 ˆ 2 (1  ˆ 2 ) ...   V   ... ... ...   0 0 ... ˆ n (1  ˆ n ) 



ˆ i   i (ˆ ) I (ˆ )  X T VX   H (ˆ ) I ( ˆ ) disebut matrik informasi atau biasa disebut informasi Fisher dan



 



1 Var ( ˆ )  I ( ˆ )



Var ( ˆ j ) adalah elemen diagonal ke-j (baris ke-j dan kolom ke-j) dari Var ( ˆ ) . Nilai penaksir  dengan menggunakan metode Newton-Rapson pada langkah ke-t adalah







(t+1) = (t) +  H (  dengan  i(t ) =



exp(X iTβ (t) ) ,i= , 1  exp(X iTβ (t) )



135



(t )







1



) [y -(t)] ,n



4.5. Inferensi Regresi Logistik Kita telah mempelajari bagaimana regresi logistik membantu meggambarkan efek dari prediktor pada variabel respon biner. Parameter dalam model logistik dapat diestimasi menggunakan metode



Maximum



Likelihood



Estimator



(MLE).



Selanjutnya



berdasarkan sifat-sifat penaksir MLE dapat digunakan untuk melakukan inferensi parameternya. 4.5.1. Interval Konfidensi Jika jumlah sampelnya besar maka interval konfidensi dari



j



dalam model regresi logistik logit[(x)] = 0+ x11 +



. + xp p



adalah



ˆ j  z / 2 Var ( ˆ j ) untuk j=0,1,...,p 4.5.2. Uji Signifikansi Untuk menguji hipotesis H0:



j



=0



pada sampel besar dapat digunakan statistika uji



z



ˆ j var( ˆ j )



Statistik z beridistribusi normal standar.



  ˆ j   2 z    var( ˆ j )   



2



Statistik z2 beridistribusi Chi-Kuadrat dengan df=1. Statistik z ini disebut statistik uji Wald. 136



Meskipun statistik uji Wald ini cocok untuk sampel besar, akan tetapi



masih lebih powerfull



uji likelihood-ratio. uji



likelihood-ratio lebih reliabel dan sering digunakan dalam praktek. 4.5.3. Uji Kecocokan Model Andaikan kita ingin menguji apakah model sesuai/cocok dengan data dan kita ingin menguji seberapa besar kesesuaian tersebut maka dapat digunakan ukuran devians. Statistik devians (D) mengukur ketidaksesuaian antara nilai obeservasi dan nilai yang diprediksi oleh model.



  n  niˆi   n ˆ   D  2  y i log i i   (ni  yi ) log i y n y  i 1  i   i  i  k



atau k   n  yi   y   D  2  y i log i   (ni  yi ) log i ˆ ˆ    n n n i 1  i i i i i    



Statistik D berdistribusi Chi Kuadrat. Secara lebih umum, misalkan variabel prediktor (X) dipisahkan menjadi dua kelompok



 1 



X= (X1, X2) dan      2  Vektor  1 terdiri dari p1 parameter dan vektor 2 terdiri dari p2 parameter. Selanjutnya akan diuji hipotesis H0 :  2 = 0 lawan H0 :  2  0



137



Hipotesis nol (H0) menyatakan bahwa variabel prediktor dalam kelompok dua (X2) tidak mempengaruhi respon Y. Hal ini identik dengan menguji signifikansi parameter  2. Misalkan D( 1) menyatakan nilai devians pada model yang memasukkan variabel X1 dan D() menyatakan nilai devians pada model yang memasukkan variabel X = (X1,X2). Selanjutnya selisih dua nilai devians itu, yaitu



 L( 1 )    L(  ) 



2 2 = D( 1) – D() atau   2 Log 



berdistribusi Chi Kuadrat dengan df=p2 (untuk sampel besar). p2 merupakan selisih banyaknya parameter dalam D( 1) dan D(). 4.5.4. Contoh Data Table 4.1 adalah hasil penelitian mengenai sarang kepiting horseshoe (J. Brockmann, Ethology, 102: 1–21, 1996). Setiap kepiting betina terdapat kepitang jantan yang berada di sekeliling sarangya. Penelitian ini



mempelajari faktor-faktor



yang mempengaruhi banyaknya keping jantan yang berada disekeliling kepiting betina. Kepiting-kepiting jantan ini disebut dengan satellites, karena berada disekitar sarang betina. Pada data



tersebut



mempunyai



empat



prediktor



(variabel



independen) yaitu warna cangkang (empat warna), konsisi punggung (tiga kondisi), berat cangkang, dan lebar cangkang.



138



Tabel 4.1. Data Kepiting Ladam Kuda betina Color



Spine



Width



Sate-



Weight



Color



Spine



Width



Sate-



Weight



(C)



(S)



(W)



lite



(Wt)



(C)



(S)



(W)



lite



(Wt)



(Sa)



(Sa)



3



3



28.3



8



3050



3



3



26.5



4



2300



4



3



22.5



0



1550



3



3



27.8



3



3250



2



1



26.0



9



2300



3



3



27.0



6



2500



4



3



24.8



0



2100



4



3



25.7



0



2100



4



3



26.0



4



2600



3



3



25.0



2



2100



3



3



23.8



0



2100



3



3



31.9



2



3325



2



1



26.5



0



2350



5



3



23.7



0



1800



4



2



24.7



0



1900



5



3



29.3



12



3225



3



1



23.7



0



1950



4



3



22.0



0



1400



4



3



25.6



0



2150



3



3



25.0



5



2400



4



3



24.3



0



2150



4



3



27.0



6



2500



3



3



25.8



0



2650



4



3



23.8



6



1800



3



3



28.2



11



3050



2



1



30.2



2



3275



5



2



21.0



0



1850



4



3



26.2



0



2225



3



1



26.0



14



2300



3



3



24.2



2



1650



2



1



27.1



8



2950



3



3



27.4



3



2900



3



3



25.2



1



2000



3



2



25.4



0



2300



3



3



29.0



1



3000



4



3



28.4



3



3200



5



3



24.7



0



2200



5



3



22.5



4



1475



3



3



27.4



5



2700



3



3



26.2



2



2025



3



2



23.2



4



1950



3



1



24.9



6



2300



2



2



25.0



3



2300



2



2



24.5



6



1950



3



1



22.5



1



1600



3



3



25.1



0



1800



4



3



26.7



2



2600



3



1



28.0



4



2900



5



3



25.8



3



2000



5



3



25.8



10



2250



5



3



26.2



0



1300



3



3



27.9



7



3050



3



3



28.7



3



3150



3



3



24.9



0



2200



3



1



26.8



5



2700



3



1



28.4



5



3100



5



3



27.5



0



2600



4



3



27.2



5



2400



3



3



24.9



0



2100



3



2



25.0



6



2250



2



1



29.3



4



3200



3



3



27.5



6



2625



2



3



25.8



0



2600



3



1



33.5



7



5200



3



2



25.7



0



2000



3



3



30.5



3



3325



139



Color



Spine



Width



Sate-



Weight



Color



Spine



Width



Sate-



Weight



(C)



(S)



(W)



lite



(Wt)



(C)



(S)



(W)



lite



(Wt)



(Sa)



(Sa)



3



1



25.7



8



2000



4



3



29.0



3



2925



3



1



26.7



5



2700



3



1



24.3



0



2000



5



3



23.7



0



1850



3



3



25.8



0



2400



3



3



26.8



0



2650



5



3



25.0



8



2100



3



3



27.5



6



3150



3



1



31.7



4



3725



5



3



23.4



0



1900



3



3



29.5



4



3025



3



3



27.9



6



2800



4



3



24.0



10



1900



4



3



27.5



3



3100



3



3



30.0



9



3000



2



1



26.1



5



2800



3



3



27.6



4



2850



2



1



27.7



6



2500



3



3



26.2



0



2300



3



1



30.0



5



3300



3



1



23.1



0



2000



4



1



28.5



9



3250



3



1



22.9



0



1600



4



3



28.9



4



2800



5



3



24.5



0



1900



3



3



28.2



6



2600



3



3



24.7



4



1950



3



3



25.0



4



2100



3



3



28.3



0



3200



3



3



28.5



3



3000



3



3



23.9



2



1850



3



1



30.3



3



3600



4



3



23.8



0



1800



5



3



24.7



5



2100



4



2



29.8



4



3500



3



3



27.7



5



2900



3



3



26.5



4



2350



2



1



27.4



6



2700



3



3



26.0



3



2275



3



3



22.9



4



1600



3



3



28.2



8



3050



3



1



25.7



5



2000



5



3



25.7



0



2150



3



3



28.3



15



3000



3



3



26.5



7



2750



3



3



27.2



3



2700



3



3



25.8



0



2200



4



3



26.2



3



2300



4



3



24.1



0



1800



3



1



27.8



0



2750



4



3



26.2



2



2175



5



3



25.5



0



2250



4



3



26.1



3



2750



4



3



27.1



0



2550



4



3



29.0



4



3275



4



3



24.5



5



2050



2



1



28.0



0



2625



4



1



27.0



3



2450



5



3



27.0



0



2625



3



3



26.0



5



2150



3



2



24.5



0



2000



3



3



28.0



1



2800



3



1



26.8



0



2550



3



3



30.0



8



3050



5



3



26.7



0



2450



3



3



29.0



10



3200



3



1



28.7



0



3200



140



Color



Spine



Width



Sate-



Weight



Color



Spine



Width



Sate-



Weight



(C)



(S)



(W)



lite



(Wt)



(C)



(S)



(W)



lite



(Wt)



(Sa)



(Sa)



3



3



26.2



0



2400



4



3



23.1



0



1550



3



1



26.5



0



1300



3



1



29.0



1



2800



3



3



26.2



3



2400



4



3



25.5



0



2250



4



3



25.6



7



2800



4



3



26.5



1



1967



4



3



23.0



1



1650



4



3



24.5



1



2200



4



3



23.0



0



1800



4



3



28.5



1



3000



3



3



25.4



6



2250



3



3



28.2



1



2867



4



3



24.2



0



1900



3



3



24.5



1



1600



3



2



22.9



0



1600



3



3



27.5



1



2550



4



2



26.0



3



2200



3



2



24.7



4



2550



3



3



25.4



4



2250



3



1



25.2



1



2000



4



3



25.7



0



1200



4



3



27.3



1



2900



3



3



25.1



5



2100



3



3



26.3



1



2400



4



2



24.5



0



2250



3



3



29.0



1



3100



5



3



27.5



0



2900



3



3



25.3



2



1900



4



3



23.1



0



1650



3



3



28.5



0



3050



4



1



25.9



4



2550



5



1



25.5



0



2750



3



3



25.8



0



2300



5



3



23.5



0



1900



5



3



27.0



3



2250



3



2



24.0



0



1700



3



1



29.7



5



3850



Keterangan : C



: variabel warna cangkang (1: medium light, 2: medium,3: medium dark, 4: dark.



S



: variabel kondisi punggung



W



: lebar cangkang dalam cm



Wt



: berat cangkang dalam kg



Sa



: banyaknya satelite



Dalam contoh ini, yang kita bahas adalah lebar cangkang. Berdasarkan lebar cangkangnya dapat dikelompokan menjadi beberapa kategori,



. ,



. 141



–24.25, 24.25–25.25, 25.25–26.25,



26.25–27.25, 27.25–28.25, 28.25–29.25, >30.25). Tabel frekuensinya adalah sebagai berikut Tabel 4.2. Rata-rata banyaknya satelite W 29.25



banyaknya kasus 14 14 28 39 22 24 18 14



banyaknya satelite 14 20 67 105 63 93 71 72



rata-rata



variansi



1.00 1.43 2.39 2.69 2.86 3.87 3.94 5.14



2.77 8.88 6.54 11.38 6.88 8.81 16.88 8.29



Berdasarkan data Tabel 4.2, dapat disusun model



dalam



bentuk probilititas linear (w) = 0 + w (w) menyatakan probabilitas bahwa kepiting betina dengan lebar cangkang w mempunyai sebuah satelit. Menggunakan fungsi Generalized Linear Model (GLM) pada program R dengan asumsi distribusi normal diperoleh model regresi



ˆ (w)  1.766  0.092w Probabilitas meningkat sebesar 0.092 setiap peningkatan 1 cm W. Model regresi ini tidak menjamin bahwa ˆ ( w) bernilai antara nol dan satu. Model ini hanya belaku untuk 19.2 dengkur.lg dengkur.lg Call: glm(formula = sakit/n ~ dengkur, family = binomial(), data=dengkur,weights = n) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06



Cara lain untuk menggunakan fungsi GLM, adalah dengan menambah kolom yang menginformasikan banyaknya sukses (YN.1) dan banyaknya gagal (YN2). Sehingga diperoleh data framenya menjadi : > ngorok$YN ngorok dengkur sakit n YN.1 YN.2 1 0 24 1379 24 1355 2 2 35 638 35 603 3 4 21 213 21 192 4 5 30 254 30 224 > dengkur.lg dengkur.lg Call: glm(formula = YN ~ dengkur, family = binomial(), data = ngorok) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06



Contoh berikutnya adalah berdasar data pada Tabel 3.1. > load("D:\\kepiting.RData") > names(crabs) [1] "C" "S" "W" "Y" "Wt"



155



> crabs crabs$psat 0



Model regresi logistik menggunakan fungsi glm



dengan



variabel independen weight. > crabs.lg.1 summary(crabs.lg.1) Call: glm(formula = psat ˜ weight, family = binomial(), data = crabs) Deviance Residuals: Min 1Q Median 3Q Max -2.1108 -1.0749 0.5426 0.9122 1.6285 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.6946338 0.8779167 -4.208 2.57e-05 *** weight 0.0018151 0.0003755 4.833 1.34e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 225.76 on 172 degrees of freedom Residual deviance: 195.74 on 171 degrees of freedom AIC: 199.74



Untuk membandingkan model yang memuat variabel Wt (dalam H1) dan variabel yang hanya memuat intersep (dalam H0) kita dapat menggunakan statistik Wald diatas dengan z = 4.833 dan P-value < 0.0001, atau menggunakan statistik rasio likelihood. > crabs.lg.0 anova(crabs.lg.0,crabs.lg.1,test="Chisq")



156



Analysis of Deviance Table Model 1: psat ~ 1 Model 2: psat ~ Wt Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 172 225.76 2 171 195.74 1 30.021 4.273e-08 *** --Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05 ‘.’0.1‘ ’ 1 > anova(crabs.lg.1,test="Chisq") Analysis of Deviance Table Model: binomial, link: logit Response: psat Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 172 225.76 Wt 1 30.021 171 195.74 4.273e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1



4.9. Model Logistik pada Respon Multi Kategori Model Regresi Logistik digunakan untuk menggambarkan hubungan antara variabel independen/prediktor dengan variabel dependen/respon yang berupa data biner/dikotomi. Variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Pengembangan atas regresi logistik biner adalah regresi logistik multinomial, yaitu variabel dependen Y bernilai diskrit (1, 2, ...J). Jenis data untuk variabel Y dapat berbentuk data nominal maupun ordinal. Variabel random Yi bernilai diskrit dengan indeks , ,



J.



ij = P{Yi = j} merupakan probabilitas responden ke-i memilih kategori ke-j untuk i=1,2...n dan j=1,2,...J. Diasumsikan antar pilihan adalah saling asing



157



J



sehingga



 j 1



 1 untuk setiap i. Sehingga hanya dipunyai J-1



ij



parameter. Dapat disusun distribusi multinomial



 ni  yi1  i1 .... iJyiJ  yi1 ,..., yiJ 



.,YiJ=yiJ} = 



P{Yi1=yi1,



Variabel dependen Yij dipengaruhi oleh varaiabel independen Xi. 4.9.1. Model Logit Untuk menyusun model logit, dilakukan dengan cara salah satu kategori (biasanya kategori terakhir) dijadikan baseline, sehingga model logitnya adalah



ij  log(



 ij )  0 j  1 j xi  iJ



untuk j= , , ., J-1).



Model ini analog dengan model regresi logistik, kecuali bahwa distribusi probabilitas untuk respon adalah multinomial, bukan binomial dan kita mempunyai persamaan sebanyak J-1, bukannya satu. Persamaan multinomial logit sebanyak J - 1 persamaan untuk setiap kategori 1, 2, . . . J -1 dengan baseline kategori J, sedangkan dalam persamaan regresi logistik (sebuah persamaan) adalah kontras antara sukses dan gagal. Jika J=2, model multinomial logit akan menjadi model regresi logistik. Kita



hanya



membutuhkan



J-1



persamaan



untuk



men-



deskripsikan J respon kategori. Misal terdapat J = 3 kategori, maka dipunyai kontras antara kategori 1 vs 3 dan kategori 2 vs 3. Kontras antara 1 vs 3 dapat dengan mudah diperoleh, karena



log(i1/i2) = log(i1/i3) - log(i2/i3). 158



Tedapat (J-1)



persamaan logit dan masing-masing logit



memuat parameter (0j+1j). Untuk j=J



iJ  log(



 iJ )  0 sehingga 0J=1J=J  iJ



Dari persamaan logit tersebut, diperoleh



 ij  exp(ij )  iJ  ij   iJ exp(ij ) J



Karena



 j 1



ij



 1 dan iJ = 0 maka J



J



j 1



j 1



 ij   iJ exp(ij )  1 J



J



 j 1



 iJ 



ij



  iJ  exp(ij )  1 j 1



1 J



 exp( k 1



Sehingga



dapat



dan  ij  ik



)



exp(ij ) J



 exp( k 1



disimpulkan



bahwa



ik



)



model



probabilitas



responden/individu ke i memilih alternatif j adalah



 ij 



exp(  0 j  1 j xi ) J



 exp(  k 1



0j



 1 j xi )



untuk suatu i dan suatu j dimana i= , , n dan j= ,



159



,J



Untuk menentukan model regresi, harga  ditaksir lebih dahulu



dengan



menggunakan



Metode



Kemungkinan



Maksimum (Nugraha dkk, 2009). 4.9.2. Fungsi Likelihood dan Estimasi Parameter Fungsi likelihood dari sampel random berukuran n (n responden) adalah n



L(  )    iy1i1 .... iJyiJ i 1



dengan yij = 1 jika responden i memilih j dan yij=0 jika responden i memilih selain j. Log dari fungsi likelihood tersebut adalah n



LL() =



J



 y i 1 j 1



ij



ln( ij )



 0 



misalkan X ij  (1, xij ) dan     maka  1  n



LL() =







J



 y  X ij



i 1 j 1 n



=



J



 y i 1 j 1







J







j 1



  



  ln   exp( X ij  )  



n   J  J X ij     ln   exp( X ij  )  yij    i 1   j 1   j 1



n  J    exp( X ij  )   y X ln    ij ij   i 1 j 1 i 1  j 1  n



=



ij







ij



J



160



Derivatif LL() terhadap  adalah LL(  ) = 



     exp( ) X ij   X ij yij    X ij  J   i 1 j 1 i 1 j 1   exp( X ij  )    j 1 n



n



 X y n



=



J



J



i 1 j 1



T ij



ij



J







  ij  0



Jadi , penaksir parameter  = (1, ,p)t menggunakan metode kemungkinan maksimum adalah penyelesaian dari persamaan kemungkinan : n







[yi j - ij ] = 0 dan



 X y n



J



i 1 j 1



i 1



T ij



ij







  ij  0



Penyelesaian dari persamaan penaksir ini dapat digunakan iterasi dengan menggunakan metode newton raphson dan metode scoring. Uji hipotesis dan interval konvidensi untuk parameter (slope) adalah (Uji untuk masing-masing slope H0 : j = j(0) didasarkan pada statistik Wald :



Z0 



ˆ j   0j SE ( ˆ j )



a. Uji untuk beberapa slope H0 : j =...= q =0 didasarkan pada statistik X2 = G2model 1 – G2model 2 yang berdistribusi chi kuadrat dengan derajad bebasnya sama dengan selisih banyaknya parameter dari kedua model. G2 adalah devians yang mempunyai nilai -2log L



161



Untuk menguji kecocokan model dapat digunakan statistik Pseudo R2 yang identik dengan nilai R2 (koefisien deterministik). pseudo R2 = 1 



G12 G02



Jika model secara sempurna memprediksi nilai Y (Pi = 1 maka yi = 1 dan jika Pi=0 maka yi=0) maka log L = 0 (atau nilai deviansnya nol). Sehingga nilai maksimum dari pseudo R2 adalah satu. Statistik pseudo R2 secara luas digunakan untuk menjelaskan kecocokan model dalam DCM (Discrete Choice Models) secara intuitif. Pemasalahan dalam penggunaan pseudo R2 ini adalah tidak adanya kaidah untuk menyatakan pada nilai berapa sedemikian hingga model dikatakan baik. Permasalahan kedua adalah peningkatan nilai pseudo R2 pada penambahan variabel independen tidak dapat menjelaskan seberapa penting variabel tersebut. 4.9.3. Contoh Data I Data penelitian mengenai makanan aligator yang merupakan hasil pengamatan terhadap 59 aligator liar di danau Florida. Yang diamati adalah jenis makanan utama (dalam volume) yang ditemukan dalam perutnya dan Ukuran aligator (panjang). Terdapat



tiga



jenis makanan



utama,



yaitu



Ikan



(Fish),



Invertebrata, dan Lainnya (Other). Yang termasuk invertebrata adalah apple snails, aquatic insects, dan crayfish. Yang termasuk kategori lainnya€ meliputi amphibian, mammal, plant material, stones reptiles (primarily turtles). Panjang aligator antara 1.24 s/d 3.89 meter. Tabel berikut adalah hasil pengamatannya.



162



Tabel 4.7. Data pengamatan panjang Aligator (dalam meter) dan makanan utama No



1



2



3



4



5



6



7



8



9



10



Panjang



1.24



1.45



1.63



1.78



1.98



2.36



2.79



3.68



1.30



1.45



Makanan



I



I



I



I



I



F



F



O



I



O



No



11



12



13



14



15



16



17



18



19



20



Panjang



1.65



1.78



2.03



2.39



2.84



3.71



1.30



1.47



1.65



1.78



Makanan



O



I



F



F



F



F



I



I



I



O



No



21



22



23



24



25



26



27



28



29



30



Panjang



2.03



2.41



3.25



3.89



1.32



1.47



1.65



1.80



2.16



2.44



Makanan



F



F



O



F



F



F



F



I



F



F



No



31



32



33



34



35



36



37



38



39



40



Panjang



3.28



1.32



1.50



1.65



1.80



2.26



2.46



3.33



1.40



1.52



Makanan



O



F



I



F



F



F



F



F



F



I



No



41



42



43



44



45



46



47



48



49



50



Panjang



1.68



1.85



2.31



2.56



3.56



1.42



1.55



1.70



1.88



2.31



Makanan



F



F



F



O



F



I



I



I



I



F



No



51



52



53



54



55



56



57



58



59



60



Panjang



2.67



3.58



1.42



1.0



1.73



1.93



2.36



2.72



3.66



Makanan



F



F



F



I



O



I



F



I



F



Sumber : Agresti (2007). Keterangan:  F : Ikan (Fish)  I: Invertebrata  O: lainnya (other) Misalkan Y = pilihan makanan utama dan



x = panjang



alligator. Pilihan lainnya€ sebagai baseline category. MLE nya adalah (1: ikan....., 2: inver......, 3: other)) 163



 ˆ  log 1   1.618  0.110 x  ˆ 3   ˆ log 2  ˆ 3



   5.697  2.465 x 



berdasarkan kedua logit tersebut dapat digunakan untuk mengestimasi log odds dari ikan dan invertebrata, yaitu



 ˆ log 1  ˆ 2



   (1.618  5.697)  [0.110  (2.645)]x = -4.08 + 2.355x 



Aligator yang lebih besar nampaknya lebih menyukai ikan daripada



invertebrata.



Masing-masing



logit



dapat



diinterpresikan sebagi regresi logistik biner bersyarat. Sebagai contoh, diberikan bahwa jenis makanan utama adalah ikan atau invertebrata, estimasi probabilitas bahwa aligator memilih ikan meningkat dengan bertambah panjang x seperti kurva S. Untuk aligator dengan panjang x + 1 meter, estimasi nilai odds bahwa makanan utama adalah ikan lebih disukai daripada invertebrata adalah exp(2.355) = 10.5 kali X meter. Hipotesis



bahwa



makanan



utama



adalah



independen



terhadap ukuran x adalah H0:



1



=



2



=0



Statistik uji likelihood-ratio sama dengan 16.8 dengan df =2 dan nilai P-value= 0.0002 . Sehingga dapat disimpulkan bahwa X mempengaruhi jenis makanan utama aligator. Model logit multikategori disajikan dalam probabilitas respon. Dari contoh pada data Tabel 3.7, karena pilihan 3



164



lainnya€ sebagai baseline maka



ˆ03  ˆ13  0



dan estimasi



probabilitasnya adalah



ˆ1 



e1.620.11x 1  e1.620.11x  e 5.702.47 x



ˆ 2 



e 5.702.47 x 1  e1.620.11x  e 5.702.47 x



ˆ 3 



1 1 e



1.620.11x



 e 5.702.47x



Tabel 4.8. Estimasi parameter model logit Data Aligator Parameter



Logit (Ikan/lainya)



(Invertebrata/lainnya)



Intersep (0)



1.618



5.697



X (1)



-0.110(0.517)



-2.465(0.900)



Dari model tersebut, dapat dipakai untuk memprrediksi probabilitas masing-masing pilihan pada nilai x tertentu. Misalnya pada



x = 3.89 meter, probabilitas aligator memilih



makanan lainnya adalah



ˆ 3  1 1  e1.620.11(3.89)  e 5.702.47(3.89)   0.23 demikian juga kita dapat menghitung probilitas untuk pilihan 1 dan plihan 2,



ˆ1  0.76 dan ˆ 2  0.005 4.9.4. Contoh Data II Ketika variabel independen merupakan data kategorik, maka data dapat disajikan kedalam tabel kontigensi. Sebagaimana



165



telah dijelaskan pada Bab II mengenai



tabel kontigensi, kita



dapat melakukan pengujian goodness of fit menggunakan statistik X2 atau G2.



Sebagai contoh, data survei mengenai



kepercayan akan adanya kehidupan setelah mati. Variabel dependen 



Y = percaya, dengan kategori (Ya, ragu-ragu, tidak), dan variabel independenya adalah o x1 = gender, x1 = 1 untuk perempuan dan 0 untuk laki-laki o x2 = ras/suku, x2 = 1 untuk ras A dan 0 untuk ras non A. Pilihan tidak€ sebagai baseline category untuk Y , sehingga



modelnya adalah



 j  log    j   Gj x1   jR x 2 , untuk j=1,2. 3  dimana G menyatakan indeks untuk parameter gender dan R menyatakan indeks untuk parameter ras. Tabel 4.9. Data Kepercayaan menurut Gender dan Ras Ras



Gender



A



wanita laki wanita laki



Non A



ya 371 250 64 25



Percaya ragu 49 45 9 5



Tidak 74 71 15 13



Dari tabel kontigensi tersebut diperoleh nilai goodness-of-fit X2 = 0.9 and G2 = 0.8 yang dapat disimpulkan bahwa Ras dan Gender saling independen.



166



Selanjutnya jika digunakan model logit, akan diperoleh dua model logit untuk masing-masing



kombinasi gender-ras.



Terdapat empat kombinasi gender-ras, sehingga diperoleh delapan model logit. Model tersebut, untuk j=1,2 memuat enam parameter. sehingga df =



− = .



Akan diuji bahwa terdapat efek interaksi antara gender dan ras terhadapap Y. Estimasi masing-masing parameter disajikan pada tabel 3.10. Tabel 4.10. Estimasi Parameter Data Kepercayaan Parameter



Logit (Ya/Tidak)



(Ragu/Tidak)



Intersep



0.883 (0.243)



-0.758 (0.361)



Gender (X1 =1)



0.419 (0.171)



0.105 (0.246)



Ras (X2 =1)



0.342 (0.237)



0.271 (0.354)



Masing-masing parameter merepresentasikan log(OR). Misalkan ˆ G  0.419 1



merupakan log(OR) gender antara respons kategori 1 (ya) dan kategori 2 (tidak). Oleh karena itu pada wanita, estimasi nilai odds antara respons ya€ terhadap respon tidak€ adalah exp(0.419) = 1.5 kali pada laki-laki. Pada ras A, estimasi odds untuk respons ya€ dibanding tidak€ adalah exp(0.342) = 1.4 kali ras Non A€. Uji hipotesis untuk efek gender adalah G G H0: 1   2  0



Menggunakan uji rasio likelihood diperoleh G2 = 0.8 (df = 2) dan G2 = 8.0 (df = 4) 167



Selisih devians D = 8. − .8 = 7.2 dengan df = − = . Diperoleh



P-value= 0.03 yang menunjukan bahwa gender



berpengaruh terhadap Y. Sedangan pada efek ras diperoleh G2 = 2.8 (df = 4), dan G2= 2.0 dengan df = 2. selisih devians D= 2.8 -2.0 =0.8 dengan df=4-2=2 yang berarti bahwa ras tidak mempengaruhi Y. Tabel 4.11. menampilkan estimasi probabilitas untuk tiga respon kategori. Sebagai gambaran untuk wanita-putih (x1 = x2 = , estimasi probabilitas memilih alternatif Y=



ya€ adalah



= 0.76 Tabel 4.11. Estimasi Probabilitas Data Kepercayaan Ras A Non A



Gender



Percaya ya



ragu



tidak



wanita



0.76



0.10



0.15



laki



0.68



0.12



0.20



wanita



0.71



0.10



0.19



laki



0.62



0.12



0.26



4.9.5. Contoh Data III Table 4.12. merupakan hasil survei dari Demographic and Health Survey conducted di El Salvador pada tahun 1985. Tabel tersebut menunjukkan bahwa 3165 wanita yang masih menikah 168



yang diklasifikasikan ke dalam usia (dikelompokan dalam interval 5 tahunan) dan penggunaan kontrasepsi (steril, lainya, tidak). Tabel 4.12. Data penggunaan Kontrasepsi kontrasepsi usia



Steril



lainnya



tidak



15-19



3



61



232



20-24



80



137



400



25-29



216



131



301



30-34



268



76



203



35-39



197



50



188



40-44



150



24



164



45-49



91



10



183



Sumber : Rodriguez (2001). Dengan menggunakan uji independensi atas dua variabel (keduanya dianggap respon) diperoleh nilai rasio likelihood sebesar 521.1 dengan df=12 (H0 ditolak, kedua variabel saling dependen). Dalam contoh ini kita akan memandang penggunaan kontrasepsi



sebagai



respon



dan



usia



sebagai



prediktor.



Meskipun seharusnya dipandang sebagai distribusi bersama untuk dua variabel, tetapi kita akan melihat distribusi bersyarat untuk respon penggunaan kontrasepsi dengan syarat variabel prediktor (usia). Kedua pendekatan tersebut sangat erat hubunganya. Dalam contoh, kita dapat melihat odds tidak , dan odds



steril



terhadap



lainya ~ terhadap tidak€. Untuk wanita usia 169



45–49, odds nya adalah 91.183 (atau sekitar 1.2) dan 10.183 (atau 1.18).



usia



Gambar 4.3. Grafik fungsi log odds terhadap usia log-odds empirik untuk €steril€



Gambar 4.3. menunjukkan dan €lainnya



menggunakan €tidak€ sebagai kategori referensi)



diplot terhadap nilai tengah dari grup usia. Catatan bahwa logodds €steril€ meningkat cepat dan mencapai maksimum pada grup usia 30–34 dan kemudian menurun tajam. Log-odds untuk €lainnya mencapai maksimum pada usia 25–29 adan kemudian menurun tajam. Dari gambar 3.5, nampak bahwa logit adalah fungsi kuadratis dari usia. Kita akan menyusun model menjadi



ij   j   j ai   j ai2 dimana ai adalah nilai tengah pada grup usia ke-i dan j = 1, 2 (masing-masing untuk €steril€ dan €lainnya ) Dalam



contoh,



model



logit



multinomial



kuadratik



menghasilkan nilai devians 20.5 dengan derajad bebas 8 atau



170



diperoleh



nilai



P-value



sebesar



0.009,



sehingga



dapat



disimpulkan bahwa model signifikan. Efek kuadratik usia, mempunyai likelihood-ratio 2 = 500.6 dengan df=4 (atau 2 = 521.1 - 20.5 = 500.6 dan df = 12 - 8 = 4), dan berarti efek ini juga signifikan. Catatan bahwa assosiasi antara



usia



dan



metode



kontrasepsi



sebesar



96%



atau



(500.6/521.1 = 0.96) yang hanya menggunakan empat parameter. Tabel 4.13. Estimasi parameter dalam model logit kuadratik €steril€ vs



€lainnya vs



€tidak€



€tidak€



Konstan ()



-12.62



-4.552



Linear ()



0.7097



0.2641



-0.009733



-0.004758



Parameter



Kuadratik ()



Tabel 4.13. menunjukan estimasi parameter untuk dua persamaan logit multinomial. Kami menggunakan nilai tersebut untuk menghitung fitted logits untuk masing-masing usia dari 17.5 s/d 47.5, dan diplot bersama-sama dengan empirical logits dalam gambar 3.5. Dari gambar tersebut dapat disimpulkan bahwa model cocok, kecuali pada kelompok usia 15–19, dimana terjadi overestimate untuk probabilitas €steril€. 4.9.6. Aplikasi menggunakan R Diambil data dari contoh I mengenahi makanan alligator. Terdapat empat kategori makanan aligator di danau Florida yaitu ikan, invertebrata, reptil, burung, lainya. Semua variabel independenya adalah kategorik, yaitu L = danau, 171



G = gender, S = ukuran



. m, > . m .



>food.labssize.labsdeviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS)



172



>deviance(fit4)-deviance(fitS) >deviance(fit5)-deviance(fitS) >deviance(fit0)-deviance(fitS)



Untuk model tanpa memperhatikan variabel Gender : # options(contrasts=c("contr.treatment","contr.poly")) >fitSfit0fit1fit2fit3deviance(fit1)-deviance(fitS) >deviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS) >deviance(fit0)-deviance(fitS) [1] 66.2129 [1] 38.16723 [1] 17.07983 [1] 81.36247 >marg.counts row.names.food fitted.counts2.3 9.1 0.4 1.1 2.3 3.1 oklawaha 2.3 12.8 7.0 5.5 0.8 1.9 trafford 2.3 8.6 5.6 5.9 3.1 5.8 george 2.3 14.5 3.1 0.5 1.8 2.2



173



Estimasi parameter menggunakan fungsi summary >library(MASS) >summary(fit3, cor = F) >summary(fit3, cor = F) Coefficients: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert -1.549021 1.4581457 -1.6581178 0.937237973 1.122002 rep -3.314512 -0.3512702 1.2428408 2.458913302 2.935262 burung -2.093358 -0.6306329 0.6954256 -0.652622721 1.088098 other -1.904343 0.3315514 0.8263115 0.005792737 1.516461 Std. Errors: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert 0.4249185 0.3959418 0.6128465 0.4719035 0.4905122 rep 1.0530583 0.5800207 1.1854035 1.1181005 1.1163849 bird 0.6622971 0.6424863 0.7813123 1.2020025 0.8417085 lainya 0.5258313 0.4482504 0.5575446 0.7765655 0.6214372



Untuk mengestimasi probabilitas respos, menggunakan >predict(fit3, type="probs", newdata=data.frame(size=">2.3", lake="hancock")) ikan invert rep burung lainya 0.57018414 0.02307664 0.07182898 0.14089666 0.19401358



Data estimasi probabilitas pada nilai kombinasi variabel independen dan disimpan dalam expand.grid. >predictionscbind(expand.grid(size = ukuran.labs, lake = danau.labs), predictions)



174



size 1 2 3 4 5 6 7 8



lake ikan burung lainnya 2.3 hancock 0.5701841 0.140896663 0.19401358 2.3 oklawaha 0.4584248 0.029424140 0.06866547 2.3 trafford 0.2957470 0.108228505 0.20066230 2.3 george 0.6574619 0.081046954 0.09790956



invert



rep



0.09311222 0.04745855 0.02307664 0.07182898 0.60188001 0.07723295 0.24864188 0.19484366 0.51682299 0.08877041 0.19296047 0.20240167 0.41284674 0.01156715 0.13968168 0.02389991



Fungsi lain yang dapat digunakan adalah vglm dalam library (VGAM) >library(vgam) >fit.vglmcoef(fit.vglm, matrix=T)



4.10. Model Pilihan Diskrit Dalam bab ini kita akan menjelaskan pengembangan dari model logit multinomial sebagai pendekatan khusus dalam pemodelan perilaku pemilihan, dimana variabel penjelas mungkin termasuk atribut dari masing-masing pilihan (misalkan biaya) sebagaimana karakteristik individu yang membuat keputusan atau pilihan (seperti penghasilan). Setiap manusia, lembaga, perusahaan akan dihadapkan pada pilihan-pilihan. Kita harus memilih satu dari semua alternatif yang tersedia, mulai dari satu alternatif saja (tidak ada alternatif lain),



175



dua alternatif sampai dengan banyak alternatif. Banyak hal/faktor yang digunakan untuk mengambil keputusan. Pertama, faktor internal yaitu sifat sifat atau karakteristik yang melekat pada diri pembuat keputusan. Kedua, faktor eksternal yaitu keadaan/ faktor yang berasal dari luar/lingkungan pembuat keputusan. Kedua faktor tersebut dapat bersifat kualitatif maupun kuantitatif. Sementara itu keputusan/pilihan dilakukan berdasarkan atas asas manfaat dan mudhorot (resiko) bagi pembuat keputusan. Suatu pilihan dilakukan jika pilihan itu paling menguntungkan dibandingkan dengan semua alternatif pilihan yang lain, atau bisa juga karena pilihan itu paling kecil resikonya dibanding dengan alternatif yang lain. Disamping itu,



kadang kita tertarik untuk menduga nilai



respon yang dikaitkan dengan sekumpulan kovariate dengan menggunakan kontinyu,



fungsi



umumnya



penghubung dipilih



fungsi



tertentu.



Ketika



penghubung



respon identitas,



sedangkan untuk respon biner dipilih fungsi penghubung logit. Terdapat perbedaan antara analisis regresi logistik ganda dengan analisis regresi ganda. Analisis regresi ganda digunakan pada distribusi normal, sedangkan analisis regresi logistik digunakan untuk data yang berdistribusi binomial. Regresi logistik pada respon dikotomis tersebut



biasa



dinamakan regresi logistik biner. Sering kali respon mempunyai lebih dari dua alternatif jawaban misalkan tentang warna kesukaan (merah, kuning, hijau, dsb) atau contoh yang lain tentang penilaian (sangat baik, baik, cukup, buruk, sangat buruk). Pada data polikotomis tersebut dapat digunakan analisis regresi multinomial.



176



Model



pemilihan



diskrit



menggambarkan



pembuat



keputusan memilih diantara alternatif yang tersedia. Pembuat keputusan dapat berupa orang, rumah tangga, perusahaan atau unit



pembuat



keputusan



yang



pilihan/alternatif disebut Choice set.



lain.



Himpunan



semua



Model pemilihan diskrit



digunakan untuk menguji pilihan yang mana€, sedangkan model regresi dipakai untuk menguji berapa banyak€. Walaupun demikian seringkali model pemilihan diskrit juga dapat dipakai untuk menguji berapa banyak€. Model pemilihan diskrit biasanya diturunkan dibawah asumsi manfaat maksimum oleh pembuat keputusan. Seorang pembuat keputusan dinotasikan dengan i, yang berhadapan dengan pilihan sebanyak J anternatif. Pembuat keputusan mempunyai tingkat utiliti (keuntungan) untuk setiap alternatif. Misalkan Uij



untuk j= ,



,J adalah utiliti pembuat



keputusan (responden) i jika memilih alternatif j. Nilai Uij yang sesungguhya tidak diketahui oleh pengamat (peneliti). Tentunya pembuat keputusan memilih alternatif yang mempunyai utiliti terbesar, sehingga memilih alternatif k jika dan hanya jika Uik > Uij j  k. Peneliti tidak mengetahui nilai utiliti untuk pembuat keputusan terhadap setiap alternatif. Peneliti hanya mengamati atribut yang ada untuk masing-masing alternatifnya, yang dinotasikan dengan xkj j dan atribut pembuat keputusan yang dinotasikan dengan si. Secara fungsi dapat dinotasikan sebagai Vij= V(xij,si) j yang biasa dinamakan representative utility. Karena nilai utiliti yang sesungguhnya tidak diketahui peneliti maka Vij  Uij dan Uij = Vij + ij 177



i = (i1,



.,iJ) adalah variabel random yang mempunyai densitas



f(i). Probabilitas pembuat keputusan i memilih alternatif k dapat dinyatakan sebagai Pik = P(Uik > Uij j k) = P(ij - ik < Vik – Vij j k) =



 I (



ij



  ik  Vik  Vij j  k ) f ( i )d i



I(.) adalah fungsi indikator, yang bernilai 1 jika pernyataan dalam kurung benar dan bernilai 0 jika pernyataan salah. Selanjutnya dapat dipilih atau ditentukan densitas



f(ik) yang sesuai/tepat,



misalnya distribusi nilai ekstrim dan biasa disebut dengan model logit. Model



Logit



diturunkan



dengan



asumsi



bahwa



ik



berdistribusi nilai ekstrim (extreme value) yang saling independen untuk semua i. Fungsi densitas extreme value (Gumbel) adalah



f ( ij )  e



 ij



e e



  ij



dan distribusi kumulatifnya adalah



F ( nj )  e e



  nj



Variansi dari distribusi ini adalah 2/6. Probabilitas pembuat keputusan i memilih alternatif k yang dinyatakan sbb : Pik = Pr(ij - ik < Vik – Vij jk) = Pr(ij < ik + Vik – Vij jk)



178



Jika ik diketahui dan saling independen, maka Pik|ik =



 exp( exp((



ik



 Vik  Vij )))



j k



Oleh karena nilai ik tidak diketahui maka Pik merupakan integral Pik|ik atas seluruh nilai ik terbobot densitasnya, yaitu Pik =



  exp( exp((



ik



 Vik  Vij )))[exp( ik )] exp(  exp(  ik ))d ik



j k



Dengan mengambil s=ik dan oleh karenaVik-Vik=0 maka Pik dapat dinyatakan sebagai Pik =



  exp( exp((s  V 



s 



ik



 Vij )))[exp(  s)]ds



j



  exp    exp( ( s  Vik  Vij ))  exp(  s))ds s   j    s  s = s exp   e j exp((Vii  Vij )) e ds Misalkan t = exp(-s) sehingga dt = -exp(-s)ds =











0   Pik =  exp   t  exp( (Vik  Vij )) (dt )    j  



=











0



  exp   t  exp( (Vik  Vij )) dt j  



  exp   t  exp( (Vik  Vij ))  j   =  t  exp( (Vik  Vij ))







j



0



=



1 =  exp( (Vik  Vij )) j



exp( Vik )  exp(Vij )) j



179



Formula untuk Pik tersebut dinamakan probabilitas logit. Jika Vij merupakan fungsi linear dari xij maka dapat dinyatakan menjadi Pik =



exp(  t xii ) J



 exp(  j 1



t



xij )



Untuk sebarang dua alternatif k dan r, rasio probabilitas logitnya dapat dinyatakan sebagai Pik eVik  J Pir  eVij j 1



= exp(Vik – Vir)



eVir J



e



Vij



j 1



Rasio ini tidak tergantung pada alternatif lain selain i dan k. Sifat ini dinamakan independence from irrelevant alternatives (IIA). Selanjutnya estimasi parameter  dapat dilakukan dengan prosedur maksimum likelihood. Misalkan N sampel dari individu yang membuat keputusan, probabilitas individu n memilih sebuah alternatif dapat dinyatakan sebagai



 (P )



yij



ij



j



Dengan yij = 1 jika individu i memilih j dan nol jika memilih yang lainnya. Dengan mengasumsikan bahwa setiap keputusan antar individu saling independen maka probabilitas masing-masing individu dalam sampel memilih sebuah alternatif adalah n



L(  )   ( Pij ) i 1



yij



j



Dengan  merupakan vektor parameter dalam model. Fungsi Log likelihoodnya menjadi n



LL(  )   yij ln( Pij ) i 1



j



180



Penaksir  adalah nilai  yang memaksimumkan fungsi LL(). n



LL(  )   yij ln( Pij ) i 1



=



j



   exp(  t xij )  yij ln    t i 1 j   exp(  xij )   j  n



n   t (  x ) yij ln   exp(  t xij )    ij ij i 1 j i 1 i  j  Derevatif LL() terhadap  adalah n



=



 y



LL(  )  



n



 y i 1



j



 y i 1



xij   yij  Pij xij i 1



j



j



  x     Pij xij  yij i 1  j  j n



n



=



n



ij



ij ij



j



n



n



=  yij xij   Pij xij i 1



i 1



j



n



=



 ( y i 1



ij



j



 Pij ) xij  0



j



Jadi penaksir  dengan menggunakan prosedur maksimum likelihood adalah penyelesaian dari persamaan n



  ( yij  Pij ) xij  0 J



i 1 j 1



Penyelesaian persamaan penaksir tersebut dapat diselesaikan secara iterasai dengan metode newton raphson maupun metode scoring. Selanjutnya untuk melakukan menguji kesesuaian model dengan data (uji Goodness of Fit) dapat digunakan indeks rasio likelihood, yang diefinisikan sebagai



  1



LL( ˆ ) LL(0)



181



dengan LL(0) adalah nilai log likelihood untuk =0 (Nugraha, 2010). 4.11. Soal Latihan 1. Gunakan data pada soal latihan di Bab 3 soal no 3.2. Lakukan analisis menggunakan regresi logistik untuk menyusun model



pengaruh strata sosialdan



pendidikan orang tua



terhadap rencana studi lanjut 2. Gunakan data pada soal latihan di Bab 3 soal no 3.1. Lakukan analisis menggunakan regresi logistik untuk menyusun model pengaruh derajad kontak dan jenis tempat tinggal terhadap tingkat kepuasan. 3. Data pengamatan terhadap kebiasaan mendengkur saat tidur malam dan penyakit jantung. Dari Pengamatan terhadap beberapa orang diperoleh data sebagai berikut Tabel 4.14. Kebiasaan mendengkur dan status penyakit jantung Kebiasaan



Penyakit jantung



Mendengkur



Ya



Tidak



Tidak Pernah



24



1355



Kadang-kadang



35



600



Hampir setiap malam



21



190



setiap malam



30



225



Lakukan analsisi menggunakan regresi logistik. Gunakan skor 0, 2, 4, 5 untuk mengkategorikan kebiasaan mendengkur (X) secara berturut-turut yaitu tidak pernah, kadang-kadang, hampir setiap malam, setiap malam. Variabel respon Y merupakan status kepemilikan penyakit jantung berskala biner dengan Y = 0 iika tidak dan Y = 1 jika ya.



182



BAB V REGRESI POISSON



Pemodelan dengan variabel respon berupa bilangan cacah biasa muncul dibidang biologi. Misalkan Ilmuwan biologi ingin mengetahui hubungan variabel Y yaitu banyaknya kuskus dan variabel X yaitu jumlah pohon yang mati disuatu area tertentu. Selama variabel respon merupakan hasil perhitungan, distribusi Poisson dapat digunakan dan oleh karenanya model linear yang didasarkan pada teori distribusi normal tidak memberikan deskripsi yang memadai hubungan antara dua variabel. Regresi logistik efektif dalam situasi yang sama, di mana variabel respon biner, tapi dalam hal ini variabel respons tidak biner. Respon dari Poisson sering muncul dalam epidemiologi, misalnya variabel respon berupa insiden penyakit, cedera, atau kematian dan variabel prediktor adalah variabel numerik seperti usia atau waktu pemaparan. Aplikasi lain dari regresi Poisson yang



umum



menggunakan satu atau lebih variabel kategorik sebagai prediktor, dan data biasanya disusun dalam tabel kontigensi. Dalam bab ini diperkenalkan topik regresi Poisson. 5.1. Distribusi Poisson Percobaan Poisson adalah percobaan yang menghasilkan variabel random X yang bernilai numerik, yaitu banyaknya sukses selama selang waktu tertentu atau dalam daerah tertentu. Selang waktu tertentu dapat berupa sedetik, semenit, sejam, sehari, seminggu maupun sebulan. Daerah tertentu dapat berupa satu 183



meter, satu kilometer persegi dan lain-lain. Percobaan Poisson memiliki ciri – ciri sebagai berikut: 1) Banyaknya sukses terjadi dalam suatu selang waktu atau daerah tertentu tidak terpengaruh oleh apa yang terjadi pada selang waktu atau daerah lain. 2) Peluang terjadinya suatu sukses dalam selang waktu yang amat pendek atau dalam daerah yang kecil tidak tergantung pada banyaknya sukses yang terjadi di luar selang waktu atau daerah lain. 3) Peluang terjadinya lebih dari satu sukses dalam selang waktu yang pendek atau daerah yang sempit tersebut dapat diabaikan. Distribusi Poisson diberi nama sesuai dengan penemunya yaitu Siemon Denis Poisson. Distribusi Poisson adalah suatu distribusi peluang yang menyatakan kemungkinan sejumlah peristiwa yang terjadi dalam suatu periode waktu. Distribusi Poisson dapat digunakan untuk menyatakan peristiwa dalam unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya. Penggunaan distribusi Poisson sebagai dasar pada regresi Poisson. Distribusi Poisson akan membuat model peluang dari kejadian y menurut proses Poisson, adalah:



e  y f  y;    , untuk y = 0, 1, 2, ... y! Variansi dan rata–rata dari distribusi Poisson adalah . Hal yang perlu diperhatikan bahwa parameter  ini sangat bergantung beberapa unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya.



184



5.2. Model Regresi Poisson Tantangan dalam regresi Poisson adalah menemukan model untuk variabel respons sebagai fungsi dari variabel prediktor, sehingga parameter dari model dapat diperkirakan (diestimasi) dari data. Misalkan i menyatakan observasi ke-i,



i = 1,...n.  i



sebagai nilai mean dari nilai yi dan xi adalah variabel independen yang berkaitan denga n varabel dependen yi. Misalkan



i  e 



dan yi =  i +  i ,



0  1 xi



dengan  i adalah random error. Maka



log( i )  0  1xi . Sehingga terdapat hubungan "log-linear" antara y dan x. Karena setiap yi memiliki distribusi Poisson dengan mean  i , probabilitas yi pada nilai xi adalah:



P( yi ) 



e  i  iyi e (  0  1xi ) (  0  1 xi ) yi = . yi ! yi !



Model untuk regresi Poisson pada dasarnya menyatakan rata – rata dari distribusi yang diskrit sebagai fungsi dari variabel independennya. k



 0    j xij



i  e Pemasalahan



selanjunya



j 1



adalah



mengestimasi



parameter



 =(0,..., k). Dalam



penggunaan



regresi



Poisson



terdapat



beberapa



pelanggaran asumsi mengenai galat yang tidak berdistribusi



185



normal dan variansi galat yang tidak homogen (Myers, 1990). Asumsi lain yang harus dipenuhi dalam pembentukan regresi Poisson adalah: 1) Variabel dependen dalam regresi Poisson mengikuti proses percobaan Poisson yang merupakan data diskrit dari hasil menghitung, pencacahan atau frekuensi namun bukan hasil pengukuran. 2) Uji Multikolinearitas Asumsi multikolinearitas merupakan bentuk pengujian yang menyatakan bahwa variabel independen harus terbebas dari gejala multikolinearitas. Gejala multikolinearitas adalah gejala korelasi antar variabel independen. Apabila terjadi gejala multikolinearitas, salah satu langkah untuk memperbaiki model adalah dengan menghilangkan variabel dari model regresi, sehingga bisa dipilih model yang paling baik. 5.3. Estimasi Parameter Penggunaan



model



regresi



Poisson



terdapat



beberapa



pelanggaran asumsi mengenai galat yang tidak berdistribusi normal dan variansi galat yang tidak homogen, sehingga dalam penaksiran parameter tidak bisa menggunakan metode kuadrat terkecil biasa. Untuk mengatasi hal tersebut maka dapat digunakan metode maksimum likelihood (Myers, 1990). Metode Maximum Likelihood Estimation (MLE) merupakan metode



untuk



mengetahui



nilai



parameter



mana



yang



memaksimalkan fungsi likelihood. Rata-rata dalam regresi Poisson dimodelkan sebagai fungsi dari sejumlah variabel independen. Pertama, perlu menentukan fungsi likelihood dan persamaan



186



likelihood yang dapat digunakan untuk menaksir parameter – parameter dalam regresi Poisson. Fungsi likelihoodnya untuk distribusi Poisson adalah: n



L y,     f  yi ,   i 1



 n  yi  n     i1  exp(    ) i 1 n    yi e     i 1  L y ,       n yi !  i 1   yi! n



i 1



 n  yi  k n  k     i1   exp(    exp(  0    j xij ) )   exp(  0    j xij )  j 1 i 1 j 1     i 1    L y ,    n  yi! n



i 1



n



k



i 1



j1



n



k



n



i 1



j1



i 1



logL y,β   LLy,β    y i log(exp( β 0   β j x ij ))   (exp(β 0   β j x ij ))   log y i !



Nilai maksimum fungsi LL(.) diperoleh dengan syarat



 log L y,   0 



sehingga k       exp(  0    j xij )    k yi j 1     0    exp(  0    j xij )     k     j 1    i 1   j xij )        exp(  0   j 1     n



dengan k    exp(  0    j xij )  j  1    exp(   k  x )1 x  x   j ij i1 ik 0 j 1 



187



Persamaan terakhir ini dapat diselesaikan secara iterasi. 5.4. Pemilihan model Terbaik 5.4.1. Uji Kecocokan Model (Goodnes of Fit) Pada pengujian kelayakan model, Myers (1990) menjelaskan bahwa devians digunakan untuk menguji keberartian koefisien – koefisien dan menguji kelayakan model untuk kasus dari model Poisson dan model logistik. Pada dasarnya analisis devians ini bisa diterapkan untuk setiap distribusi yang merupakan anggota dari keluarga eksponensial. Pada penggunaan devians dapat pula untuk menguji hipotesis lain, yaitu pengujian keberartian parameter di dalam regresi Poisson. Pada setiap variabel independen dapat dihitung melalui penentuan seberapa besar kontribusi dari masing – masing variabel independen terhadap pengurangan harga devians. Perhatikan variabel ke j, xj, dari k buah variabel independen. Misalnya











D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  D1 ,  2 ,,  j 1 ,  j 1 ,,  k   D1 ,...,  k 



Bentuk D( 1,..., seluruh



) merupakan devians yang dihitung pada



k



parameter



dalam



model,



sedangkan



D1, 2 ,,  j 1 ,  j 1,, k  adalah devians yang dihitung tanpa



melibatkan  j x j ke dalam model. Banyaknya pengurangan harga devians yang disebabkan oleh ketidakhadiran  j x j dalam model. Banyaknya



perbedaan



ketidakhadiran



 jxj



harga



devians



yang



disebabkan



dalam model dapat dihitung melalui



persamaan berikut:



188



^ ^ ^   ^ ^   L 1 ,  2 ,,  j 1 ,  j 1 ,,  k ,    D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  2 log   ^  ^    L 1 ,...,  k     











Bentuk di atas menyatakan perbedaan dalam 2log L antara model lengkap dengan model reduksi. Pengujian ini akan sama dengan pemilihan model terbaik melalui prosedur bertahap (stepwise) dalam analisis regresi biasa. Statistik dari rasio likelihood



D1, 2 ,,  j 1 ,  j 1,, k  mempunyai distribusi Chi Squared, χ2



dengan derajat bebas satu. Formula di atas juga dapat digunakan untuk pengujian masing – masing koefisien dalam model, yaitu untuk menguji H0 :  j = 0



melawan H1 :  j ≠











2 H0 ditolak apabila D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k   ( ;1) .



Untuk mengetahui kecocokan model dan koefisien yang signifikan maka dilakukan uji hipotesis, dimana terdapat jenis uji yang harus dilakukan yaitu sebagai berikut: 1) Uji bersama yaitu untuk menguji apakah model regresi yang terbentuk sudah layak atau belum untuk digunakan. 2) Uji koefisien yaitu untuk menguji apakah masing – masing koefisien yang terbentuk dalam model sudah berpengaruh terhadap model atau belum (Wibawati dan Nugraha, 2009) 5.4.2. Uji Rasio Likelihood Pada pengujian rasio likelihood, terlebih dahulu perlu ditentukan dua buah fungsi likelihood yang berhubungan dengan model regresi yang diperoleh. Fungsi – fungsi likelihood itu adalah



189



^  L    red  , yaitu fungsi likelihood yang berhubungan dengan   model regresi yang sedang dianalisis. Sedangkan fungsi likelihood yang kedua adalah fungsi likelihood yang berhubungan dengan model penuh atau model yang sempurna, yang dinotasikan dengan



^ L   



full



 . Dengan demikian, fungsi likelihood itu dapat ditulis  



sebagai berikut:



  L  full    ( yi ,  )  i 1  n



dan n   yi e      L  red       i 1  yi !  



Selanjutnya, logaritma dari perbandingan antara kedua fungsi likelihood di atas merupakan ukuran yang penting dalam menentukan kelayakan model regresi Poisson, sehingga:



     L  red   G 2  2 log       L      full   Disebut sebagai G2 atau statistik uji rasio likelihood, dimana definisi dari statistik uji rasio likelihood adalah selisih antara nilai likelihood pada model yang diuji dibandingkan dengan model lengkap dan statistik ini merupakan pendekatan dari distribusi χ2 dengan derajat bebas n–k (n adalah jumlah seluruh parameter pada model penuh atau model sempurna sedangkan k adalah jumlah seluruh parameter pada model regresi yang diperoleh atau model



190



regresi yang sedang dianalisis). Kriteria pengujian adalah tolak H0 apabila G2 > χ2



n – k)



.



5.4.3. Koefisien Determinasi R2 Koefisien determinasi (R2) dalam analisis regresi linier didasarkan pada pemakaian jumlah kuadrat (sums–of–square) dengan metode kuadrat terkecil. Penggunaan R2 ini lebih populer karena dapat menggambarkan keeratan hubungan regresi antara variabel dependen dengan variabel independen. Semakin besar nilai R2



R2



, semakin akurat taksiran dari model regresi.



Disisi lain model regresi Poisson ditaksir dengan menggunakan metode maksimum likelihood. Hal ini mendorong berkembangnya beberapa ukuran R2 dalam regresi Poisson yang didasarkan pada proporsi reduksi dalam log likelihood yang dimaksimumkan. Selain itu (Myers, 1990), menyebutkan analog yang tepat pada koefisien determinasi R2 dalam analisis regresi biasa diperoleh melalui log likelihood. Pada pengujian keberartian parameter telah ditunjukkan bahwa jika mempunyai model regresi Poisson dengan parameter



 0 , 1 ,  2 ,  3 ,,  k



dan



variabel



independen



x1 , x2 , x3 ,, xk maka keberadaan dari konstanta  0 dalam model diberikan melalui devians dengan derajat bebas k, sebagai berikut:



D1, 2 ,, k 0   2 log L0 , 1 ,,  k   2 log L0  D0 , 1,, k   2 log L0 , 1,, k  Sedangkan analog pada jumlah kuadrat total adalah devians pada model yang berisi konstanta  0 , dengan demikian koefisien determinasi R2, sebagai berikut:



191



R2 



D1 ,  2 ,,  k  0  JK REG  JK TOTAL D 0  



2 log L 0 , 1 ,,  k   2 log L0  2 log L 0 , 1 ,,  k 



1



log L0  log L0 , 1 ,,  k 



5.5. Contoh Data I Jenis data yang digunakan adalah data tentang banyaknya pecahan yang terjadi pada lapisan atas di dalam tambang batubara (Myers, 1990). Adapun variabel yang akan digunakan adalah: X1



: Ketebalan beban bagian dalam (feet), merupakan jarak terpendek antara lapisan tanah dengan lapisan yang paling bawah.



X2



: Prosentase ekstrasi dari lapisan tambang sebelumnya yang paling bawah.



X3



: Tinggi lapisan paling dalam (feet), dan



X4



: Lamanya waktu (tahun) tambang itu dibuka.



Y



: Banyaknya Pecahan.



Berikut data tentang banyaknya pecahan yang terjadi pada lapisan atas tambang batubara:



192



Tabel 5.1. Data banyaknya pecahan pada lapisan atas tambang batubara No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16



Y 2 1 0 4 1 2 0 0 4 4 1 4 1 5 2 5



X1 50 230 125 75 70 65 65 350 350 160 145 145 180 43 42 42



X2 70 65 70 65 65 70 60 60 90 80 65 85 70 80 85 85



X3 52 42 45 68 53 46 62 54 54 38 38 38 42 40 51 51



X4 1 6 1 0.5 0.5 3 1 0.5 0.5 0 10 0 2 0 12 0



No 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38



Y 3 3 2 2 0 1 5 2 3 3 3 0 0 2 0 0



X1 65 470 300 275 420 65 40 900 95 40 140 150 80 80 145 100



X2 75 90 80 90 50 80 75 90 88 85 90 50 60 85 65 65



X3 68 90 165 40 44 48 51 48 36 57 38 44 96 96 72 72



X4 5 9 9 4 17 15 15 35 20 10 7 5 5 5 9 9



17



5



45



85



18 19 20 21



5 0 5 1



83 300 190 145



85 65 90 90



42



0



39



3



150



80



48



3



48 68 84 54



10 10 6 12



40 41 42 43



2 3 5 0



150 210 11 100



80 75 75 65



48 42 42 60



0 2 0 25



22



1



510



80



57



10



44



3



50



88



60



20



Sumber : (Myers, 1990). Model penuh untuk regresi Poisson pada kasus ini adalah: ^



^



^



^



^



^



  exp(  0  1 x1   2 x2   3 x3   4 x4 ) Entri data pada program R dilakukan sebagai berikut >yx1x2x3x4library(systemfit) >library(micEcon) >Fungsi_NonLinierstart=c(0,0,0,0,0) >loglikHasil=summary(maxLik(Fungsi_NonLinier, start=start)) >loglikHasil



Hasil untuk Model 1 (model lengkap) Maximum Likelihood estimation Newton-Raphson maximisation, 5 iterations Return code 1: gradient close to zero. May be a solution Log-Likelihood: -67.06384 5 free parameters Estimates: Estimate Std. error t value Pr(> t) [1,] -3.59308956 1.03440535 -3.4736 0.0005136 *** [2,] -0.00140659 0.00083591 -1.6827 0.0924334 . [3,] 0.06234576 0.01238185 5.0353 4.772e-07 *** [4,] -0.00208034 0.00507014 -0.4103 0.6815766 [5,] -0.03081349 0.01626694 -1.8942 0.0581931 . Signif.codes: 0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



Berdasarkan hasil pada penggunaan aplikasi software R untuk model 1 dimana seluruh variabel independen digunakan dalam pembentukan model regresi Poisson pada data tambang diperoleh estimasi untuk masing–masing parameter adalah sebagai berikut:



194



Tabel 5.2. Estimasi parameter model 1 untuk data tambang No



Parameter



Nilai



P-value



1



0



– 3.59308956



0.0005136



2



1



– 0.00140659



0.0924334



3



2



0.06234576



4.772e-07



4



3



– 0.00208034



0.6815766



5



4



– 0.03081349



0.0581931



Tabel 5.3. Estimasi parameter model 2 untuk data tambang No



Parameter



Nilai



Keterangan



1



0



– 3.72068232



0.0001315



2



1



– 0.00147925



0.0727517



3



2



0.06270111



2.759e-07



4



4



– 0.03165139



0.0522879



Tabel 5.4. Perhitungan keberartian parameter Model



Model



2



1



,



D



3



1



,



D



4



1



,



D



3



2



,



D



4



2



,



D



4



3



,



D



2



1



,



D



2



1



,



D



3



1



,



D



3



2



,



D



2



1



,



D



Reduksi



,



3



,



4



│ 0,



1



,



4



│ 0,



2



,



4



│ 0,



3



,



3



│ 0,



4



,



Model Full



│ 0)



1



│ 0,



1



│ 0,



1



│ 0,



2



│ 0,



2



│ 0,



3



Parameter



-85.6277



-67.06384



37.1277



)



-84.0557



-67.06384



33.9837



)



-72.4459



-67.06384



10.7642



)



-85.0566



-67.06384



35.9855



)



-84.1952



-67.06384



34.2628



)



-69.1827



-67.06384



4.2377



)



-83.6710



-67.06384



33.2143



)



-83.3491



-67.06384



32.5704



)



-71.9294



-67.06384



9.7312



)



-68.9489



-67.06384



3.7701



)



-83.7769



-67.06384



33.4262



4



│ 0,



Nilai Keberartian



,



2



,



3



,



4



,



3



,



4



,



4



195



D



4



D



3



D



2



D



1



│ 0,



1



│ 0,



1



│ 0,



1



│ 0,



2



,



2



,



2



,



3



,



3



,



3



,



4



,



4



,



4



)



-69.0111



-67.06384



3.8944



)



-67.1512



-67.06384



0.1747



)



-83.0394



-67.06384



31.9511



)



-68.6471



-67.06384



3.1665



Untuk mempermudah dalam mengetahui nilai keberartian pada setiap parameter dalam model, berikut hasil nilai keberartian parameter yang ditampilkan dalam tabel. Tabel 5.5. Pengujian hipotesis untuk masing – masing kombinasi model Nilai Keberartian



Model



H0



H



Parameter D



1



,



2



,



3



D



2



,



3



,



4



D



1



,



3



,



4



D



1



,



2



,



4



D



1



,



2



,



3



D



3



,



4



│ 0,



1



D



2



,



4



│ 0,



1



D



2



,



3



│ 0,



1



D



1



,



4



│ 0,



2



D



1



,



3



│ 0,



2



D



1



,



2



│ 0,



3



D



4



│ 0,



1



D



3



│ 0,



1



D



2



│ 0,



1



D



1



│ 0,



2



,



│ 0)



4



│ 0,



1



│ 0,



2



│ 0,



3



│ 0,



4



4



,



4



,



3



,



4



,



4



,



4



,



3



,



3



H0 Tolak



,



4



=0



3



6.251



H0 Tolak



,



4



=0



3



6.251



H0 Tolak



,



3



=0



3



6.251



H0 Tolak



=0



2



4.605



H0 Terima



=0



2



4.605



H0 Tolak



=0



2



4.605



H0 Tolak



=0



2



4.605



H0 Tolak



=0



2



4.605



H0 Terima



=0



H0 Tolak



2 2



1



3



H0 Tolak



6.251



,



1



34.2628



,



7.779



3



,



35.9855



)



,



4



=0



3



)



4



4 4



3



,



=0



Keputusan



,



,



1



,



, 3



10.7642



3



2



2



,



)



2



2



, 2



,



,



1



33.9837



,



,



37.1277



)



Nilai Tabel



)



4.2377



3



,



4



)



33.2143



2



,



4



)



32.5704



2



,



3



)



9.7312



1



,



4



)



3.7701



1



,



3



)



33.4262



1



,



2



2



4.605



)



3.8944



4



=0



1



2.706



H0 Tolak



)



0.1747



3



=0



1



2.706



H0 Terima



)



31.9511



2



=0



1



2.706



H0 Tolak



)



3.1665



1



=0



1



2.706



H0 Tolak



196



Hasil dari 15 kombinasi peubah yang ada terlihat bahwa X3 mempunyai peranan yang tidak berarti terhadap model, maka dapat dikatakan bahwa model dengan peubah – peubah X1, X2, dan X4 merupakan model yang terbaik karena mempunyai nilai devians yang paling kecil dan memiliki nilai keberartian yang paling besar serta masing – masing koefisien regresinya memberikan peranan yang cukup berarti terhadap model. Pada pengujian koefisien deteriminasi dalam regresi Poisson menujukkan hubungan pengaruh variabel y (sebagai variabel dependen) dan variabel x (sebagai variabel independen) yang diperoleh dengan menghitung:



D(0 , 1, 2 , 4 )  2 logL(0 , 1, 2 , 4 )  0.17466 D(0 )  2 logL(0 )  37.1277



sehingga nilai koefisien determinasi R2 dalam kasus ini adalah: D0 , 1 ,  2 ,  4  0.17466 R2  1  1  0.9953 D0  37.1277 Untuk menginterprestasikan nilai koefisien determinasi, peneliti harus membuat nilai tersebut dalam persentase yang berarti 99.53%. Maksud nilai ini adalah bahwa sebesar 99.53% perubahan atau variasi dari banyaknya pecahan dapat dijelaskan oleh ketebalan beban bagian dalam (feet), prosentase ekstrasi, dan lamanya waktu (tahun), sedangkan 0.46% dijelaskan oleh variabel lain. Berdasarkan dari pengujian yang telah dilakukan, maka model regresi Poisson dengan fungsi link log adalah sebagai berikut: ^



  exp( 3.72068232  0.00147925x1  0.06270111x2  0.03165139 x4 )



197



5.6. Contoh Data II Penelitian mengenai kelangsungan spesies possum (kus-kus). Variabel yang diamati adalah y



: banyaknya spesies possum yang ditemukan



Acacia



: banyaknya pohon acacia indeks kualitas Bark€



Bark Habitat



: Habitat score untuk Leadbeater s possum



Shrubs



: banyaknya semak-semak (shrub) banyaknya €hollow trees€



Stags



Yang akan diteliti adalah apakah variabel-variabel tersebut di atas mempengaruhi populasi possum€. Diperoleh data sebagai berikut (20 data pertama dari 150 data) Tabel 5.6. Data obeservasi Jumlah Possum (kus kus) No



y



Acacia



Bark



Habitat



Shrubs



Stags



1



3



32



30



10



7



13



2



2



5



13



3



6



16



3



1



9



27



3



8



7



4



2



17



17



9



7



15



5



3



21



12



9



6



17



6



2



32



7



11



4



17



7



3



17



11



9



7



10



8



2



18



5



9



14



21



9



0



1



14



4



6



8



10



0



9



10



2



9



5



11



1



9



4



3



12



7



12



1



10



4



7



17



6



13



0



12



12



2



9



5



14



4



1



15



8



10



7



198



15



2



26



9



2



5



5



16



3



17



14



8



10



11



17



1



8



18



2



12



7



18



3



24



9



10



9



12



19



3



20



8



9



5



12



20



1



14



13



10



9



5



Sumber : Biological Conservation, Kirkwood (1996). Entri data pada program R adalah sebagai berikut : > y length(y) [1] 151



Pertanyaan 1. Apakah semak (shrubs ) meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah semaksemak (shrubs) ? > Shrubs shrubdat shrub.fit summary(shrub.fit)



199



Call: glm(formula = y ~ Shrubs, family = poisson, data = shrubdat) Deviance Residuals: Min 1Q Median 3Q Max -1.8424 -1.6565 -0.3426 0.4917 2.2243 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.29261 0.12715 2.301 0.0214 * Shrubs 0.01576 0.01718 0.917 0.3591 --Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 186.67 on 149 degrees of freedom AIC: 471.47 Number of Fisher Scoring iterations: 5



Apakah model regresi Poisson cocok? Residual devians adalah sebesar 186.67, dari distribusi yang mendekati 2 dengan derajat kebebasan 149.



Perkiraan nilai P-value adalah 0.02. Ini berarti



bahwa penyimpangan yang besar seperti itu tidak mungkin terjadi jika



model



Poisson



memadai,



yang



memaksa



kita



untuk



menyimpulkan bahwa model tidak cocok. Apakah variabel Shrubs memperbaiki model? Perubahan dalam penyimpangan sangat kecil, hanya 0.82.



P-value (berdasar 2



dengan derajat kebebasan 1) adalah sekitar 0.36. Tidak ada cukup bukti untuk menyimpulkan bahwa Shrubs adalah prediktor berguna. Sementara Shrubs sebagai satu-satunya prediktor tidak berguna, mungkin jika kita menambahkan Shrubs untuk sebuah model yang memasukkan Stags, akan ada perbaikan. Penyelidikan berikutnya adalah model regresi dengan multiple prediktor.



200



Pertanyaan 2. Apakah Stags meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah Stags ? Seberapa baik model regresi Poisson cocok dengan data? Kita dapat menggunakan deviasi residual untuk menjawab pertanyaan ini. Hipotesis nol-nya adalah bahwa model regresi Poisson memberikan yang memadai sesuai dengan data. Deviasi residual adalah ukuran berapa banyak data yang menyimpang dari model, jadi semakin besar sisa penyimpangan ini, semakin tidak cocok. deviasi residual adalah 153.34, untuk dapat dibandingkan dengan chi-kuadrat dengan derajat kebebasan 149.



Nilai P-value 0.387,



yang cukup besar sehingga kita tidak perlu menolak hipotesis nol. Model tampaknya memadai/sesuai. Apakah variabel prediktor x = stage signifikan secara statistik? Seperti



halnya



dalam



regresi



logistik,



deviasi



nol



adalah



penyimpangan dari model yang memiliki 1  0 , yaitu model nol mengabaikan x dan memprediksi nilai konstan untuk y. Jika x adalah prediktor yang dapat digunakan, model Poisson akan cocok dengan data yang lebih baik dan penyimpangan nol akan secara signifikan lebih besar daripada penyimpangan residu. distribusi dengan satu derajat kebebasan. Perbedaan antara dua devians memiliki distribusi 2 dengan derajat kebebasan 1. Perubahan deviasi (null devians minus residual devians) adalah 187.49-153.34 = 34.15.



Peluang variabel 2 dengan satu derajat kebebasan akan



mengambil nilai lebih besar dari 34.15



mendekati nol (0). Kita



dapat menyimpulkan bahwa penambahan x ke model nol menghasilkan peningkatan yang signifikan.



201



Cara lain untuk menguji kekuatan prediksi x = stage adalah dengan melihat P-value untuk z-test dimana



1  0 . P-value adalah



sebesar 2.88e-10, pada dasarnya 0, yang mendukung kesimpulan kami



bahwa



x



adalah



prediktor



yang



dapat



digunakan.



Persamaan yang sesuai adalah



yˆ i   i  e 0.080.05xi . Seperti yang diharapkan, semakin banyak stage dalam suatu area, semakin tinggi jumlah spesies kuskus yang ditemukan. > StagsStagsdatglm(formula = y ~ Stags, family = poisson, data = Stagsdat) Call: glm(formula = y ~ Stags, family = poisson, data = Stagsdat) Deviance Residuals: Min 1Q Median 3Q Max -2.46184 -1.38993 -0.06549 0.59729 1.89332 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.084347 0.110074 -0.766 0.444 Stags 0.049709 0.007884 6.305 2.88e-10 *** --Signif. codes: 0'***' 0.001'**' 0.01 '*' 0.05 '.' 0.1 '' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 153.34 on 149 degrees of freedom AIC: 438.14 Number of Fisher Scoring iterations: 5



202



5.7. Contoh Data III Perhatikan data dalam tabel di bawah ini, disajikan banyaknya kejadian kanker kulit non-melanoma di kalangan wanita di Minneapolis-St. Paulus. Tabel 5.7. Data banyaknya kanker kulit Usia



Kasus



Populasi



15-24



1



172.675



25-34



16



146.207



35-44



30



121.374



45-54



71



111.353



55-64



102



83.004



65-74



130



55.932



75-84



133



29.007



85+



40



7.538



Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf. Menurut teori, kasus kanker kulit meningkat dengan usia. Tetapi jumlah kasus kanker kulit juga akan bergantung pada ukuran populasi. Selama ukuran populasi berbeda dengan kelompok usia, model akan sesuai dengan ukuran populasi. Hal ini cukup mudah sesuai dengan yang diperlukan dalam model regresi Poisson untuk memperkirakan tingkat kasus (incidence rate). Misal Ni menyatakan ukuran populasi dengan observasi ke-i. Jika i adalah jumlah kasus yang diharapkan, maka perkiraan tingkat kasus adalah i/Ni . Menggunakan sifat dari logaritma :



log(



i Ni



)  log(  i )  log( N i ) .



Dan dianggap bahwa log-rate adalah fungsi linear prediktor x:



203



log(



i Ni



)  log(  i )  log( N i ) =  0  1 xi



log(  i )   0   1 xi  log( N i ) . Dalam contoh ini,



karena kelompok Age (usia) merupakan



variabel kategorik dan kita membutuhkan prediksi numerik, kita akan menggunakan titik tengah interval umur dari masing-masing sebagai nilai dari variabel usia. Di bawah ini adalah kode R dan output. > age Cases Pop minn.txt minn.fit summary(minn.fit) Call: glm(formula = Cases ~ age + offset(log(Pop)), family = poisson, data = minn.txt) Deviance Residuals: Min 1Q Median 3Q Max -4.87198 -1.67519 -0.07185 1.20816 1.99291 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept)-10.551604 0.168780 -62.52