4 0 7 MB
Kategori :
Penerbit Deepublish (CV BUDI UTAMA) Jl. Elang 3 No.3, Drono, Sardonoharjo, Ngaglik, Sleman Jl. Kaliurang Km 9,3 Yogyakarta 55581 Telp/Fax : (0274) 4533427 Email : [email protected] Penerbit Deepublish
www.deepublish.co.id
@deepublisher
Pengantar Analisis Data Kategorik Metode dan Aplikasi Menggunakan Program R
Jaka Nugraha
Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut.
Metode dan Aplikasi Menggunakan Program R
Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri.
Pengantar Analisis Data Kategorik
D
alam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik.
Jaka Nugraha
Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R
UU No 19
Tahun 2002
Tentang Hak Cipta
Fungsi dan Sifat hak Cipta Pasal 2 1. Hak Cipta merupakan hak eksklusif bagi pencipta atau pemegang Hak Cipta untuk mengumumkan atau memperbanyak ciptaannya, yang timbul secara otomatis setelah suatu ciptaan dilahirkan tanpa mengurangi pembatasan menurut peraturan perundang-undangan yang berlaku. Hak Terkait Pasal 49 1. Pelaku memiliki hak eksklusif untuk memberikan izin atau melarang pihak lain yang tanpa persetujuannya membuat, memperbanyak, atau menyiarkan rekaman suara dan/atau gambar pertunjukannya. Sanksi Pelanggaran Pasal 72 1. Barangsiapa dengan sengaja dan tanpa hak melakukan perbuatan sebagaimana dimaksud dalam pasal 2 ayat (1) atau pasal 49 ayat (2) dipidana dengan pidana penjara masing-masing paling singkat 1 (satu) bulan dan/atau denda paling sedikit Rp 1.000.000,00 (satu juta rupiah), atau pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp 5.000.000.000,00 (lima miliar rupiah). 2. Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling banyak Rp 500.000.000,00 (lima ratus juta rupiah)
ii
Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R
Dr. Jaka Nugraha
iii
Jl. Elang 3, No 3, Drono, Sardonoharjo, Ngaglik, Sleman Jl.Kaliurang Km.9,3 – Yogyakarta 55581 Telp/Faks: (0274) 4533427 Hotline: 0838-2316-8088 Website: www.deepublish.co.id e-mail: [email protected]
Katalog Dalam Terbitan (KDT) NUGRAHA, Jaka Pengantar Analisis Data Kategorik/oleh Jaka Nugraha.--Ed.1, Cet. 1-Yogyakarta: Deepublish, September 2013. xvi, 299 hlm.; 23 cm ISBN 978-602-280-095-8 1. Pemrosesan Data
Desain cover Penata letak
I. Judul 004
: Herlambang Rahmadhani : Suryadi Pradana Dewanto
PENERBIT DEEPUBLISH (Grup Penerbitan CV BUDI UTAMA) Anggota IKAPI (076/DIY/2012) Isi diluar tanggungjawab percetakan Hak cipta dilindungi undang-undang Dilarang keras menerjemahkan, memfotokopi, atau memperbanyak sebagian atau seluruh isi buku ini tanpa izin tertulis dari Penerbit. iv
KATA PENGANTAR Dalam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik. Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Dalam buku ini tidak dibahas secara teoritis tetapi lebih ditekankan pada penggunaan secara teknis sehingga tidak memerlukan pemahaman khusus seperti kalkulus atau aljabar matriks. Pembaca harus memiliki latar belakang yang meliputi materi metode statistika yang mencakup estimasi parameter dan uji signifikansi dan model regresi. Kami berharap bahwa buku ini menjadi buku ajar untuk matakuliah Analisis Data Kategorik pada jurusan Statistika. Disamping itu buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri. Saya berharap bahwa ini akan menarik bagi pembaca yang lebih suka pada sisi aplikasi. Buku ini tidak membahas pembuktian
v
persamaan maupun pembuktian distribusi asimtotis. Saya menghindari rincian tentang perhitungan yang rumit. Untuk membantu perhitungan, sebagian dari materi dalam buku ini sudah tersedia secara luas di sebagian besar paket-paket komersial seperti S Plus, SAS, SPSS maupun MINITAB. Akan tetapi saya lebih fokus pada penggunaan software R, mengingat software ini dapat diakses secara bebas oleh siapapun. Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut. Semoga buku ini membantu mahasiswa dalam memahami analisis data kategorik dan membantuk para peneliti yang berkaitan dengan data kategori. Yogyakarta, 11 April 2013 Penulis Jaka Nugraha Jurusan Statistika UII [email protected] [email protected] vi
DAFTAR ISI
KATA PENGANTAR............................................................................. v DAFTAR ISI...........................................................................................vii DAFTAR TABEL.................................................................................. xiii BAB I 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. 1.10. 1.11. 1.12. 1.13. 1.14. 1.15. 1.16. 1.17. 1.18.
PENDAHULUAN .............................................................. 1 Pengertian Statistika .......................................................... 1 Populasi dan Sampel. ........................................................ 3 Parameter dan Statistik ..................................................... 4 Data dan Variabel .............................................................. 5 Variabel Random.............................................................. 16 Fungsi Peluang Diskrit dan Fungsi Distribusi ............. 18 Distribusi Khusus............................................................. 20 Distribusi Lain-Lain ......................................................... 26 Distribusi Probabilitas dalam Program R ..................... 29 Plot Data dan Grafik dalam R ........................................ 33 Inferensi untuk Parameter Proporsi () ........................ 36 Fungsi Likelihood dan Maximum Likelihood Estimator (MLE) ............................................................... 40 Uji Proporsi dengan Pendekatan Distribusi Normal ............................................................................... 41 Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal....................................... 43 Statistik Wald dan Statistik Rasio Likelihood .............. 44 Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R ............................................... 46 Interval Konfidensi Eksak Menggunakan Program R ......................................................................... 47 Latihan ............................................................................... 48 vii
BAB II 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. BAB III
TABEL KONTIGENSI...................................................... 51 Tabel Kontigensi 2x2 ........................................................ 52 Membandingkan Dua Proporsi dalam Tabel 2x2 ....................................................................................... 66 Menghitung RR dan OR Menggunakan Program R.......................................................................... 70 Tabel Kontigensi bxk ...................................................... 70 Uji Eksak untuk Sampel Kecil ........................................ 83 Ukuran Assosiasi .............................................................. 86 Uji Cochran-Mantel-Haenszel Untuk Tabel 2x2xJ ................................................................................... 90 Uji Chi Kuadrat pada Tabel Kontigensi Multidimensi ..................................................................... 92 Soal Latihan ....................................................................... 98 MODEL LOG LINEAR PADA TABEL KONTIGENSI..................................................... 99
3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. BAB IV 4.1. 4.2.
Model Log Linear Dalam Tabel Kontigensi Dua Arah .................................................................................. 100 Model Log Linear untuk Tabel Kontigensi Tiga Arah .................................................................................. 107 Contoh Data I .................................................................. 111 Contoh Data II................................................................. 114 Model Log Linear pada Tabel Kontigensi Multi Arah .................................................................................. 118 Program R untuk Model Log Linear ........................... 119 Soal Latihan ..................................................................... 126 REGRESI LOGISTIK ...................................................... 129 Distribusi Binomial dan Regresi Logistik ................... 129 Model Regresi Logistik dengan Variabel Independen Tunggal ...................................................... 130
viii
4.3.
Model Regresi Logistik dengan Variabel Independen Banyak ....................................................... 133 4.4. Maximum Likelihood Estimator untuk Regresi Logistik ............................................................................ 133 4.5. Inferensi Regresi Logistik ............................................. 136 4.6. Regresi Logistik Multivariabel ..................................... 147 4.7. Strategi Pemilihan Model.............................................. 148 4.8. Regresi Rogistik dalam Program R.............................. 154 4.9. Model Logistik pada Respon Multi Kategori ............. 157 4.10. Model Pilihan Diskrit .................................................... 175 4.11. Soal Latihan..................................................................... 182 BAB V 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. BAB VI 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7.
REGRESI POISSON ....................................................... 183 Distribusi Poisson .......................................................... 183 Model Regresi Poisson .................................................. 185 Estimasi Parameter ........................................................ 186 Pemilihan model Terbaik .............................................. 188 Contoh Data I................................................................. 192 Contoh Data II ................................................................ 198 Contoh Data III ............................................................... 203 Soal latihan ...................................................................... 205 GENERALIZED LINEAR MODEL (GLM) ................ 209 Pendahuluan ................................................................... 209 Fungsi Penghubung (Link) dan Keluarga Eksponensial ................................................................... 210 Estimasi Parameter ..................................................... 212 Inferensi Parameter ‛erdasarkan Fungsi Likelihood ....................................................................... 215 Uji Kecocokan Model Dengan Nilai Devians............. 216 Estimasi Interval dengan GLM .................................... 218 GLM pada Program R ................................................... 221
ix
BAB VII 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. 7.16. 7.17. 7.18. 7.19. 7.20. 7.21. 7.22. 7.23. 7.24. 7.25. BAB VIII
PENGANTAR PROGRAM R....................................... 227 Pendahuluan ................................................................... 227 Manipulasi Data ............................................................. 228 Operasi Matematika ....................................................... 231 Vektor ............................................................................... 232 Array dan Matrik............................................................ 233 Data Frame ...................................................................... 234 List .................................................................................... 235 Variabel Waktu (Dates) ................................................. 235 Penggabungan Data frame............................................ 236 Membuka File Data ........................................................ 237 Editing Data Secara Langsung ..................................... 237 Membuat Plots ................................................................ 238 Membuat Plots dari Distribusi Empiris ...................... 239 Plot Kontur (Contour Plots) ......................................... 240 Menambahkan Legend dan Stuff ................................. 241 Menambahkan Panah, Teks dan Penanda .................. 242 Multiple Plots .................................................................. 243 Menyimpan Plots ........................................................... 243 Menambahkan Tulisan Miring dan Simbol Matematik dalam Plots .................................................. 245 Statistik............................................................................. 246 Matematika dalam R ...................................................... 248 Menyusun Program ....................................................... 252 Menyimpan Data ............................................................ 254 Menyimpan Output ....................................................... 254 Maximum Likelihood Estimation (MLE) .................... 255 APLIKASI STATISTIKA MENGGUNAKAN R-COMMANDER ........................................................... 257
8.1. 8.2.
Memulai R-Commander................................................ 257 Input data ........................................................................ 260
x
8.3.
Menggunakan Comannder R untuk Diskripsikan Data .......................................................... 262 8.4. Memodifikasi Dataset .................................................... 264 8.5. Membagi data ................................................................. 266 8.6. Menggunakan Comannder R untuk Mengeksplorasi Data ..................................................... 267 8.7. Menggunakan Comannder R untuk menerapkan uji statistik ................................................ 271 8.8. Uji Non-parametrik........................................................ 275 8.9. Korelasi dan Regresi ...................................................... 277 8.10. Menyimpan Grafik......................................................... 282 8.11. Menyimpan Hasil Perhitungan .................................... 283 8.12. Menu pada R Commander (version 1.4-10) ............... 284 DAFTAR PUSTAKA ................................................................ 295 GLOSARIUM ...................................................................................... 297 PROFIL PENULIS.............................................................................. 301
xi
xii
DAFTAR TABEL
Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu ......................................................................... 19 Tabel 1.2. Tabel distribusi probabilitas lulusan ............................. 20 Tabel 1.3. Distribusi Binomial dengan n=10 dan =0.2,0.5,0.8 ....................................................................... 22 Tabel 1.4. Daftar penulisan distribusi dalam program R ............. 29 Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 ................................................................................. 38 Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: 0} banyaknya anggota S adalah tak terhingga. Variabel random X yaitu tinggi mahasiswa adalah X = {x | x >0} banyaknya anggota X adalah tak terhingga. 1.6. Fungsi Peluang Diskrit dan Fungsi Distribusi Suatu variabel random diskrit X
yang bernilai x1, x2,
mempunyai fungsi peluang P(x1), P(x2 ,
,xn.
, P xn). Bila X adalah
variabel random, maka fungsi distribusinya (fungsi distribusi kumulatif) didefinisikan sebagai FX(x) = P X x , untuk semua x
18
sehingga a. FX(x) kontinu dari kanan b. FX(X=-)=0 dan FX(X=)=1 Jika varibel random X telah diurutkan ( xi > xi-1) maka p(X=xi) = F(xi) – F(xi-1). Suatu fungsi P(x) disebut suatu fungsi peluang (distribusi peluang) jika dan hanya jika P x
untuk semua x dan
P( x ) 1 . i
i 0
Contoh 1.3 Bila sepasang dadu dilemparkan, maka ruang sampelnya adalah S ={
,
,
..,
}.
Variabel random X adalah jumlah bilangan pada muka yang tampak X={2,3,4,5,6,7,8,9,10,11,12}. Distribusi peluangnya dapat dituliskan dalam tabel berikut ; Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu X
2
3
4
5
6
7
8
9
10
11
12
P(X)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
F(X)
1/36
3/36
6/36
10/36
15/36
21/36
26/36
30/36
33/36
35/36
36/36
Contoh 1.4 Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak lulus (G). Jika terdapat 3 calon maka ruang sampel nya S = {LLL, LLG, LGL, GLL, LGG, GLG, GGL, GGG}
19
S adalah ruang sampel yang merupakan himpunan semua kemungkinan kejadian (hasil). Variabel random X yaitu banyaknya calon yang lulus, maka X = {0, 1, 2, 3} P(X) adalah banyaknya X=x dalam ruang sampel dibagi banyaknya anggota keseluruhan ruang sampel. Distribusi peluangnya dapat dituliskan dalam tabel berikut Tabel 1.2. Tabel distribusi probabilitas lulusan X
0
1
2
3
P(X)
1/8
3/8
3/8
1/8
F(X)
1/8
4/8
7/8
8/8
Contoh 1.5 Mengukur berat tinggi badan calon mahasiswa baru, maka hasil pengukuran untuk seorang calon adalah S = {x | x > 0} banyaknya anggota S adalah tak terhingga Variabel random X yaitu tinggi mahasiswa X = {x | x >0} banyaknya anggota X adalah tak terhingga Peluang X=x adalah P(X=x) = 1/ 0 1.7. Distribusi Khusus Terdapat tiga distribusi yang akan banyak dibahas disini yaitu distribusi binomial, multinomial dan Poisson.
20
1.7.1.
Distribusi Binomial Seringkali,
data kategori
diperoleh dari
pengamatan
sebanyak n yang saling independen dan identik yang mempunyai dua kemungkinan hasil yaitu sukses dan gagal. Jika hasil suatu pengamatan tidak berpengaruh terhadap hasil pada pengamatan lain maka dapat dikatakan n pengamatan saling independen. Yang dimaksud
dengan
pengamatan
identik
adalah
pengamatan
dilakukan pada kasus dan kondisi yang sama. Pada kejadian sukses dan gagal, pengamatan saling independen disebut Bernoulli trials. Misalkan π menyatakan probabilitas sukses dan X adalah banyaknya sukses dari n pengamatan. Dengan asumsi n pengamatan saling independen dan identik, Variabel random X mempunyai distribusi binomial dengan parameter π. Jadi, suatu percobaan atau pengamatan masuk kedalam distribusi binomial jika memiliki ciri-ciri a. Percobaan terdiri atas n ulangan b. ulangan-ulangan itu bersifat bebas satu sama lain c. dalam setiap ulangan hasilnya dapat digolongkan sebagai berhasil atau gagal d. peluang berhasil dilambangkan π dan untuk setiap ulangan adalah sama (tidak berubah-ubah) Sebaran peluang binom dapat nyatakan ke dalam rumus:
n x n x (1 ) ; x 0, 1, ...., n P( x) x dengan 0 1 0 untuk x yang lainnya
21
Contoh 1.6 Sebuah pertanyaan (kuis) yang terdiri dari 10 pilihan ganda yang masing-masing mempunyai 5 alternatif dan hanya satu plihan yang benar. X menyatakan banyaknya jawaban yang benar. Probabilitas jawaban benar untuk masing-masing pertanyaan adalah 0.20 maka n=10 dan π= 0. 0 Probabilitas semua jawaban salah (x=0 ) sama dengan
10 P( X 0) 0.20 (1 0.2)10 0 0.107 0 Probabilitas banyaknya jawaban yang benar kurang dari 7 (x q dihitung menggunakan fungsi qbinom(q,n,p) a. P(X=3|n=12,=0.9) = 1.6038e-07 > dbinom(3,12,0.9); [1] 1.6038e-07 b. P(X3|n=12,=0.9) =1.65835e-07 > pbinom(3,12,0.9); [1] 1.65835e-07 c. P(Xx|n=12,=0.9)>0.5 maka x=12 > qbinom(0.5,12,0.9); [1] 11
30
d. P(Xx|n=12,=0.5)>0.9 maka x=11 > qbinom(0.5,12,0.9); [1] 11 e. Dari contoh 1.7. P(X=x|n=10,=0.2) =0.1073742 > dbinom(0,10,0.2); [1] 0.1073742 P(X6|n=10,=0.2) > pbinom(6,10,0.2); [1] 0.9991356 Contoh 1.10 Variabel random X berdistribusi Poisson, X~Pois() : P(X=x) dihitung menggunakan fungsi dpois(x, ) P(Xx) dihitung menggunakan fungsi ppois(x, ) P(Xx)> q dihitung menggunakan fungsi qpois(q,) a. P(X=2|=4)= 0.1465251 > dpois(2,4); [1] 0.1465251 b. P(X2|=4)= 0.2381033 > ppois(2,4); [1] 0.2381033 c. P(Xx|=4)>0.5 maka x = 4 > qpois(0.5,4); [1] 4
31
Contoh 1.11 Variabel random X berdistribusi Normal, X~N(,2) : P(X=x) dihitung menggunakan fungsi dnorm(x,,) P(Xx) dihitung menggunakan fungsi pnorm(x,,) P(Xx)> q dihitung menggunakan fungsi qnorm(q,,) a. P(X=2|=1,=4)= 0.09666703 > dnorm(2,1,4); [1] 0.09666703 b. P(X pnorm(2,1,4); [1] 0.5987063 c. P(Xx|=1,=4)>0.5 maka x = 1 > qnorm(0.5,1,4); [1] 1 Sementara itu untuk distribusi multinomial dapat diperoleh dari library combinat yaitu menggunakan fungsi >dmnom(x,size,prob) dengan x berupa vektor, size adalah total pengamatan, prob adalah parameter probabilitas (i). Contoh 1.12 Pengamatan multinomial yang dapat dikategorikan menjadi 4 kelompok terhadap
objek. Diketahui π1= . , π2= . , π3=0.3 dan
π4=0.3. Hitung peluang dari diperoleh x1=1, x2=1,x3=4 dan x4=4. >library(combinat); >dmnom(c(1,1,4,4),10,c(0.2,0.2,0.3,0.3)); [1] 0.01653372
32
Pengamatan multinomial yang dapat dikategorikan menjadi 3 kelompok terhadap
objek. Diketahui π1= . , π2= . , π3=0.25.
Hitung peluang dari diperoleh x1=1, x2=5,x3=2 dan x4=1. >dmnom(c(5,2,1),8,c(0.5,0.25,0.25)); [1] 0.08203125
Untuk membangkitkan data yang berdistribusi multinomial dapat digunakan library multinomRob yaitu menggunakan fungsi rmultinomial(n, p, rows=max(c(length(n), nrow(p)))) rmultz2(n, p, draws=length(n))
Contoh 1.13 >library(multinomRob) >rmultz2(n=5, p= c(0.2,0.3, 0.5), draws=10); [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 2 0 0
1 0
2 1 1 1
2
[2,] 2 2 1 1 1 2 2 1 2
2
[3,] 1 3 4 3 4 1 2 3 2
1
1.10. Plot Data dan Grafik dalam R Penyajian data dilakukan dalam rangka memperjelas secara visual kondisi data yang bermanfaat dalam pengambilan kesimpulan baik secara deskriptif maupun inferensi. Banyak cara menyajikan data, seperti dalam tabel maupun gambar (diagram). Histogram dan Diagram batang adalah visualisasi data frekuensi yang seringa diguanakan. Diagram ini dicirikan dengan adanya sumbu datar dan sumbu tegak. Salah satu sumbu menjelaskan ferkuensi dan sumbu lain menerangkan kategori. Tinggi/panjang batang pada suatu tingkat kategori menyatakan frekuensi tingkat itu. Fungsi yang digunakan untuk membuat histogram adalah hist(x,...). x adalah data yang disajikan dalam vektor. 33
Contoh 1.14 > x=c(1,2,1,3,2,4,5,3,2,1,3,4,5,3,2,1,3,4,5,3,2,1); > hist(x); Dipeloleh gambar sebagai berikut :
3 0
1
2
Frequency
4
5
6
Histogram of x
1
2
3
4
5
x
Untuk membuat grafik maupun plot data dapat digunakan beberapa fungsi : plot, lines, abline, points, curve. a. plot(x) : plot data x (dalam vektor) berdasarkan urutan data b. plot(x,y) : plot data x terhadap y c. plot(fx,a,b) : plot fungsi fx pada interval a sampai dengan b. d. curve(fy,add=TRUE) : menyisipkan grafik dari fungsi fy pada kurva sebelumya Contoh 1.15 > x=c(1,2,4,5,6,7,12,17,19); > y=c(0,6,4,5,8,7,2,7,9); > plot(x)
34
> plot(x,y,xlab="nilai MX", ylab="nilai BX",type="l");
> fx fy plot(fx,-10,10)
35
> curve(fy,add=TRUE)
1.11. Inferensi untuk Parameter Proporsi () Dalam praktek, nilai parameter dalam distribusi binomial dan distribusi
multinomial
tidak
diketahui.
Estimasi
parameter
dilakukan menggunakan data sampel Salah satu metode yang
36
digunakan untuk mengestimasi parameter adalah Maximum Likelihood Estimator (MLE). Terdapat dua cara untuk inferensi parameter , yaitu metode eksak dan metode pendekatan distribusi normal. Metode eksak digunakan pada sampel kecil dan metode pendekatan distribusi normal digunakan ketika jumlah sampel besar. Dalam inferensi statistik, kita mengenal nilai yang merupakan probabilitas kesalahan Tipe I yang
biasa disebut
dengan tingkat signifikansi. Untuk menguji hipotesis H0, peneliti menetapkan nilai yang digunakan.
Nilai terkecil sedemikian
hingga dapat menolak H0 disebut P-value. P-value dapat dihitung berdasarkan distribusi statistiknya. Pada distribusi probabilitas diskrit, penggunaaan P-value bersifat konservatif. Artinya, tidak dimungkinkan bagi P-value untuk mencapai nilai signifikansi yang diinginkan secara tepat. Sehingga probabilitas sesungguhnya dari kesalahan tipe I bernilai kurang dari 0.05. Sebagai contoh, dimisalkan pengujian H0: =0.50 melawan H1 : > 0.50 Dari 10 pengujian klinik diperoleh sukses sebanyak y=9. Kejadian ini mempunyai probabilitas P-value = P(Y=9) + P(Y=10) = 0.010 + 0.001 = 0.011. Oleh karena itu probabilitas mendapatkan nilai P-value sebesar 0.011 lebih kecil dari 0.05. Sementara itu tingkat signifikansi yang diinginkan adalah 0.05 dan probabilitas aktual kesalahan tipe I adalah 0.011. Oleh karena P-value berarti bahwa H0 akan ditolak. 37
.
pada y = 9 atau 10, hal ini
Tabel 1.3 menunjukkan distribusi binomial dengan n= 10 dan =0.5, 0.2, 0.8. Tabel 1.5 menunjukkan korespondesi distribusi binomial terhadap nilai P-value (probabilitas sisi kanan) pada beberapa nilai Y. Untuk
statistik
uji
pada
distribusi
kontinu,
P-value
mempunyai distribusi uniform pada interval [0, 1]. Ketika H0 benar, P-value dapat bernilai antara 0 dan 1. Kita bisa menemukan nilai statistik uji sedemikian hingga nilai P-value sesuai dengan yang kita inginkan. Akan tetapi pada distribusi diskret, nilai hal itu tidak bisa dilakukan. Sebagai contoh untuk uji satu sisi, P-value = 1.000 ekuivalen dengan P(y=0) = 0.001, P-value = 0.999 ekuivalen dengan P(y=1) = 0.010, ... P-value = 0.001 ekuivalen dengan P(y=10) = 0.010. Lengkapnya disajikan pada Tabel 1.5 berikut: Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 Y 0 1 2 3 4 5 6 7 8 9 10
P(y) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
P-value 1.000 0.999 0.989 0.945 0.828 0.623 0.377 0.172 0.055 0.011 0.001 38
Mid P-value 1.000 0.994 0.967 0.887 0.726 0.500 0.274 0.113 0.033 0.006 0.001
Pada sample data diskret berukuran kecil, ahli statistika memilih menggunakan tipe lain dari P-value yang disebut sebagai Mid P-value. Nilai ini hanya diperoleh melalui penambahan separuh probabilitas dari hasil observasi kepada probabilitas dari hasil yang lebih ekstrim. Untuk mengilustrasikannya, sebagai contoh untuk y =9 pada n=10 pengulangan dengan hipotesis H1 π > . Maka nilai P–value adalah: P–value = P(9) + P(10) = 0.010 + 0.001 = 0.011. Nilai Mid P-value nya adalah: mid P-value = P(9)/2 + P(10) = 0.010/2 + 0.001 = 0.006. Tabel 1.5 juga menunjukkan mid P-values untuk berbagai niai y pada n = 10. Dengan menggunakan nilai mid P-values, H0 akan ditolak jika data sampel diperoleh y
, sebab nilai mid P-values
nya P(8)/2 + P(9) + P(10) =0.022+ 0.010 + 0.001 = 0.033. Sedangkan untuk nilai P-values, H0 akan ditolak jika data sampel diperoleh y
.
Selanjutnya untuk hopotesis H1: π < 0.50 Misalkan dengan n=10, dari data sample diperoleh y = 9, maka P-value = P(y=0) + P(y=1)+· · ·+P(y=9) = 0.999 Mid P-value = P(y=0) + P(y=1)+· · ·+ P(y=9)/2 = 0.994 Sehingga dapat disimpulkan bahwa H0 tidak ditolak.
39
Untuk berbagai nilai y, nilai P-values dan mid P-values pada n=10 disajikan pada Tabel 1.6. Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: 0.5 Diperoleh statistik uji 60 ( 0.5) Z 100 2 0.5(1 0.5) 100
H0 ditolak jika Z > z . Jika digunakan
= 0.05 maka dari tabel
normal standar diperoleh z = z0.05 = 1.65. sehingga dapat disimpulkan bahwa H0 ditolak. 42
1.14. Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal. Interval konfidensi untuk parameter dengan tingkat kepercayaan 100( − )% dengan menggunakan pendekatan sampel besar adalah
p(1 p) n
p z / 2 .SE dengan SE dengan z
/2
menyatakan persentil distribusi normal standar yang
mempunyai probabilitas sisi kanan sama dengan contoh untuk kepercayaan 95%, berarti
z
/2
/2. Sebagai
= 0.05,
= z0.025 = 1.96.
Sebagai contoh kejadian binomial dengan n=100 dan y=60. Interval konfidensi 95% untuk parameter adalah
0.6 1.96.
0.6(1 0.6) 0.6 0.04899 100
atau dapat dinyatakan sebagai 0.55101 < < 0.64899 Jika digunakan interval konfidensi 99% untuk parameter adalah
0.6 2.576.
0.6(1 0.6) 0.6 0.126 100
atau dapat dinyatakan sebagai 0.474 < < 0.726
43
Dengan konfidensi semakin besar (signifikansi semakin kecil), maka interval yang diperoleh juga semakin lebar. 1.15. Statistik Wald dan Statistik Rasio Likelihood Misalkan parameter yang akan diuji adalah
dengan
hipotesis H 0: 0
=
0
lawan H1:
0
adalah suatu konstanta yang diketahui nilainya. Statistik uji
yang paling sederhana adalah menggunakan pendekatan sampel besar (pendekatan normal). Ketika H0 benar, maka statistik Wald,
( ˆ 0 ) SE mendekati distribusi normal standar. ˆ adalah MLE dari z
parameter dan
SE var( ˆ ) . Sehingga z2 berdistribusi chi kuadrat dengan derajad bebas satu (df=1). Statistik z dinamakan statistik Wald. Cara lain untuk menguji hipotesis H0 adalah menggunakan fungsi likelihood, yaitu rasio likelihood. Statistik rasio likelihood adalah
L0 2 log L1 L0 adalah nilai fungsi likelihood pada kondisi H0 benar L0 = L(0)
44
L1 adalah nilai fungsi likelihood dari penaksir MLE ( ˆ ) . L1= L( ˆ ) Karena L( ˆ ) < L() untuk semua , maka L1 > L0
0
L( 0 ) 1 L( ˆ )
Statistik rasio likelihood berdistribusi Chi kuadrat dengan df=1. Jika merupakan vektor, maka df-nya sama dengan banyaknya parameter yang diuji. Statistik uji yang lain adalah Score Test. Pada uji proporsi binomial
z
0 (1 0 ) ( p p0 ) dengan SE n SE
mendekati distribusi normal standar. Sebagai contoh inferensi berdasarkan statistik Wald, Score dan rasio likelihood menggunakan contoh hipotesis H0: π = 0.50 vs H1: π 0.50 Dari n=10 terdapat 9 sukses, sehingga proporsi sampelnya p = 0.90. Untuk uji Wald :
SE
0.9(1 0.9) 0.9 0.5 0.095 sehingga z 4.22 atau z2 = 10 0.095 (4.22)2 =17.8
45
Untuk uji Score :
SE
0.50(1 0.50) 0.9 0.5 0.158 sehingga z 2.53 atau z2 = 10 0.158 (2.53)2 =6.4
Untuk uji rasio likelihood :
L0
10! (0.5) 9 (0.5)1 0.00977 9!1!
dan
10! (0.9) 9 (0.1)1 0.3874 9!1! L0 0.00977 2 log 2 log 2 log( 0.0252) 7.36 L1 0.3874 p=0.9 sehingga L1
Dapat disimpulkan bahwa pada kasus ini (sampel kecil) statistik Wald adalah yang paling powerfull. Statistik rasio likelihood lebih powerfull pada kasus sampel besar. 1.16. Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R Statistik Wald dapat diperoleh melalui fungsi binconf dalam library Hmisc dengan menu option dipilih method= asymptotic. >library(Hmisc, T) >binconf(x=3, n=25, method="asymptotic") PointEst Lower Upper 0.12
-0.007382581
0.2473826
Untuk mencari interval konfidensi yang didasarkan pada statistik Score dapat menggunakan fungsi prop.test.
46
>prop.test(x=3,n=25,conf.level=0.95,correct=F) 1-sample proportions test without continuity correction data: 3 out of 25, null probability 0.5 X-squared = 14.44, df = 1, p-value = 0.0001447 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.04166817 0.29955794 sample estimates: p 0.12
Selain itu
juga menggunakan fungsi binconf dalam library
Hmisc. Pada menu option, pilih method= wilson >library(Hmisc, T) >binconf(x=3, n=25, alpha=.05, method="wilson") PointEst Lower Upper 0.12 0.04166817 0.2995579
1.17. Interval Konfidensi Eksak Menggunakan Program R Terdapat beberapa fungsi yang dapat digunakan untuk menghitung interval konfidensi eksak. Jika diketahui banyaknya sukses kejadian binomial x=0 dari pengamatan n=25, maka interval konfidensinya dapat dihitung menggunakan perintah a. fungsi binom.test >binom.test(x=3, n=25, conf.level=.95) # R Exact binomial test data: 3 and 25 number of successes = 3, number of trials = 25, p-value = 0.0001565 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval:
47
0.0254654 0.3121903 sample estimates: probability of success 0.12
b. fungsi binconf dalam library Hmisc menggunakan metode exact. >library(Hmisc, T) >binconf(x =30, n = 25, alpha = .05, method = "exact") PointEst Lower Upper 0.12 0.0254654 0.3121903 c. Statistik Pearson’s Chi-Squared dapat diperoleh menggunakan fungsi chisq.test >chisq.test(x=c(6022,2001),p=c(.75,.25)) Chi-squared test for given probabilities data: c(6022, 2001) X-squared = 0.015, df = 1, p-value = 0.9025
1.18. Latihan 1.1 Pada contoh-contoh berikut, lakukan identifikasi variabel respon, variabel independen dan skala pengukuranya : a. Sikap terhadap undang undang pornografi (suka, tidak suka), gender (laki-laki, perempuan), pendidikan orang tua ( Sekolah menengah, perguruan tinggi). b. Penyakit jantung (ya, tidak), tekanan darah, kadar kolesterol. c. Pendidikan (SD, SLTA, Diploma, Sarjana), agama (Islam, katolik, yahudi, protestan), suara untuk pemilihan presiden
(Golkar, Demokrat, PDIP,PKS, PKB, PAN,
lainnya), pendapatan per tahun.
48
d. Status
pernikahan
(menikah,
belum
menikan,
janda/duda), kualitas hidup (sangat bagus, bagus, cukup, kurang). 1.2 Mana skala pengukuran berikut ini yang paling sesuai, nomial atau ordinal? a. Keikut sertaan dalam partai politik (Golkar, Demokrat, PDIP, lainnya) b. Pendidikan terakhir (tidak punya, sekolah menengah, sarjana, master, doktor) c. Kondisi pasien (bagus, cukup, serius, kritis) d. Minuman favorit ( bir, jus, susu, soft drink, anggur, lainnya) e. Berapa sering mengalami depresi (tidak pernah, kadangkadang, sering, selalu). 1.3 Terdapat 100 pertanyaan pilihan ganda, masing-masing soal terdapat 4 jawaban tetapi hanya satu jawaban yang benar. Untuk setiap pertanyaan, seorang siswa memilih satu jawaban a. Tentukanlah distribusi jumlah siswa memilih jawaban yang benar dalam ujian b. Berdasar nilai mean dan deviasi standar dari distribusi, apakah merupakan suatu yang menggembirakan jika siswa membuat paling sedikit 50 jawaban yang benar? Jelaskan alasannya. 1.4 Di sebuah kota, dari data kepolisian diketahui rata-rata banyaknya pencurian motor sebesar 4 kasus per bulan. Berapa peluangnya bahwa di kota tersebut pada bulan Januari akan terjadi pencurian motor sebanyak 49
a. kurang dari 3 kasus? b. tidak satupun kasus? 1.5 Misalkan, peluang seseorang yang terinfeksi virus flu burung akan meninggal sebesar 0,2. Berapa peluang dari 16 pasien yang terinfeksi akan terdapat lebih dari 14 pasien sembuh? 1.6 Pengamatan terhadap 20 pasien yang terinfeksi virus flu burung, terdapat 5 pasien meninggal dunia. Berdasarkan data tersebut akan dilakukan pengujian terhadap hipotesis yang menyatakan bahwa peluang sembuh terhadap infeksi virus flu burung lebih dari 75%. a. Hitung nilai P-value dan nilai mid P-value. b. Jika digunakan
= . , kesimpulanya apa?
c. Lakukan pengujian menggunakan statistik Wald, Score dan rasio likelihood. 1.7 Lakukan pengujian seperti soal 1.6, jika dari 150 terdapat 15 pasien meninggal dunia.
50
BAB II TABEL KONTIGENSI
Tabulasi merupakan salah satu teknik penyajian data agar mudah difahami dalam waktu singkat. Salah satu bentuk penyajian tabulasi adalah tabel kontigensi atau tabulasi silang. Tabel kontigensi adalah merupakan satu bentuk distribusi frekuensi untuk dua variabel atau lebih. Akan tetapi, tidak semua pengolah data (penganalisis) mengetahui dengan baik bagaimana menyajikan tabulasi yang cocok agar suatu laporan dapat berbobot. Apabila data yang dianalisis memuat dua variabel atau lebih kita dapat melakukan analisis hubungan antara variabel-variabel tersebut. Berbicara tentang hubungan (asosiasi) antara dua variabel atau lebih adalah membahas tentang ada tidaknya hubungan dan hubungan kausal serta pengaruh faktor interaksi antara variabel bebas terhadap variabel tak bebas.
Dalam analisis data, pada
umumnya peneliti cenderung akan memperhatikan sedemikian banyak variabel,
maka pendekatan
analisis asosiasi
untuk
multivariat, misalnya analisis tabulasi silang menjadi sangat penting. Pada dasarnya analisis hubungan dengan tabel tabulasi silang dapat dilakukan pada setiap data survey, dengan catatan semua variabel numerik (skala interval dan rasio) ditransformasi menjadi variabel kategorik, misalnya variabel Pasangan Usia Subur (15-49 tahun) diubah menjadi variabel kelompok 5 tahunan, yaitu : kelompok I (15-19), kelompok II (20-24), kelompok III (25-29) sampai dengan kelompok VII (45-49). 51
Sebuah tabel yang merupakan klasifikasi silang (cross classifies) dari dua variabel dinamakan tabel kontigensi dua arah. Masingmasing variabel menempati posisi baris dan kolom. Jika masingmasing variabel mempunyai level 2 maka akan diperoleh tabel 2x2. Jika satu variabel baris mempunyai level 5 dan variabel kolom mempunyai level 3 maka akan diperoleh
tabel 5x3. Kita mulai
pembahasan untuk tabel 2x2. 2.1. Tabel Kontigensi 2x2 Pada pengumpulan data sering dijumpai bahwa informasi yang berasal dari sampel mempunyai struktur yang paling sederhana, yaitu data diklasifikasikan atau dikategorikan dalam kelas-kelas, sehingga data berupa frekuensi dari kelas tertentu (Nugraha, 2003). Contoh dari data yang berupa dua klasifikasi adalah jenis kelamin (pria, wanita), agama (Islam, non Islam), kondisi produk (baik, cacat) dll. Tabel kontigensi 2x2 merupakan klasifikasi objek pengamatan berdasar dua variabel dan masing masing variabel mempunyai dua kategori. Tabel 2.1. merepresentasikan frekuensi terobservasi pada tabel kontigensi 2x2 untuk Variabel I (A) pada posisi baris dan Variabel II (B) pada posisi kolom. Tabel 2.1. Tabel kontigensi Faktor A dan Faktor B Variabel I (A) A1 A2 Total
Variabel II (B) B1 B2 n11 n12 n21 n22 no1 no2
52
Total n1o n2o N
Diasumsikan bahwa masing-masing objek memiliki salah satu sifat/klasifikasi A (A1 atau A2) dan salah satu sifat B (B1 atau B2). nij adalah banyaknya objek yang memiliki sifat Ai dan Bj untuk i,j=1,2. noj = n1j + n2j ; nio = ni1 + ni2 dan n = no1 + no2 = n1o + n20
Sebagai contoh data pengobatan sakit kepala dengan menggunakan obat aspirin dan placebo. Setelah pasien diberi obat, beberapa saat kemudian ditanyakan apakah masih merasakan sakit kepala atau tidak. Tabel 2.2. Penggunaan Aspirin terhadap sakit kepala Grup
2.1.1.
Sakit Kepala
Total
Ya
Tidak
Placebo
189
10845
11034
Aspirin
104
10933
11037
Total
293
21778
22071
Input Data dan Manipulasi Data dalam Program R Terdapat beberapa cara untuk memasukan data tabel
kontigensi dalam program R. 2.1.1.1. Tabel Dua Arah Sebagai Matrik Salah satu cara input data adalah menggunakan fungsi matrix (fungsi ini sama dengan fungsi array). Fungsi matrix dan fungsi array
dibahas pada Bab VII.
Sebagai contoh data
penggunaan aspirin, inputing data dapat dilakukan sebagai berikut: >MI dimnames(MI) names(dimnames(MI)) tot MI/tot Grup Placebo aspirin
Sakit Kepala Ya 0.008563273 0.004712066
Tidak 0.4913688 0.4953559
Untuk menghitung total baris (nio) dan total kolom (noj) dan total proporsi (poj dan pio) dapat digunakan fungsi apply. > > > >
rowtot prop.test(MI,correct=F) 2-sample test for equality of proportions without continuity correction data: MI X-squared = 25.0139, df = 1, p-value = 5.692e-07 alternative hypothesis: two.sided 95 percent confidence interval: 0.004687751 0.010724297 sample estimates: prop 1 0.01712887
Cara
pengujian
yang
prop 2 0.00942285
lain
dapat
dilakukan
dengan
mentransformasi data sebagai berikut > MI.test names(MI.test) [1] "statistic" "parameter" "p.value" "estimate" "null.value" [6] "conf.int" "alternative" "method" "data.name" > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > MI.test$conf.int 69
[1] 0.004597134 0.010814914 attr(,"conf.level") [1] 0.95 > round(MI.test$conf.int,3) [1] 0.005 0.011 attr(,"conf.level") [1] 0.95 > MI.test$estimate[1]/MI.test$estimate[2] % relative risk prop 1 1.817802
2.3. Menghitung RR dan OR Menggunakan Program R RR dan OR cukup mudah dihitung. Bermacam-macam langkah bisa dilakukan. Misalkan dari data Tabel 2.2, > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > odds odds[1]/odds[2] prop 1 1.832054 > (MI[1,1]*MI[2,2])/(MI[2,1]*MI[1,2]) [1] 1.832054
Interval konfidensi untuk OR: > theta ASE logtheta.CI exp(logtheta.CI) [1] 1.440036 2.330790
2.4. Tabel Kontigensi bxk Dalam suatu penelitian, observasi terhadap obyek penelitian tidak hanya satu variabel akan tetapi lebih dari satu variabel. Jika 70
setiap obyek dilakukan observasi lebih dari satu variabel kategori, maka data hasil observasi dapat disajikan dalam bentuk tabel yang disebut
tabel
tabulasi
silang.
Misalkan
observasi
terhadap
karyawan perusahaan, variabel kategori yang dapat diobservasi adalah jenis kelamin, status perkawinan, pendidikan dan lain-lain. Pada Tabel tabulasi silang, jika dilakukan analisis lebih lanjut, akan diperoleh informasi tentang ada tidaknya keterkaitan antara variabel kategori satu dengan variabel kategori yang lain dengan menggunakan uji independensi. Bentuk tabel tabulasi silang dari suatu observasi adalah sebagai berikut : Tabel 2.9. Tabel kontigensi dua arah Kategori I 1 2
1 n11 n21
Kategori II 2 n12 n21
k n1L n2L
Total n1. n2.
B Total
nk1 n.1
nk1 n.2
n2L n.L
nk. N
Proporsi masing-masing sel disajikan dalam tabel 2.10. Tabel 2.10. Proporsi pada tabel kontigensi dua arah Kategori I 1 2
1 π11 π21
Kategori II 2 π12 π21
k π1k π2k
Total π1o π2o
B Total
πb1 Πo1
πb1 Πo2
πbk Πok
πbo 1
Contoh: Suatu survey tentang ketenagakerjaan ingin mengetahui apakah tingkat pendidikan (SMP, SMA, D3 dan S1) mempunyai hubungan dengan jenis pekerjaan (Adm, Penjualan, Operator,
71
Teknisi) yang diharapkan. Dari sampel sebanyak 200 pencari kerja, data hasil observasi dapat ditabelkan sebagai berikut : Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan dan jenis pekerjaan Pendidikan
Jenis Pekerjaan
Total
Adm.
Penjualan
Operator
Teknisi
SMP
5
6
7
22
40
SMA
6
10
30
14
60
D3
8
35
20
7
70
S1
24
4
2
0
30
Total
43
55
59
43
200
2.4.1.
Nilai Frekuensi Harapan Nilai frekuensi harapan dihitung berdasarkan asumsi
bahwa variabel baris (grup) dan variabel kolom
saling
independen atau proporsi sukses pada kedua grup adalah sama. Dengan asumsi independen, berarti distribusi bersama (joint distribution)
dapat
dihitung
menggunakan
distribusi
marginalnya. Probabilitas dua kejadian yang saling independen mempunyai sifat P(A & B) = P(A)*P(B). Dengan kata lain, Jika kategori I (baris) dan kategori II (kolom) saling bebas, maka nilai proporsi baris ke i kolom ke j (sel (i,j)) adalah perkalian proporsi baris ke i dengan proporsi kolom ke j atau ij =io x oj
72
ij
ni 0 n 0 j x n n
Nilai harapan dengan asumsi independen pada masingmasing sel dihitung mengunakan rumus
eij n ij
nio .noj n
eij adalah nilai harapan pada baris i dan kolom j atau sel (i,j). Misalkan dari data pada Tabel 2.2. nilai harapan pada baris pertama dan kolom pertama,
e11
11034 x293 146.48 22071
Hasil selengkapnya disajikan pada Tabel 2.12. Tabel 2.12. Nilai Harapan penggunaan aspirin Grup
Sakit Kepala
Total
Ya
Tidak
Placebo
146.48
10887.52
11034
Aspirin
146.52
1089.48
11037
Total
293
21778
22071
Nilai harapan dari Tabel 2.11 adalah disajikan dalam Tabel 2.13 sebagai berikut :
73
Tabel 2.13. Frekuensi harapan klasifikansi karayawan menurut pendidikan dan jenis pekerjaan Pendidikan
Total
Jenis Pekerjaan Adm.
Penjualan
Operator
Teknisi
SMP
8.60
11.00
11.80
8.60
40
SMA
12.90
19.50
17.70
12.90
60
D3
15.05
19.25
20.65
15.05
70
S1
6.45
8.25
8.85
6.45
30
Total
43
55
59
43
200
2.4.2.
Chi-Kuadrat untuk Uji Independensi Tabel kontigensi dua arah secara umum disajikan dalam
tabel berikut Tabel 2.14. Tabel kontigensi bxk Faktor A dan Faktor B Faktor I
Faktor II
Jumlah
B1
B2
.....
Bk
A1
n11
n12
.....
n1k
n1o
A2
n21
n22
......
n1k
n2o
.
.....
.....
.....
.....
......
.
.....
.....
.....
.....
.....
Ab
nb1
nb2
nbk
nbo
Jumlah
no1
no2
nok
N
........
Berkaitan dengan tabel tersebut, kita ingin menguji apakah Faktor satu dan Faktor II saling independen yang dapat dihipotesiskan sebagai berikut :
74
H0 : Faktor I dan Faktor II independen H1 : Faktor I dan Faktor II tidak independen Penjelasan
hipotesis
statistik
dan
statistik
uji
akan
disampaikan pada pembahasan berikutnya. Dalam tabel kontigensi dua arah, Chi-Kuadrat dapat digunakan untuk menguji independensi dua variabel marginal. Uji Chi-Kuadrat sering dinamakan
goodness-of-fit test tetapi
sebenarnya yang diuji adalah badness-of-fit test, karena besarnya nilai Chi-Kuadrat mengindikasikan ketidak sesuaian antar frekuensi observasi (nij) dan frekuensi harapan (eij). Terdapat dua statistik Chi-Kuadrat yaitu Pearson Chi-Kuadrat (2) dan likelihood ratio Chi-Kuadrat (G2). 2.4.2.1. Statistik Chi-Kuadrat Pearson Statistik Pearson Chi-Kuadrat adalah b
k
2
(nij ij ) 2
i 1 j 1
ij
nij adalah frekuensi observasi sel pada baris ke i dan kolom ke j. ij merupakan parameter dari rata rata frekuensi sel pada baris ke i dan kolom ke j. Statistik 2 digunakan untuk menguji H0 (variabel baris dan kolom saling independen), Statistik ini disampaikan pada tahun 1900 oleh Karl Pearson. Statistik ini mempunyai nilai minimum nol ketika nij = ij . Pada sampel terbatas, besarnya nilai selisih (nij − ij ) menghasilkan nilai 2 yang besar dan bertentangan dengan H0. Oleh karena itu nilai 2 yang besar mengindikasikan bahwa sampel tidak sesuai dengan H0. Pada sampel besar 2 75
mempunyai distribusi
mendekati distribusi Chi-Kuadrat dengan derajad bebas (b-1)(k1). Pendekatan ini akan baik jika ij semakin besar dan ij
.
Distribusi Chi-Kuadrat mempunyai mean sama dengan derajat bebasnya (df = degrees of freedom) dan variansinya sama dengan 2 kali df. Semakin besar df maka semakin mendekati distribusi normal. Sebagaimana dalam gambar berikut merupakan grafik distribusi Chi-Kuadrat pada df = 1, 5, 10, dan 20.
Grafik 2.1. Distribusi Chi-Kuadrat Grafik di atas dapat diperoleh menggunakan perintah >fxcurve(fx,0,40,type = "l",ylab="Probability Density")
76
>fx1curve(fx1,type = "l",add=TRUE)
>fx2curve(fx2,type = "l",add=TRUE)
77
0.10 0.05 0.00
Probability Density
0.15
>fx3curve(fx3,type = "l",add=TRUE)
0
10
20
30
40
x
2.4.2.2. Statistik Rasio Likelihood Uji rasio likelihood menentukan nilai parameter
yang
memaksimumkan fungsi likelihood dibawah asumsi H0 benar. Statistik ujinya merupakan logaritma dari rasio fungsi likelihood
78
b k nij G 2 2 nij log i 1 j 1 ij
Statistik uji ini mempunyai nilai non negatif dan berdistribusi Chi-Kuadrat
dengan derajad bebas (b-1)(k-1).
statistik likelihood-ratio Chi-Kuadrat
G2 disebut
yang bernilai besar
ketika H0 salah. G mempunyai nilai minimum nol ketika nij = 2
ij. Besarnya nilai G2 menandakan besarnya kecenderungan menolak H0. Ketika H0 benar dan ij besar, statistik 2 dan G2 mempunyai distribusi yang sama yaitu Chi-Kuadrat
dan
nilainyapun juga relatif sama. 2.4.2.3. Uji Independensi Dalam tabel kontigensi dua arah dengan probabilitas bersama ij , hipotesis nol untuk menguji independensi dua variabel (baris dan kolom) adalah H0 : ij = i00j untuk semua i dan j. Biasanya i0
dan 0j tidak diketahui, sehingga diestimasi
menggunakan data sampel.
eij ˆ npio poj n
ni 0 n0 j ni 0 n0 j n n n
Sehingga statistik uji untuk 2 dan G2 adalah . 2
b
k
i 1 j 1
(nij eij ) 2 eij
dan G 2 2
b
k
n i 1 j 1
79
ij
nij log e ij
Kedua statistik ini mempunyai distribusi Chi-Kuadrat dengan derajad bebas sama dengan (b-1)(k-1). H0 ditolak pada tingkat sign jika 2 > 2(:(b-1)(k-1)). Rumus di atas dapat disajikan dalam bentuk :
1 n22 j nij2 1 1 ..... n10 nb 0 n0 j n0 j n2..
2 N
nbj2
n
.0
1
Derajad bebas ini merupakan selisih banyaknya parameter dalam H0 dan H1. b
i 1
i0
Pada variabel baris diketahui bahwa
1 sehingga terdapat (b-1) dari i0 yang nilainya bebas
dipilih. Demikian juga pada variabel kolom diketahui bahwa k
j 1
0j
1 sehingga terdapat (k-1) dari i0 yang nilainya bebas
dipilih. Jadi dibawah H0 benar, terdapat parameter sebanyak ((b-1) + (k-1)). Pada hipotesis alternatif (H1) menyatakan variabel baris dan variabel kolom tidak independen. Dari sel b
sebanyak bk dan
k
i 1 j 1
ij
1 , terdapat derajad bebas (bk -1).
Derajad bebas adalah selisih banyaknya parameter dalam H0 dan H1 yaitu df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)
Pendekatan distribusi Normal Fisher dan Yates membuktikan bahwa jika derajat bebas cukup besar , (b-1)(k-1) > 30, ternyata bentu 80
2 2 mendekati
distribusi
normal
dengan
rataan
2(b 1)(k 1) 1 dan
simpangan baku 1. Oleh karena itu
2 2 -
Z=
2(b 1)(k 1) 1
Z berdistribusi normal standart. Pendekatan ini hanya dapat dipertanggung-jawabkan jika eij cukup besar. Jika eij harganya kecil-kecil maka dapat digunakan pendekatan lain (oleh Haldane), yaitu jika derajat babas cukup besar (lebih dari 30) dan harga eij kecil-kecil, maka statistik 2 mendekati distribusi normal dengan rata-rata
n(b 1)(k 1) n 1
sedangkan variansinya 2
n2 2n 1 2 (n1 1 )(n2 2 ) n3 n 1
dengan
n1
(b 1)(n b) , n2 (b 1)(n k ) (n 1) (n 1)
1 n 1 k 2 n b 2 n0 j ni 0 , 1 2 (n 2) (n 2)
Selanjutnya pengujian dengan distribusi normal standar z
2
Contoh : Akan diuji apakah jenis kelamin (Gender) berasosiasi dengan partai yang dianut (Demokrat, Agama, Republik). Dari
81
responden sebanyak 2757, dapat diklasifikasikan sebagai berikut Tabel 2.15. Data gender dan partai afiliasi Gender
Partai Demokrat Agama Wanita 762 327 (703.7) (319.6) Laki 484 239 (542.3) (246.4) Total 1246 566 Keterangan : frekuensi harapan
Republik Total 468 1557 (533.7) 477 1200 (411.3) 945 2757 dinyatakan dalam tanda
kurung. Dalam program R, untuk menghitung statistik Pearson s ChiKuadrat dapat digunakan fungsi chisq.test > gender dimnames(gender) chisq.test(gender) Pearson's Chi-squared test data: gender X-squared = 30.0701, df = 2, p-value = 2.954e-07
Dalam
beberapa
kasus,
nilai
P-value
dapat
didekati
menggunakan simulasi. > chisq.test(gender,simulate.p.value=TRUE,B=10000) Pearson's Chi-squared test with simulated p-value (based on 10000 replicates) data: gender X-squared = 30.0701, df = NA, p-value = 1e-04
82
2.5. Uji Eksak untuk Sampel Kecil Sejauh ini, interval konfidensi dan statistik uji yang dibahas didasarkan pada metode sampel besar. Statistik 2 maupun G2 sesuai untuk sampel besar. Ketika n kecil, lebih baik menggunakan distribusi eksak dibanding dengan pendekatan sampel besar. 2.5.1.
Uji Eksak Fisher’s untuk Tabel 2 × 2 Uji chi kuadrat merupakan uji pendekatan(bukan eksak).
Untuk uji eksak dikemukakan oleh Fisher. Didasarkan atas sampling tanpa pengembalian dari distribusi hipergeometrik. H 0 benar (kedua pengamatan independen), peluang komposisi pengamatan seperti Tabel 2.1 (dengan asumsi jumlah margin tetap ) adalah n10 n20 n !n !n !n ! n11 n01 n11 10 20 02 01 P(n11 ) n11!n12!n21!n22!n! n n01
P-value merupakan jumlah semua nilai probabilitas P(n11) yang mendukung H1. Selanjutnya Ho ditolak jika P-value lebih kecil dari . Statistik uji ini disebut uji eksak Fisher s yang disampaikan oleh R. A. Fisher pada tahun 1934. Contoh Data Fisher Tea Fisher memberkan contoh percobaan sebagai berikut : Ketika minum teh dicampur milk, teman
Fisher di Rothamsted
Experiment Station dekat London disuruh menebak minuman apa yang dituang pertama kali dalam gelas, milk atau teh. Fisher membuat rancangan percobaan dengan delapan gelas, empat
83
diantaranya teh yang dituang duluan dan empat gelas yang lainnya adalah milk. Selanjutnya delapan gelas tersebut disajikan secara random dan diperoleh hasil dalam tabel berikut ini, Tabel . . Data Fisher Tea Dituang I
Dugaan
Total
Milk
Tea
Milk
3
1
4
Tea
1
3
4
Total
4
4
8
Distribusi untuk percobaan tersebut adalah hipergeometrik yang total margin pada baris pertama dan kedua masing-masing sama dengan 4. Nilai n11 yang mungkin adalah (0, 1,2, 3, 4). Berdasarkan Tabel 2.12, terdapat tiga pendugaan yang benar diantara empat gelas dengan milk yang dituang duluan. Probabilitas susunan tersebut sama dengan
4 4 4! 4! 3 1 16 0.229 P(3) 3!1! 1!3! 8! 70 8 4!4! 4 Selanjutnya hanya terdapat satu susunan ekstrem yang mendukung hipotesis H1 yaitu jika dugaannya sama dengan n11 = n22 = 4 dan n12 = n21 = 0, dan probabilitasnya
84
4 4 4 0 1 P(4) 0.014 70 8 4
Tabel
2.13 memberikan nilai probabilitas pada berbagai
nilai n11. P-value untuk H1 adalah P = P(3) + P(4) = 0.257. Dari hasil ini berarti dapat disimpulkan H0 tidak ditolak. Tabel 2.17. Probabilitas dan P-value data Fisher Tea n11
Probabilitas
P-Value
Exac
2
2
Chi
tabel 0
0.014
1.000
diterima
8.0
3.84
Ditolak
1
0.229
0.986
diterima
2.0
Diterima
2
0.514
0.757
diterima
0.0
Diterima
3
0.229
0.243
diterima
2.0
Diterima
4
0.014
0.014
ditolak
8.0
Ditolak
Jika H0 ditolak maka faktor baris dan kolom tidak independen yang dapat diartikan bahwa rasa minuman dipengaruhi oleh urutan/cara menuangkan. 2.5.2.
Program R untuk Uji Eksak Fisher’s Uji Eksak Fisher~s dalam program R dapat diakses melalui
fungsi fisher.test. > teh fisher.test(teh) Fisher's Exact Test for Count Data data: teh p-value = 0.4857 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval:
85
0.2117329 621.9337505 sample estimates: odds ratio 6.408309 > fisher.test(teh,alternative="greater") Fisher's Exact Test for Count Data data: teh p-value = 0.2429 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 0.3135693 Inf sample estimates: odds ratio 6.408309
Pengujian independensi dua faktor secara eksak dapat juga diimplementasikan pada tabel dua arah yang berukuran axb dengan menggunakan fungsi fisher.test tersebut. Pengujian ini merupakan generalisasi dari Fisher~s exact test pada tabel
x .
> library(ctest)
Dari contoh Tabel 2.10, pengujian eksak Fisher adalah sebagai berikut > fisher.test(gender) Fisher’s Exact Test for Count Data data: gendergap p-value = 0.03115 alternative hypothesis: two.sided
2.6. Ukuran Assosiasi Untuk mengetahui derajad faktor
keeratan hubungan antara dua
dapat digunakan beberapa ukuran asosisi berikut yang
didasarkan pada statistik Chi squred.
86
a. Koefisien kontigensi kuadrat tengah (2)
2
2 n
, 0 < 2 <
b. Koefisien kontigensi Pearson (P)
2 n ,0sum.arrayodds.ratio(sum.array(fit.array)) [1] 17.70244 >odds.ratio(sum.array(fit.array, perm=c(1,2,3))) [1] 25.13620 >odds.ratio(sum.array(fit.array, perm=c(2,1,3))) [1] 61.87182 >loglin(fitted(fitACM),margin=list(c(1,2),c(2,3), c(1,3)), param=T,fit=T) >options(contrasts=c("contr.treatment","contr.poly")) >fit.glmsum(resid(fit, type="pearson")^2) [1] 0.4011004
122
Statistik uji rasio Likelihood dapat diperoleh menggunakan fungsi summary untuk loglm dan glm. Sedangkan fungsi print untuk loglin. >summary(fitAC.AM.CM) Formula: count ~ alkohol + rokok + film + alkohol: rokok + alkohol:film + rokok:film Statistics: X^2 df P(> X^2) Likelihood Ratio 0.3742223 1 0.5407117 Pearson 0.4011002 1 0.5265216
Membandingkan model menggunakan fungsi anova. >anova(fitAC.M, fitAC.AM.CM, fitAM.CM, fitA.C.M) LR tests for hierarchical log-linear models Model 1: count ~ rokok + alkohol + film Model 2: count ~ rokok + alkohol + film Model 3: count ~ rokok + alkohol + film Model 4: count ~ rokok + alkohol + film Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 843.8266437 3 Model 2 843.8266437 3 0.0000000 0 0.00000 Model 3 187.7543029 2 656.0723408 1 0.00000 Model 4 0.3739859 1 187.3803170 1 0.00000 Saturated 0.0000000 0 0.3739859 1 0.54084 >fit.glm2 summary(fit.glm2, cor = F) Coefficients: Value Std. Error t value (Intercept) 5.633420 0.05970077 94.360930 film -5.309042 0.47506865 -11.175316 rokok -1.886669 0.16269584 -11.596294 alkohol 0.487719 0.07576708 6.437083 film: rokok 2.847889 0.16383796 17.382353 film:alkohol2.986014 0.46454749 6.427791 rokok:alkohol 2.054534 0.17406289 11.803401
123
(Dispersion Parameter for Poisson family taken to be 1) Null Deviance: 2851.461 on 7 degrees of freedom Residual Deviance: 0.3739859 on 1 degrees of freedom Number of Fisher Scoring Iterations: 3
Untuk loglm, estimasi parameter menggunakan fungsi model.matrix >options(contrasts=c("contr.treatment","contr.poly")) >Xsqrt(diag(solve(t(X)%*%diag(c(fitAC.AM.CM$fitted))%*%X))) (Intercept) 0.05970110 film1
alkohol1
rokok1
0.47519394
0.16269591
alkohol1: rokok1
0.07576733 0.16383935
alkohol1:film1 rokok1:film1 0.46467452
0.17406330 >table.napsatable.kecelakaanlibrary(MASS) >fitG.I.L.SfitGI.GL.GS.IL.IS.LSfitGIL.GIS.GLS.ILSanova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS, fitGIL.GIS.GLS.ILS) LR tests for hierarchical log-linear models Model 1: count ~ belt + location + gender + injury Model 2: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury Model 3: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 2792.76245 11 Model 2 23.35137 5 2769.41113 6 0.00000 Model 3 1.32489 1 22.02648 4 0.00020 Saturated 0.00000 0 1.32489 1 0.24972 >fitGI.IL.IS.GLS X^2) Likelihood Ratio 7.462791 4 0.1133613 Pearson 7.487374 4 0.1122673 >fitted(fitGI.IL.IS.GLS) >fit.arrayodds.ratioapply(fit.array,c(1,4),odds.ratio)) injury belt Tidak Ya Tidak 1.326766 1.326766 Ya 1.166682 1.166682 >apply(fit.array,c(2,4),odds.ratio) injury location Tidak Ya
125
Urban 0.6614758 0.6614758 Rural 0.5816641 0.5816641 >apply(fit.array,c(3,4),odds.ratio) injury gender Tidak Ya Wanita 1.170603 1.170603 Laki 1.029362 1.029362 >apply(fit.array,c(1,2),odds.ratio) Urban Rural Tidak 0.5799410 0.5799411 Ya 0.5799411 0.5799412 >apply(fit.array,c(1,3),odds.ratio) Wanita Laki Tidak 2.134127 2.134127 Ya 2.134127 2.134127 >apply(fit.array,c(2,3),odds.ratio) Wanita Laki Urban 0.4417123 0.4417123 Rural 0.4417122 0.4417123
Untuk menghitung dissimilarity matrix menggunakan perintah >Fitted.values sum(abs(table.kecelakaan $count - Fitted.values))/(2* sum(table.kecelakaan $count)) [1] 0.002507361
3.7. Soal Latihan 1. Hasil survei tentang tingkat kepuasan kondisi tempat tinggal (tower block, apartemen dan rumah). Tingkat kepuasan diukur berdasarkan derajat kontak mereka dengan penghuni lainnya. Data dikelompokkan berdasarkan tipe rumah seperti yang dicantumkan pada Tabel 3.9.
126
Tabel 3.9. Hasil Surver kepuasan tempat tinggal Derajad
Tingkat Kepuasan
Kontak
Rendah
Sedang
Tinggi
Rendah
Tinggi
Rendah
Rendah
Rendah
Tinggi
62
30
50
48
101
101
Apartemen
135
140
75
115
112
198
Rumah
62
132
47
107
60
105
Tower Block
Tingkat kepuasan terdiri atas tiga level, yaitu rendah, sedang, dan tinggi; derajat kontak terdiri atas dua level yaitu rendah dan tinggi; sedangkan tipe rumah terdiri atas tiga kategori yaitu tower block, apartment. dan rumah. Lakukan analisis untuk mengetahui apakan ketiga variabel yaitu derajad kontak, jenis tempat tinggal dan tingkat kepuasan saling berhubungan. 2. Penelitian dilakukan terhadap pelajar SLTA. Survei berkaitan dengan strata sosial, pendidikan orang tua dan rencana studi lanjut. Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA Strata sosial
Pendidikan orang tua
Pra Sejahtera Sejahtera 1 Sejahtera 2
Rencana studi lanjut Tidak
Ya
Rendah
749
35
Tinggi
233
133
Rendah
627
38
Tinggi
330
303
Rendah
420
37
Tinggi
374
467
Berdasarkan data tersebut, lakukan analisis bagaimana pola hubungan ketiga variabel.
127
128
BAB IV REGRESI LOGISTIK
Pada bab ini akan dibahas pemodelan statistik untuk variabel respon berupa data biner, yaitu respons untuk masing-masing subjek dapat dinyatakan sebagai sukses dan gagal. Model untuk data biner ini lebih dikenal dengan nama regresi logistik. 4.1. Distribusi Binomial dan Regresi Logistik Misalkan variabel yi adalah variabel respon berupa data biner (bernilai nol atau satu)
1 jika " sukses" pada subjek ke - i yi 0 jika " gagal" pada subjek ke - i dengan yi merupakan realisasi dari variabel random Yi. Probabilitas Yi dapat dinyatakan sebagai P(Yi=1) = i dan P(Yi=1) = (1-i) Distribusi Yi merupakan distribusi Bernoulli dengan parameter i dan dapat dituliskan dalam bentuk
P(Yi yi ) iyi (1 i )1 yi untuk yi = 0, 1. Nilai harapan dan variansi Yi masing-masing adalah E(Yi) = i = i dan Var(Yi) = i(1-i) Nampak jelas bahwa mean dan variansinya tergantung pada i. Dalam analisis regresi, parameter i nilai dipengaruhi oleh variabel X yaitu i = i(Xi). 129
Variabel Xi disebut variabel independen (prediktor) pada subjek ke-i. Oleh karena mean dan variansi tergantung pada nilai i maka
model linear tidak dapat digunakan. Model linear
mengasumsikan bahwa prediktor mempengaruhi mean pada variansi tetap (sama). Kondisi ini tidak dipenuhi pada respon data biner. Misalkan
variabel
X
merupakan
faktor
yang
dapat
diklasifikasikan ke dalam k grup, i=1,....,k. Akan dianalisis pengaruh faktor X terhadap nilai i. Individu/subjek yang terletak dalam satu grup mempunyai nilai X yang sama. ni menyatakan banyaknya observasi dalam grup i dan yi menyatakan banyaknya sukses dalam grup i, sehingga yi=0,1,...,ni. Jika ni observasi dalam masing-masing
grup
adalah
independen
dan
mempunyai
probabilitas }sukses i, maka Yi berdistribusi binomial.
ni P(Yi yi ) iyi (1 i ) ni yi yi Mean dan variansi Yi adalah E(Yi) = i = nii dan Var(Yi) = nii(1-i) Distribusi binomial merupakan generalisasi dari distribusi Bernoulli. Jika ni= 1 maka distribusi binomial akan menjadi distribusi Bernoulli. 4.2. Model
Regresi
Logistik
dengan
Variabel
Independen
Tunggal Berdasarkan data bivariat (X, Y) dimana X variabel prediktor dan Y variabel respon biner, π x menyatakan probabilitas sukses pada nilai x sehingga π x merupakan parameter dalam distribusi
130
binomial. dengan demikian kita akan berbicara tentang peluang Y=1 yang tergantung pada variabel tak bebas X. Regresi logistik dapat didefinisikan sebagai sebuah fungsi
( x)
exp( 0 1 x) 1 exp( 0 1 x)
Logit dari probabilitas ini merupakan fungsi linear,
( x) 0 1 x log it[ ( x)] log 1 ( x) Transformasi logit merupakan logaritma natural dari nilai odds. Dari persamaan ini, regresi logistik mengindikasikan bahwa a. untuk
>0, kenaikan satu satuan x pengaruhnya terhadap
1
kenaikan nilai logit. Jika x maka π(x)1 dan Jika x- maka π(x)0 b. untuk
0 dapat
digambarkan sebagai berikut
Gambar 4.1. Grafik terhadap X Pada regresi logistik dengan parameter
, gradien (slope) garis
1
singgung kurva sama dengan π(x)
− π(x)].
1
Misalnya pada π(x) = 0.50 mempunyai slope 1
(0.50)(0.50) = 0.25
Sebaliknya pada π x = 0.90 atau π x = 0.10, mempunyai slope 0.09 1
. Slopenya mendekati nol ketika π x mendekati satu atau nol.
π x = 0.50 terjadi pada x = −
/
0
1
. Nilai x ini biasanya disebut
median effective level (dinotasikan dengan EL50) yang menyatakan probabilitas sukses sama dengan probabilitas gagal.
132
4.3. Model Regresi Logistik dengan Variabel Independen Banyak Regresi Logistik adalah regresi yang menggunakan dua nilai yang berbeda untuk menyatakan variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Fungsi distribusi yang digunakan adalah distribusi logistik dengan notasi
(X) untuk
menyatakan mean bersyarat dari Y jika diberikan vektor kovariate X = (x1,x2,
xp)T. Model regresi logistiknya adalah
exp(X Tβ) dengan XT= 0+ x11 + 1 exp(X Tβ)
(X) = = (0,1,
. + xpp
., p)T adalah vektor parameter. Didefinisikan suatu
transformasi logit (X) yaitu : g(X) = log
π(X) = XT 1 π(X)
sehingga g(X) linear dalam parameter . 4.4. Maximum Likelihood Estimator untuk Regresi Logistik Misalkan suatu sampel terdiri n observasi dari pasangan (Xi,yi), i= ,
,n. Model regresi logistik (Xi) =
exp(X iTβ ) 1 exp(X iTβ )
Untuk menentukan model regresi, harga ditaksir lebih dahulu dengan menggunakan Metode Kemungkinan Maksimum. log likelihood n
log L( ) yi log( i ) (ni yi ) log(1 i ) i 1
133
Fungsi
Dari fungsi log likelihood ini dicari derivarif pertama dan derivarif kedua. Penaksir parameter merupakan nilai yang memaksimumkan fungsi log likelihood pada data sampel (X, Y). Nilai maksimum dicapat dengan syarat log L( ) 0 dan
2 log L( ) H ( ) T matrik H()
disebut matrik Hessian yang
merupakan matrik
definet negatif. Berdasarkan kondisi derivatif pertama, penaksir parameter menggunakan
metode
kemungkinan
maksimum
adalah
penyelesaian dari persamaan n
p
[yi - (Xi)] = 0 dan
xij [yi - (Xi)] = 0
j 0 i 1
i 1
untuk j = ,
n
.,p.
Derivatif kedua fungsi log likelihood terhadap semua parameternya
disebut matrik Hessian (H) yang mempunyai
elemen n 2 log L( ) xij2 i (1 i ) 2 j i 1
dan n 2 log L( ) xij xiu i (1 i ) j u i 1
134
Misalkan
1 x11 ... x1 p 1 x ... x 2 p 21 X ... ... ... 1 x n1 ... x np dan matrik V adalah
0 ... 0 ˆ1 (1 ˆ1 ) 0 0 ˆ 2 (1 ˆ 2 ) ... V ... ... ... 0 0 ... ˆ n (1 ˆ n )
ˆ i i (ˆ ) I (ˆ ) X T VX H (ˆ ) I ( ˆ ) disebut matrik informasi atau biasa disebut informasi Fisher dan
1 Var ( ˆ ) I ( ˆ )
Var ( ˆ j ) adalah elemen diagonal ke-j (baris ke-j dan kolom ke-j) dari Var ( ˆ ) . Nilai penaksir dengan menggunakan metode Newton-Rapson pada langkah ke-t adalah
(t+1) = (t) + H ( dengan i(t ) =
exp(X iTβ (t) ) ,i= , 1 exp(X iTβ (t) )
135
(t )
1
) [y -(t)] ,n
4.5. Inferensi Regresi Logistik Kita telah mempelajari bagaimana regresi logistik membantu meggambarkan efek dari prediktor pada variabel respon biner. Parameter dalam model logistik dapat diestimasi menggunakan metode
Maximum
Likelihood
Estimator
(MLE).
Selanjutnya
berdasarkan sifat-sifat penaksir MLE dapat digunakan untuk melakukan inferensi parameternya. 4.5.1. Interval Konfidensi Jika jumlah sampelnya besar maka interval konfidensi dari
j
dalam model regresi logistik logit[(x)] = 0+ x11 +
. + xp p
adalah
ˆ j z / 2 Var ( ˆ j ) untuk j=0,1,...,p 4.5.2. Uji Signifikansi Untuk menguji hipotesis H0:
j
=0
pada sampel besar dapat digunakan statistika uji
z
ˆ j var( ˆ j )
Statistik z beridistribusi normal standar.
ˆ j 2 z var( ˆ j )
2
Statistik z2 beridistribusi Chi-Kuadrat dengan df=1. Statistik z ini disebut statistik uji Wald. 136
Meskipun statistik uji Wald ini cocok untuk sampel besar, akan tetapi
masih lebih powerfull
uji likelihood-ratio. uji
likelihood-ratio lebih reliabel dan sering digunakan dalam praktek. 4.5.3. Uji Kecocokan Model Andaikan kita ingin menguji apakah model sesuai/cocok dengan data dan kita ingin menguji seberapa besar kesesuaian tersebut maka dapat digunakan ukuran devians. Statistik devians (D) mengukur ketidaksesuaian antara nilai obeservasi dan nilai yang diprediksi oleh model.
n niˆi n ˆ D 2 y i log i i (ni yi ) log i y n y i 1 i i i k
atau k n yi y D 2 y i log i (ni yi ) log i ˆ ˆ n n n i 1 i i i i i
Statistik D berdistribusi Chi Kuadrat. Secara lebih umum, misalkan variabel prediktor (X) dipisahkan menjadi dua kelompok
1
X= (X1, X2) dan 2 Vektor 1 terdiri dari p1 parameter dan vektor 2 terdiri dari p2 parameter. Selanjutnya akan diuji hipotesis H0 : 2 = 0 lawan H0 : 2 0
137
Hipotesis nol (H0) menyatakan bahwa variabel prediktor dalam kelompok dua (X2) tidak mempengaruhi respon Y. Hal ini identik dengan menguji signifikansi parameter 2. Misalkan D( 1) menyatakan nilai devians pada model yang memasukkan variabel X1 dan D() menyatakan nilai devians pada model yang memasukkan variabel X = (X1,X2). Selanjutnya selisih dua nilai devians itu, yaitu
L( 1 ) L( )
2 2 = D( 1) – D() atau 2 Log
berdistribusi Chi Kuadrat dengan df=p2 (untuk sampel besar). p2 merupakan selisih banyaknya parameter dalam D( 1) dan D(). 4.5.4. Contoh Data Table 4.1 adalah hasil penelitian mengenai sarang kepiting horseshoe (J. Brockmann, Ethology, 102: 1–21, 1996). Setiap kepiting betina terdapat kepitang jantan yang berada di sekeliling sarangya. Penelitian ini
mempelajari faktor-faktor
yang mempengaruhi banyaknya keping jantan yang berada disekeliling kepiting betina. Kepiting-kepiting jantan ini disebut dengan satellites, karena berada disekitar sarang betina. Pada data
tersebut
mempunyai
empat
prediktor
(variabel
independen) yaitu warna cangkang (empat warna), konsisi punggung (tiga kondisi), berat cangkang, dan lebar cangkang.
138
Tabel 4.1. Data Kepiting Ladam Kuda betina Color
Spine
Width
Sate-
Weight
Color
Spine
Width
Sate-
Weight
(C)
(S)
(W)
lite
(Wt)
(C)
(S)
(W)
lite
(Wt)
(Sa)
(Sa)
3
3
28.3
8
3050
3
3
26.5
4
2300
4
3
22.5
0
1550
3
3
27.8
3
3250
2
1
26.0
9
2300
3
3
27.0
6
2500
4
3
24.8
0
2100
4
3
25.7
0
2100
4
3
26.0
4
2600
3
3
25.0
2
2100
3
3
23.8
0
2100
3
3
31.9
2
3325
2
1
26.5
0
2350
5
3
23.7
0
1800
4
2
24.7
0
1900
5
3
29.3
12
3225
3
1
23.7
0
1950
4
3
22.0
0
1400
4
3
25.6
0
2150
3
3
25.0
5
2400
4
3
24.3
0
2150
4
3
27.0
6
2500
3
3
25.8
0
2650
4
3
23.8
6
1800
3
3
28.2
11
3050
2
1
30.2
2
3275
5
2
21.0
0
1850
4
3
26.2
0
2225
3
1
26.0
14
2300
3
3
24.2
2
1650
2
1
27.1
8
2950
3
3
27.4
3
2900
3
3
25.2
1
2000
3
2
25.4
0
2300
3
3
29.0
1
3000
4
3
28.4
3
3200
5
3
24.7
0
2200
5
3
22.5
4
1475
3
3
27.4
5
2700
3
3
26.2
2
2025
3
2
23.2
4
1950
3
1
24.9
6
2300
2
2
25.0
3
2300
2
2
24.5
6
1950
3
1
22.5
1
1600
3
3
25.1
0
1800
4
3
26.7
2
2600
3
1
28.0
4
2900
5
3
25.8
3
2000
5
3
25.8
10
2250
5
3
26.2
0
1300
3
3
27.9
7
3050
3
3
28.7
3
3150
3
3
24.9
0
2200
3
1
26.8
5
2700
3
1
28.4
5
3100
5
3
27.5
0
2600
4
3
27.2
5
2400
3
3
24.9
0
2100
3
2
25.0
6
2250
2
1
29.3
4
3200
3
3
27.5
6
2625
2
3
25.8
0
2600
3
1
33.5
7
5200
3
2
25.7
0
2000
3
3
30.5
3
3325
139
Color
Spine
Width
Sate-
Weight
Color
Spine
Width
Sate-
Weight
(C)
(S)
(W)
lite
(Wt)
(C)
(S)
(W)
lite
(Wt)
(Sa)
(Sa)
3
1
25.7
8
2000
4
3
29.0
3
2925
3
1
26.7
5
2700
3
1
24.3
0
2000
5
3
23.7
0
1850
3
3
25.8
0
2400
3
3
26.8
0
2650
5
3
25.0
8
2100
3
3
27.5
6
3150
3
1
31.7
4
3725
5
3
23.4
0
1900
3
3
29.5
4
3025
3
3
27.9
6
2800
4
3
24.0
10
1900
4
3
27.5
3
3100
3
3
30.0
9
3000
2
1
26.1
5
2800
3
3
27.6
4
2850
2
1
27.7
6
2500
3
3
26.2
0
2300
3
1
30.0
5
3300
3
1
23.1
0
2000
4
1
28.5
9
3250
3
1
22.9
0
1600
4
3
28.9
4
2800
5
3
24.5
0
1900
3
3
28.2
6
2600
3
3
24.7
4
1950
3
3
25.0
4
2100
3
3
28.3
0
3200
3
3
28.5
3
3000
3
3
23.9
2
1850
3
1
30.3
3
3600
4
3
23.8
0
1800
5
3
24.7
5
2100
4
2
29.8
4
3500
3
3
27.7
5
2900
3
3
26.5
4
2350
2
1
27.4
6
2700
3
3
26.0
3
2275
3
3
22.9
4
1600
3
3
28.2
8
3050
3
1
25.7
5
2000
5
3
25.7
0
2150
3
3
28.3
15
3000
3
3
26.5
7
2750
3
3
27.2
3
2700
3
3
25.8
0
2200
4
3
26.2
3
2300
4
3
24.1
0
1800
3
1
27.8
0
2750
4
3
26.2
2
2175
5
3
25.5
0
2250
4
3
26.1
3
2750
4
3
27.1
0
2550
4
3
29.0
4
3275
4
3
24.5
5
2050
2
1
28.0
0
2625
4
1
27.0
3
2450
5
3
27.0
0
2625
3
3
26.0
5
2150
3
2
24.5
0
2000
3
3
28.0
1
2800
3
1
26.8
0
2550
3
3
30.0
8
3050
5
3
26.7
0
2450
3
3
29.0
10
3200
3
1
28.7
0
3200
140
Color
Spine
Width
Sate-
Weight
Color
Spine
Width
Sate-
Weight
(C)
(S)
(W)
lite
(Wt)
(C)
(S)
(W)
lite
(Wt)
(Sa)
(Sa)
3
3
26.2
0
2400
4
3
23.1
0
1550
3
1
26.5
0
1300
3
1
29.0
1
2800
3
3
26.2
3
2400
4
3
25.5
0
2250
4
3
25.6
7
2800
4
3
26.5
1
1967
4
3
23.0
1
1650
4
3
24.5
1
2200
4
3
23.0
0
1800
4
3
28.5
1
3000
3
3
25.4
6
2250
3
3
28.2
1
2867
4
3
24.2
0
1900
3
3
24.5
1
1600
3
2
22.9
0
1600
3
3
27.5
1
2550
4
2
26.0
3
2200
3
2
24.7
4
2550
3
3
25.4
4
2250
3
1
25.2
1
2000
4
3
25.7
0
1200
4
3
27.3
1
2900
3
3
25.1
5
2100
3
3
26.3
1
2400
4
2
24.5
0
2250
3
3
29.0
1
3100
5
3
27.5
0
2900
3
3
25.3
2
1900
4
3
23.1
0
1650
3
3
28.5
0
3050
4
1
25.9
4
2550
5
1
25.5
0
2750
3
3
25.8
0
2300
5
3
23.5
0
1900
5
3
27.0
3
2250
3
2
24.0
0
1700
3
1
29.7
5
3850
Keterangan : C
: variabel warna cangkang (1: medium light, 2: medium,3: medium dark, 4: dark.
S
: variabel kondisi punggung
W
: lebar cangkang dalam cm
Wt
: berat cangkang dalam kg
Sa
: banyaknya satelite
Dalam contoh ini, yang kita bahas adalah lebar cangkang. Berdasarkan lebar cangkangnya dapat dikelompokan menjadi beberapa kategori,
. ,
. 141
–24.25, 24.25–25.25, 25.25–26.25,
26.25–27.25, 27.25–28.25, 28.25–29.25, >30.25). Tabel frekuensinya adalah sebagai berikut Tabel 4.2. Rata-rata banyaknya satelite W 29.25
banyaknya kasus 14 14 28 39 22 24 18 14
banyaknya satelite 14 20 67 105 63 93 71 72
rata-rata
variansi
1.00 1.43 2.39 2.69 2.86 3.87 3.94 5.14
2.77 8.88 6.54 11.38 6.88 8.81 16.88 8.29
Berdasarkan data Tabel 4.2, dapat disusun model
dalam
bentuk probilititas linear (w) = 0 + w (w) menyatakan probabilitas bahwa kepiting betina dengan lebar cangkang w mempunyai sebuah satelit. Menggunakan fungsi Generalized Linear Model (GLM) pada program R dengan asumsi distribusi normal diperoleh model regresi
ˆ (w) 1.766 0.092w Probabilitas meningkat sebesar 0.092 setiap peningkatan 1 cm W. Model regresi ini tidak menjamin bahwa ˆ ( w) bernilai antara nol dan satu. Model ini hanya belaku untuk 19.2 dengkur.lg dengkur.lg Call: glm(formula = sakit/n ~ dengkur, family = binomial(), data=dengkur,weights = n) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06
Cara lain untuk menggunakan fungsi GLM, adalah dengan menambah kolom yang menginformasikan banyaknya sukses (YN.1) dan banyaknya gagal (YN2). Sehingga diperoleh data framenya menjadi : > ngorok$YN ngorok dengkur sakit n YN.1 YN.2 1 0 24 1379 24 1355 2 2 35 638 35 603 3 4 21 213 21 192 4 5 30 254 30 224 > dengkur.lg dengkur.lg Call: glm(formula = YN ~ dengkur, family = binomial(), data = ngorok) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06
Contoh berikutnya adalah berdasar data pada Tabel 3.1. > load("D:\\kepiting.RData") > names(crabs) [1] "C" "S" "W" "Y" "Wt"
155
> crabs crabs$psat 0
Model regresi logistik menggunakan fungsi glm
dengan
variabel independen weight. > crabs.lg.1 summary(crabs.lg.1) Call: glm(formula = psat ˜ weight, family = binomial(), data = crabs) Deviance Residuals: Min 1Q Median 3Q Max -2.1108 -1.0749 0.5426 0.9122 1.6285 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.6946338 0.8779167 -4.208 2.57e-05 *** weight 0.0018151 0.0003755 4.833 1.34e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 225.76 on 172 degrees of freedom Residual deviance: 195.74 on 171 degrees of freedom AIC: 199.74
Untuk membandingkan model yang memuat variabel Wt (dalam H1) dan variabel yang hanya memuat intersep (dalam H0) kita dapat menggunakan statistik Wald diatas dengan z = 4.833 dan P-value < 0.0001, atau menggunakan statistik rasio likelihood. > crabs.lg.0 anova(crabs.lg.0,crabs.lg.1,test="Chisq")
156
Analysis of Deviance Table Model 1: psat ~ 1 Model 2: psat ~ Wt Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 172 225.76 2 171 195.74 1 30.021 4.273e-08 *** --Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05 ‘.’0.1‘ ’ 1 > anova(crabs.lg.1,test="Chisq") Analysis of Deviance Table Model: binomial, link: logit Response: psat Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 172 225.76 Wt 1 30.021 171 195.74 4.273e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
4.9. Model Logistik pada Respon Multi Kategori Model Regresi Logistik digunakan untuk menggambarkan hubungan antara variabel independen/prediktor dengan variabel dependen/respon yang berupa data biner/dikotomi. Variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Pengembangan atas regresi logistik biner adalah regresi logistik multinomial, yaitu variabel dependen Y bernilai diskrit (1, 2, ...J). Jenis data untuk variabel Y dapat berbentuk data nominal maupun ordinal. Variabel random Yi bernilai diskrit dengan indeks , ,
J.
ij = P{Yi = j} merupakan probabilitas responden ke-i memilih kategori ke-j untuk i=1,2...n dan j=1,2,...J. Diasumsikan antar pilihan adalah saling asing
157
J
sehingga
j 1
1 untuk setiap i. Sehingga hanya dipunyai J-1
ij
parameter. Dapat disusun distribusi multinomial
ni yi1 i1 .... iJyiJ yi1 ,..., yiJ
.,YiJ=yiJ} =
P{Yi1=yi1,
Variabel dependen Yij dipengaruhi oleh varaiabel independen Xi. 4.9.1. Model Logit Untuk menyusun model logit, dilakukan dengan cara salah satu kategori (biasanya kategori terakhir) dijadikan baseline, sehingga model logitnya adalah
ij log(
ij ) 0 j 1 j xi iJ
untuk j= , , ., J-1).
Model ini analog dengan model regresi logistik, kecuali bahwa distribusi probabilitas untuk respon adalah multinomial, bukan binomial dan kita mempunyai persamaan sebanyak J-1, bukannya satu. Persamaan multinomial logit sebanyak J - 1 persamaan untuk setiap kategori 1, 2, . . . J -1 dengan baseline kategori J, sedangkan dalam persamaan regresi logistik (sebuah persamaan) adalah kontras antara sukses dan gagal. Jika J=2, model multinomial logit akan menjadi model regresi logistik. Kita
hanya
membutuhkan
J-1
persamaan
untuk
men-
deskripsikan J respon kategori. Misal terdapat J = 3 kategori, maka dipunyai kontras antara kategori 1 vs 3 dan kategori 2 vs 3. Kontras antara 1 vs 3 dapat dengan mudah diperoleh, karena
log(i1/i2) = log(i1/i3) - log(i2/i3). 158
Tedapat (J-1)
persamaan logit dan masing-masing logit
memuat parameter (0j+1j). Untuk j=J
iJ log(
iJ ) 0 sehingga 0J=1J=J iJ
Dari persamaan logit tersebut, diperoleh
ij exp(ij ) iJ ij iJ exp(ij ) J
Karena
j 1
ij
1 dan iJ = 0 maka J
J
j 1
j 1
ij iJ exp(ij ) 1 J
J
j 1
iJ
ij
iJ exp(ij ) 1 j 1
1 J
exp( k 1
Sehingga
dapat
dan ij ik
)
exp(ij ) J
exp( k 1
disimpulkan
bahwa
ik
)
model
probabilitas
responden/individu ke i memilih alternatif j adalah
ij
exp( 0 j 1 j xi ) J
exp( k 1
0j
1 j xi )
untuk suatu i dan suatu j dimana i= , , n dan j= ,
159
,J
Untuk menentukan model regresi, harga ditaksir lebih dahulu
dengan
menggunakan
Metode
Kemungkinan
Maksimum (Nugraha dkk, 2009). 4.9.2. Fungsi Likelihood dan Estimasi Parameter Fungsi likelihood dari sampel random berukuran n (n responden) adalah n
L( ) iy1i1 .... iJyiJ i 1
dengan yij = 1 jika responden i memilih j dan yij=0 jika responden i memilih selain j. Log dari fungsi likelihood tersebut adalah n
LL() =
J
y i 1 j 1
ij
ln( ij )
0
misalkan X ij (1, xij ) dan maka 1 n
LL() =
J
y X ij
i 1 j 1 n
=
J
y i 1 j 1
J
j 1
ln exp( X ij )
n J J X ij ln exp( X ij ) yij i 1 j 1 j 1
n J exp( X ij ) y X ln ij ij i 1 j 1 i 1 j 1 n
=
ij
ij
J
160
Derivatif LL() terhadap adalah LL( ) =
exp( ) X ij X ij yij X ij J i 1 j 1 i 1 j 1 exp( X ij ) j 1 n
n
X y n
=
J
J
i 1 j 1
T ij
ij
J
ij 0
Jadi , penaksir parameter = (1, ,p)t menggunakan metode kemungkinan maksimum adalah penyelesaian dari persamaan kemungkinan : n
[yi j - ij ] = 0 dan
X y n
J
i 1 j 1
i 1
T ij
ij
ij 0
Penyelesaian dari persamaan penaksir ini dapat digunakan iterasi dengan menggunakan metode newton raphson dan metode scoring. Uji hipotesis dan interval konvidensi untuk parameter (slope) adalah (Uji untuk masing-masing slope H0 : j = j(0) didasarkan pada statistik Wald :
Z0
ˆ j 0j SE ( ˆ j )
a. Uji untuk beberapa slope H0 : j =...= q =0 didasarkan pada statistik X2 = G2model 1 – G2model 2 yang berdistribusi chi kuadrat dengan derajad bebasnya sama dengan selisih banyaknya parameter dari kedua model. G2 adalah devians yang mempunyai nilai -2log L
161
Untuk menguji kecocokan model dapat digunakan statistik Pseudo R2 yang identik dengan nilai R2 (koefisien deterministik). pseudo R2 = 1
G12 G02
Jika model secara sempurna memprediksi nilai Y (Pi = 1 maka yi = 1 dan jika Pi=0 maka yi=0) maka log L = 0 (atau nilai deviansnya nol). Sehingga nilai maksimum dari pseudo R2 adalah satu. Statistik pseudo R2 secara luas digunakan untuk menjelaskan kecocokan model dalam DCM (Discrete Choice Models) secara intuitif. Pemasalahan dalam penggunaan pseudo R2 ini adalah tidak adanya kaidah untuk menyatakan pada nilai berapa sedemikian hingga model dikatakan baik. Permasalahan kedua adalah peningkatan nilai pseudo R2 pada penambahan variabel independen tidak dapat menjelaskan seberapa penting variabel tersebut. 4.9.3. Contoh Data I Data penelitian mengenai makanan aligator yang merupakan hasil pengamatan terhadap 59 aligator liar di danau Florida. Yang diamati adalah jenis makanan utama (dalam volume) yang ditemukan dalam perutnya dan Ukuran aligator (panjang). Terdapat
tiga
jenis makanan
utama,
yaitu
Ikan
(Fish),
Invertebrata, dan Lainnya (Other). Yang termasuk invertebrata adalah apple snails, aquatic insects, dan crayfish. Yang termasuk kategori lainnya meliputi amphibian, mammal, plant material, stones reptiles (primarily turtles). Panjang aligator antara 1.24 s/d 3.89 meter. Tabel berikut adalah hasil pengamatannya.
162
Tabel 4.7. Data pengamatan panjang Aligator (dalam meter) dan makanan utama No
1
2
3
4
5
6
7
8
9
10
Panjang
1.24
1.45
1.63
1.78
1.98
2.36
2.79
3.68
1.30
1.45
Makanan
I
I
I
I
I
F
F
O
I
O
No
11
12
13
14
15
16
17
18
19
20
Panjang
1.65
1.78
2.03
2.39
2.84
3.71
1.30
1.47
1.65
1.78
Makanan
O
I
F
F
F
F
I
I
I
O
No
21
22
23
24
25
26
27
28
29
30
Panjang
2.03
2.41
3.25
3.89
1.32
1.47
1.65
1.80
2.16
2.44
Makanan
F
F
O
F
F
F
F
I
F
F
No
31
32
33
34
35
36
37
38
39
40
Panjang
3.28
1.32
1.50
1.65
1.80
2.26
2.46
3.33
1.40
1.52
Makanan
O
F
I
F
F
F
F
F
F
I
No
41
42
43
44
45
46
47
48
49
50
Panjang
1.68
1.85
2.31
2.56
3.56
1.42
1.55
1.70
1.88
2.31
Makanan
F
F
F
O
F
I
I
I
I
F
No
51
52
53
54
55
56
57
58
59
60
Panjang
2.67
3.58
1.42
1.0
1.73
1.93
2.36
2.72
3.66
Makanan
F
F
F
I
O
I
F
I
F
Sumber : Agresti (2007). Keterangan: F : Ikan (Fish) I: Invertebrata O: lainnya (other) Misalkan Y = pilihan makanan utama dan
x = panjang
alligator. Pilihan lainnya sebagai baseline category. MLE nya adalah (1: ikan....., 2: inver......, 3: other)) 163
ˆ log 1 1.618 0.110 x ˆ 3 ˆ log 2 ˆ 3
5.697 2.465 x
berdasarkan kedua logit tersebut dapat digunakan untuk mengestimasi log odds dari ikan dan invertebrata, yaitu
ˆ log 1 ˆ 2
(1.618 5.697) [0.110 (2.645)]x = -4.08 + 2.355x
Aligator yang lebih besar nampaknya lebih menyukai ikan daripada
invertebrata.
Masing-masing
logit
dapat
diinterpresikan sebagi regresi logistik biner bersyarat. Sebagai contoh, diberikan bahwa jenis makanan utama adalah ikan atau invertebrata, estimasi probabilitas bahwa aligator memilih ikan meningkat dengan bertambah panjang x seperti kurva S. Untuk aligator dengan panjang x + 1 meter, estimasi nilai odds bahwa makanan utama adalah ikan lebih disukai daripada invertebrata adalah exp(2.355) = 10.5 kali X meter. Hipotesis
bahwa
makanan
utama
adalah
independen
terhadap ukuran x adalah H0:
1
=
2
=0
Statistik uji likelihood-ratio sama dengan 16.8 dengan df =2 dan nilai P-value= 0.0002 . Sehingga dapat disimpulkan bahwa X mempengaruhi jenis makanan utama aligator. Model logit multikategori disajikan dalam probabilitas respon. Dari contoh pada data Tabel 3.7, karena pilihan 3
164
lainnya sebagai baseline maka
ˆ03 ˆ13 0
dan estimasi
probabilitasnya adalah
ˆ1
e1.620.11x 1 e1.620.11x e 5.702.47 x
ˆ 2
e 5.702.47 x 1 e1.620.11x e 5.702.47 x
ˆ 3
1 1 e
1.620.11x
e 5.702.47x
Tabel 4.8. Estimasi parameter model logit Data Aligator Parameter
Logit (Ikan/lainya)
(Invertebrata/lainnya)
Intersep (0)
1.618
5.697
X (1)
-0.110(0.517)
-2.465(0.900)
Dari model tersebut, dapat dipakai untuk memprrediksi probabilitas masing-masing pilihan pada nilai x tertentu. Misalnya pada
x = 3.89 meter, probabilitas aligator memilih
makanan lainnya adalah
ˆ 3 1 1 e1.620.11(3.89) e 5.702.47(3.89) 0.23 demikian juga kita dapat menghitung probilitas untuk pilihan 1 dan plihan 2,
ˆ1 0.76 dan ˆ 2 0.005 4.9.4. Contoh Data II Ketika variabel independen merupakan data kategorik, maka data dapat disajikan kedalam tabel kontigensi. Sebagaimana
165
telah dijelaskan pada Bab II mengenai
tabel kontigensi, kita
dapat melakukan pengujian goodness of fit menggunakan statistik X2 atau G2.
Sebagai contoh, data survei mengenai
kepercayan akan adanya kehidupan setelah mati. Variabel dependen
Y = percaya, dengan kategori (Ya, ragu-ragu, tidak), dan variabel independenya adalah o x1 = gender, x1 = 1 untuk perempuan dan 0 untuk laki-laki o x2 = ras/suku, x2 = 1 untuk ras A dan 0 untuk ras non A. Pilihan tidak sebagai baseline category untuk Y , sehingga
modelnya adalah
j log j Gj x1 jR x 2 , untuk j=1,2. 3 dimana G menyatakan indeks untuk parameter gender dan R menyatakan indeks untuk parameter ras. Tabel 4.9. Data Kepercayaan menurut Gender dan Ras Ras
Gender
A
wanita laki wanita laki
Non A
ya 371 250 64 25
Percaya ragu 49 45 9 5
Tidak 74 71 15 13
Dari tabel kontigensi tersebut diperoleh nilai goodness-of-fit X2 = 0.9 and G2 = 0.8 yang dapat disimpulkan bahwa Ras dan Gender saling independen.
166
Selanjutnya jika digunakan model logit, akan diperoleh dua model logit untuk masing-masing
kombinasi gender-ras.
Terdapat empat kombinasi gender-ras, sehingga diperoleh delapan model logit. Model tersebut, untuk j=1,2 memuat enam parameter. sehingga df =
− = .
Akan diuji bahwa terdapat efek interaksi antara gender dan ras terhadapap Y. Estimasi masing-masing parameter disajikan pada tabel 3.10. Tabel 4.10. Estimasi Parameter Data Kepercayaan Parameter
Logit (Ya/Tidak)
(Ragu/Tidak)
Intersep
0.883 (0.243)
-0.758 (0.361)
Gender (X1 =1)
0.419 (0.171)
0.105 (0.246)
Ras (X2 =1)
0.342 (0.237)
0.271 (0.354)
Masing-masing parameter merepresentasikan log(OR). Misalkan ˆ G 0.419 1
merupakan log(OR) gender antara respons kategori 1 (ya) dan kategori 2 (tidak). Oleh karena itu pada wanita, estimasi nilai odds antara respons ya terhadap respon tidak adalah exp(0.419) = 1.5 kali pada laki-laki. Pada ras A, estimasi odds untuk respons ya dibanding tidak adalah exp(0.342) = 1.4 kali ras Non A. Uji hipotesis untuk efek gender adalah G G H0: 1 2 0
Menggunakan uji rasio likelihood diperoleh G2 = 0.8 (df = 2) dan G2 = 8.0 (df = 4) 167
Selisih devians D = 8. − .8 = 7.2 dengan df = − = . Diperoleh
P-value= 0.03 yang menunjukan bahwa gender
berpengaruh terhadap Y. Sedangan pada efek ras diperoleh G2 = 2.8 (df = 4), dan G2= 2.0 dengan df = 2. selisih devians D= 2.8 -2.0 =0.8 dengan df=4-2=2 yang berarti bahwa ras tidak mempengaruhi Y. Tabel 4.11. menampilkan estimasi probabilitas untuk tiga respon kategori. Sebagai gambaran untuk wanita-putih (x1 = x2 = , estimasi probabilitas memilih alternatif Y=
ya adalah
= 0.76 Tabel 4.11. Estimasi Probabilitas Data Kepercayaan Ras A Non A
Gender
Percaya ya
ragu
tidak
wanita
0.76
0.10
0.15
laki
0.68
0.12
0.20
wanita
0.71
0.10
0.19
laki
0.62
0.12
0.26
4.9.5. Contoh Data III Table 4.12. merupakan hasil survei dari Demographic and Health Survey conducted di El Salvador pada tahun 1985. Tabel tersebut menunjukkan bahwa 3165 wanita yang masih menikah 168
yang diklasifikasikan ke dalam usia (dikelompokan dalam interval 5 tahunan) dan penggunaan kontrasepsi (steril, lainya, tidak). Tabel 4.12. Data penggunaan Kontrasepsi kontrasepsi usia
Steril
lainnya
tidak
15-19
3
61
232
20-24
80
137
400
25-29
216
131
301
30-34
268
76
203
35-39
197
50
188
40-44
150
24
164
45-49
91
10
183
Sumber : Rodriguez (2001). Dengan menggunakan uji independensi atas dua variabel (keduanya dianggap respon) diperoleh nilai rasio likelihood sebesar 521.1 dengan df=12 (H0 ditolak, kedua variabel saling dependen). Dalam contoh ini kita akan memandang penggunaan kontrasepsi
sebagai
respon
dan
usia
sebagai
prediktor.
Meskipun seharusnya dipandang sebagai distribusi bersama untuk dua variabel, tetapi kita akan melihat distribusi bersyarat untuk respon penggunaan kontrasepsi dengan syarat variabel prediktor (usia). Kedua pendekatan tersebut sangat erat hubunganya. Dalam contoh, kita dapat melihat odds tidak , dan odds
steril
terhadap
lainya ~ terhadap tidak. Untuk wanita usia 169
45–49, odds nya adalah 91.183 (atau sekitar 1.2) dan 10.183 (atau 1.18).
usia
Gambar 4.3. Grafik fungsi log odds terhadap usia log-odds empirik untuk steril
Gambar 4.3. menunjukkan dan lainnya
menggunakan tidak sebagai kategori referensi)
diplot terhadap nilai tengah dari grup usia. Catatan bahwa logodds steril meningkat cepat dan mencapai maksimum pada grup usia 30–34 dan kemudian menurun tajam. Log-odds untuk lainnya mencapai maksimum pada usia 25–29 adan kemudian menurun tajam. Dari gambar 3.5, nampak bahwa logit adalah fungsi kuadratis dari usia. Kita akan menyusun model menjadi
ij j j ai j ai2 dimana ai adalah nilai tengah pada grup usia ke-i dan j = 1, 2 (masing-masing untuk steril dan lainnya ) Dalam
contoh,
model
logit
multinomial
kuadratik
menghasilkan nilai devians 20.5 dengan derajad bebas 8 atau
170
diperoleh
nilai
P-value
sebesar
0.009,
sehingga
dapat
disimpulkan bahwa model signifikan. Efek kuadratik usia, mempunyai likelihood-ratio 2 = 500.6 dengan df=4 (atau 2 = 521.1 - 20.5 = 500.6 dan df = 12 - 8 = 4), dan berarti efek ini juga signifikan. Catatan bahwa assosiasi antara
usia
dan
metode
kontrasepsi
sebesar
96%
atau
(500.6/521.1 = 0.96) yang hanya menggunakan empat parameter. Tabel 4.13. Estimasi parameter dalam model logit kuadratik steril vs
lainnya vs
tidak
tidak
Konstan ()
-12.62
-4.552
Linear ()
0.7097
0.2641
-0.009733
-0.004758
Parameter
Kuadratik ()
Tabel 4.13. menunjukan estimasi parameter untuk dua persamaan logit multinomial. Kami menggunakan nilai tersebut untuk menghitung fitted logits untuk masing-masing usia dari 17.5 s/d 47.5, dan diplot bersama-sama dengan empirical logits dalam gambar 3.5. Dari gambar tersebut dapat disimpulkan bahwa model cocok, kecuali pada kelompok usia 15–19, dimana terjadi overestimate untuk probabilitas steril. 4.9.6. Aplikasi menggunakan R Diambil data dari contoh I mengenahi makanan alligator. Terdapat empat kategori makanan aligator di danau Florida yaitu ikan, invertebrata, reptil, burung, lainya. Semua variabel independenya adalah kategorik, yaitu L = danau, 171
G = gender, S = ukuran
. m, > . m .
>food.labssize.labsdeviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS)
172
>deviance(fit4)-deviance(fitS) >deviance(fit5)-deviance(fitS) >deviance(fit0)-deviance(fitS)
Untuk model tanpa memperhatikan variabel Gender : # options(contrasts=c("contr.treatment","contr.poly")) >fitSfit0fit1fit2fit3deviance(fit1)-deviance(fitS) >deviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS) >deviance(fit0)-deviance(fitS) [1] 66.2129 [1] 38.16723 [1] 17.07983 [1] 81.36247 >marg.counts row.names.food fitted.counts2.3 9.1 0.4 1.1 2.3 3.1 oklawaha 2.3 12.8 7.0 5.5 0.8 1.9 trafford 2.3 8.6 5.6 5.9 3.1 5.8 george 2.3 14.5 3.1 0.5 1.8 2.2
173
Estimasi parameter menggunakan fungsi summary >library(MASS) >summary(fit3, cor = F) >summary(fit3, cor = F) Coefficients: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert -1.549021 1.4581457 -1.6581178 0.937237973 1.122002 rep -3.314512 -0.3512702 1.2428408 2.458913302 2.935262 burung -2.093358 -0.6306329 0.6954256 -0.652622721 1.088098 other -1.904343 0.3315514 0.8263115 0.005792737 1.516461 Std. Errors: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert 0.4249185 0.3959418 0.6128465 0.4719035 0.4905122 rep 1.0530583 0.5800207 1.1854035 1.1181005 1.1163849 bird 0.6622971 0.6424863 0.7813123 1.2020025 0.8417085 lainya 0.5258313 0.4482504 0.5575446 0.7765655 0.6214372
Untuk mengestimasi probabilitas respos, menggunakan >predict(fit3, type="probs", newdata=data.frame(size=">2.3", lake="hancock")) ikan invert rep burung lainya 0.57018414 0.02307664 0.07182898 0.14089666 0.19401358
Data estimasi probabilitas pada nilai kombinasi variabel independen dan disimpan dalam expand.grid. >predictionscbind(expand.grid(size = ukuran.labs, lake = danau.labs), predictions)
174
size 1 2 3 4 5 6 7 8
lake ikan burung lainnya 2.3 hancock 0.5701841 0.140896663 0.19401358 2.3 oklawaha 0.4584248 0.029424140 0.06866547 2.3 trafford 0.2957470 0.108228505 0.20066230 2.3 george 0.6574619 0.081046954 0.09790956
invert
rep
0.09311222 0.04745855 0.02307664 0.07182898 0.60188001 0.07723295 0.24864188 0.19484366 0.51682299 0.08877041 0.19296047 0.20240167 0.41284674 0.01156715 0.13968168 0.02389991
Fungsi lain yang dapat digunakan adalah vglm dalam library (VGAM) >library(vgam) >fit.vglmcoef(fit.vglm, matrix=T)
4.10. Model Pilihan Diskrit Dalam bab ini kita akan menjelaskan pengembangan dari model logit multinomial sebagai pendekatan khusus dalam pemodelan perilaku pemilihan, dimana variabel penjelas mungkin termasuk atribut dari masing-masing pilihan (misalkan biaya) sebagaimana karakteristik individu yang membuat keputusan atau pilihan (seperti penghasilan). Setiap manusia, lembaga, perusahaan akan dihadapkan pada pilihan-pilihan. Kita harus memilih satu dari semua alternatif yang tersedia, mulai dari satu alternatif saja (tidak ada alternatif lain),
175
dua alternatif sampai dengan banyak alternatif. Banyak hal/faktor yang digunakan untuk mengambil keputusan. Pertama, faktor internal yaitu sifat sifat atau karakteristik yang melekat pada diri pembuat keputusan. Kedua, faktor eksternal yaitu keadaan/ faktor yang berasal dari luar/lingkungan pembuat keputusan. Kedua faktor tersebut dapat bersifat kualitatif maupun kuantitatif. Sementara itu keputusan/pilihan dilakukan berdasarkan atas asas manfaat dan mudhorot (resiko) bagi pembuat keputusan. Suatu pilihan dilakukan jika pilihan itu paling menguntungkan dibandingkan dengan semua alternatif pilihan yang lain, atau bisa juga karena pilihan itu paling kecil resikonya dibanding dengan alternatif yang lain. Disamping itu,
kadang kita tertarik untuk menduga nilai
respon yang dikaitkan dengan sekumpulan kovariate dengan menggunakan kontinyu,
fungsi
umumnya
penghubung dipilih
fungsi
tertentu.
Ketika
penghubung
respon identitas,
sedangkan untuk respon biner dipilih fungsi penghubung logit. Terdapat perbedaan antara analisis regresi logistik ganda dengan analisis regresi ganda. Analisis regresi ganda digunakan pada distribusi normal, sedangkan analisis regresi logistik digunakan untuk data yang berdistribusi binomial. Regresi logistik pada respon dikotomis tersebut
biasa
dinamakan regresi logistik biner. Sering kali respon mempunyai lebih dari dua alternatif jawaban misalkan tentang warna kesukaan (merah, kuning, hijau, dsb) atau contoh yang lain tentang penilaian (sangat baik, baik, cukup, buruk, sangat buruk). Pada data polikotomis tersebut dapat digunakan analisis regresi multinomial.
176
Model
pemilihan
diskrit
menggambarkan
pembuat
keputusan memilih diantara alternatif yang tersedia. Pembuat keputusan dapat berupa orang, rumah tangga, perusahaan atau unit
pembuat
keputusan
yang
pilihan/alternatif disebut Choice set.
lain.
Himpunan
semua
Model pemilihan diskrit
digunakan untuk menguji pilihan yang mana, sedangkan model regresi dipakai untuk menguji berapa banyak. Walaupun demikian seringkali model pemilihan diskrit juga dapat dipakai untuk menguji berapa banyak. Model pemilihan diskrit biasanya diturunkan dibawah asumsi manfaat maksimum oleh pembuat keputusan. Seorang pembuat keputusan dinotasikan dengan i, yang berhadapan dengan pilihan sebanyak J anternatif. Pembuat keputusan mempunyai tingkat utiliti (keuntungan) untuk setiap alternatif. Misalkan Uij
untuk j= ,
,J adalah utiliti pembuat
keputusan (responden) i jika memilih alternatif j. Nilai Uij yang sesungguhya tidak diketahui oleh pengamat (peneliti). Tentunya pembuat keputusan memilih alternatif yang mempunyai utiliti terbesar, sehingga memilih alternatif k jika dan hanya jika Uik > Uij j k. Peneliti tidak mengetahui nilai utiliti untuk pembuat keputusan terhadap setiap alternatif. Peneliti hanya mengamati atribut yang ada untuk masing-masing alternatifnya, yang dinotasikan dengan xkj j dan atribut pembuat keputusan yang dinotasikan dengan si. Secara fungsi dapat dinotasikan sebagai Vij= V(xij,si) j yang biasa dinamakan representative utility. Karena nilai utiliti yang sesungguhnya tidak diketahui peneliti maka Vij Uij dan Uij = Vij + ij 177
i = (i1,
.,iJ) adalah variabel random yang mempunyai densitas
f(i). Probabilitas pembuat keputusan i memilih alternatif k dapat dinyatakan sebagai Pik = P(Uik > Uij j k) = P(ij - ik < Vik – Vij j k) =
I (
ij
ik Vik Vij j k ) f ( i )d i
I(.) adalah fungsi indikator, yang bernilai 1 jika pernyataan dalam kurung benar dan bernilai 0 jika pernyataan salah. Selanjutnya dapat dipilih atau ditentukan densitas
f(ik) yang sesuai/tepat,
misalnya distribusi nilai ekstrim dan biasa disebut dengan model logit. Model
Logit
diturunkan
dengan
asumsi
bahwa
ik
berdistribusi nilai ekstrim (extreme value) yang saling independen untuk semua i. Fungsi densitas extreme value (Gumbel) adalah
f ( ij ) e
ij
e e
ij
dan distribusi kumulatifnya adalah
F ( nj ) e e
nj
Variansi dari distribusi ini adalah 2/6. Probabilitas pembuat keputusan i memilih alternatif k yang dinyatakan sbb : Pik = Pr(ij - ik < Vik – Vij jk) = Pr(ij < ik + Vik – Vij jk)
178
Jika ik diketahui dan saling independen, maka Pik|ik =
exp( exp((
ik
Vik Vij )))
j k
Oleh karena nilai ik tidak diketahui maka Pik merupakan integral Pik|ik atas seluruh nilai ik terbobot densitasnya, yaitu Pik =
exp( exp((
ik
Vik Vij )))[exp( ik )] exp( exp( ik ))d ik
j k
Dengan mengambil s=ik dan oleh karenaVik-Vik=0 maka Pik dapat dinyatakan sebagai Pik =
exp( exp((s V
s
ik
Vij )))[exp( s)]ds
j
exp exp( ( s Vik Vij )) exp( s))ds s j s s = s exp e j exp((Vii Vij )) e ds Misalkan t = exp(-s) sehingga dt = -exp(-s)ds =
0 Pik = exp t exp( (Vik Vij )) (dt ) j
=
0
exp t exp( (Vik Vij )) dt j
exp t exp( (Vik Vij )) j = t exp( (Vik Vij ))
j
0
=
1 = exp( (Vik Vij )) j
exp( Vik ) exp(Vij )) j
179
Formula untuk Pik tersebut dinamakan probabilitas logit. Jika Vij merupakan fungsi linear dari xij maka dapat dinyatakan menjadi Pik =
exp( t xii ) J
exp( j 1
t
xij )
Untuk sebarang dua alternatif k dan r, rasio probabilitas logitnya dapat dinyatakan sebagai Pik eVik J Pir eVij j 1
= exp(Vik – Vir)
eVir J
e
Vij
j 1
Rasio ini tidak tergantung pada alternatif lain selain i dan k. Sifat ini dinamakan independence from irrelevant alternatives (IIA). Selanjutnya estimasi parameter dapat dilakukan dengan prosedur maksimum likelihood. Misalkan N sampel dari individu yang membuat keputusan, probabilitas individu n memilih sebuah alternatif dapat dinyatakan sebagai
(P )
yij
ij
j
Dengan yij = 1 jika individu i memilih j dan nol jika memilih yang lainnya. Dengan mengasumsikan bahwa setiap keputusan antar individu saling independen maka probabilitas masing-masing individu dalam sampel memilih sebuah alternatif adalah n
L( ) ( Pij ) i 1
yij
j
Dengan merupakan vektor parameter dalam model. Fungsi Log likelihoodnya menjadi n
LL( ) yij ln( Pij ) i 1
j
180
Penaksir adalah nilai yang memaksimumkan fungsi LL(). n
LL( ) yij ln( Pij ) i 1
=
j
exp( t xij ) yij ln t i 1 j exp( xij ) j n
n t ( x ) yij ln exp( t xij ) ij ij i 1 j i 1 i j Derevatif LL() terhadap adalah n
=
y
LL( )
n
y i 1
j
y i 1
xij yij Pij xij i 1
j
j
x Pij xij yij i 1 j j n
n
=
n
ij
ij ij
j
n
n
= yij xij Pij xij i 1
i 1
j
n
=
( y i 1
ij
j
Pij ) xij 0
j
Jadi penaksir dengan menggunakan prosedur maksimum likelihood adalah penyelesaian dari persamaan n
( yij Pij ) xij 0 J
i 1 j 1
Penyelesaian persamaan penaksir tersebut dapat diselesaikan secara iterasai dengan metode newton raphson maupun metode scoring. Selanjutnya untuk melakukan menguji kesesuaian model dengan data (uji Goodness of Fit) dapat digunakan indeks rasio likelihood, yang diefinisikan sebagai
1
LL( ˆ ) LL(0)
181
dengan LL(0) adalah nilai log likelihood untuk =0 (Nugraha, 2010). 4.11. Soal Latihan 1. Gunakan data pada soal latihan di Bab 3 soal no 3.2. Lakukan analisis menggunakan regresi logistik untuk menyusun model
pengaruh strata sosialdan
pendidikan orang tua
terhadap rencana studi lanjut 2. Gunakan data pada soal latihan di Bab 3 soal no 3.1. Lakukan analisis menggunakan regresi logistik untuk menyusun model pengaruh derajad kontak dan jenis tempat tinggal terhadap tingkat kepuasan. 3. Data pengamatan terhadap kebiasaan mendengkur saat tidur malam dan penyakit jantung. Dari Pengamatan terhadap beberapa orang diperoleh data sebagai berikut Tabel 4.14. Kebiasaan mendengkur dan status penyakit jantung Kebiasaan
Penyakit jantung
Mendengkur
Ya
Tidak
Tidak Pernah
24
1355
Kadang-kadang
35
600
Hampir setiap malam
21
190
setiap malam
30
225
Lakukan analsisi menggunakan regresi logistik. Gunakan skor 0, 2, 4, 5 untuk mengkategorikan kebiasaan mendengkur (X) secara berturut-turut yaitu tidak pernah, kadang-kadang, hampir setiap malam, setiap malam. Variabel respon Y merupakan status kepemilikan penyakit jantung berskala biner dengan Y = 0 iika tidak dan Y = 1 jika ya.
182
BAB V REGRESI POISSON
Pemodelan dengan variabel respon berupa bilangan cacah biasa muncul dibidang biologi. Misalkan Ilmuwan biologi ingin mengetahui hubungan variabel Y yaitu banyaknya kuskus dan variabel X yaitu jumlah pohon yang mati disuatu area tertentu. Selama variabel respon merupakan hasil perhitungan, distribusi Poisson dapat digunakan dan oleh karenanya model linear yang didasarkan pada teori distribusi normal tidak memberikan deskripsi yang memadai hubungan antara dua variabel. Regresi logistik efektif dalam situasi yang sama, di mana variabel respon biner, tapi dalam hal ini variabel respons tidak biner. Respon dari Poisson sering muncul dalam epidemiologi, misalnya variabel respon berupa insiden penyakit, cedera, atau kematian dan variabel prediktor adalah variabel numerik seperti usia atau waktu pemaparan. Aplikasi lain dari regresi Poisson yang
umum
menggunakan satu atau lebih variabel kategorik sebagai prediktor, dan data biasanya disusun dalam tabel kontigensi. Dalam bab ini diperkenalkan topik regresi Poisson. 5.1. Distribusi Poisson Percobaan Poisson adalah percobaan yang menghasilkan variabel random X yang bernilai numerik, yaitu banyaknya sukses selama selang waktu tertentu atau dalam daerah tertentu. Selang waktu tertentu dapat berupa sedetik, semenit, sejam, sehari, seminggu maupun sebulan. Daerah tertentu dapat berupa satu 183
meter, satu kilometer persegi dan lain-lain. Percobaan Poisson memiliki ciri – ciri sebagai berikut: 1) Banyaknya sukses terjadi dalam suatu selang waktu atau daerah tertentu tidak terpengaruh oleh apa yang terjadi pada selang waktu atau daerah lain. 2) Peluang terjadinya suatu sukses dalam selang waktu yang amat pendek atau dalam daerah yang kecil tidak tergantung pada banyaknya sukses yang terjadi di luar selang waktu atau daerah lain. 3) Peluang terjadinya lebih dari satu sukses dalam selang waktu yang pendek atau daerah yang sempit tersebut dapat diabaikan. Distribusi Poisson diberi nama sesuai dengan penemunya yaitu Siemon Denis Poisson. Distribusi Poisson adalah suatu distribusi peluang yang menyatakan kemungkinan sejumlah peristiwa yang terjadi dalam suatu periode waktu. Distribusi Poisson dapat digunakan untuk menyatakan peristiwa dalam unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya. Penggunaan distribusi Poisson sebagai dasar pada regresi Poisson. Distribusi Poisson akan membuat model peluang dari kejadian y menurut proses Poisson, adalah:
e y f y; , untuk y = 0, 1, 2, ... y! Variansi dan rata–rata dari distribusi Poisson adalah . Hal yang perlu diperhatikan bahwa parameter ini sangat bergantung beberapa unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya.
184
5.2. Model Regresi Poisson Tantangan dalam regresi Poisson adalah menemukan model untuk variabel respons sebagai fungsi dari variabel prediktor, sehingga parameter dari model dapat diperkirakan (diestimasi) dari data. Misalkan i menyatakan observasi ke-i,
i = 1,...n. i
sebagai nilai mean dari nilai yi dan xi adalah variabel independen yang berkaitan denga n varabel dependen yi. Misalkan
i e
dan yi = i + i ,
0 1 xi
dengan i adalah random error. Maka
log( i ) 0 1xi . Sehingga terdapat hubungan "log-linear" antara y dan x. Karena setiap yi memiliki distribusi Poisson dengan mean i , probabilitas yi pada nilai xi adalah:
P( yi )
e i iyi e ( 0 1xi ) ( 0 1 xi ) yi = . yi ! yi !
Model untuk regresi Poisson pada dasarnya menyatakan rata – rata dari distribusi yang diskrit sebagai fungsi dari variabel independennya. k
0 j xij
i e Pemasalahan
selanjunya
j 1
adalah
mengestimasi
parameter
=(0,..., k). Dalam
penggunaan
regresi
Poisson
terdapat
beberapa
pelanggaran asumsi mengenai galat yang tidak berdistribusi
185
normal dan variansi galat yang tidak homogen (Myers, 1990). Asumsi lain yang harus dipenuhi dalam pembentukan regresi Poisson adalah: 1) Variabel dependen dalam regresi Poisson mengikuti proses percobaan Poisson yang merupakan data diskrit dari hasil menghitung, pencacahan atau frekuensi namun bukan hasil pengukuran. 2) Uji Multikolinearitas Asumsi multikolinearitas merupakan bentuk pengujian yang menyatakan bahwa variabel independen harus terbebas dari gejala multikolinearitas. Gejala multikolinearitas adalah gejala korelasi antar variabel independen. Apabila terjadi gejala multikolinearitas, salah satu langkah untuk memperbaiki model adalah dengan menghilangkan variabel dari model regresi, sehingga bisa dipilih model yang paling baik. 5.3. Estimasi Parameter Penggunaan
model
regresi
Poisson
terdapat
beberapa
pelanggaran asumsi mengenai galat yang tidak berdistribusi normal dan variansi galat yang tidak homogen, sehingga dalam penaksiran parameter tidak bisa menggunakan metode kuadrat terkecil biasa. Untuk mengatasi hal tersebut maka dapat digunakan metode maksimum likelihood (Myers, 1990). Metode Maximum Likelihood Estimation (MLE) merupakan metode
untuk
mengetahui
nilai
parameter
mana
yang
memaksimalkan fungsi likelihood. Rata-rata dalam regresi Poisson dimodelkan sebagai fungsi dari sejumlah variabel independen. Pertama, perlu menentukan fungsi likelihood dan persamaan
186
likelihood yang dapat digunakan untuk menaksir parameter – parameter dalam regresi Poisson. Fungsi likelihoodnya untuk distribusi Poisson adalah: n
L y, f yi , i 1
n yi n i1 exp( ) i 1 n yi e i 1 L y , n yi ! i 1 yi! n
i 1
n yi k n k i1 exp( exp( 0 j xij ) ) exp( 0 j xij ) j 1 i 1 j 1 i 1 L y , n yi! n
i 1
n
k
i 1
j1
n
k
n
i 1
j1
i 1
logL y,β LLy,β y i log(exp( β 0 β j x ij )) (exp(β 0 β j x ij )) log y i !
Nilai maksimum fungsi LL(.) diperoleh dengan syarat
log L y, 0
sehingga k exp( 0 j xij ) k yi j 1 0 exp( 0 j xij ) k j 1 i 1 j xij ) exp( 0 j 1 n
dengan k exp( 0 j xij ) j 1 exp( k x )1 x x j ij i1 ik 0 j 1
187
Persamaan terakhir ini dapat diselesaikan secara iterasi. 5.4. Pemilihan model Terbaik 5.4.1. Uji Kecocokan Model (Goodnes of Fit) Pada pengujian kelayakan model, Myers (1990) menjelaskan bahwa devians digunakan untuk menguji keberartian koefisien – koefisien dan menguji kelayakan model untuk kasus dari model Poisson dan model logistik. Pada dasarnya analisis devians ini bisa diterapkan untuk setiap distribusi yang merupakan anggota dari keluarga eksponensial. Pada penggunaan devians dapat pula untuk menguji hipotesis lain, yaitu pengujian keberartian parameter di dalam regresi Poisson. Pada setiap variabel independen dapat dihitung melalui penentuan seberapa besar kontribusi dari masing – masing variabel independen terhadap pengurangan harga devians. Perhatikan variabel ke j, xj, dari k buah variabel independen. Misalnya
D j 1 , 2 ,, j 1 , j 1 ,, k D1 , 2 ,, j 1 , j 1 ,, k D1 ,..., k
Bentuk D( 1,..., seluruh
) merupakan devians yang dihitung pada
k
parameter
dalam
model,
sedangkan
D1, 2 ,, j 1 , j 1,, k adalah devians yang dihitung tanpa
melibatkan j x j ke dalam model. Banyaknya pengurangan harga devians yang disebabkan oleh ketidakhadiran j x j dalam model. Banyaknya
perbedaan
ketidakhadiran
jxj
harga
devians
yang
disebabkan
dalam model dapat dihitung melalui
persamaan berikut:
188
^ ^ ^ ^ ^ L 1 , 2 ,, j 1 , j 1 ,, k , D j 1 , 2 ,, j 1 , j 1 ,, k 2 log ^ ^ L 1 ,..., k
Bentuk di atas menyatakan perbedaan dalam 2log L antara model lengkap dengan model reduksi. Pengujian ini akan sama dengan pemilihan model terbaik melalui prosedur bertahap (stepwise) dalam analisis regresi biasa. Statistik dari rasio likelihood
D1, 2 ,, j 1 , j 1,, k mempunyai distribusi Chi Squared, χ2
dengan derajat bebas satu. Formula di atas juga dapat digunakan untuk pengujian masing – masing koefisien dalam model, yaitu untuk menguji H0 : j = 0
melawan H1 : j ≠
2 H0 ditolak apabila D j 1 , 2 ,, j 1 , j 1 ,, k ( ;1) .
Untuk mengetahui kecocokan model dan koefisien yang signifikan maka dilakukan uji hipotesis, dimana terdapat jenis uji yang harus dilakukan yaitu sebagai berikut: 1) Uji bersama yaitu untuk menguji apakah model regresi yang terbentuk sudah layak atau belum untuk digunakan. 2) Uji koefisien yaitu untuk menguji apakah masing – masing koefisien yang terbentuk dalam model sudah berpengaruh terhadap model atau belum (Wibawati dan Nugraha, 2009) 5.4.2. Uji Rasio Likelihood Pada pengujian rasio likelihood, terlebih dahulu perlu ditentukan dua buah fungsi likelihood yang berhubungan dengan model regresi yang diperoleh. Fungsi – fungsi likelihood itu adalah
189
^ L red , yaitu fungsi likelihood yang berhubungan dengan model regresi yang sedang dianalisis. Sedangkan fungsi likelihood yang kedua adalah fungsi likelihood yang berhubungan dengan model penuh atau model yang sempurna, yang dinotasikan dengan
^ L
full
. Dengan demikian, fungsi likelihood itu dapat ditulis
sebagai berikut:
L full ( yi , ) i 1 n
dan n yi e L red i 1 yi !
Selanjutnya, logaritma dari perbandingan antara kedua fungsi likelihood di atas merupakan ukuran yang penting dalam menentukan kelayakan model regresi Poisson, sehingga:
L red G 2 2 log L full Disebut sebagai G2 atau statistik uji rasio likelihood, dimana definisi dari statistik uji rasio likelihood adalah selisih antara nilai likelihood pada model yang diuji dibandingkan dengan model lengkap dan statistik ini merupakan pendekatan dari distribusi χ2 dengan derajat bebas n–k (n adalah jumlah seluruh parameter pada model penuh atau model sempurna sedangkan k adalah jumlah seluruh parameter pada model regresi yang diperoleh atau model
190
regresi yang sedang dianalisis). Kriteria pengujian adalah tolak H0 apabila G2 > χ2
n – k)
.
5.4.3. Koefisien Determinasi R2 Koefisien determinasi (R2) dalam analisis regresi linier didasarkan pada pemakaian jumlah kuadrat (sums–of–square) dengan metode kuadrat terkecil. Penggunaan R2 ini lebih populer karena dapat menggambarkan keeratan hubungan regresi antara variabel dependen dengan variabel independen. Semakin besar nilai R2
R2
, semakin akurat taksiran dari model regresi.
Disisi lain model regresi Poisson ditaksir dengan menggunakan metode maksimum likelihood. Hal ini mendorong berkembangnya beberapa ukuran R2 dalam regresi Poisson yang didasarkan pada proporsi reduksi dalam log likelihood yang dimaksimumkan. Selain itu (Myers, 1990), menyebutkan analog yang tepat pada koefisien determinasi R2 dalam analisis regresi biasa diperoleh melalui log likelihood. Pada pengujian keberartian parameter telah ditunjukkan bahwa jika mempunyai model regresi Poisson dengan parameter
0 , 1 , 2 , 3 ,, k
dan
variabel
independen
x1 , x2 , x3 ,, xk maka keberadaan dari konstanta 0 dalam model diberikan melalui devians dengan derajat bebas k, sebagai berikut:
D1, 2 ,, k 0 2 log L0 , 1 ,, k 2 log L0 D0 , 1,, k 2 log L0 , 1,, k Sedangkan analog pada jumlah kuadrat total adalah devians pada model yang berisi konstanta 0 , dengan demikian koefisien determinasi R2, sebagai berikut:
191
R2
D1 , 2 ,, k 0 JK REG JK TOTAL D 0
2 log L 0 , 1 ,, k 2 log L0 2 log L 0 , 1 ,, k
1
log L0 log L0 , 1 ,, k
5.5. Contoh Data I Jenis data yang digunakan adalah data tentang banyaknya pecahan yang terjadi pada lapisan atas di dalam tambang batubara (Myers, 1990). Adapun variabel yang akan digunakan adalah: X1
: Ketebalan beban bagian dalam (feet), merupakan jarak terpendek antara lapisan tanah dengan lapisan yang paling bawah.
X2
: Prosentase ekstrasi dari lapisan tambang sebelumnya yang paling bawah.
X3
: Tinggi lapisan paling dalam (feet), dan
X4
: Lamanya waktu (tahun) tambang itu dibuka.
Y
: Banyaknya Pecahan.
Berikut data tentang banyaknya pecahan yang terjadi pada lapisan atas tambang batubara:
192
Tabel 5.1. Data banyaknya pecahan pada lapisan atas tambang batubara No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Y 2 1 0 4 1 2 0 0 4 4 1 4 1 5 2 5
X1 50 230 125 75 70 65 65 350 350 160 145 145 180 43 42 42
X2 70 65 70 65 65 70 60 60 90 80 65 85 70 80 85 85
X3 52 42 45 68 53 46 62 54 54 38 38 38 42 40 51 51
X4 1 6 1 0.5 0.5 3 1 0.5 0.5 0 10 0 2 0 12 0
No 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
Y 3 3 2 2 0 1 5 2 3 3 3 0 0 2 0 0
X1 65 470 300 275 420 65 40 900 95 40 140 150 80 80 145 100
X2 75 90 80 90 50 80 75 90 88 85 90 50 60 85 65 65
X3 68 90 165 40 44 48 51 48 36 57 38 44 96 96 72 72
X4 5 9 9 4 17 15 15 35 20 10 7 5 5 5 9 9
17
5
45
85
18 19 20 21
5 0 5 1
83 300 190 145
85 65 90 90
42
0
39
3
150
80
48
3
48 68 84 54
10 10 6 12
40 41 42 43
2 3 5 0
150 210 11 100
80 75 75 65
48 42 42 60
0 2 0 25
22
1
510
80
57
10
44
3
50
88
60
20
Sumber : (Myers, 1990). Model penuh untuk regresi Poisson pada kasus ini adalah: ^
^
^
^
^
^
exp( 0 1 x1 2 x2 3 x3 4 x4 ) Entri data pada program R dilakukan sebagai berikut >yx1x2x3x4library(systemfit) >library(micEcon) >Fungsi_NonLinierstart=c(0,0,0,0,0) >loglikHasil=summary(maxLik(Fungsi_NonLinier, start=start)) >loglikHasil
Hasil untuk Model 1 (model lengkap) Maximum Likelihood estimation Newton-Raphson maximisation, 5 iterations Return code 1: gradient close to zero. May be a solution Log-Likelihood: -67.06384 5 free parameters Estimates: Estimate Std. error t value Pr(> t) [1,] -3.59308956 1.03440535 -3.4736 0.0005136 *** [2,] -0.00140659 0.00083591 -1.6827 0.0924334 . [3,] 0.06234576 0.01238185 5.0353 4.772e-07 *** [4,] -0.00208034 0.00507014 -0.4103 0.6815766 [5,] -0.03081349 0.01626694 -1.8942 0.0581931 . Signif.codes: 0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Berdasarkan hasil pada penggunaan aplikasi software R untuk model 1 dimana seluruh variabel independen digunakan dalam pembentukan model regresi Poisson pada data tambang diperoleh estimasi untuk masing–masing parameter adalah sebagai berikut:
194
Tabel 5.2. Estimasi parameter model 1 untuk data tambang No
Parameter
Nilai
P-value
1
0
– 3.59308956
0.0005136
2
1
– 0.00140659
0.0924334
3
2
0.06234576
4.772e-07
4
3
– 0.00208034
0.6815766
5
4
– 0.03081349
0.0581931
Tabel 5.3. Estimasi parameter model 2 untuk data tambang No
Parameter
Nilai
Keterangan
1
0
– 3.72068232
0.0001315
2
1
– 0.00147925
0.0727517
3
2
0.06270111
2.759e-07
4
4
– 0.03165139
0.0522879
Tabel 5.4. Perhitungan keberartian parameter Model
Model
2
1
,
D
3
1
,
D
4
1
,
D
3
2
,
D
4
2
,
D
4
3
,
D
2
1
,
D
2
1
,
D
3
1
,
D
3
2
,
D
2
1
,
D
Reduksi
,
3
,
4
│ 0,
1
,
4
│ 0,
2
,
4
│ 0,
3
,
3
│ 0,
4
,
Model Full
│ 0)
1
│ 0,
1
│ 0,
1
│ 0,
2
│ 0,
2
│ 0,
3
Parameter
-85.6277
-67.06384
37.1277
)
-84.0557
-67.06384
33.9837
)
-72.4459
-67.06384
10.7642
)
-85.0566
-67.06384
35.9855
)
-84.1952
-67.06384
34.2628
)
-69.1827
-67.06384
4.2377
)
-83.6710
-67.06384
33.2143
)
-83.3491
-67.06384
32.5704
)
-71.9294
-67.06384
9.7312
)
-68.9489
-67.06384
3.7701
)
-83.7769
-67.06384
33.4262
4
│ 0,
Nilai Keberartian
,
2
,
3
,
4
,
3
,
4
,
4
195
D
4
D
3
D
2
D
1
│ 0,
1
│ 0,
1
│ 0,
1
│ 0,
2
,
2
,
2
,
3
,
3
,
3
,
4
,
4
,
4
)
-69.0111
-67.06384
3.8944
)
-67.1512
-67.06384
0.1747
)
-83.0394
-67.06384
31.9511
)
-68.6471
-67.06384
3.1665
Untuk mempermudah dalam mengetahui nilai keberartian pada setiap parameter dalam model, berikut hasil nilai keberartian parameter yang ditampilkan dalam tabel. Tabel 5.5. Pengujian hipotesis untuk masing – masing kombinasi model Nilai Keberartian
Model
H0
H
Parameter D
1
,
2
,
3
D
2
,
3
,
4
D
1
,
3
,
4
D
1
,
2
,
4
D
1
,
2
,
3
D
3
,
4
│ 0,
1
D
2
,
4
│ 0,
1
D
2
,
3
│ 0,
1
D
1
,
4
│ 0,
2
D
1
,
3
│ 0,
2
D
1
,
2
│ 0,
3
D
4
│ 0,
1
D
3
│ 0,
1
D
2
│ 0,
1
D
1
│ 0,
2
,
│ 0)
4
│ 0,
1
│ 0,
2
│ 0,
3
│ 0,
4
4
,
4
,
3
,
4
,
4
,
4
,
3
,
3
H0 Tolak
,
4
=0
3
6.251
H0 Tolak
,
4
=0
3
6.251
H0 Tolak
,
3
=0
3
6.251
H0 Tolak
=0
2
4.605
H0 Terima
=0
2
4.605
H0 Tolak
=0
2
4.605
H0 Tolak
=0
2
4.605
H0 Tolak
=0
2
4.605
H0 Terima
=0
H0 Tolak
2 2
1
3
H0 Tolak
6.251
,
1
34.2628
,
7.779
3
,
35.9855
)
,
4
=0
3
)
4
4 4
3
,
=0
Keputusan
,
,
1
,
, 3
10.7642
3
2
2
,
)
2
2
, 2
,
,
1
33.9837
,
,
37.1277
)
Nilai Tabel
)
4.2377
3
,
4
)
33.2143
2
,
4
)
32.5704
2
,
3
)
9.7312
1
,
4
)
3.7701
1
,
3
)
33.4262
1
,
2
2
4.605
)
3.8944
4
=0
1
2.706
H0 Tolak
)
0.1747
3
=0
1
2.706
H0 Terima
)
31.9511
2
=0
1
2.706
H0 Tolak
)
3.1665
1
=0
1
2.706
H0 Tolak
196
Hasil dari 15 kombinasi peubah yang ada terlihat bahwa X3 mempunyai peranan yang tidak berarti terhadap model, maka dapat dikatakan bahwa model dengan peubah – peubah X1, X2, dan X4 merupakan model yang terbaik karena mempunyai nilai devians yang paling kecil dan memiliki nilai keberartian yang paling besar serta masing – masing koefisien regresinya memberikan peranan yang cukup berarti terhadap model. Pada pengujian koefisien deteriminasi dalam regresi Poisson menujukkan hubungan pengaruh variabel y (sebagai variabel dependen) dan variabel x (sebagai variabel independen) yang diperoleh dengan menghitung:
D(0 , 1, 2 , 4 ) 2 logL(0 , 1, 2 , 4 ) 0.17466 D(0 ) 2 logL(0 ) 37.1277
sehingga nilai koefisien determinasi R2 dalam kasus ini adalah: D0 , 1 , 2 , 4 0.17466 R2 1 1 0.9953 D0 37.1277 Untuk menginterprestasikan nilai koefisien determinasi, peneliti harus membuat nilai tersebut dalam persentase yang berarti 99.53%. Maksud nilai ini adalah bahwa sebesar 99.53% perubahan atau variasi dari banyaknya pecahan dapat dijelaskan oleh ketebalan beban bagian dalam (feet), prosentase ekstrasi, dan lamanya waktu (tahun), sedangkan 0.46% dijelaskan oleh variabel lain. Berdasarkan dari pengujian yang telah dilakukan, maka model regresi Poisson dengan fungsi link log adalah sebagai berikut: ^
exp( 3.72068232 0.00147925x1 0.06270111x2 0.03165139 x4 )
197
5.6. Contoh Data II Penelitian mengenai kelangsungan spesies possum (kus-kus). Variabel yang diamati adalah y
: banyaknya spesies possum yang ditemukan
Acacia
: banyaknya pohon acacia indeks kualitas Bark
Bark Habitat
: Habitat score untuk Leadbeater s possum
Shrubs
: banyaknya semak-semak (shrub) banyaknya hollow trees
Stags
Yang akan diteliti adalah apakah variabel-variabel tersebut di atas mempengaruhi populasi possum. Diperoleh data sebagai berikut (20 data pertama dari 150 data) Tabel 5.6. Data obeservasi Jumlah Possum (kus kus) No
y
Acacia
Bark
Habitat
Shrubs
Stags
1
3
32
30
10
7
13
2
2
5
13
3
6
16
3
1
9
27
3
8
7
4
2
17
17
9
7
15
5
3
21
12
9
6
17
6
2
32
7
11
4
17
7
3
17
11
9
7
10
8
2
18
5
9
14
21
9
0
1
14
4
6
8
10
0
9
10
2
9
5
11
1
9
4
3
12
7
12
1
10
4
7
17
6
13
0
12
12
2
9
5
14
4
1
15
8
10
7
198
15
2
26
9
2
5
5
16
3
17
14
8
10
11
17
1
8
18
2
12
7
18
3
24
9
10
9
12
19
3
20
8
9
5
12
20
1
14
13
10
9
5
Sumber : Biological Conservation, Kirkwood (1996). Entri data pada program R adalah sebagai berikut : > y length(y) [1] 151
Pertanyaan 1. Apakah semak (shrubs ) meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah semaksemak (shrubs) ? > Shrubs shrubdat shrub.fit summary(shrub.fit)
199
Call: glm(formula = y ~ Shrubs, family = poisson, data = shrubdat) Deviance Residuals: Min 1Q Median 3Q Max -1.8424 -1.6565 -0.3426 0.4917 2.2243 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.29261 0.12715 2.301 0.0214 * Shrubs 0.01576 0.01718 0.917 0.3591 --Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 186.67 on 149 degrees of freedom AIC: 471.47 Number of Fisher Scoring iterations: 5
Apakah model regresi Poisson cocok? Residual devians adalah sebesar 186.67, dari distribusi yang mendekati 2 dengan derajat kebebasan 149.
Perkiraan nilai P-value adalah 0.02. Ini berarti
bahwa penyimpangan yang besar seperti itu tidak mungkin terjadi jika
model
Poisson
memadai,
yang
memaksa
kita
untuk
menyimpulkan bahwa model tidak cocok. Apakah variabel Shrubs memperbaiki model? Perubahan dalam penyimpangan sangat kecil, hanya 0.82.
P-value (berdasar 2
dengan derajat kebebasan 1) adalah sekitar 0.36. Tidak ada cukup bukti untuk menyimpulkan bahwa Shrubs adalah prediktor berguna. Sementara Shrubs sebagai satu-satunya prediktor tidak berguna, mungkin jika kita menambahkan Shrubs untuk sebuah model yang memasukkan Stags, akan ada perbaikan. Penyelidikan berikutnya adalah model regresi dengan multiple prediktor.
200
Pertanyaan 2. Apakah Stags meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah Stags ? Seberapa baik model regresi Poisson cocok dengan data? Kita dapat menggunakan deviasi residual untuk menjawab pertanyaan ini. Hipotesis nol-nya adalah bahwa model regresi Poisson memberikan yang memadai sesuai dengan data. Deviasi residual adalah ukuran berapa banyak data yang menyimpang dari model, jadi semakin besar sisa penyimpangan ini, semakin tidak cocok. deviasi residual adalah 153.34, untuk dapat dibandingkan dengan chi-kuadrat dengan derajat kebebasan 149.
Nilai P-value 0.387,
yang cukup besar sehingga kita tidak perlu menolak hipotesis nol. Model tampaknya memadai/sesuai. Apakah variabel prediktor x = stage signifikan secara statistik? Seperti
halnya
dalam
regresi
logistik,
deviasi
nol
adalah
penyimpangan dari model yang memiliki 1 0 , yaitu model nol mengabaikan x dan memprediksi nilai konstan untuk y. Jika x adalah prediktor yang dapat digunakan, model Poisson akan cocok dengan data yang lebih baik dan penyimpangan nol akan secara signifikan lebih besar daripada penyimpangan residu. distribusi dengan satu derajat kebebasan. Perbedaan antara dua devians memiliki distribusi 2 dengan derajat kebebasan 1. Perubahan deviasi (null devians minus residual devians) adalah 187.49-153.34 = 34.15.
Peluang variabel 2 dengan satu derajat kebebasan akan
mengambil nilai lebih besar dari 34.15
mendekati nol (0). Kita
dapat menyimpulkan bahwa penambahan x ke model nol menghasilkan peningkatan yang signifikan.
201
Cara lain untuk menguji kekuatan prediksi x = stage adalah dengan melihat P-value untuk z-test dimana
1 0 . P-value adalah
sebesar 2.88e-10, pada dasarnya 0, yang mendukung kesimpulan kami
bahwa
x
adalah
prediktor
yang
dapat
digunakan.
Persamaan yang sesuai adalah
yˆ i i e 0.080.05xi . Seperti yang diharapkan, semakin banyak stage dalam suatu area, semakin tinggi jumlah spesies kuskus yang ditemukan. > StagsStagsdatglm(formula = y ~ Stags, family = poisson, data = Stagsdat) Call: glm(formula = y ~ Stags, family = poisson, data = Stagsdat) Deviance Residuals: Min 1Q Median 3Q Max -2.46184 -1.38993 -0.06549 0.59729 1.89332 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.084347 0.110074 -0.766 0.444 Stags 0.049709 0.007884 6.305 2.88e-10 *** --Signif. codes: 0'***' 0.001'**' 0.01 '*' 0.05 '.' 0.1 '' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 153.34 on 149 degrees of freedom AIC: 438.14 Number of Fisher Scoring iterations: 5
202
5.7. Contoh Data III Perhatikan data dalam tabel di bawah ini, disajikan banyaknya kejadian kanker kulit non-melanoma di kalangan wanita di Minneapolis-St. Paulus. Tabel 5.7. Data banyaknya kanker kulit Usia
Kasus
Populasi
15-24
1
172.675
25-34
16
146.207
35-44
30
121.374
45-54
71
111.353
55-64
102
83.004
65-74
130
55.932
75-84
133
29.007
85+
40
7.538
Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf. Menurut teori, kasus kanker kulit meningkat dengan usia. Tetapi jumlah kasus kanker kulit juga akan bergantung pada ukuran populasi. Selama ukuran populasi berbeda dengan kelompok usia, model akan sesuai dengan ukuran populasi. Hal ini cukup mudah sesuai dengan yang diperlukan dalam model regresi Poisson untuk memperkirakan tingkat kasus (incidence rate). Misal Ni menyatakan ukuran populasi dengan observasi ke-i. Jika i adalah jumlah kasus yang diharapkan, maka perkiraan tingkat kasus adalah i/Ni . Menggunakan sifat dari logaritma :
log(
i Ni
) log( i ) log( N i ) .
Dan dianggap bahwa log-rate adalah fungsi linear prediktor x:
203
log(
i Ni
) log( i ) log( N i ) = 0 1 xi
log( i ) 0 1 xi log( N i ) . Dalam contoh ini,
karena kelompok Age (usia) merupakan
variabel kategorik dan kita membutuhkan prediksi numerik, kita akan menggunakan titik tengah interval umur dari masing-masing sebagai nilai dari variabel usia. Di bawah ini adalah kode R dan output. > age Cases Pop minn.txt minn.fit summary(minn.fit) Call: glm(formula = Cases ~ age + offset(log(Pop)), family = poisson, data = minn.txt) Deviance Residuals: Min 1Q Median 3Q Max -4.87198 -1.67519 -0.07185 1.20816 1.99291 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept)-10.551604 0.168780 -62.52