Pengantar Analisis Data Kategorik Deepublish - Free View [PDF]

Kategori :

Penerbit Deepublish (CV BUDI UTAMA) Jl. Elang 3 No.3, Drono, Sardonoharjo, Ngaglik, Sleman Jl. Kaliurang Km

4 0 7 MB

Report DMCA / Copyright

DOWNLOAD FILE

Pengantar Analisis Data Kategorik PDF

0 0 8 MB Read more

Analisis Data Kategorik

0 0 127 KB Read more

Statistik Data Kategorik

0 0 2 MB Read more

Modul Ocean Data View

0 0 475 KB Read more

Ocean Data View - Arus

0 0 105 KB Read more

View

0 0 10 MB Read more

Analisis Data Kategorik Tidak Berpasangan Skala Pengukuran Numerik PDF

0 0 241 KB Read more

Diskusi 9 Manfaat Dan Kelemahan Analisis Frekwensi Data Kategorik - Febri

0 0 17 KB Read more

M1 DS21-Pengantar Sains Data Dan Analisis Big Data

3 0 5 MB Read more

Analisis Lingkungan Internal Organisasi - Resource Based View

0 0 415 KB Read more

File loading please wait...

Citation preview

Kategori :

Penerbit Deepublish (CV BUDI UTAMA) Jl. Elang 3 No.3, Drono, Sardonoharjo, Ngaglik, Sleman Jl. Kaliurang Km 9,3 Yogyakarta 55581 Telp/Fax : (0274) 4533427 Email : [email protected] Penerbit Deepublish

www.deepublish.co.id

@deepublisher

Pengantar Analisis Data Kategorik Metode dan Aplikasi Menggunakan Program R

Jaka Nugraha

Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut.

Metode dan Aplikasi Menggunakan Program R

Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri.

Pengantar Analisis Data Kategorik

D

alam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik.

Jaka Nugraha

Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R

UU No 19

Tahun 2002

Tentang Hak Cipta

Fungsi dan Sifat hak Cipta Pasal 2 1. Hak Cipta merupakan hak eksklusif bagi pencipta atau pemegang Hak Cipta untuk mengumumkan atau memperbanyak ciptaannya, yang timbul secara otomatis setelah suatu ciptaan dilahirkan tanpa mengurangi pembatasan menurut peraturan perundang-undangan yang berlaku. Hak Terkait Pasal 49 1. Pelaku memiliki hak eksklusif untuk memberikan izin atau melarang pihak lain yang tanpa persetujuannya membuat, memperbanyak, atau menyiarkan rekaman suara dan/atau gambar pertunjukannya. Sanksi Pelanggaran Pasal 72 1. Barangsiapa dengan sengaja dan tanpa hak melakukan perbuatan sebagaimana dimaksud dalam pasal 2 ayat (1) atau pasal 49 ayat (2) dipidana dengan pidana penjara masing-masing paling singkat 1 (satu) bulan dan/atau denda paling sedikit Rp 1.000.000,00 (satu juta rupiah), atau pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp 5.000.000.000,00 (lima miliar rupiah). 2. Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling banyak Rp 500.000.000,00 (lima ratus juta rupiah)

ii

Pengantar Analisis Data Kategorik Metode dan Aplikasi menggunakan Program R

Dr. Jaka Nugraha

iii

Jl. Elang 3, No 3, Drono, Sardonoharjo, Ngaglik, Sleman Jl.Kaliurang Km.9,3 – Yogyakarta 55581 Telp/Faks: (0274) 4533427 Hotline: 0838-2316-8088 Website: www.deepublish.co.id e-mail: [email protected]

Katalog Dalam Terbitan (KDT) NUGRAHA, Jaka Pengantar Analisis Data Kategorik/oleh Jaka Nugraha.--Ed.1, Cet. 1-Yogyakarta: Deepublish, September 2013. xvi, 299 hlm.; 23 cm ISBN 978-602-280-095-8 1. Pemrosesan Data

Desain cover Penata letak

I. Judul 004

: Herlambang Rahmadhani : Suryadi Pradana Dewanto

PENERBIT DEEPUBLISH (Grup Penerbitan CV BUDI UTAMA) Anggota IKAPI (076/DIY/2012) Isi diluar tanggungjawab percetakan Hak cipta dilindungi undang-undang Dilarang keras menerjemahkan, memfotokopi, atau memperbanyak sebagian atau seluruh isi buku ini tanpa izin tertulis dari Penerbit. iv

KATA PENGANTAR Dalam beberapa tahun terakhir, penggunaan metode statistik untuk data kategorik telah meningkat secara dramatis, terutama untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan perkembangan selama beberapa dekade terakhir mengenai analisis data kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan pada data kategorik. Buku ini menyajikan metode yang penting untuk menganalisis data kategorik. Secara ringkas, yang memainkan peranan penting dalam analisis data kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan pada pemodelan, khususnya untuk regresi logistik. Dalam buku ini tidak dibahas secara teoritis tetapi lebih ditekankan pada penggunaan secara teknis sehingga tidak memerlukan pemahaman khusus seperti kalkulus atau aljabar matriks. Pembaca harus memiliki latar belakang yang meliputi materi metode statistika yang mencakup estimasi parameter dan uji signifikansi dan model regresi. Kami berharap bahwa buku ini menjadi buku ajar untuk matakuliah Analisis Data Kategorik pada jurusan Statistika. Disamping itu buku ini akan membantu peneliti melakukan analisis yang berkaitan dengan respon kategorik yang banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas industri. Saya berharap bahwa ini akan menarik bagi pembaca yang lebih suka pada sisi aplikasi. Buku ini tidak membahas pembuktian

v

persamaan maupun pembuktian distribusi asimtotis. Saya menghindari rincian tentang perhitungan yang rumit. Untuk membantu perhitungan, sebagian dari materi dalam buku ini sudah tersedia secara luas di sebagian besar paket-paket komersial seperti S Plus, SAS, SPSS maupun MINITAB. Akan tetapi saya lebih fokus pada penggunaan software R, mengingat software ini dapat diakses secara bebas oleh siapapun. Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5 membahas model Poisson untuk respon cacah dan model loglinear untuk tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model (GLM) yang merupakan sebuah keluarga besar dari model linear, model logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman dasar mengenai sistem pengoperasian program tersebut. Semoga buku ini membantu mahasiswa dalam memahami analisis data kategorik dan membantuk para peneliti yang berkaitan dengan data kategori. Yogyakarta, 11 April 2013 Penulis Jaka Nugraha Jurusan Statistika UII [email protected] [email protected] vi

DAFTAR ISI

KATA PENGANTAR............................................................................. v DAFTAR ISI...........................................................................................vii DAFTAR TABEL.................................................................................. xiii BAB I 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. 1.10. 1.11. 1.12. 1.13. 1.14. 1.15. 1.16. 1.17. 1.18.

PENDAHULUAN .............................................................. 1 Pengertian Statistika .......................................................... 1 Populasi dan Sampel. ........................................................ 3 Parameter dan Statistik ..................................................... 4 Data dan Variabel .............................................................. 5 Variabel Random.............................................................. 16 Fungsi Peluang Diskrit dan Fungsi Distribusi ............. 18 Distribusi Khusus............................................................. 20 Distribusi Lain-Lain ......................................................... 26 Distribusi Probabilitas dalam Program R ..................... 29 Plot Data dan Grafik dalam R ........................................ 33 Inferensi untuk Parameter Proporsi () ........................ 36 Fungsi Likelihood dan Maximum Likelihood Estimator (MLE) ............................................................... 40 Uji Proporsi dengan Pendekatan Distribusi Normal ............................................................................... 41 Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal....................................... 43 Statistik Wald dan Statistik Rasio Likelihood .............. 44 Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R ............................................... 46 Interval Konfidensi Eksak Menggunakan Program R ......................................................................... 47 Latihan ............................................................................... 48 vii

BAB II 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. 2.9. BAB III

TABEL KONTIGENSI...................................................... 51 Tabel Kontigensi 2x2 ........................................................ 52 Membandingkan Dua Proporsi dalam Tabel 2x2 ....................................................................................... 66 Menghitung RR dan OR Menggunakan Program R.......................................................................... 70 Tabel Kontigensi bxk ...................................................... 70 Uji Eksak untuk Sampel Kecil ........................................ 83 Ukuran Assosiasi .............................................................. 86 Uji Cochran-Mantel-Haenszel Untuk Tabel 2x2xJ ................................................................................... 90 Uji Chi Kuadrat pada Tabel Kontigensi Multidimensi ..................................................................... 92 Soal Latihan ....................................................................... 98 MODEL LOG LINEAR PADA TABEL KONTIGENSI..................................................... 99

3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. BAB IV 4.1. 4.2.

Model Log Linear Dalam Tabel Kontigensi Dua Arah .................................................................................. 100 Model Log Linear untuk Tabel Kontigensi Tiga Arah .................................................................................. 107 Contoh Data I .................................................................. 111 Contoh Data II................................................................. 114 Model Log Linear pada Tabel Kontigensi Multi Arah .................................................................................. 118 Program R untuk Model Log Linear ........................... 119 Soal Latihan ..................................................................... 126 REGRESI LOGISTIK ...................................................... 129 Distribusi Binomial dan Regresi Logistik ................... 129 Model Regresi Logistik dengan Variabel Independen Tunggal ...................................................... 130

viii

4.3.

Model Regresi Logistik dengan Variabel Independen Banyak ....................................................... 133 4.4. Maximum Likelihood Estimator untuk Regresi Logistik ............................................................................ 133 4.5. Inferensi Regresi Logistik ............................................. 136 4.6. Regresi Logistik Multivariabel ..................................... 147 4.7. Strategi Pemilihan Model.............................................. 148 4.8. Regresi Rogistik dalam Program R.............................. 154 4.9. Model Logistik pada Respon Multi Kategori ............. 157 4.10. Model Pilihan Diskrit .................................................... 175 4.11. Soal Latihan..................................................................... 182 BAB V 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. BAB VI 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7.

REGRESI POISSON ....................................................... 183 Distribusi Poisson .......................................................... 183 Model Regresi Poisson .................................................. 185 Estimasi Parameter ........................................................ 186 Pemilihan model Terbaik .............................................. 188 Contoh Data I................................................................. 192 Contoh Data II ................................................................ 198 Contoh Data III ............................................................... 203 Soal latihan ...................................................................... 205 GENERALIZED LINEAR MODEL (GLM) ................ 209 Pendahuluan ................................................................... 209 Fungsi Penghubung (Link) dan Keluarga Eksponensial ................................................................... 210 Estimasi Parameter ..................................................... 212 Inferensi Parameter ‛erdasarkan Fungsi Likelihood ....................................................................... 215 Uji Kecocokan Model Dengan Nilai Devians............. 216 Estimasi Interval dengan GLM .................................... 218 GLM pada Program R ................................................... 221

ix

BAB VII 7.1. 7.2. 7.3. 7.4. 7.5. 7.6. 7.7. 7.8. 7.9. 7.10. 7.11. 7.12. 7.13. 7.14. 7.15. 7.16. 7.17. 7.18. 7.19. 7.20. 7.21. 7.22. 7.23. 7.24. 7.25. BAB VIII

PENGANTAR PROGRAM R....................................... 227 Pendahuluan ................................................................... 227 Manipulasi Data ............................................................. 228 Operasi Matematika ....................................................... 231 Vektor ............................................................................... 232 Array dan Matrik............................................................ 233 Data Frame ...................................................................... 234 List .................................................................................... 235 Variabel Waktu (Dates) ................................................. 235 Penggabungan Data frame............................................ 236 Membuka File Data ........................................................ 237 Editing Data Secara Langsung ..................................... 237 Membuat Plots ................................................................ 238 Membuat Plots dari Distribusi Empiris ...................... 239 Plot Kontur (Contour Plots) ......................................... 240 Menambahkan Legend dan Stuff ................................. 241 Menambahkan Panah, Teks dan Penanda .................. 242 Multiple Plots .................................................................. 243 Menyimpan Plots ........................................................... 243 Menambahkan Tulisan Miring dan Simbol Matematik dalam Plots .................................................. 245 Statistik............................................................................. 246 Matematika dalam R ...................................................... 248 Menyusun Program ....................................................... 252 Menyimpan Data ............................................................ 254 Menyimpan Output ....................................................... 254 Maximum Likelihood Estimation (MLE) .................... 255 APLIKASI STATISTIKA MENGGUNAKAN R-COMMANDER ........................................................... 257

8.1. 8.2.

Memulai R-Commander................................................ 257 Input data ........................................................................ 260

x

8.3.

Menggunakan Comannder R untuk Diskripsikan Data .......................................................... 262 8.4. Memodifikasi Dataset .................................................... 264 8.5. Membagi data ................................................................. 266 8.6. Menggunakan Comannder R untuk Mengeksplorasi Data ..................................................... 267 8.7. Menggunakan Comannder R untuk menerapkan uji statistik ................................................ 271 8.8. Uji Non-parametrik........................................................ 275 8.9. Korelasi dan Regresi ...................................................... 277 8.10. Menyimpan Grafik......................................................... 282 8.11. Menyimpan Hasil Perhitungan .................................... 283 8.12. Menu pada R Commander (version 1.4-10) ............... 284 DAFTAR PUSTAKA ................................................................ 295 GLOSARIUM ...................................................................................... 297 PROFIL PENULIS.............................................................................. 301

xi

xii

DAFTAR TABEL

Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu ......................................................................... 19 Tabel 1.2. Tabel distribusi probabilitas lulusan ............................. 20 Tabel 1.3. Distribusi Binomial dengan n=10 dan =0.2,0.5,0.8 ....................................................................... 22 Tabel 1.4. Daftar penulisan distribusi dalam program R ............. 29 Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 ................................................................................. 38 Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:  0} banyaknya anggota S adalah tak terhingga. Variabel random X yaitu tinggi mahasiswa adalah X = {x | x >0} banyaknya anggota X adalah tak terhingga. 1.6. Fungsi Peluang Diskrit dan Fungsi Distribusi Suatu variabel random diskrit X

yang bernilai x1, x2,

mempunyai fungsi peluang P(x1), P(x2 ,

,xn.

, P xn). Bila X adalah

variabel random, maka fungsi distribusinya (fungsi distribusi kumulatif) didefinisikan sebagai FX(x) = P X x , untuk semua x

18

sehingga a. FX(x) kontinu dari kanan b. FX(X=-)=0 dan FX(X=)=1 Jika varibel random X telah diurutkan ( xi > xi-1) maka p(X=xi) = F(xi) – F(xi-1). Suatu fungsi P(x) disebut suatu fungsi peluang (distribusi peluang) jika dan hanya jika P x

untuk semua x dan



 P( x )  1 . i

i 0

Contoh 1.3 Bila sepasang dadu dilemparkan, maka ruang sampelnya adalah S ={

,

,

..,

}.

Variabel random X adalah jumlah bilangan pada muka yang tampak X={2,3,4,5,6,7,8,9,10,11,12}. Distribusi peluangnya dapat dituliskan dalam tabel berikut ; Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu X

2

3

4

5

6

7

8

9

10

11

12

P(X)

1/36

2/36

3/36

4/36

5/36

6/36

5/36

4/36

3/36

2/36

1/36

F(X)

1/36

3/36

6/36

10/36

15/36

21/36

26/36

30/36

33/36

35/36

36/36

Contoh 1.4 Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak lulus (G). Jika terdapat 3 calon maka ruang sampel nya S = {LLL, LLG, LGL, GLL, LGG, GLG, GGL, GGG}

19

S adalah ruang sampel yang merupakan himpunan semua kemungkinan kejadian (hasil). Variabel random X yaitu banyaknya calon yang lulus, maka X = {0, 1, 2, 3} P(X) adalah banyaknya X=x dalam ruang sampel dibagi banyaknya anggota keseluruhan ruang sampel. Distribusi peluangnya dapat dituliskan dalam tabel berikut Tabel 1.2. Tabel distribusi probabilitas lulusan X

0

1

2

3

P(X)

1/8

3/8

3/8

1/8

F(X)

1/8

4/8

7/8

8/8

Contoh 1.5 Mengukur berat tinggi badan calon mahasiswa baru, maka hasil pengukuran untuk seorang calon adalah S = {x | x > 0} banyaknya anggota S adalah tak terhingga Variabel random X yaitu tinggi mahasiswa X = {x | x >0} banyaknya anggota X adalah tak terhingga Peluang X=x adalah P(X=x) = 1/  0 1.7. Distribusi Khusus Terdapat tiga distribusi yang akan banyak dibahas disini yaitu distribusi binomial, multinomial dan Poisson.

20

1.7.1.

Distribusi Binomial Seringkali,

data kategori

diperoleh dari

pengamatan

sebanyak n yang saling independen dan identik yang mempunyai dua kemungkinan hasil yaitu sukses dan gagal. Jika hasil suatu pengamatan tidak berpengaruh terhadap hasil pada pengamatan lain maka dapat dikatakan n pengamatan saling independen. Yang dimaksud

dengan

pengamatan

identik

adalah

pengamatan

dilakukan pada kasus dan kondisi yang sama. Pada kejadian sukses dan gagal, pengamatan saling independen disebut Bernoulli trials. Misalkan π menyatakan probabilitas sukses dan X adalah banyaknya sukses dari n pengamatan. Dengan asumsi n pengamatan saling independen dan identik, Variabel random X mempunyai distribusi binomial dengan parameter π. Jadi, suatu percobaan atau pengamatan masuk kedalam distribusi binomial jika memiliki ciri-ciri a. Percobaan terdiri atas n ulangan b. ulangan-ulangan itu bersifat bebas satu sama lain c. dalam setiap ulangan hasilnya dapat digolongkan sebagai berhasil atau gagal d. peluang berhasil dilambangkan π dan untuk setiap ulangan adalah sama (tidak berubah-ubah) Sebaran peluang binom dapat nyatakan ke dalam rumus:

 n  x n x   (1   ) ; x  0, 1, ...., n P( x)   x  dengan 0    1 0 untuk x yang lainnya 

21

Contoh 1.6 Sebuah pertanyaan (kuis) yang terdiri dari 10 pilihan ganda yang masing-masing mempunyai 5 alternatif dan hanya satu plihan yang benar. X menyatakan banyaknya jawaban yang benar. Probabilitas jawaban benar untuk masing-masing pertanyaan adalah 0.20 maka n=10 dan π= 0. 0 Probabilitas semua jawaban salah (x=0 ) sama dengan

10  P( X  0)   0.20 (1  0.2)10 0  0.107 0  Probabilitas banyaknya jawaban yang benar kurang dari 7 (x q dihitung menggunakan fungsi qbinom(q,n,p) a. P(X=3|n=12,=0.9) = 1.6038e-07 > dbinom(3,12,0.9); [1] 1.6038e-07 b. P(X3|n=12,=0.9) =1.65835e-07 > pbinom(3,12,0.9); [1] 1.65835e-07 c. P(Xx|n=12,=0.9)>0.5 maka x=12 > qbinom(0.5,12,0.9); [1] 11

30

d. P(Xx|n=12,=0.5)>0.9 maka x=11 > qbinom(0.5,12,0.9); [1] 11 e. Dari contoh 1.7. P(X=x|n=10,=0.2) =0.1073742 > dbinom(0,10,0.2); [1] 0.1073742 P(X6|n=10,=0.2) > pbinom(6,10,0.2); [1] 0.9991356 Contoh 1.10 Variabel random X berdistribusi Poisson, X~Pois() : P(X=x) dihitung menggunakan fungsi dpois(x, ) P(Xx) dihitung menggunakan fungsi ppois(x, ) P(Xx)> q dihitung menggunakan fungsi qpois(q,) a. P(X=2|=4)= 0.1465251 > dpois(2,4); [1] 0.1465251 b. P(X2|=4)= 0.2381033 > ppois(2,4); [1] 0.2381033 c. P(Xx|=4)>0.5 maka x = 4 > qpois(0.5,4); [1] 4

31

Contoh 1.11 Variabel random X berdistribusi Normal, X~N(,2) : P(X=x) dihitung menggunakan fungsi dnorm(x,,) P(Xx) dihitung menggunakan fungsi pnorm(x,,) P(Xx)> q dihitung menggunakan fungsi qnorm(q,,) a. P(X=2|=1,=4)= 0.09666703 > dnorm(2,1,4); [1] 0.09666703 b. P(X pnorm(2,1,4); [1] 0.5987063 c. P(Xx|=1,=4)>0.5 maka x = 1 > qnorm(0.5,1,4); [1] 1 Sementara itu untuk distribusi multinomial dapat diperoleh dari library combinat yaitu menggunakan fungsi >dmnom(x,size,prob) dengan x berupa vektor, size adalah total pengamatan, prob adalah parameter probabilitas (i). Contoh 1.12 Pengamatan multinomial yang dapat dikategorikan menjadi 4 kelompok terhadap

objek. Diketahui π1= . , π2= . , π3=0.3 dan

π4=0.3. Hitung peluang dari diperoleh x1=1, x2=1,x3=4 dan x4=4. >library(combinat); >dmnom(c(1,1,4,4),10,c(0.2,0.2,0.3,0.3)); [1] 0.01653372

32

Pengamatan multinomial yang dapat dikategorikan menjadi 3 kelompok terhadap

objek. Diketahui π1= . , π2= . , π3=0.25.

Hitung peluang dari diperoleh x1=1, x2=5,x3=2 dan x4=1. >dmnom(c(5,2,1),8,c(0.5,0.25,0.25)); [1] 0.08203125

Untuk membangkitkan data yang berdistribusi multinomial dapat digunakan library multinomRob yaitu menggunakan fungsi rmultinomial(n, p, rows=max(c(length(n), nrow(p)))) rmultz2(n, p, draws=length(n))

Contoh 1.13 >library(multinomRob) >rmultz2(n=5, p= c(0.2,0.3, 0.5), draws=10); [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 2 0 0

1 0

2 1 1 1

2

[2,] 2 2 1 1 1 2 2 1 2

2

[3,] 1 3 4 3 4 1 2 3 2

1

1.10. Plot Data dan Grafik dalam R Penyajian data dilakukan dalam rangka memperjelas secara visual kondisi data yang bermanfaat dalam pengambilan kesimpulan baik secara deskriptif maupun inferensi. Banyak cara menyajikan data, seperti dalam tabel maupun gambar (diagram). Histogram dan Diagram batang adalah visualisasi data frekuensi yang seringa diguanakan. Diagram ini dicirikan dengan adanya sumbu datar dan sumbu tegak. Salah satu sumbu menjelaskan ferkuensi dan sumbu lain menerangkan kategori. Tinggi/panjang batang pada suatu tingkat kategori menyatakan frekuensi tingkat itu. Fungsi yang digunakan untuk membuat histogram adalah hist(x,...). x adalah data yang disajikan dalam vektor. 33

Contoh 1.14 > x=c(1,2,1,3,2,4,5,3,2,1,3,4,5,3,2,1,3,4,5,3,2,1); > hist(x); Dipeloleh gambar sebagai berikut :

3 0

1

2

Frequency

4

5

6

Histogram of x

1

2

3

4

5

x

Untuk membuat grafik maupun plot data dapat digunakan beberapa fungsi : plot, lines, abline, points, curve. a. plot(x) : plot data x (dalam vektor) berdasarkan urutan data b. plot(x,y) : plot data x terhadap y c. plot(fx,a,b) : plot fungsi fx pada interval a sampai dengan b. d. curve(fy,add=TRUE) : menyisipkan grafik dari fungsi fy pada kurva sebelumya Contoh 1.15 > x=c(1,2,4,5,6,7,12,17,19); > y=c(0,6,4,5,8,7,2,7,9); > plot(x)

34

> plot(x,y,xlab="nilai MX", ylab="nilai BX",type="l");

> fx fy plot(fx,-10,10)

35

> curve(fy,add=TRUE)

1.11. Inferensi untuk Parameter Proporsi () Dalam praktek, nilai parameter dalam distribusi binomial dan distribusi

multinomial

tidak

diketahui.

Estimasi

parameter

dilakukan menggunakan data sampel Salah satu metode yang

36

digunakan untuk mengestimasi parameter adalah Maximum Likelihood Estimator (MLE). Terdapat dua cara untuk inferensi parameter , yaitu metode eksak dan metode pendekatan distribusi normal. Metode eksak digunakan pada sampel kecil dan metode pendekatan distribusi normal digunakan ketika jumlah sampel besar. Dalam inferensi statistik, kita mengenal nilai  yang merupakan probabilitas kesalahan Tipe I yang

biasa disebut

dengan tingkat signifikansi. Untuk menguji hipotesis H0, peneliti menetapkan nilai  yang digunakan.

Nilai  terkecil sedemikian

hingga dapat menolak H0 disebut P-value. P-value dapat dihitung berdasarkan distribusi statistiknya. Pada distribusi probabilitas diskrit, penggunaaan P-value bersifat konservatif. Artinya, tidak dimungkinkan bagi P-value untuk mencapai nilai signifikansi yang diinginkan secara tepat. Sehingga probabilitas sesungguhnya dari kesalahan tipe I bernilai kurang dari 0.05. Sebagai contoh, dimisalkan pengujian H0:  =0.50 melawan H1 :  > 0.50 Dari 10 pengujian klinik diperoleh sukses sebanyak y=9. Kejadian ini mempunyai probabilitas P-value = P(Y=9) + P(Y=10) = 0.010 + 0.001 = 0.011. Oleh karena itu probabilitas mendapatkan nilai P-value sebesar 0.011 lebih kecil dari 0.05. Sementara itu tingkat signifikansi yang diinginkan adalah 0.05 dan probabilitas aktual kesalahan tipe I adalah 0.011. Oleh karena P-value berarti bahwa H0 akan ditolak. 37

.

pada y = 9 atau 10, hal ini

Tabel 1.3 menunjukkan distribusi binomial dengan n= 10 dan  =0.5, 0.2, 0.8. Tabel 1.5 menunjukkan korespondesi distribusi binomial terhadap nilai P-value (probabilitas sisi kanan) pada beberapa nilai Y. Untuk

statistik

uji

pada

distribusi

kontinu,

P-value

mempunyai distribusi uniform pada interval [0, 1]. Ketika H0 benar, P-value dapat bernilai antara 0 dan 1. Kita bisa menemukan nilai statistik uji sedemikian hingga nilai P-value sesuai dengan yang kita inginkan. Akan tetapi pada distribusi diskret, nilai hal itu tidak bisa dilakukan. Sebagai contoh untuk uji satu sisi, P-value = 1.000 ekuivalen dengan P(y=0) = 0.001, P-value = 0.999 ekuivalen dengan P(y=1) = 0.010, ... P-value = 0.001 ekuivalen dengan P(y=10) = 0.010. Lengkapnya disajikan pada Tabel 1.5 berikut: Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50 Y 0 1 2 3 4 5 6 7 8 9 10

P(y) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001

P-value 1.000 0.999 0.989 0.945 0.828 0.623 0.377 0.172 0.055 0.011 0.001 38

Mid P-value 1.000 0.994 0.967 0.887 0.726 0.500 0.274 0.113 0.033 0.006 0.001

Pada sample data diskret berukuran kecil, ahli statistika memilih menggunakan tipe lain dari P-value yang disebut sebagai Mid P-value. Nilai ini hanya diperoleh melalui penambahan separuh probabilitas dari hasil observasi kepada probabilitas dari hasil yang lebih ekstrim. Untuk mengilustrasikannya, sebagai contoh untuk y =9 pada n=10 pengulangan dengan hipotesis H1 π > . Maka nilai P–value adalah: P–value = P(9) + P(10) = 0.010 + 0.001 = 0.011. Nilai Mid P-value nya adalah: mid P-value = P(9)/2 + P(10) = 0.010/2 + 0.001 = 0.006. Tabel 1.5 juga menunjukkan mid P-values untuk berbagai niai y pada n = 10. Dengan menggunakan nilai mid P-values, H0 akan ditolak jika data sampel diperoleh y

, sebab nilai mid P-values

nya P(8)/2 + P(9) + P(10) =0.022+ 0.010 + 0.001 = 0.033. Sedangkan untuk nilai P-values, H0 akan ditolak jika data sampel diperoleh y

.

Selanjutnya untuk hopotesis H1: π < 0.50 Misalkan dengan n=10, dari data sample diperoleh y = 9, maka P-value = P(y=0) + P(y=1)+· · ·+P(y=9) = 0.999 Mid P-value = P(y=0) + P(y=1)+· · ·+ P(y=9)/2 = 0.994 Sehingga dapat disimpulkan bahwa H0 tidak ditolak.

39

Untuk berbagai nilai y, nilai P-values dan mid P-values pada n=10 disajikan pada Tabel 1.6. Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:  0.5 Diperoleh statistik uji 60 (  0.5) Z  100 2 0.5(1  0.5) 100

H0 ditolak jika Z > z . Jika digunakan

= 0.05 maka dari tabel

normal standar diperoleh z = z0.05 = 1.65. sehingga dapat disimpulkan bahwa H0 ditolak. 42

1.14. Interval Konfidensi Proporsi dengan Pendekatan Distribusi Normal. Interval konfidensi untuk parameter  dengan tingkat kepercayaan 100( − )% dengan menggunakan pendekatan sampel besar adalah

p(1  p) n

p  z / 2 .SE dengan SE  dengan z

/2

menyatakan persentil distribusi normal standar yang

mempunyai probabilitas sisi kanan sama dengan contoh untuk kepercayaan 95%, berarti

z

/2

/2. Sebagai

= 0.05,

= z0.025 = 1.96.

Sebagai contoh kejadian binomial dengan n=100 dan y=60. Interval konfidensi 95% untuk parameter  adalah

0.6  1.96.

0.6(1  0.6)  0.6  0.04899 100

atau dapat dinyatakan sebagai 0.55101 <  < 0.64899 Jika digunakan interval konfidensi 99% untuk parameter  adalah

0.6  2.576.

0.6(1  0.6)  0.6  0.126 100

atau dapat dinyatakan sebagai 0.474 <  < 0.726

43

Dengan konfidensi semakin besar (signifikansi semakin kecil), maka interval yang diperoleh juga semakin lebar. 1.15. Statistik Wald dan Statistik Rasio Likelihood Misalkan parameter yang akan diuji adalah

dengan

hipotesis H 0: 0

=

0

lawan H1:



0

adalah suatu konstanta yang diketahui nilainya. Statistik uji

yang paling sederhana adalah menggunakan pendekatan sampel besar (pendekatan normal). Ketika H0 benar, maka statistik Wald,

( ˆ   0 ) SE mendekati distribusi normal standar. ˆ adalah MLE dari z

parameter  dan

SE  var( ˆ ) . Sehingga z2 berdistribusi chi kuadrat dengan derajad bebas satu (df=1). Statistik z dinamakan statistik Wald. Cara lain untuk menguji hipotesis H0 adalah menggunakan fungsi likelihood, yaitu rasio likelihood. Statistik rasio likelihood adalah

 L0   2 log   L1  L0 adalah nilai fungsi likelihood pada kondisi H0 benar L0 = L(0)

44

L1 adalah nilai fungsi likelihood dari penaksir MLE ( ˆ ) . L1= L( ˆ ) Karena L( ˆ ) < L() untuk semua , maka L1 > L0

0

L(  0 ) 1 L( ˆ )

Statistik rasio likelihood berdistribusi Chi kuadrat dengan df=1. Jika  merupakan vektor, maka df-nya sama dengan banyaknya parameter yang diuji. Statistik uji yang lain adalah Score Test. Pada uji proporsi binomial

z

 0 (1   0 ) ( p  p0 ) dengan SE  n SE

mendekati distribusi normal standar. Sebagai contoh inferensi berdasarkan statistik Wald, Score dan rasio likelihood menggunakan contoh hipotesis H0: π = 0.50 vs H1: π  0.50 Dari n=10 terdapat 9 sukses, sehingga proporsi sampelnya p = 0.90. Untuk uji Wald :

SE 

0.9(1  0.9) 0.9  0.5  0.095 sehingga z   4.22 atau z2 = 10 0.095 (4.22)2 =17.8

45

Untuk uji Score :

SE 

0.50(1  0.50) 0.9  0.5  0.158 sehingga z   2.53 atau z2 = 10 0.158 (2.53)2 =6.4

Untuk uji rasio likelihood :

L0 

10! (0.5) 9 (0.5)1  0.00977 9!1!

dan

10! (0.9) 9 (0.1)1  0.3874 9!1!  L0   0.00977   2 log   2 log   2 log( 0.0252)  7.36  L1   0.3874  p=0.9 sehingga L1 

Dapat disimpulkan bahwa pada kasus ini (sampel kecil) statistik Wald adalah yang paling powerfull. Statistik rasio likelihood lebih powerfull pada kasus sampel besar. 1.16. Inferensi dan Interval Konfidensi Proporsi Menggunakan Program R Statistik Wald dapat diperoleh melalui fungsi binconf dalam library Hmisc dengan menu option dipilih method= asymptotic. >library(Hmisc, T) >binconf(x=3, n=25, method="asymptotic") PointEst Lower Upper 0.12

-0.007382581

0.2473826

Untuk mencari interval konfidensi yang didasarkan pada statistik Score dapat menggunakan fungsi prop.test.

46

>prop.test(x=3,n=25,conf.level=0.95,correct=F) 1-sample proportions test without continuity correction data: 3 out of 25, null probability 0.5 X-squared = 14.44, df = 1, p-value = 0.0001447 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.04166817 0.29955794 sample estimates: p 0.12

Selain itu

juga menggunakan fungsi binconf dalam library

Hmisc. Pada menu option, pilih method= wilson >library(Hmisc, T) >binconf(x=3, n=25, alpha=.05, method="wilson") PointEst Lower Upper 0.12 0.04166817 0.2995579

1.17. Interval Konfidensi Eksak Menggunakan Program R Terdapat beberapa fungsi yang dapat digunakan untuk menghitung interval konfidensi eksak. Jika diketahui banyaknya sukses kejadian binomial x=0 dari pengamatan n=25, maka interval konfidensinya dapat dihitung menggunakan perintah a. fungsi binom.test >binom.test(x=3, n=25, conf.level=.95) # R Exact binomial test data: 3 and 25 number of successes = 3, number of trials = 25, p-value = 0.0001565 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval:

47

0.0254654 0.3121903 sample estimates: probability of success 0.12

b. fungsi binconf dalam library Hmisc menggunakan metode exact. >library(Hmisc, T) >binconf(x =30, n = 25, alpha = .05, method = "exact") PointEst Lower Upper 0.12 0.0254654 0.3121903 c. Statistik Pearson’s Chi-Squared dapat diperoleh menggunakan fungsi chisq.test >chisq.test(x=c(6022,2001),p=c(.75,.25)) Chi-squared test for given probabilities data: c(6022, 2001) X-squared = 0.015, df = 1, p-value = 0.9025

1.18. Latihan 1.1 Pada contoh-contoh berikut, lakukan identifikasi variabel respon, variabel independen dan skala pengukuranya : a. Sikap terhadap undang undang pornografi (suka, tidak suka), gender (laki-laki, perempuan), pendidikan orang tua ( Sekolah menengah, perguruan tinggi). b. Penyakit jantung (ya, tidak), tekanan darah, kadar kolesterol. c. Pendidikan (SD, SLTA, Diploma, Sarjana), agama (Islam, katolik, yahudi, protestan), suara untuk pemilihan presiden

(Golkar, Demokrat, PDIP,PKS, PKB, PAN,

lainnya), pendapatan per tahun.

48

d. Status

pernikahan

(menikah,

belum

menikan,

janda/duda), kualitas hidup (sangat bagus, bagus, cukup, kurang). 1.2 Mana skala pengukuran berikut ini yang paling sesuai, nomial atau ordinal? a. Keikut sertaan dalam partai politik (Golkar, Demokrat, PDIP, lainnya) b. Pendidikan terakhir (tidak punya, sekolah menengah, sarjana, master, doktor) c. Kondisi pasien (bagus, cukup, serius, kritis) d. Minuman favorit ( bir, jus, susu, soft drink, anggur, lainnya) e. Berapa sering mengalami depresi (tidak pernah, kadangkadang, sering, selalu). 1.3 Terdapat 100 pertanyaan pilihan ganda, masing-masing soal terdapat 4 jawaban tetapi hanya satu jawaban yang benar. Untuk setiap pertanyaan, seorang siswa memilih satu jawaban a. Tentukanlah distribusi jumlah siswa memilih jawaban yang benar dalam ujian b. Berdasar nilai mean dan deviasi standar dari distribusi, apakah merupakan suatu yang menggembirakan jika siswa membuat paling sedikit 50 jawaban yang benar? Jelaskan alasannya. 1.4 Di sebuah kota, dari data kepolisian diketahui rata-rata banyaknya pencurian motor sebesar 4 kasus per bulan. Berapa peluangnya bahwa di kota tersebut pada bulan Januari akan terjadi pencurian motor sebanyak 49

a. kurang dari 3 kasus? b. tidak satupun kasus? 1.5 Misalkan, peluang seseorang yang terinfeksi virus flu burung akan meninggal sebesar 0,2. Berapa peluang dari 16 pasien yang terinfeksi akan terdapat lebih dari 14 pasien sembuh? 1.6 Pengamatan terhadap 20 pasien yang terinfeksi virus flu burung, terdapat 5 pasien meninggal dunia. Berdasarkan data tersebut akan dilakukan pengujian terhadap hipotesis yang menyatakan bahwa peluang sembuh terhadap infeksi virus flu burung lebih dari 75%. a. Hitung nilai P-value dan nilai mid P-value. b. Jika digunakan

= . , kesimpulanya apa?

c. Lakukan pengujian menggunakan statistik Wald, Score dan rasio likelihood. 1.7 Lakukan pengujian seperti soal 1.6, jika dari 150 terdapat 15 pasien meninggal dunia.

50

BAB II TABEL KONTIGENSI

Tabulasi merupakan salah satu teknik penyajian data agar mudah difahami dalam waktu singkat. Salah satu bentuk penyajian tabulasi adalah tabel kontigensi atau tabulasi silang. Tabel kontigensi adalah merupakan satu bentuk distribusi frekuensi untuk dua variabel atau lebih. Akan tetapi, tidak semua pengolah data (penganalisis) mengetahui dengan baik bagaimana menyajikan tabulasi yang cocok agar suatu laporan dapat berbobot. Apabila data yang dianalisis memuat dua variabel atau lebih kita dapat melakukan analisis hubungan antara variabel-variabel tersebut. Berbicara tentang hubungan (asosiasi) antara dua variabel atau lebih adalah membahas tentang ada tidaknya hubungan dan hubungan kausal serta pengaruh faktor interaksi antara variabel bebas terhadap variabel tak bebas.

Dalam analisis data, pada

umumnya peneliti cenderung akan memperhatikan sedemikian banyak variabel,

maka pendekatan

analisis asosiasi

untuk

multivariat, misalnya analisis tabulasi silang menjadi sangat penting. Pada dasarnya analisis hubungan dengan tabel tabulasi silang dapat dilakukan pada setiap data survey, dengan catatan semua variabel numerik (skala interval dan rasio) ditransformasi menjadi variabel kategorik, misalnya variabel Pasangan Usia Subur (15-49 tahun) diubah menjadi variabel kelompok 5 tahunan, yaitu : kelompok I (15-19), kelompok II (20-24), kelompok III (25-29) sampai dengan kelompok VII (45-49). 51

Sebuah tabel yang merupakan klasifikasi silang (cross classifies) dari dua variabel dinamakan tabel kontigensi dua arah. Masingmasing variabel menempati posisi baris dan kolom. Jika masingmasing variabel mempunyai level 2 maka akan diperoleh tabel 2x2. Jika satu variabel baris mempunyai level 5 dan variabel kolom mempunyai level 3 maka akan diperoleh

tabel 5x3. Kita mulai

pembahasan untuk tabel 2x2. 2.1. Tabel Kontigensi 2x2 Pada pengumpulan data sering dijumpai bahwa informasi yang berasal dari sampel mempunyai struktur yang paling sederhana, yaitu data diklasifikasikan atau dikategorikan dalam kelas-kelas, sehingga data berupa frekuensi dari kelas tertentu (Nugraha, 2003). Contoh dari data yang berupa dua klasifikasi adalah jenis kelamin (pria, wanita), agama (Islam, non Islam), kondisi produk (baik, cacat) dll. Tabel kontigensi 2x2 merupakan klasifikasi objek pengamatan berdasar dua variabel dan masing masing variabel mempunyai dua kategori. Tabel 2.1. merepresentasikan frekuensi terobservasi pada tabel kontigensi 2x2 untuk Variabel I (A) pada posisi baris dan Variabel II (B) pada posisi kolom. Tabel 2.1. Tabel kontigensi Faktor A dan Faktor B Variabel I (A) A1 A2 Total

Variabel II (B) B1 B2 n11 n12 n21 n22 no1 no2

52

Total n1o n2o N

Diasumsikan bahwa masing-masing objek memiliki salah satu sifat/klasifikasi A (A1 atau A2) dan salah satu sifat B (B1 atau B2). nij adalah banyaknya objek yang memiliki sifat Ai dan Bj untuk i,j=1,2. noj = n1j + n2j ; nio = ni1 + ni2 dan n = no1 + no2 = n1o + n20

Sebagai contoh data pengobatan sakit kepala dengan menggunakan obat aspirin dan placebo. Setelah pasien diberi obat, beberapa saat kemudian ditanyakan apakah masih merasakan sakit kepala atau tidak. Tabel 2.2. Penggunaan Aspirin terhadap sakit kepala Grup

2.1.1.

Sakit Kepala

Total

Ya

Tidak

Placebo

189

10845

11034

Aspirin

104

10933

11037

Total

293

21778

22071

Input Data dan Manipulasi Data dalam Program R Terdapat beberapa cara untuk memasukan data tabel

kontigensi dalam program R. 2.1.1.1. Tabel Dua Arah Sebagai Matrik Salah satu cara input data adalah menggunakan fungsi matrix (fungsi ini sama dengan fungsi array). Fungsi matrix dan fungsi array

dibahas pada Bab VII.

Sebagai contoh data

penggunaan aspirin, inputing data dapat dilakukan sebagai berikut: >MI dimnames(MI) names(dimnames(MI)) tot MI/tot Grup Placebo aspirin

Sakit Kepala Ya 0.008563273 0.004712066

Tidak 0.4913688 0.4953559

Untuk menghitung total baris (nio) dan total kolom (noj) dan total proporsi (poj dan pio) dapat digunakan fungsi apply. > > > >

rowtot prop.test(MI,correct=F) 2-sample test for equality of proportions without continuity correction data: MI X-squared = 25.0139, df = 1, p-value = 5.692e-07 alternative hypothesis: two.sided 95 percent confidence interval: 0.004687751 0.010724297 sample estimates: prop 1 0.01712887

Cara

pengujian

yang

prop 2 0.00942285

lain

dapat

dilakukan

dengan

mentransformasi data sebagai berikut > MI.test names(MI.test) [1] "statistic" "parameter" "p.value" "estimate" "null.value" [6] "conf.int" "alternative" "method" "data.name" > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > MI.test$conf.int 69

[1] 0.004597134 0.010814914 attr(,"conf.level") [1] 0.95 > round(MI.test$conf.int,3) [1] 0.005 0.011 attr(,"conf.level") [1] 0.95 > MI.test$estimate[1]/MI.test$estimate[2] % relative risk prop 1 1.817802

2.3. Menghitung RR dan OR Menggunakan Program R RR dan OR cukup mudah dihitung. Bermacam-macam langkah bisa dilakukan. Misalkan dari data Tabel 2.2, > MI.test$estimate prop 1 prop 2 0.01712887 0.00942285 > odds odds[1]/odds[2] prop 1 1.832054 > (MI[1,1]*MI[2,2])/(MI[2,1]*MI[1,2]) [1] 1.832054

Interval konfidensi untuk OR: > theta ASE logtheta.CI exp(logtheta.CI) [1] 1.440036 2.330790

2.4. Tabel Kontigensi bxk Dalam suatu penelitian, observasi terhadap obyek penelitian tidak hanya satu variabel akan tetapi lebih dari satu variabel. Jika 70

setiap obyek dilakukan observasi lebih dari satu variabel kategori, maka data hasil observasi dapat disajikan dalam bentuk tabel yang disebut

tabel

tabulasi

silang.

Misalkan

observasi

terhadap

karyawan perusahaan, variabel kategori yang dapat diobservasi adalah jenis kelamin, status perkawinan, pendidikan dan lain-lain. Pada Tabel tabulasi silang, jika dilakukan analisis lebih lanjut, akan diperoleh informasi tentang ada tidaknya keterkaitan antara variabel kategori satu dengan variabel kategori yang lain dengan menggunakan uji independensi. Bentuk tabel tabulasi silang dari suatu observasi adalah sebagai berikut : Tabel 2.9. Tabel kontigensi dua arah Kategori I 1 2

1 n11 n21

Kategori II 2 n12 n21

k n1L n2L

Total n1. n2.

B Total

nk1 n.1

nk1 n.2

n2L n.L

nk. N

Proporsi masing-masing sel disajikan dalam tabel 2.10. Tabel 2.10. Proporsi pada tabel kontigensi dua arah Kategori I 1 2

1 π11 π21

Kategori II 2 π12 π21

k π1k π2k

Total π1o π2o

B Total

πb1 Πo1

πb1 Πo2

πbk Πok

πbo 1

Contoh: Suatu survey tentang ketenagakerjaan ingin mengetahui apakah tingkat pendidikan (SMP, SMA, D3 dan S1) mempunyai hubungan dengan jenis pekerjaan (Adm, Penjualan, Operator,

71

Teknisi) yang diharapkan. Dari sampel sebanyak 200 pencari kerja, data hasil observasi dapat ditabelkan sebagai berikut : Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan dan jenis pekerjaan Pendidikan

Jenis Pekerjaan

Total

Adm.

Penjualan

Operator

Teknisi

SMP

5

6

7

22

40

SMA

6

10

30

14

60

D3

8

35

20

7

70

S1

24

4

2

0

30

Total

43

55

59

43

200

2.4.1.

Nilai Frekuensi Harapan Nilai frekuensi harapan dihitung berdasarkan asumsi

bahwa variabel baris (grup) dan variabel kolom

saling

independen atau proporsi sukses pada kedua grup adalah sama. Dengan asumsi independen, berarti distribusi bersama (joint distribution)

dapat

dihitung

menggunakan

distribusi

marginalnya. Probabilitas dua kejadian yang saling independen mempunyai sifat P(A & B) = P(A)*P(B). Dengan kata lain, Jika kategori I (baris) dan kategori II (kolom) saling bebas, maka nilai proporsi baris ke i kolom ke j (sel (i,j)) adalah perkalian proporsi baris ke i dengan proporsi kolom ke j atau ij =io x oj

72

 ij 

ni 0 n 0 j x n n

Nilai harapan dengan asumsi independen pada masingmasing sel dihitung mengunakan rumus

eij  n ij 

nio .noj n

eij adalah nilai harapan pada baris i dan kolom j atau sel (i,j). Misalkan dari data pada Tabel 2.2. nilai harapan pada baris pertama dan kolom pertama,

e11 

11034 x293  146.48 22071

Hasil selengkapnya disajikan pada Tabel 2.12. Tabel 2.12. Nilai Harapan penggunaan aspirin Grup

Sakit Kepala

Total

Ya

Tidak

Placebo

146.48

10887.52

11034

Aspirin

146.52

1089.48

11037

Total

293

21778

22071

Nilai harapan dari Tabel 2.11 adalah disajikan dalam Tabel 2.13 sebagai berikut :

73

Tabel 2.13. Frekuensi harapan klasifikansi karayawan menurut pendidikan dan jenis pekerjaan Pendidikan

Total

Jenis Pekerjaan Adm.

Penjualan

Operator

Teknisi

SMP

8.60

11.00

11.80

8.60

40

SMA

12.90

19.50

17.70

12.90

60

D3

15.05

19.25

20.65

15.05

70

S1

6.45

8.25

8.85

6.45

30

Total

43

55

59

43

200

2.4.2.

Chi-Kuadrat untuk Uji Independensi Tabel kontigensi dua arah secara umum disajikan dalam

tabel berikut Tabel 2.14. Tabel kontigensi bxk Faktor A dan Faktor B Faktor I

Faktor II

Jumlah

B1

B2

.....

Bk

A1

n11

n12

.....

n1k

n1o

A2

n21

n22

......

n1k

n2o

.

.....

.....

.....

.....

......

.

.....

.....

.....

.....

.....

Ab

nb1

nb2

nbk

nbo

Jumlah

no1

no2

nok

N

........

Berkaitan dengan tabel tersebut, kita ingin menguji apakah Faktor satu dan Faktor II saling independen yang dapat dihipotesiskan sebagai berikut :

74

H0 : Faktor I dan Faktor II independen H1 : Faktor I dan Faktor II tidak independen Penjelasan

hipotesis

statistik

dan

statistik

uji

akan

disampaikan pada pembahasan berikutnya. Dalam tabel kontigensi dua arah, Chi-Kuadrat dapat digunakan untuk menguji independensi dua variabel marginal. Uji Chi-Kuadrat sering dinamakan

goodness-of-fit test tetapi

sebenarnya yang diuji adalah badness-of-fit test, karena besarnya nilai Chi-Kuadrat mengindikasikan ketidak sesuaian antar frekuensi observasi (nij) dan frekuensi harapan (eij). Terdapat dua statistik Chi-Kuadrat yaitu Pearson Chi-Kuadrat (2) dan likelihood ratio Chi-Kuadrat (G2). 2.4.2.1. Statistik Chi-Kuadrat Pearson Statistik Pearson Chi-Kuadrat adalah b

k

   2

(nij   ij ) 2

i 1 j 1

 ij

nij adalah frekuensi observasi sel pada baris ke i dan kolom ke j. ij merupakan parameter dari rata rata frekuensi sel pada baris ke i dan kolom ke j. Statistik 2 digunakan untuk menguji H0 (variabel baris dan kolom saling independen), Statistik ini disampaikan pada tahun 1900 oleh Karl Pearson. Statistik ini mempunyai nilai minimum nol ketika nij = ij . Pada sampel terbatas, besarnya nilai selisih (nij − ij ) menghasilkan nilai 2 yang besar dan bertentangan dengan H0. Oleh karena itu nilai 2 yang besar mengindikasikan bahwa sampel tidak sesuai dengan H0. Pada sampel besar 2 75

mempunyai distribusi

mendekati distribusi Chi-Kuadrat dengan derajad bebas (b-1)(k1). Pendekatan ini akan baik jika ij semakin besar dan ij

.

Distribusi Chi-Kuadrat mempunyai mean sama dengan derajat bebasnya (df = degrees of freedom) dan variansinya sama dengan 2 kali df. Semakin besar df maka semakin mendekati distribusi normal. Sebagaimana dalam gambar berikut merupakan grafik distribusi Chi-Kuadrat pada df = 1, 5, 10, dan 20.

Grafik 2.1. Distribusi Chi-Kuadrat Grafik di atas dapat diperoleh menggunakan perintah >fxcurve(fx,0,40,type = "l",ylab="Probability Density")

76

>fx1curve(fx1,type = "l",add=TRUE)

>fx2curve(fx2,type = "l",add=TRUE)

77

0.10 0.05 0.00

Probability Density

0.15

>fx3curve(fx3,type = "l",add=TRUE)

0

10

20

30

40

x

2.4.2.2. Statistik Rasio Likelihood Uji rasio likelihood menentukan nilai parameter

yang

memaksimumkan fungsi likelihood dibawah asumsi H0 benar. Statistik ujinya merupakan logaritma dari rasio fungsi likelihood

78

b k  nij G 2  2 nij log  i 1 j 1  ij

   

Statistik uji ini mempunyai nilai non negatif dan berdistribusi Chi-Kuadrat

dengan derajad bebas (b-1)(k-1).

statistik likelihood-ratio Chi-Kuadrat

G2 disebut

yang bernilai besar

ketika H0 salah. G mempunyai nilai minimum nol ketika nij = 2

ij. Besarnya nilai G2 menandakan besarnya kecenderungan menolak H0. Ketika H0 benar dan ij besar, statistik 2 dan G2 mempunyai distribusi yang sama yaitu Chi-Kuadrat

dan

nilainyapun juga relatif sama. 2.4.2.3. Uji Independensi Dalam tabel kontigensi dua arah dengan probabilitas bersama ij , hipotesis nol untuk menguji independensi dua variabel (baris dan kolom) adalah H0 : ij = i00j untuk semua i dan j. Biasanya i0

dan 0j tidak diketahui, sehingga diestimasi

menggunakan data sampel.

eij  ˆ  npio poj  n

ni 0 n0 j ni 0 n0 j  n n n

Sehingga statistik uji untuk 2 dan G2 adalah .   2

b

k

 i 1 j 1

(nij  eij ) 2 eij

dan G 2  2

b

k

 n i 1 j 1

79

ij

 nij log e  ij

   

Kedua statistik ini mempunyai distribusi Chi-Kuadrat dengan derajad bebas sama dengan (b-1)(k-1). H0 ditolak pada tingkat sign  jika 2 > 2(:(b-1)(k-1)). Rumus di atas dapat disajikan dalam bentuk :

 1 n22 j nij2 1 1   .....     n10 nb 0 n0 j n0 j n2.. 

 2  N

nbj2

n

.0

  1  

Derajad bebas ini merupakan selisih banyaknya parameter dalam H0 dan H1. b

 i 1

i0

Pada variabel baris diketahui bahwa

 1 sehingga terdapat (b-1) dari i0 yang nilainya bebas

dipilih. Demikian juga pada variabel kolom diketahui bahwa k

 j 1

0j

 1 sehingga terdapat (k-1) dari i0 yang nilainya bebas

dipilih. Jadi dibawah H0 benar, terdapat parameter sebanyak ((b-1) + (k-1)). Pada hipotesis alternatif (H1) menyatakan variabel baris dan variabel kolom tidak independen. Dari sel b

sebanyak bk dan

k

  i 1 j 1

ij

 1 , terdapat derajad bebas (bk -1).

Derajad bebas adalah selisih banyaknya parameter dalam H0 dan H1 yaitu df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)

Pendekatan distribusi Normal Fisher dan Yates membuktikan bahwa jika derajat bebas cukup besar , (b-1)(k-1) > 30, ternyata bentu 80

2  2 mendekati

distribusi

normal

dengan

rataan

2(b  1)(k  1)  1 dan

simpangan baku 1. Oleh karena itu

2 2 -

Z=

2(b  1)(k  1)  1

Z berdistribusi normal standart. Pendekatan ini hanya dapat dipertanggung-jawabkan jika eij cukup besar. Jika eij harganya kecil-kecil maka dapat digunakan pendekatan lain (oleh Haldane), yaitu jika derajat babas cukup besar (lebih dari 30) dan harga eij kecil-kecil, maka statistik 2 mendekati distribusi normal dengan rata-rata



n(b  1)(k  1) n 1

sedangkan variansinya 2 

n2 2n 1  2 (n1  1 )(n2   2 )  n3 n 1

dengan

n1 

(b  1)(n  b) , n2  (b  1)(n  k ) (n  1) (n  1)

    1  n 1  k 2   n  b 2    n0 j ni 0 ,  1   2   (n  2) (n  2)

Selanjutnya pengujian dengan distribusi normal standar z

2  

Contoh : Akan diuji apakah jenis kelamin (Gender) berasosiasi dengan partai yang dianut (Demokrat, Agama, Republik). Dari

81

responden sebanyak 2757, dapat diklasifikasikan sebagai berikut Tabel 2.15. Data gender dan partai afiliasi Gender

Partai Demokrat Agama Wanita 762 327 (703.7) (319.6) Laki 484 239 (542.3) (246.4) Total 1246 566 Keterangan : frekuensi harapan

Republik Total 468 1557 (533.7) 477 1200 (411.3) 945 2757 dinyatakan dalam tanda

kurung. Dalam program R, untuk menghitung statistik Pearson s ChiKuadrat dapat digunakan fungsi chisq.test > gender dimnames(gender) chisq.test(gender) Pearson's Chi-squared test data: gender X-squared = 30.0701, df = 2, p-value = 2.954e-07

Dalam

beberapa

kasus,

nilai

P-value

dapat

didekati

menggunakan simulasi. > chisq.test(gender,simulate.p.value=TRUE,B=10000) Pearson's Chi-squared test with simulated p-value (based on 10000 replicates) data: gender X-squared = 30.0701, df = NA, p-value = 1e-04

82

2.5. Uji Eksak untuk Sampel Kecil Sejauh ini, interval konfidensi dan statistik uji yang dibahas didasarkan pada metode sampel besar. Statistik 2 maupun G2 sesuai untuk sampel besar. Ketika n kecil, lebih baik menggunakan distribusi eksak dibanding dengan pendekatan sampel besar. 2.5.1.

Uji Eksak Fisher’s untuk Tabel 2 × 2 Uji chi kuadrat merupakan uji pendekatan(bukan eksak).

Untuk uji eksak dikemukakan oleh Fisher. Didasarkan atas sampling tanpa pengembalian dari distribusi hipergeometrik. H 0 benar (kedua pengamatan independen), peluang komposisi pengamatan seperti Tabel 2.1 (dengan asumsi jumlah margin tetap ) adalah   n10  n20    n !n !n !n ! n11  n01  n11    10 20 02 01 P(n11 )  n11!n12!n21!n22!n! n     n01 

P-value merupakan jumlah semua nilai probabilitas P(n11) yang mendukung H1. Selanjutnya Ho ditolak jika P-value lebih kecil dari . Statistik uji ini disebut uji eksak Fisher s yang disampaikan oleh R. A. Fisher pada tahun 1934. Contoh Data Fisher Tea Fisher memberkan contoh percobaan sebagai berikut : Ketika minum teh dicampur milk, teman

Fisher di Rothamsted

Experiment Station dekat London disuruh menebak minuman apa yang dituang pertama kali dalam gelas, milk atau teh. Fisher membuat rancangan percobaan dengan delapan gelas, empat

83

diantaranya teh yang dituang duluan dan empat gelas yang lainnya adalah milk. Selanjutnya delapan gelas tersebut disajikan secara random dan diperoleh hasil dalam tabel berikut ini, Tabel . . Data Fisher Tea Dituang I

Dugaan

Total

Milk

Tea

Milk

3

1

4

Tea

1

3

4

Total

4

4

8

Distribusi untuk percobaan tersebut adalah hipergeometrik yang total margin pada baris pertama dan kedua masing-masing sama dengan 4. Nilai n11 yang mungkin adalah (0, 1,2, 3, 4). Berdasarkan Tabel 2.12, terdapat tiga pendugaan yang benar diantara empat gelas dengan milk yang dituang duluan. Probabilitas susunan tersebut sama dengan

 4  4  4! 4!    3 1 16  0.229 P(3)      3!1! 1!3!  8! 70 8    4!4!  4 Selanjutnya hanya terdapat satu susunan ekstrem yang mendukung hipotesis H1 yaitu jika dugaannya sama dengan n11 = n22 = 4 dan n12 = n21 = 0, dan probabilitasnya

84

 4  4     4 0 1 P(4)       0.014 70 8     4

Tabel

2.13 memberikan nilai probabilitas pada berbagai

nilai n11. P-value untuk H1 adalah P = P(3) + P(4) = 0.257. Dari hasil ini berarti dapat disimpulkan H0 tidak ditolak. Tabel 2.17. Probabilitas dan P-value data Fisher Tea n11

Probabilitas

P-Value

Exac

2

2

Chi

tabel 0

0.014

1.000

diterima

8.0

3.84

Ditolak

1

0.229

0.986

diterima

2.0

Diterima

2

0.514

0.757

diterima

0.0

Diterima

3

0.229

0.243

diterima

2.0

Diterima

4

0.014

0.014

ditolak

8.0

Ditolak

Jika H0 ditolak maka faktor baris dan kolom tidak independen yang dapat diartikan bahwa rasa minuman dipengaruhi oleh urutan/cara menuangkan. 2.5.2.

Program R untuk Uji Eksak Fisher’s Uji Eksak Fisher~s dalam program R dapat diakses melalui

fungsi fisher.test. > teh fisher.test(teh) Fisher's Exact Test for Count Data data: teh p-value = 0.4857 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval:

85

0.2117329 621.9337505 sample estimates: odds ratio 6.408309 > fisher.test(teh,alternative="greater") Fisher's Exact Test for Count Data data: teh p-value = 0.2429 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 0.3135693 Inf sample estimates: odds ratio 6.408309

Pengujian independensi dua faktor secara eksak dapat juga diimplementasikan pada tabel dua arah yang berukuran axb dengan menggunakan fungsi fisher.test tersebut. Pengujian ini merupakan generalisasi dari Fisher~s exact test pada tabel

x .

> library(ctest)

Dari contoh Tabel 2.10, pengujian eksak Fisher adalah sebagai berikut > fisher.test(gender) Fisher’s Exact Test for Count Data data: gendergap p-value = 0.03115 alternative hypothesis: two.sided

2.6. Ukuran Assosiasi Untuk mengetahui derajad faktor

keeratan hubungan antara dua

dapat digunakan beberapa ukuran asosisi berikut yang

didasarkan pada statistik Chi squred.

86

a. Koefisien kontigensi kuadrat tengah (2)

2 

2 n

, 0 < 2 < 

b. Koefisien kontigensi Pearson (P)

2 n ,0sum.arrayodds.ratio(sum.array(fit.array)) [1] 17.70244 >odds.ratio(sum.array(fit.array, perm=c(1,2,3))) [1] 25.13620 >odds.ratio(sum.array(fit.array, perm=c(2,1,3))) [1] 61.87182 >loglin(fitted(fitACM),margin=list(c(1,2),c(2,3), c(1,3)), param=T,fit=T) >options(contrasts=c("contr.treatment","contr.poly")) >fit.glmsum(resid(fit, type="pearson")^2) [1] 0.4011004

122

Statistik uji rasio Likelihood dapat diperoleh menggunakan fungsi summary untuk loglm dan glm. Sedangkan fungsi print untuk loglin. >summary(fitAC.AM.CM) Formula: count ~ alkohol + rokok + film + alkohol: rokok + alkohol:film + rokok:film Statistics: X^2 df P(> X^2) Likelihood Ratio 0.3742223 1 0.5407117 Pearson 0.4011002 1 0.5265216

Membandingkan model menggunakan fungsi anova. >anova(fitAC.M, fitAC.AM.CM, fitAM.CM, fitA.C.M) LR tests for hierarchical log-linear models Model 1: count ~ rokok + alkohol + film Model 2: count ~ rokok + alkohol + film Model 3: count ~ rokok + alkohol + film Model 4: count ~ rokok + alkohol + film Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 843.8266437 3 Model 2 843.8266437 3 0.0000000 0 0.00000 Model 3 187.7543029 2 656.0723408 1 0.00000 Model 4 0.3739859 1 187.3803170 1 0.00000 Saturated 0.0000000 0 0.3739859 1 0.54084 >fit.glm2 summary(fit.glm2, cor = F) Coefficients: Value Std. Error t value (Intercept) 5.633420 0.05970077 94.360930 film -5.309042 0.47506865 -11.175316 rokok -1.886669 0.16269584 -11.596294 alkohol 0.487719 0.07576708 6.437083 film: rokok 2.847889 0.16383796 17.382353 film:alkohol2.986014 0.46454749 6.427791 rokok:alkohol 2.054534 0.17406289 11.803401

123

(Dispersion Parameter for Poisson family taken to be 1) Null Deviance: 2851.461 on 7 degrees of freedom Residual Deviance: 0.3739859 on 1 degrees of freedom Number of Fisher Scoring Iterations: 3

Untuk loglm, estimasi parameter menggunakan fungsi model.matrix >options(contrasts=c("contr.treatment","contr.poly")) >Xsqrt(diag(solve(t(X)%*%diag(c(fitAC.AM.CM$fitted))%*%X))) (Intercept) 0.05970110 film1

alkohol1

rokok1

0.47519394

0.16269591

alkohol1: rokok1

0.07576733 0.16383935

alkohol1:film1 rokok1:film1 0.46467452

0.17406330 >table.napsatable.kecelakaanlibrary(MASS) >fitG.I.L.SfitGI.GL.GS.IL.IS.LSfitGIL.GIS.GLS.ILSanova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS, fitGIL.GIS.GLS.ILS) LR tests for hierarchical log-linear models Model 1: count ~ belt + location + gender + injury Model 2: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury Model 3: count ~ belt + location + gender + injury + belt:location + belt:gender + belt:injury + location:gender + location:injury + gender:injury + belt:location:gender + belt:location:injury + belt:gender:injury + location:gender:injury Deviance df Delta(Dev) Delta(df) P(> Delta(Dev) Model 1 2792.76245 11 Model 2 23.35137 5 2769.41113 6 0.00000 Model 3 1.32489 1 22.02648 4 0.00020 Saturated 0.00000 0 1.32489 1 0.24972 >fitGI.IL.IS.GLS X^2) Likelihood Ratio 7.462791 4 0.1133613 Pearson 7.487374 4 0.1122673 >fitted(fitGI.IL.IS.GLS) >fit.arrayodds.ratioapply(fit.array,c(1,4),odds.ratio)) injury belt Tidak Ya Tidak 1.326766 1.326766 Ya 1.166682 1.166682 >apply(fit.array,c(2,4),odds.ratio) injury location Tidak Ya

125

Urban 0.6614758 0.6614758 Rural 0.5816641 0.5816641 >apply(fit.array,c(3,4),odds.ratio) injury gender Tidak Ya Wanita 1.170603 1.170603 Laki 1.029362 1.029362 >apply(fit.array,c(1,2),odds.ratio) Urban Rural Tidak 0.5799410 0.5799411 Ya 0.5799411 0.5799412 >apply(fit.array,c(1,3),odds.ratio) Wanita Laki Tidak 2.134127 2.134127 Ya 2.134127 2.134127 >apply(fit.array,c(2,3),odds.ratio) Wanita Laki Urban 0.4417123 0.4417123 Rural 0.4417122 0.4417123

Untuk menghitung dissimilarity matrix menggunakan perintah >Fitted.values sum(abs(table.kecelakaan $count - Fitted.values))/(2* sum(table.kecelakaan $count)) [1] 0.002507361

3.7. Soal Latihan 1. Hasil survei tentang tingkat kepuasan kondisi tempat tinggal (tower block, apartemen dan rumah). Tingkat kepuasan diukur berdasarkan derajat kontak mereka dengan penghuni lainnya. Data dikelompokkan berdasarkan tipe rumah seperti yang dicantumkan pada Tabel 3.9.

126

Tabel 3.9. Hasil Surver kepuasan tempat tinggal Derajad

Tingkat Kepuasan

Kontak

Rendah

Sedang

Tinggi

Rendah

Tinggi

Rendah

Rendah

Rendah

Tinggi

62

30

50

48

101

101

Apartemen

135

140

75

115

112

198

Rumah

62

132

47

107

60

105

Tower Block

Tingkat kepuasan terdiri atas tiga level, yaitu rendah, sedang, dan tinggi; derajat kontak terdiri atas dua level yaitu rendah dan tinggi; sedangkan tipe rumah terdiri atas tiga kategori yaitu tower block, apartment. dan rumah. Lakukan analisis untuk mengetahui apakan ketiga variabel yaitu derajad kontak, jenis tempat tinggal dan tingkat kepuasan saling berhubungan. 2. Penelitian dilakukan terhadap pelajar SLTA. Survei berkaitan dengan strata sosial, pendidikan orang tua dan rencana studi lanjut. Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA Strata sosial

Pendidikan orang tua

Pra Sejahtera Sejahtera 1 Sejahtera 2

Rencana studi lanjut Tidak

Ya

Rendah

749

35

Tinggi

233

133

Rendah

627

38

Tinggi

330

303

Rendah

420

37

Tinggi

374

467

Berdasarkan data tersebut, lakukan analisis bagaimana pola hubungan ketiga variabel.

127

128

BAB IV REGRESI LOGISTIK

Pada bab ini akan dibahas pemodelan statistik untuk variabel respon berupa data biner, yaitu respons untuk masing-masing subjek dapat dinyatakan sebagai sukses dan gagal. Model untuk data biner ini lebih dikenal dengan nama regresi logistik. 4.1. Distribusi Binomial dan Regresi Logistik Misalkan variabel yi adalah variabel respon berupa data biner (bernilai nol atau satu)

1 jika " sukses" pada subjek ke - i yi   0 jika " gagal" pada subjek ke - i dengan yi merupakan realisasi dari variabel random Yi. Probabilitas Yi dapat dinyatakan sebagai P(Yi=1) = i dan P(Yi=1) = (1-i) Distribusi Yi merupakan distribusi Bernoulli dengan parameter i dan dapat dituliskan dalam bentuk

P(Yi  yi )   iyi (1   i )1 yi untuk yi = 0, 1. Nilai harapan dan variansi Yi masing-masing adalah E(Yi) = i = i dan Var(Yi) = i(1-i) Nampak jelas bahwa mean dan variansinya tergantung pada i. Dalam analisis regresi, parameter i nilai dipengaruhi oleh variabel X yaitu i = i(Xi). 129

Variabel Xi disebut variabel independen (prediktor) pada subjek ke-i. Oleh karena mean dan variansi tergantung pada nilai i maka

model linear tidak dapat digunakan. Model linear

mengasumsikan bahwa prediktor mempengaruhi mean pada variansi tetap (sama). Kondisi ini tidak dipenuhi pada respon data biner. Misalkan

variabel

X

merupakan

faktor

yang

dapat

diklasifikasikan ke dalam k grup, i=1,....,k. Akan dianalisis pengaruh faktor X terhadap nilai i. Individu/subjek yang terletak dalam satu grup mempunyai nilai X yang sama. ni menyatakan banyaknya observasi dalam grup i dan yi menyatakan banyaknya sukses dalam grup i, sehingga yi=0,1,...,ni. Jika ni observasi dalam masing-masing

grup

adalah

independen

dan

mempunyai

probabilitas }sukses i, maka Yi berdistribusi binomial.

 ni  P(Yi  yi )    iyi (1   i ) ni  yi  yi  Mean dan variansi Yi adalah E(Yi) = i = nii dan Var(Yi) = nii(1-i) Distribusi binomial merupakan generalisasi dari distribusi Bernoulli. Jika ni= 1 maka distribusi binomial akan menjadi distribusi Bernoulli. 4.2. Model

Regresi

Logistik

dengan

Variabel

Independen

Tunggal Berdasarkan data bivariat (X, Y) dimana X variabel prediktor dan Y variabel respon biner, π x menyatakan probabilitas sukses pada nilai x sehingga π x merupakan parameter dalam distribusi

130

binomial. dengan demikian kita akan berbicara tentang peluang Y=1 yang tergantung pada variabel tak bebas X. Regresi logistik dapat didefinisikan sebagai sebuah fungsi

 ( x) 

exp(  0  1 x) 1  exp(  0  1 x)

Logit dari probabilitas ini merupakan fungsi linear,

  ( x)    0  1 x log it[ ( x)]  log  1   ( x)  Transformasi logit merupakan logaritma natural dari nilai odds. Dari persamaan ini, regresi logistik mengindikasikan bahwa a. untuk

>0, kenaikan satu satuan x pengaruhnya terhadap

1

kenaikan nilai logit. Jika x maka π(x)1 dan Jika x- maka π(x)0 b. untuk

0 dapat

digambarkan sebagai berikut

Gambar 4.1. Grafik  terhadap X Pada regresi logistik dengan parameter

, gradien (slope) garis

1

singgung kurva sama dengan π(x)

− π(x)].

1

Misalnya pada π(x) = 0.50 mempunyai slope 1

(0.50)(0.50) = 0.25

Sebaliknya pada π x = 0.90 atau π x = 0.10, mempunyai slope 0.09 1

. Slopenya mendekati nol ketika π x mendekati satu atau nol.

π x = 0.50 terjadi pada x = −

/

0

1

. Nilai x ini biasanya disebut

median effective level (dinotasikan dengan EL50) yang menyatakan probabilitas sukses sama dengan probabilitas gagal.

132

4.3. Model Regresi Logistik dengan Variabel Independen Banyak Regresi Logistik adalah regresi yang menggunakan dua nilai yang berbeda untuk menyatakan variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Fungsi distribusi yang digunakan adalah distribusi logistik dengan notasi

(X) untuk

menyatakan mean bersyarat dari Y jika diberikan vektor kovariate X = (x1,x2,

xp)T. Model regresi logistiknya adalah

exp(X Tβ) dengan XT= 0+ x11 + 1  exp(X Tβ)

(X) =  = (0,1,

. + xpp

., p)T adalah vektor parameter. Didefinisikan suatu

transformasi logit (X) yaitu : g(X) = log

π(X) = XT 1  π(X)

sehingga g(X) linear dalam parameter . 4.4. Maximum Likelihood Estimator untuk Regresi Logistik Misalkan suatu sampel terdiri n observasi dari pasangan (Xi,yi), i= ,

,n. Model regresi logistik (Xi) =

exp(X iTβ ) 1  exp(X iTβ )

Untuk menentukan model regresi, harga  ditaksir lebih dahulu dengan menggunakan Metode Kemungkinan Maksimum. log likelihood n

log L(  )   yi log(  i )  (ni  yi ) log(1   i ) i 1

133

Fungsi

Dari fungsi log likelihood ini dicari derivarif pertama dan derivarif kedua. Penaksir parameter  merupakan nilai  yang memaksimumkan fungsi log likelihood pada data sampel (X, Y). Nilai maksimum dicapat dengan syarat  log L(  ) 0  dan

 2 log L(  ) H ( )   T matrik H()

disebut matrik Hessian yang

merupakan matrik

definet negatif. Berdasarkan kondisi derivatif pertama, penaksir parameter  menggunakan

metode

kemungkinan

maksimum

adalah

penyelesaian dari persamaan n



p

[yi - (Xi)] = 0 dan



xij [yi - (Xi)] = 0

j  0 i 1

i 1

untuk j = ,

n

.,p.

Derivatif kedua fungsi log likelihood terhadap semua parameternya

disebut matrik Hessian (H) yang mempunyai

elemen n  2 log L(  ) xij2 i (1   i )    2  j i 1

dan n  2 log L(  )   xij xiu  i (1   i )  j  u i 1

134

Misalkan

 1 x11 ... x1 p  1 x ... x 2 p  21  X  ... ... ...     1 x n1 ... x np  dan matrik V adalah

0 ... 0 ˆ1 (1  ˆ1 )    0 0 ˆ 2 (1  ˆ 2 ) ...   V   ... ... ...   0 0 ... ˆ n (1  ˆ n ) 

ˆ i   i (ˆ ) I (ˆ )  X T VX   H (ˆ ) I ( ˆ ) disebut matrik informasi atau biasa disebut informasi Fisher dan

 

1 Var ( ˆ )  I ( ˆ )

Var ( ˆ j ) adalah elemen diagonal ke-j (baris ke-j dan kolom ke-j) dari Var ( ˆ ) . Nilai penaksir  dengan menggunakan metode Newton-Rapson pada langkah ke-t adalah



(t+1) = (t) +  H (  dengan  i(t ) =

exp(X iTβ (t) ) ,i= , 1  exp(X iTβ (t) )

135

(t )



1

) [y -(t)] ,n

4.5. Inferensi Regresi Logistik Kita telah mempelajari bagaimana regresi logistik membantu meggambarkan efek dari prediktor pada variabel respon biner. Parameter dalam model logistik dapat diestimasi menggunakan metode

Maximum

Likelihood

Estimator

(MLE).

Selanjutnya

berdasarkan sifat-sifat penaksir MLE dapat digunakan untuk melakukan inferensi parameternya. 4.5.1. Interval Konfidensi Jika jumlah sampelnya besar maka interval konfidensi dari

j

dalam model regresi logistik logit[(x)] = 0+ x11 +

. + xp p

adalah

ˆ j  z / 2 Var ( ˆ j ) untuk j=0,1,...,p 4.5.2. Uji Signifikansi Untuk menguji hipotesis H0:

j

=0

pada sampel besar dapat digunakan statistika uji

z

ˆ j var( ˆ j )

Statistik z beridistribusi normal standar.

  ˆ j   2 z    var( ˆ j )   

2

Statistik z2 beridistribusi Chi-Kuadrat dengan df=1. Statistik z ini disebut statistik uji Wald. 136

Meskipun statistik uji Wald ini cocok untuk sampel besar, akan tetapi

masih lebih powerfull

uji likelihood-ratio. uji

likelihood-ratio lebih reliabel dan sering digunakan dalam praktek. 4.5.3. Uji Kecocokan Model Andaikan kita ingin menguji apakah model sesuai/cocok dengan data dan kita ingin menguji seberapa besar kesesuaian tersebut maka dapat digunakan ukuran devians. Statistik devians (D) mengukur ketidaksesuaian antara nilai obeservasi dan nilai yang diprediksi oleh model.

  n  niˆi   n ˆ   D  2  y i log i i   (ni  yi ) log i y n y  i 1  i   i  i  k

atau k   n  yi   y   D  2  y i log i   (ni  yi ) log i ˆ ˆ    n n n i 1  i i i i i    

Statistik D berdistribusi Chi Kuadrat. Secara lebih umum, misalkan variabel prediktor (X) dipisahkan menjadi dua kelompok

 1 

X= (X1, X2) dan      2  Vektor  1 terdiri dari p1 parameter dan vektor 2 terdiri dari p2 parameter. Selanjutnya akan diuji hipotesis H0 :  2 = 0 lawan H0 :  2  0

137

Hipotesis nol (H0) menyatakan bahwa variabel prediktor dalam kelompok dua (X2) tidak mempengaruhi respon Y. Hal ini identik dengan menguji signifikansi parameter  2. Misalkan D( 1) menyatakan nilai devians pada model yang memasukkan variabel X1 dan D() menyatakan nilai devians pada model yang memasukkan variabel X = (X1,X2). Selanjutnya selisih dua nilai devians itu, yaitu

 L( 1 )    L(  ) 

2 2 = D( 1) – D() atau   2 Log 

berdistribusi Chi Kuadrat dengan df=p2 (untuk sampel besar). p2 merupakan selisih banyaknya parameter dalam D( 1) dan D(). 4.5.4. Contoh Data Table 4.1 adalah hasil penelitian mengenai sarang kepiting horseshoe (J. Brockmann, Ethology, 102: 1–21, 1996). Setiap kepiting betina terdapat kepitang jantan yang berada di sekeliling sarangya. Penelitian ini

mempelajari faktor-faktor

yang mempengaruhi banyaknya keping jantan yang berada disekeliling kepiting betina. Kepiting-kepiting jantan ini disebut dengan satellites, karena berada disekitar sarang betina. Pada data

tersebut

mempunyai

empat

prediktor

(variabel

independen) yaitu warna cangkang (empat warna), konsisi punggung (tiga kondisi), berat cangkang, dan lebar cangkang.

138

Tabel 4.1. Data Kepiting Ladam Kuda betina Color

Spine

Width

Sate-

Weight

Color

Spine

Width

Sate-

Weight

(C)

(S)

(W)

lite

(Wt)

(C)

(S)

(W)

lite

(Wt)

(Sa)

(Sa)

3

3

28.3

8

3050

3

3

26.5

4

2300

4

3

22.5

0

1550

3

3

27.8

3

3250

2

1

26.0

9

2300

3

3

27.0

6

2500

4

3

24.8

0

2100

4

3

25.7

0

2100

4

3

26.0

4

2600

3

3

25.0

2

2100

3

3

23.8

0

2100

3

3

31.9

2

3325

2

1

26.5

0

2350

5

3

23.7

0

1800

4

2

24.7

0

1900

5

3

29.3

12

3225

3

1

23.7

0

1950

4

3

22.0

0

1400

4

3

25.6

0

2150

3

3

25.0

5

2400

4

3

24.3

0

2150

4

3

27.0

6

2500

3

3

25.8

0

2650

4

3

23.8

6

1800

3

3

28.2

11

3050

2

1

30.2

2

3275

5

2

21.0

0

1850

4

3

26.2

0

2225

3

1

26.0

14

2300

3

3

24.2

2

1650

2

1

27.1

8

2950

3

3

27.4

3

2900

3

3

25.2

1

2000

3

2

25.4

0

2300

3

3

29.0

1

3000

4

3

28.4

3

3200

5

3

24.7

0

2200

5

3

22.5

4

1475

3

3

27.4

5

2700

3

3

26.2

2

2025

3

2

23.2

4

1950

3

1

24.9

6

2300

2

2

25.0

3

2300

2

2

24.5

6

1950

3

1

22.5

1

1600

3

3

25.1

0

1800

4

3

26.7

2

2600

3

1

28.0

4

2900

5

3

25.8

3

2000

5

3

25.8

10

2250

5

3

26.2

0

1300

3

3

27.9

7

3050

3

3

28.7

3

3150

3

3

24.9

0

2200

3

1

26.8

5

2700

3

1

28.4

5

3100

5

3

27.5

0

2600

4

3

27.2

5

2400

3

3

24.9

0

2100

3

2

25.0

6

2250

2

1

29.3

4

3200

3

3

27.5

6

2625

2

3

25.8

0

2600

3

1

33.5

7

5200

3

2

25.7

0

2000

3

3

30.5

3

3325

139

Color

Spine

Width

Sate-

Weight

Color

Spine

Width

Sate-

Weight

(C)

(S)

(W)

lite

(Wt)

(C)

(S)

(W)

lite

(Wt)

(Sa)

(Sa)

3

1

25.7

8

2000

4

3

29.0

3

2925

3

1

26.7

5

2700

3

1

24.3

0

2000

5

3

23.7

0

1850

3

3

25.8

0

2400

3

3

26.8

0

2650

5

3

25.0

8

2100

3

3

27.5

6

3150

3

1

31.7

4

3725

5

3

23.4

0

1900

3

3

29.5

4

3025

3

3

27.9

6

2800

4

3

24.0

10

1900

4

3

27.5

3

3100

3

3

30.0

9

3000

2

1

26.1

5

2800

3

3

27.6

4

2850

2

1

27.7

6

2500

3

3

26.2

0

2300

3

1

30.0

5

3300

3

1

23.1

0

2000

4

1

28.5

9

3250

3

1

22.9

0

1600

4

3

28.9

4

2800

5

3

24.5

0

1900

3

3

28.2

6

2600

3

3

24.7

4

1950

3

3

25.0

4

2100

3

3

28.3

0

3200

3

3

28.5

3

3000

3

3

23.9

2

1850

3

1

30.3

3

3600

4

3

23.8

0

1800

5

3

24.7

5

2100

4

2

29.8

4

3500

3

3

27.7

5

2900

3

3

26.5

4

2350

2

1

27.4

6

2700

3

3

26.0

3

2275

3

3

22.9

4

1600

3

3

28.2

8

3050

3

1

25.7

5

2000

5

3

25.7

0

2150

3

3

28.3

15

3000

3

3

26.5

7

2750

3

3

27.2

3

2700

3

3

25.8

0

2200

4

3

26.2

3

2300

4

3

24.1

0

1800

3

1

27.8

0

2750

4

3

26.2

2

2175

5

3

25.5

0

2250

4

3

26.1

3

2750

4

3

27.1

0

2550

4

3

29.0

4

3275

4

3

24.5

5

2050

2

1

28.0

0

2625

4

1

27.0

3

2450

5

3

27.0

0

2625

3

3

26.0

5

2150

3

2

24.5

0

2000

3

3

28.0

1

2800

3

1

26.8

0

2550

3

3

30.0

8

3050

5

3

26.7

0

2450

3

3

29.0

10

3200

3

1

28.7

0

3200

140

Color

Spine

Width

Sate-

Weight

Color

Spine

Width

Sate-

Weight

(C)

(S)

(W)

lite

(Wt)

(C)

(S)

(W)

lite

(Wt)

(Sa)

(Sa)

3

3

26.2

0

2400

4

3

23.1

0

1550

3

1

26.5

0

1300

3

1

29.0

1

2800

3

3

26.2

3

2400

4

3

25.5

0

2250

4

3

25.6

7

2800

4

3

26.5

1

1967

4

3

23.0

1

1650

4

3

24.5

1

2200

4

3

23.0

0

1800

4

3

28.5

1

3000

3

3

25.4

6

2250

3

3

28.2

1

2867

4

3

24.2

0

1900

3

3

24.5

1

1600

3

2

22.9

0

1600

3

3

27.5

1

2550

4

2

26.0

3

2200

3

2

24.7

4

2550

3

3

25.4

4

2250

3

1

25.2

1

2000

4

3

25.7

0

1200

4

3

27.3

1

2900

3

3

25.1

5

2100

3

3

26.3

1

2400

4

2

24.5

0

2250

3

3

29.0

1

3100

5

3

27.5

0

2900

3

3

25.3

2

1900

4

3

23.1

0

1650

3

3

28.5

0

3050

4

1

25.9

4

2550

5

1

25.5

0

2750

3

3

25.8

0

2300

5

3

23.5

0

1900

5

3

27.0

3

2250

3

2

24.0

0

1700

3

1

29.7

5

3850

Keterangan : C

: variabel warna cangkang (1: medium light, 2: medium,3: medium dark, 4: dark.

S

: variabel kondisi punggung

W

: lebar cangkang dalam cm

Wt

: berat cangkang dalam kg

Sa

: banyaknya satelite

Dalam contoh ini, yang kita bahas adalah lebar cangkang. Berdasarkan lebar cangkangnya dapat dikelompokan menjadi beberapa kategori,

. ,

. 141

–24.25, 24.25–25.25, 25.25–26.25,

26.25–27.25, 27.25–28.25, 28.25–29.25, >30.25). Tabel frekuensinya adalah sebagai berikut Tabel 4.2. Rata-rata banyaknya satelite W 29.25

banyaknya kasus 14 14 28 39 22 24 18 14

banyaknya satelite 14 20 67 105 63 93 71 72

rata-rata

variansi

1.00 1.43 2.39 2.69 2.86 3.87 3.94 5.14

2.77 8.88 6.54 11.38 6.88 8.81 16.88 8.29

Berdasarkan data Tabel 4.2, dapat disusun model

dalam

bentuk probilititas linear (w) = 0 + w (w) menyatakan probabilitas bahwa kepiting betina dengan lebar cangkang w mempunyai sebuah satelit. Menggunakan fungsi Generalized Linear Model (GLM) pada program R dengan asumsi distribusi normal diperoleh model regresi

ˆ (w)  1.766  0.092w Probabilitas meningkat sebesar 0.092 setiap peningkatan 1 cm W. Model regresi ini tidak menjamin bahwa ˆ ( w) bernilai antara nol dan satu. Model ini hanya belaku untuk 19.2 dengkur.lg dengkur.lg Call: glm(formula = sakit/n ~ dengkur, family = binomial(), data=dengkur,weights = n) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06

Cara lain untuk menggunakan fungsi GLM, adalah dengan menambah kolom yang menginformasikan banyaknya sukses (YN.1) dan banyaknya gagal (YN2). Sehingga diperoleh data framenya menjadi : > ngorok$YN ngorok dengkur sakit n YN.1 YN.2 1 0 24 1379 24 1355 2 2 35 638 35 603 3 4 21 213 21 192 4 5 30 254 30 224 > dengkur.lg dengkur.lg Call: glm(formula = YN ~ dengkur, family = binomial(), data = ngorok) Coefficients: (Intercept) dengkur -3.8662 0.3973 Degrees of Freedom: 3 Total (i.e. Null); 2 Residual Null Deviance: 65.9 Residual Deviance: 2.809 AIC: 27.06

Contoh berikutnya adalah berdasar data pada Tabel 3.1. > load("D:\\kepiting.RData") > names(crabs) [1] "C" "S" "W" "Y" "Wt"

155

> crabs crabs$psat 0

Model regresi logistik menggunakan fungsi glm

dengan

variabel independen weight. > crabs.lg.1 summary(crabs.lg.1) Call: glm(formula = psat ˜ weight, family = binomial(), data = crabs) Deviance Residuals: Min 1Q Median 3Q Max -2.1108 -1.0749 0.5426 0.9122 1.6285 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.6946338 0.8779167 -4.208 2.57e-05 *** weight 0.0018151 0.0003755 4.833 1.34e-06 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 225.76 on 172 degrees of freedom Residual deviance: 195.74 on 171 degrees of freedom AIC: 199.74

Untuk membandingkan model yang memuat variabel Wt (dalam H1) dan variabel yang hanya memuat intersep (dalam H0) kita dapat menggunakan statistik Wald diatas dengan z = 4.833 dan P-value < 0.0001, atau menggunakan statistik rasio likelihood. > crabs.lg.0 anova(crabs.lg.0,crabs.lg.1,test="Chisq")

156

Analysis of Deviance Table Model 1: psat ~ 1 Model 2: psat ~ Wt Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 172 225.76 2 171 195.74 1 30.021 4.273e-08 *** --Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05 ‘.’0.1‘ ’ 1 > anova(crabs.lg.1,test="Chisq") Analysis of Deviance Table Model: binomial, link: logit Response: psat Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 172 225.76 Wt 1 30.021 171 195.74 4.273e-08 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

4.9. Model Logistik pada Respon Multi Kategori Model Regresi Logistik digunakan untuk menggambarkan hubungan antara variabel independen/prediktor dengan variabel dependen/respon yang berupa data biner/dikotomi. Variabel responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses). Pengembangan atas regresi logistik biner adalah regresi logistik multinomial, yaitu variabel dependen Y bernilai diskrit (1, 2, ...J). Jenis data untuk variabel Y dapat berbentuk data nominal maupun ordinal. Variabel random Yi bernilai diskrit dengan indeks , ,

J.

ij = P{Yi = j} merupakan probabilitas responden ke-i memilih kategori ke-j untuk i=1,2...n dan j=1,2,...J. Diasumsikan antar pilihan adalah saling asing

157

J

sehingga

 j 1

 1 untuk setiap i. Sehingga hanya dipunyai J-1

ij

parameter. Dapat disusun distribusi multinomial

 ni  yi1  i1 .... iJyiJ  yi1 ,..., yiJ 

.,YiJ=yiJ} = 

P{Yi1=yi1,

Variabel dependen Yij dipengaruhi oleh varaiabel independen Xi. 4.9.1. Model Logit Untuk menyusun model logit, dilakukan dengan cara salah satu kategori (biasanya kategori terakhir) dijadikan baseline, sehingga model logitnya adalah

ij  log(

 ij )  0 j  1 j xi  iJ

untuk j= , , ., J-1).

Model ini analog dengan model regresi logistik, kecuali bahwa distribusi probabilitas untuk respon adalah multinomial, bukan binomial dan kita mempunyai persamaan sebanyak J-1, bukannya satu. Persamaan multinomial logit sebanyak J - 1 persamaan untuk setiap kategori 1, 2, . . . J -1 dengan baseline kategori J, sedangkan dalam persamaan regresi logistik (sebuah persamaan) adalah kontras antara sukses dan gagal. Jika J=2, model multinomial logit akan menjadi model regresi logistik. Kita

hanya

membutuhkan

J-1

persamaan

untuk

men-

deskripsikan J respon kategori. Misal terdapat J = 3 kategori, maka dipunyai kontras antara kategori 1 vs 3 dan kategori 2 vs 3. Kontras antara 1 vs 3 dapat dengan mudah diperoleh, karena

log(i1/i2) = log(i1/i3) - log(i2/i3). 158

Tedapat (J-1)

persamaan logit dan masing-masing logit

memuat parameter (0j+1j). Untuk j=J

iJ  log(

 iJ )  0 sehingga 0J=1J=J  iJ

Dari persamaan logit tersebut, diperoleh

 ij  exp(ij )  iJ  ij   iJ exp(ij ) J

Karena

 j 1

ij

 1 dan iJ = 0 maka J

J

j 1

j 1

 ij   iJ exp(ij )  1 J

J

 j 1

 iJ 

ij

  iJ  exp(ij )  1 j 1

1 J

 exp( k 1

Sehingga

dapat

dan  ij  ik

)

exp(ij ) J

 exp( k 1

disimpulkan

bahwa

ik

)

model

probabilitas

responden/individu ke i memilih alternatif j adalah

 ij 

exp(  0 j  1 j xi ) J

 exp(  k 1

0j

 1 j xi )

untuk suatu i dan suatu j dimana i= , , n dan j= ,

159

,J

Untuk menentukan model regresi, harga  ditaksir lebih dahulu

dengan

menggunakan

Metode

Kemungkinan

Maksimum (Nugraha dkk, 2009). 4.9.2. Fungsi Likelihood dan Estimasi Parameter Fungsi likelihood dari sampel random berukuran n (n responden) adalah n

L(  )    iy1i1 .... iJyiJ i 1

dengan yij = 1 jika responden i memilih j dan yij=0 jika responden i memilih selain j. Log dari fungsi likelihood tersebut adalah n

LL() =

J

 y i 1 j 1

ij

ln( ij )

 0 

misalkan X ij  (1, xij ) dan     maka  1  n

LL() =



J

 y  X ij

i 1 j 1 n

=

J

 y i 1 j 1



J



j 1

  

  ln   exp( X ij  )  

n   J  J X ij     ln   exp( X ij  )  yij    i 1   j 1   j 1

n  J    exp( X ij  )   y X ln    ij ij   i 1 j 1 i 1  j 1  n

=

ij



ij

J

160

Derivatif LL() terhadap  adalah LL(  ) = 

     exp( ) X ij   X ij yij    X ij  J   i 1 j 1 i 1 j 1   exp( X ij  )    j 1 n

n

 X y n

=

J

J

i 1 j 1

T ij

ij

J



  ij  0

Jadi , penaksir parameter  = (1, ,p)t menggunakan metode kemungkinan maksimum adalah penyelesaian dari persamaan kemungkinan : n



[yi j - ij ] = 0 dan

 X y n

J

i 1 j 1

i 1

T ij

ij



  ij  0

Penyelesaian dari persamaan penaksir ini dapat digunakan iterasi dengan menggunakan metode newton raphson dan metode scoring. Uji hipotesis dan interval konvidensi untuk parameter (slope) adalah (Uji untuk masing-masing slope H0 : j = j(0) didasarkan pada statistik Wald :

Z0 

ˆ j   0j SE ( ˆ j )

a. Uji untuk beberapa slope H0 : j =...= q =0 didasarkan pada statistik X2 = G2model 1 – G2model 2 yang berdistribusi chi kuadrat dengan derajad bebasnya sama dengan selisih banyaknya parameter dari kedua model. G2 adalah devians yang mempunyai nilai -2log L

161

Untuk menguji kecocokan model dapat digunakan statistik Pseudo R2 yang identik dengan nilai R2 (koefisien deterministik). pseudo R2 = 1 

G12 G02

Jika model secara sempurna memprediksi nilai Y (Pi = 1 maka yi = 1 dan jika Pi=0 maka yi=0) maka log L = 0 (atau nilai deviansnya nol). Sehingga nilai maksimum dari pseudo R2 adalah satu. Statistik pseudo R2 secara luas digunakan untuk menjelaskan kecocokan model dalam DCM (Discrete Choice Models) secara intuitif. Pemasalahan dalam penggunaan pseudo R2 ini adalah tidak adanya kaidah untuk menyatakan pada nilai berapa sedemikian hingga model dikatakan baik. Permasalahan kedua adalah peningkatan nilai pseudo R2 pada penambahan variabel independen tidak dapat menjelaskan seberapa penting variabel tersebut. 4.9.3. Contoh Data I Data penelitian mengenai makanan aligator yang merupakan hasil pengamatan terhadap 59 aligator liar di danau Florida. Yang diamati adalah jenis makanan utama (dalam volume) yang ditemukan dalam perutnya dan Ukuran aligator (panjang). Terdapat

tiga

jenis makanan

utama,

yaitu

Ikan

(Fish),

Invertebrata, dan Lainnya (Other). Yang termasuk invertebrata adalah apple snails, aquatic insects, dan crayfish. Yang termasuk kategori lainnya meliputi amphibian, mammal, plant material, stones reptiles (primarily turtles). Panjang aligator antara 1.24 s/d 3.89 meter. Tabel berikut adalah hasil pengamatannya.

162

Tabel 4.7. Data pengamatan panjang Aligator (dalam meter) dan makanan utama No

1

2

3

4

5

6

7

8

9

10

Panjang

1.24

1.45

1.63

1.78

1.98

2.36

2.79

3.68

1.30

1.45

Makanan

I

I

I

I

I

F

F

O

I

O

No

11

12

13

14

15

16

17

18

19

20

Panjang

1.65

1.78

2.03

2.39

2.84

3.71

1.30

1.47

1.65

1.78

Makanan

O

I

F

F

F

F

I

I

I

O

No

21

22

23

24

25

26

27

28

29

30

Panjang

2.03

2.41

3.25

3.89

1.32

1.47

1.65

1.80

2.16

2.44

Makanan

F

F

O

F

F

F

F

I

F

F

No

31

32

33

34

35

36

37

38

39

40

Panjang

3.28

1.32

1.50

1.65

1.80

2.26

2.46

3.33

1.40

1.52

Makanan

O

F

I

F

F

F

F

F

F

I

No

41

42

43

44

45

46

47

48

49

50

Panjang

1.68

1.85

2.31

2.56

3.56

1.42

1.55

1.70

1.88

2.31

Makanan

F

F

F

O

F

I

I

I

I

F

No

51

52

53

54

55

56

57

58

59

60

Panjang

2.67

3.58

1.42

1.0

1.73

1.93

2.36

2.72

3.66

Makanan

F

F

F

I

O

I

F

I

F

Sumber : Agresti (2007). Keterangan:  F : Ikan (Fish)  I: Invertebrata  O: lainnya (other) Misalkan Y = pilihan makanan utama dan

x = panjang

alligator. Pilihan lainnya sebagai baseline category. MLE nya adalah (1: ikan....., 2: inver......, 3: other)) 163

 ˆ  log 1   1.618  0.110 x  ˆ 3   ˆ log 2  ˆ 3

   5.697  2.465 x 

berdasarkan kedua logit tersebut dapat digunakan untuk mengestimasi log odds dari ikan dan invertebrata, yaitu

 ˆ log 1  ˆ 2

   (1.618  5.697)  [0.110  (2.645)]x = -4.08 + 2.355x 

Aligator yang lebih besar nampaknya lebih menyukai ikan daripada

invertebrata.

Masing-masing

logit

dapat

diinterpresikan sebagi regresi logistik biner bersyarat. Sebagai contoh, diberikan bahwa jenis makanan utama adalah ikan atau invertebrata, estimasi probabilitas bahwa aligator memilih ikan meningkat dengan bertambah panjang x seperti kurva S. Untuk aligator dengan panjang x + 1 meter, estimasi nilai odds bahwa makanan utama adalah ikan lebih disukai daripada invertebrata adalah exp(2.355) = 10.5 kali X meter. Hipotesis

bahwa

makanan

utama

adalah

independen

terhadap ukuran x adalah H0:

1

=

2

=0

Statistik uji likelihood-ratio sama dengan 16.8 dengan df =2 dan nilai P-value= 0.0002 . Sehingga dapat disimpulkan bahwa X mempengaruhi jenis makanan utama aligator. Model logit multikategori disajikan dalam probabilitas respon. Dari contoh pada data Tabel 3.7, karena pilihan 3

164

lainnya sebagai baseline maka

ˆ03  ˆ13  0

dan estimasi

probabilitasnya adalah

ˆ1 

e1.620.11x 1  e1.620.11x  e 5.702.47 x

ˆ 2 

e 5.702.47 x 1  e1.620.11x  e 5.702.47 x

ˆ 3 

1 1 e

1.620.11x

 e 5.702.47x

Tabel 4.8. Estimasi parameter model logit Data Aligator Parameter

Logit (Ikan/lainya)

(Invertebrata/lainnya)

Intersep (0)

1.618

5.697

X (1)

-0.110(0.517)

-2.465(0.900)

Dari model tersebut, dapat dipakai untuk memprrediksi probabilitas masing-masing pilihan pada nilai x tertentu. Misalnya pada

x = 3.89 meter, probabilitas aligator memilih

makanan lainnya adalah

ˆ 3  1 1  e1.620.11(3.89)  e 5.702.47(3.89)   0.23 demikian juga kita dapat menghitung probilitas untuk pilihan 1 dan plihan 2,

ˆ1  0.76 dan ˆ 2  0.005 4.9.4. Contoh Data II Ketika variabel independen merupakan data kategorik, maka data dapat disajikan kedalam tabel kontigensi. Sebagaimana

165

telah dijelaskan pada Bab II mengenai

tabel kontigensi, kita

dapat melakukan pengujian goodness of fit menggunakan statistik X2 atau G2.

Sebagai contoh, data survei mengenai

kepercayan akan adanya kehidupan setelah mati. Variabel dependen 

Y = percaya, dengan kategori (Ya, ragu-ragu, tidak), dan variabel independenya adalah o x1 = gender, x1 = 1 untuk perempuan dan 0 untuk laki-laki o x2 = ras/suku, x2 = 1 untuk ras A dan 0 untuk ras non A. Pilihan tidak sebagai baseline category untuk Y , sehingga

modelnya adalah

 j  log    j   Gj x1   jR x 2 , untuk j=1,2. 3  dimana G menyatakan indeks untuk parameter gender dan R menyatakan indeks untuk parameter ras. Tabel 4.9. Data Kepercayaan menurut Gender dan Ras Ras

Gender

A

wanita laki wanita laki

Non A

ya 371 250 64 25

Percaya ragu 49 45 9 5

Tidak 74 71 15 13

Dari tabel kontigensi tersebut diperoleh nilai goodness-of-fit X2 = 0.9 and G2 = 0.8 yang dapat disimpulkan bahwa Ras dan Gender saling independen.

166

Selanjutnya jika digunakan model logit, akan diperoleh dua model logit untuk masing-masing

kombinasi gender-ras.

Terdapat empat kombinasi gender-ras, sehingga diperoleh delapan model logit. Model tersebut, untuk j=1,2 memuat enam parameter. sehingga df =

− = .

Akan diuji bahwa terdapat efek interaksi antara gender dan ras terhadapap Y. Estimasi masing-masing parameter disajikan pada tabel 3.10. Tabel 4.10. Estimasi Parameter Data Kepercayaan Parameter

Logit (Ya/Tidak)

(Ragu/Tidak)

Intersep

0.883 (0.243)

-0.758 (0.361)

Gender (X1 =1)

0.419 (0.171)

0.105 (0.246)

Ras (X2 =1)

0.342 (0.237)

0.271 (0.354)

Masing-masing parameter merepresentasikan log(OR). Misalkan ˆ G  0.419 1

merupakan log(OR) gender antara respons kategori 1 (ya) dan kategori 2 (tidak). Oleh karena itu pada wanita, estimasi nilai odds antara respons ya terhadap respon tidak adalah exp(0.419) = 1.5 kali pada laki-laki. Pada ras A, estimasi odds untuk respons ya dibanding tidak adalah exp(0.342) = 1.4 kali ras Non A. Uji hipotesis untuk efek gender adalah G G H0: 1   2  0

Menggunakan uji rasio likelihood diperoleh G2 = 0.8 (df = 2) dan G2 = 8.0 (df = 4) 167

Selisih devians D = 8. − .8 = 7.2 dengan df = − = . Diperoleh

P-value= 0.03 yang menunjukan bahwa gender

berpengaruh terhadap Y. Sedangan pada efek ras diperoleh G2 = 2.8 (df = 4), dan G2= 2.0 dengan df = 2. selisih devians D= 2.8 -2.0 =0.8 dengan df=4-2=2 yang berarti bahwa ras tidak mempengaruhi Y. Tabel 4.11. menampilkan estimasi probabilitas untuk tiga respon kategori. Sebagai gambaran untuk wanita-putih (x1 = x2 = , estimasi probabilitas memilih alternatif Y=

ya adalah

= 0.76 Tabel 4.11. Estimasi Probabilitas Data Kepercayaan Ras A Non A

Gender

Percaya ya

ragu

tidak

wanita

0.76

0.10

0.15

laki

0.68

0.12

0.20

wanita

0.71

0.10

0.19

laki

0.62

0.12

0.26

4.9.5. Contoh Data III Table 4.12. merupakan hasil survei dari Demographic and Health Survey conducted di El Salvador pada tahun 1985. Tabel tersebut menunjukkan bahwa 3165 wanita yang masih menikah 168

yang diklasifikasikan ke dalam usia (dikelompokan dalam interval 5 tahunan) dan penggunaan kontrasepsi (steril, lainya, tidak). Tabel 4.12. Data penggunaan Kontrasepsi kontrasepsi usia

Steril

lainnya

tidak

15-19

3

61

232

20-24

80

137

400

25-29

216

131

301

30-34

268

76

203

35-39

197

50

188

40-44

150

24

164

45-49

91

10

183

Sumber : Rodriguez (2001). Dengan menggunakan uji independensi atas dua variabel (keduanya dianggap respon) diperoleh nilai rasio likelihood sebesar 521.1 dengan df=12 (H0 ditolak, kedua variabel saling dependen). Dalam contoh ini kita akan memandang penggunaan kontrasepsi

sebagai

respon

dan

usia

sebagai

prediktor.

Meskipun seharusnya dipandang sebagai distribusi bersama untuk dua variabel, tetapi kita akan melihat distribusi bersyarat untuk respon penggunaan kontrasepsi dengan syarat variabel prediktor (usia). Kedua pendekatan tersebut sangat erat hubunganya. Dalam contoh, kita dapat melihat odds tidak , dan odds

steril

terhadap

lainya ~ terhadap tidak. Untuk wanita usia 169

45–49, odds nya adalah 91.183 (atau sekitar 1.2) dan 10.183 (atau 1.18).

usia

Gambar 4.3. Grafik fungsi log odds terhadap usia log-odds empirik untuk steril

Gambar 4.3. menunjukkan dan lainnya

menggunakan tidak sebagai kategori referensi)

diplot terhadap nilai tengah dari grup usia. Catatan bahwa logodds steril meningkat cepat dan mencapai maksimum pada grup usia 30–34 dan kemudian menurun tajam. Log-odds untuk lainnya mencapai maksimum pada usia 25–29 adan kemudian menurun tajam. Dari gambar 3.5, nampak bahwa logit adalah fungsi kuadratis dari usia. Kita akan menyusun model menjadi

ij   j   j ai   j ai2 dimana ai adalah nilai tengah pada grup usia ke-i dan j = 1, 2 (masing-masing untuk steril dan lainnya ) Dalam

contoh,

model

logit

multinomial

kuadratik

menghasilkan nilai devians 20.5 dengan derajad bebas 8 atau

170

diperoleh

nilai

P-value

sebesar

0.009,

sehingga

dapat

disimpulkan bahwa model signifikan. Efek kuadratik usia, mempunyai likelihood-ratio 2 = 500.6 dengan df=4 (atau 2 = 521.1 - 20.5 = 500.6 dan df = 12 - 8 = 4), dan berarti efek ini juga signifikan. Catatan bahwa assosiasi antara

usia

dan

metode

kontrasepsi

sebesar

96%

atau

(500.6/521.1 = 0.96) yang hanya menggunakan empat parameter. Tabel 4.13. Estimasi parameter dalam model logit kuadratik steril vs

lainnya vs

tidak

tidak

Konstan ()

-12.62

-4.552

Linear ()

0.7097

0.2641

-0.009733

-0.004758

Parameter

Kuadratik ()

Tabel 4.13. menunjukan estimasi parameter untuk dua persamaan logit multinomial. Kami menggunakan nilai tersebut untuk menghitung fitted logits untuk masing-masing usia dari 17.5 s/d 47.5, dan diplot bersama-sama dengan empirical logits dalam gambar 3.5. Dari gambar tersebut dapat disimpulkan bahwa model cocok, kecuali pada kelompok usia 15–19, dimana terjadi overestimate untuk probabilitas steril. 4.9.6. Aplikasi menggunakan R Diambil data dari contoh I mengenahi makanan alligator. Terdapat empat kategori makanan aligator di danau Florida yaitu ikan, invertebrata, reptil, burung, lainya. Semua variabel independenya adalah kategorik, yaitu L = danau, 171

G = gender, S = ukuran

. m, > . m .

>food.labssize.labsdeviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS)

172

>deviance(fit4)-deviance(fitS) >deviance(fit5)-deviance(fitS) >deviance(fit0)-deviance(fitS)

Untuk model tanpa memperhatikan variabel Gender : # options(contrasts=c("contr.treatment","contr.poly")) >fitSfit0fit1fit2fit3deviance(fit1)-deviance(fitS) >deviance(fit2)-deviance(fitS) >deviance(fit3)-deviance(fitS) >deviance(fit0)-deviance(fitS) [1] 66.2129 [1] 38.16723 [1] 17.07983 [1] 81.36247 >marg.counts row.names.food fitted.counts2.3 9.1 0.4 1.1 2.3 3.1 oklawaha 2.3 12.8 7.0 5.5 0.8 1.9 trafford 2.3 8.6 5.6 5.9 3.1 5.8 george 2.3 14.5 3.1 0.5 1.8 2.2

173

Estimasi parameter menggunakan fungsi summary >library(MASS) >summary(fit3, cor = F) >summary(fit3, cor = F) Coefficients: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert -1.549021 1.4581457 -1.6581178 0.937237973 1.122002 rep -3.314512 -0.3512702 1.2428408 2.458913302 2.935262 burung -2.093358 -0.6306329 0.6954256 -0.652622721 1.088098 other -1.904343 0.3315514 0.8263115 0.005792737 1.516461 Std. Errors: (Intercept) ukuran lakehancock lakeoklawaha laketrafford invert 0.4249185 0.3959418 0.6128465 0.4719035 0.4905122 rep 1.0530583 0.5800207 1.1854035 1.1181005 1.1163849 bird 0.6622971 0.6424863 0.7813123 1.2020025 0.8417085 lainya 0.5258313 0.4482504 0.5575446 0.7765655 0.6214372

Untuk mengestimasi probabilitas respos, menggunakan >predict(fit3, type="probs", newdata=data.frame(size=">2.3", lake="hancock")) ikan invert rep burung lainya 0.57018414 0.02307664 0.07182898 0.14089666 0.19401358

Data estimasi probabilitas pada nilai kombinasi variabel independen dan disimpan dalam expand.grid. >predictionscbind(expand.grid(size = ukuran.labs, lake = danau.labs), predictions)

174

size 1 2 3 4 5 6 7 8

lake ikan burung lainnya 2.3 hancock 0.5701841 0.140896663 0.19401358 2.3 oklawaha 0.4584248 0.029424140 0.06866547 2.3 trafford 0.2957470 0.108228505 0.20066230 2.3 george 0.6574619 0.081046954 0.09790956

invert

rep

0.09311222 0.04745855 0.02307664 0.07182898 0.60188001 0.07723295 0.24864188 0.19484366 0.51682299 0.08877041 0.19296047 0.20240167 0.41284674 0.01156715 0.13968168 0.02389991

Fungsi lain yang dapat digunakan adalah vglm dalam library (VGAM) >library(vgam) >fit.vglmcoef(fit.vglm, matrix=T)

4.10. Model Pilihan Diskrit Dalam bab ini kita akan menjelaskan pengembangan dari model logit multinomial sebagai pendekatan khusus dalam pemodelan perilaku pemilihan, dimana variabel penjelas mungkin termasuk atribut dari masing-masing pilihan (misalkan biaya) sebagaimana karakteristik individu yang membuat keputusan atau pilihan (seperti penghasilan). Setiap manusia, lembaga, perusahaan akan dihadapkan pada pilihan-pilihan. Kita harus memilih satu dari semua alternatif yang tersedia, mulai dari satu alternatif saja (tidak ada alternatif lain),

175

dua alternatif sampai dengan banyak alternatif. Banyak hal/faktor yang digunakan untuk mengambil keputusan. Pertama, faktor internal yaitu sifat sifat atau karakteristik yang melekat pada diri pembuat keputusan. Kedua, faktor eksternal yaitu keadaan/ faktor yang berasal dari luar/lingkungan pembuat keputusan. Kedua faktor tersebut dapat bersifat kualitatif maupun kuantitatif. Sementara itu keputusan/pilihan dilakukan berdasarkan atas asas manfaat dan mudhorot (resiko) bagi pembuat keputusan. Suatu pilihan dilakukan jika pilihan itu paling menguntungkan dibandingkan dengan semua alternatif pilihan yang lain, atau bisa juga karena pilihan itu paling kecil resikonya dibanding dengan alternatif yang lain. Disamping itu,

kadang kita tertarik untuk menduga nilai

respon yang dikaitkan dengan sekumpulan kovariate dengan menggunakan kontinyu,

fungsi

umumnya

penghubung dipilih

fungsi

tertentu.

Ketika

penghubung

respon identitas,

sedangkan untuk respon biner dipilih fungsi penghubung logit. Terdapat perbedaan antara analisis regresi logistik ganda dengan analisis regresi ganda. Analisis regresi ganda digunakan pada distribusi normal, sedangkan analisis regresi logistik digunakan untuk data yang berdistribusi binomial. Regresi logistik pada respon dikotomis tersebut

biasa

dinamakan regresi logistik biner. Sering kali respon mempunyai lebih dari dua alternatif jawaban misalkan tentang warna kesukaan (merah, kuning, hijau, dsb) atau contoh yang lain tentang penilaian (sangat baik, baik, cukup, buruk, sangat buruk). Pada data polikotomis tersebut dapat digunakan analisis regresi multinomial.

176

Model

pemilihan

diskrit

menggambarkan

pembuat

keputusan memilih diantara alternatif yang tersedia. Pembuat keputusan dapat berupa orang, rumah tangga, perusahaan atau unit

pembuat

keputusan

yang

pilihan/alternatif disebut Choice set.

lain.

Himpunan

semua

Model pemilihan diskrit

digunakan untuk menguji pilihan yang mana, sedangkan model regresi dipakai untuk menguji berapa banyak. Walaupun demikian seringkali model pemilihan diskrit juga dapat dipakai untuk menguji berapa banyak. Model pemilihan diskrit biasanya diturunkan dibawah asumsi manfaat maksimum oleh pembuat keputusan. Seorang pembuat keputusan dinotasikan dengan i, yang berhadapan dengan pilihan sebanyak J anternatif. Pembuat keputusan mempunyai tingkat utiliti (keuntungan) untuk setiap alternatif. Misalkan Uij

untuk j= ,

,J adalah utiliti pembuat

keputusan (responden) i jika memilih alternatif j. Nilai Uij yang sesungguhya tidak diketahui oleh pengamat (peneliti). Tentunya pembuat keputusan memilih alternatif yang mempunyai utiliti terbesar, sehingga memilih alternatif k jika dan hanya jika Uik > Uij j  k. Peneliti tidak mengetahui nilai utiliti untuk pembuat keputusan terhadap setiap alternatif. Peneliti hanya mengamati atribut yang ada untuk masing-masing alternatifnya, yang dinotasikan dengan xkj j dan atribut pembuat keputusan yang dinotasikan dengan si. Secara fungsi dapat dinotasikan sebagai Vij= V(xij,si) j yang biasa dinamakan representative utility. Karena nilai utiliti yang sesungguhnya tidak diketahui peneliti maka Vij  Uij dan Uij = Vij + ij 177

i = (i1,

.,iJ) adalah variabel random yang mempunyai densitas

f(i). Probabilitas pembuat keputusan i memilih alternatif k dapat dinyatakan sebagai Pik = P(Uik > Uij j k) = P(ij - ik < Vik – Vij j k) =

 I (

ij

  ik  Vik  Vij j  k ) f ( i )d i

I(.) adalah fungsi indikator, yang bernilai 1 jika pernyataan dalam kurung benar dan bernilai 0 jika pernyataan salah. Selanjutnya dapat dipilih atau ditentukan densitas

f(ik) yang sesuai/tepat,

misalnya distribusi nilai ekstrim dan biasa disebut dengan model logit. Model

Logit

diturunkan

dengan

asumsi

bahwa

ik

berdistribusi nilai ekstrim (extreme value) yang saling independen untuk semua i. Fungsi densitas extreme value (Gumbel) adalah

f ( ij )  e

 ij

e e

  ij

dan distribusi kumulatifnya adalah

F ( nj )  e e

  nj

Variansi dari distribusi ini adalah 2/6. Probabilitas pembuat keputusan i memilih alternatif k yang dinyatakan sbb : Pik = Pr(ij - ik < Vik – Vij jk) = Pr(ij < ik + Vik – Vij jk)

178

Jika ik diketahui dan saling independen, maka Pik|ik =

 exp( exp((

ik

 Vik  Vij )))

j k

Oleh karena nilai ik tidak diketahui maka Pik merupakan integral Pik|ik atas seluruh nilai ik terbobot densitasnya, yaitu Pik =

  exp( exp((

ik

 Vik  Vij )))[exp( ik )] exp(  exp(  ik ))d ik

j k

Dengan mengambil s=ik dan oleh karenaVik-Vik=0 maka Pik dapat dinyatakan sebagai Pik =

  exp( exp((s  V 

s 

ik

 Vij )))[exp(  s)]ds

j

  exp    exp( ( s  Vik  Vij ))  exp(  s))ds s   j    s  s = s exp   e j exp((Vii  Vij )) e ds Misalkan t = exp(-s) sehingga dt = -exp(-s)ds =





0   Pik =  exp   t  exp( (Vik  Vij )) (dt )    j  

=





0

  exp   t  exp( (Vik  Vij )) dt j  

  exp   t  exp( (Vik  Vij ))  j   =  t  exp( (Vik  Vij ))



j

0

=

1 =  exp( (Vik  Vij )) j

exp( Vik )  exp(Vij )) j

179

Formula untuk Pik tersebut dinamakan probabilitas logit. Jika Vij merupakan fungsi linear dari xij maka dapat dinyatakan menjadi Pik =

exp(  t xii ) J

 exp(  j 1

t

xij )

Untuk sebarang dua alternatif k dan r, rasio probabilitas logitnya dapat dinyatakan sebagai Pik eVik  J Pir  eVij j 1

= exp(Vik – Vir)

eVir J

e

Vij

j 1

Rasio ini tidak tergantung pada alternatif lain selain i dan k. Sifat ini dinamakan independence from irrelevant alternatives (IIA). Selanjutnya estimasi parameter  dapat dilakukan dengan prosedur maksimum likelihood. Misalkan N sampel dari individu yang membuat keputusan, probabilitas individu n memilih sebuah alternatif dapat dinyatakan sebagai

 (P )

yij

ij

j

Dengan yij = 1 jika individu i memilih j dan nol jika memilih yang lainnya. Dengan mengasumsikan bahwa setiap keputusan antar individu saling independen maka probabilitas masing-masing individu dalam sampel memilih sebuah alternatif adalah n

L(  )   ( Pij ) i 1

yij

j

Dengan  merupakan vektor parameter dalam model. Fungsi Log likelihoodnya menjadi n

LL(  )   yij ln( Pij ) i 1

j

180

Penaksir  adalah nilai  yang memaksimumkan fungsi LL(). n

LL(  )   yij ln( Pij ) i 1

=

j

   exp(  t xij )  yij ln    t i 1 j   exp(  xij )   j  n

n   t (  x ) yij ln   exp(  t xij )    ij ij i 1 j i 1 i  j  Derevatif LL() terhadap  adalah n

=

 y

LL(  )  

n

 y i 1

j

 y i 1

xij   yij  Pij xij i 1

j

j

  x     Pij xij  yij i 1  j  j n

n

=

n

ij

ij ij

j

n

n

=  yij xij   Pij xij i 1

i 1

j

n

=

 ( y i 1

ij

j

 Pij ) xij  0

j

Jadi penaksir  dengan menggunakan prosedur maksimum likelihood adalah penyelesaian dari persamaan n

  ( yij  Pij ) xij  0 J

i 1 j 1

Penyelesaian persamaan penaksir tersebut dapat diselesaikan secara iterasai dengan metode newton raphson maupun metode scoring. Selanjutnya untuk melakukan menguji kesesuaian model dengan data (uji Goodness of Fit) dapat digunakan indeks rasio likelihood, yang diefinisikan sebagai

  1

LL( ˆ ) LL(0)

181

dengan LL(0) adalah nilai log likelihood untuk =0 (Nugraha, 2010). 4.11. Soal Latihan 1. Gunakan data pada soal latihan di Bab 3 soal no 3.2. Lakukan analisis menggunakan regresi logistik untuk menyusun model

pengaruh strata sosialdan

pendidikan orang tua

terhadap rencana studi lanjut 2. Gunakan data pada soal latihan di Bab 3 soal no 3.1. Lakukan analisis menggunakan regresi logistik untuk menyusun model pengaruh derajad kontak dan jenis tempat tinggal terhadap tingkat kepuasan. 3. Data pengamatan terhadap kebiasaan mendengkur saat tidur malam dan penyakit jantung. Dari Pengamatan terhadap beberapa orang diperoleh data sebagai berikut Tabel 4.14. Kebiasaan mendengkur dan status penyakit jantung Kebiasaan

Penyakit jantung

Mendengkur

Ya

Tidak

Tidak Pernah

24

1355

Kadang-kadang

35

600

Hampir setiap malam

21

190

setiap malam

30

225

Lakukan analsisi menggunakan regresi logistik. Gunakan skor 0, 2, 4, 5 untuk mengkategorikan kebiasaan mendengkur (X) secara berturut-turut yaitu tidak pernah, kadang-kadang, hampir setiap malam, setiap malam. Variabel respon Y merupakan status kepemilikan penyakit jantung berskala biner dengan Y = 0 iika tidak dan Y = 1 jika ya.

182

BAB V REGRESI POISSON

Pemodelan dengan variabel respon berupa bilangan cacah biasa muncul dibidang biologi. Misalkan Ilmuwan biologi ingin mengetahui hubungan variabel Y yaitu banyaknya kuskus dan variabel X yaitu jumlah pohon yang mati disuatu area tertentu. Selama variabel respon merupakan hasil perhitungan, distribusi Poisson dapat digunakan dan oleh karenanya model linear yang didasarkan pada teori distribusi normal tidak memberikan deskripsi yang memadai hubungan antara dua variabel. Regresi logistik efektif dalam situasi yang sama, di mana variabel respon biner, tapi dalam hal ini variabel respons tidak biner. Respon dari Poisson sering muncul dalam epidemiologi, misalnya variabel respon berupa insiden penyakit, cedera, atau kematian dan variabel prediktor adalah variabel numerik seperti usia atau waktu pemaparan. Aplikasi lain dari regresi Poisson yang

umum

menggunakan satu atau lebih variabel kategorik sebagai prediktor, dan data biasanya disusun dalam tabel kontigensi. Dalam bab ini diperkenalkan topik regresi Poisson. 5.1. Distribusi Poisson Percobaan Poisson adalah percobaan yang menghasilkan variabel random X yang bernilai numerik, yaitu banyaknya sukses selama selang waktu tertentu atau dalam daerah tertentu. Selang waktu tertentu dapat berupa sedetik, semenit, sejam, sehari, seminggu maupun sebulan. Daerah tertentu dapat berupa satu 183

meter, satu kilometer persegi dan lain-lain. Percobaan Poisson memiliki ciri – ciri sebagai berikut: 1) Banyaknya sukses terjadi dalam suatu selang waktu atau daerah tertentu tidak terpengaruh oleh apa yang terjadi pada selang waktu atau daerah lain. 2) Peluang terjadinya suatu sukses dalam selang waktu yang amat pendek atau dalam daerah yang kecil tidak tergantung pada banyaknya sukses yang terjadi di luar selang waktu atau daerah lain. 3) Peluang terjadinya lebih dari satu sukses dalam selang waktu yang pendek atau daerah yang sempit tersebut dapat diabaikan. Distribusi Poisson diberi nama sesuai dengan penemunya yaitu Siemon Denis Poisson. Distribusi Poisson adalah suatu distribusi peluang yang menyatakan kemungkinan sejumlah peristiwa yang terjadi dalam suatu periode waktu. Distribusi Poisson dapat digunakan untuk menyatakan peristiwa dalam unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya. Penggunaan distribusi Poisson sebagai dasar pada regresi Poisson. Distribusi Poisson akan membuat model peluang dari kejadian y menurut proses Poisson, adalah:

e  y f  y;    , untuk y = 0, 1, 2, ... y! Variansi dan rata–rata dari distribusi Poisson adalah . Hal yang perlu diperhatikan bahwa parameter  ini sangat bergantung beberapa unit tertentu atau periode dari waktu, jarak, luas area, volume, dan sebagainya.

184

5.2. Model Regresi Poisson Tantangan dalam regresi Poisson adalah menemukan model untuk variabel respons sebagai fungsi dari variabel prediktor, sehingga parameter dari model dapat diperkirakan (diestimasi) dari data. Misalkan i menyatakan observasi ke-i,

i = 1,...n.  i

sebagai nilai mean dari nilai yi dan xi adalah variabel independen yang berkaitan denga n varabel dependen yi. Misalkan

i  e 

dan yi =  i +  i ,

0  1 xi

dengan  i adalah random error. Maka

log( i )  0  1xi . Sehingga terdapat hubungan "log-linear" antara y dan x. Karena setiap yi memiliki distribusi Poisson dengan mean  i , probabilitas yi pada nilai xi adalah:

P( yi ) 

e  i  iyi e (  0  1xi ) (  0  1 xi ) yi = . yi ! yi !

Model untuk regresi Poisson pada dasarnya menyatakan rata – rata dari distribusi yang diskrit sebagai fungsi dari variabel independennya. k

 0    j xij

i  e Pemasalahan

selanjunya

j 1

adalah

mengestimasi

parameter

 =(0,..., k). Dalam

penggunaan

regresi

Poisson

terdapat

beberapa

pelanggaran asumsi mengenai galat yang tidak berdistribusi

185

normal dan variansi galat yang tidak homogen (Myers, 1990). Asumsi lain yang harus dipenuhi dalam pembentukan regresi Poisson adalah: 1) Variabel dependen dalam regresi Poisson mengikuti proses percobaan Poisson yang merupakan data diskrit dari hasil menghitung, pencacahan atau frekuensi namun bukan hasil pengukuran. 2) Uji Multikolinearitas Asumsi multikolinearitas merupakan bentuk pengujian yang menyatakan bahwa variabel independen harus terbebas dari gejala multikolinearitas. Gejala multikolinearitas adalah gejala korelasi antar variabel independen. Apabila terjadi gejala multikolinearitas, salah satu langkah untuk memperbaiki model adalah dengan menghilangkan variabel dari model regresi, sehingga bisa dipilih model yang paling baik. 5.3. Estimasi Parameter Penggunaan

model

regresi

Poisson

terdapat

beberapa

pelanggaran asumsi mengenai galat yang tidak berdistribusi normal dan variansi galat yang tidak homogen, sehingga dalam penaksiran parameter tidak bisa menggunakan metode kuadrat terkecil biasa. Untuk mengatasi hal tersebut maka dapat digunakan metode maksimum likelihood (Myers, 1990). Metode Maximum Likelihood Estimation (MLE) merupakan metode

untuk

mengetahui

nilai

parameter

mana

yang

memaksimalkan fungsi likelihood. Rata-rata dalam regresi Poisson dimodelkan sebagai fungsi dari sejumlah variabel independen. Pertama, perlu menentukan fungsi likelihood dan persamaan

186

likelihood yang dapat digunakan untuk menaksir parameter – parameter dalam regresi Poisson. Fungsi likelihoodnya untuk distribusi Poisson adalah: n

L y,     f  yi ,   i 1

 n  yi  n     i1  exp(    ) i 1 n    yi e     i 1  L y ,       n yi !  i 1   yi! n

i 1

 n  yi  k n  k     i1   exp(    exp(  0    j xij ) )   exp(  0    j xij )  j 1 i 1 j 1     i 1    L y ,    n  yi! n

i 1

n

k

i 1

j1

n

k

n

i 1

j1

i 1

logL y,β   LLy,β    y i log(exp( β 0   β j x ij ))   (exp(β 0   β j x ij ))   log y i !

Nilai maksimum fungsi LL(.) diperoleh dengan syarat

 log L y,   0 

sehingga k       exp(  0    j xij )    k yi j 1     0    exp(  0    j xij )     k     j 1    i 1   j xij )        exp(  0   j 1     n

dengan k    exp(  0    j xij )  j  1    exp(   k  x )1 x  x   j ij i1 ik 0 j 1 

187

Persamaan terakhir ini dapat diselesaikan secara iterasi. 5.4. Pemilihan model Terbaik 5.4.1. Uji Kecocokan Model (Goodnes of Fit) Pada pengujian kelayakan model, Myers (1990) menjelaskan bahwa devians digunakan untuk menguji keberartian koefisien – koefisien dan menguji kelayakan model untuk kasus dari model Poisson dan model logistik. Pada dasarnya analisis devians ini bisa diterapkan untuk setiap distribusi yang merupakan anggota dari keluarga eksponensial. Pada penggunaan devians dapat pula untuk menguji hipotesis lain, yaitu pengujian keberartian parameter di dalam regresi Poisson. Pada setiap variabel independen dapat dihitung melalui penentuan seberapa besar kontribusi dari masing – masing variabel independen terhadap pengurangan harga devians. Perhatikan variabel ke j, xj, dari k buah variabel independen. Misalnya





D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  D1 ,  2 ,,  j 1 ,  j 1 ,,  k   D1 ,...,  k 

Bentuk D( 1,..., seluruh

) merupakan devians yang dihitung pada

k

parameter

dalam

model,

sedangkan

D1, 2 ,,  j 1 ,  j 1,, k  adalah devians yang dihitung tanpa

melibatkan  j x j ke dalam model. Banyaknya pengurangan harga devians yang disebabkan oleh ketidakhadiran  j x j dalam model. Banyaknya

perbedaan

ketidakhadiran

 jxj

harga

devians

yang

disebabkan

dalam model dapat dihitung melalui

persamaan berikut:

188

^ ^ ^   ^ ^   L 1 ,  2 ,,  j 1 ,  j 1 ,,  k ,    D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  2 log   ^  ^    L 1 ,...,  k     





Bentuk di atas menyatakan perbedaan dalam 2log L antara model lengkap dengan model reduksi. Pengujian ini akan sama dengan pemilihan model terbaik melalui prosedur bertahap (stepwise) dalam analisis regresi biasa. Statistik dari rasio likelihood

D1, 2 ,,  j 1 ,  j 1,, k  mempunyai distribusi Chi Squared, χ2

dengan derajat bebas satu. Formula di atas juga dapat digunakan untuk pengujian masing – masing koefisien dalam model, yaitu untuk menguji H0 :  j = 0

melawan H1 :  j ≠





2 H0 ditolak apabila D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k   ( ;1) .

Untuk mengetahui kecocokan model dan koefisien yang signifikan maka dilakukan uji hipotesis, dimana terdapat jenis uji yang harus dilakukan yaitu sebagai berikut: 1) Uji bersama yaitu untuk menguji apakah model regresi yang terbentuk sudah layak atau belum untuk digunakan. 2) Uji koefisien yaitu untuk menguji apakah masing – masing koefisien yang terbentuk dalam model sudah berpengaruh terhadap model atau belum (Wibawati dan Nugraha, 2009) 5.4.2. Uji Rasio Likelihood Pada pengujian rasio likelihood, terlebih dahulu perlu ditentukan dua buah fungsi likelihood yang berhubungan dengan model regresi yang diperoleh. Fungsi – fungsi likelihood itu adalah

189

^  L    red  , yaitu fungsi likelihood yang berhubungan dengan   model regresi yang sedang dianalisis. Sedangkan fungsi likelihood yang kedua adalah fungsi likelihood yang berhubungan dengan model penuh atau model yang sempurna, yang dinotasikan dengan

^ L   

full

 . Dengan demikian, fungsi likelihood itu dapat ditulis  

sebagai berikut:

  L  full    ( yi ,  )  i 1  n

dan n   yi e      L  red       i 1  yi !  

Selanjutnya, logaritma dari perbandingan antara kedua fungsi likelihood di atas merupakan ukuran yang penting dalam menentukan kelayakan model regresi Poisson, sehingga:

     L  red   G 2  2 log       L      full   Disebut sebagai G2 atau statistik uji rasio likelihood, dimana definisi dari statistik uji rasio likelihood adalah selisih antara nilai likelihood pada model yang diuji dibandingkan dengan model lengkap dan statistik ini merupakan pendekatan dari distribusi χ2 dengan derajat bebas n–k (n adalah jumlah seluruh parameter pada model penuh atau model sempurna sedangkan k adalah jumlah seluruh parameter pada model regresi yang diperoleh atau model

190

regresi yang sedang dianalisis). Kriteria pengujian adalah tolak H0 apabila G2 > χ2

n – k)

.

5.4.3. Koefisien Determinasi R2 Koefisien determinasi (R2) dalam analisis regresi linier didasarkan pada pemakaian jumlah kuadrat (sums–of–square) dengan metode kuadrat terkecil. Penggunaan R2 ini lebih populer karena dapat menggambarkan keeratan hubungan regresi antara variabel dependen dengan variabel independen. Semakin besar nilai R2

R2

, semakin akurat taksiran dari model regresi.

Disisi lain model regresi Poisson ditaksir dengan menggunakan metode maksimum likelihood. Hal ini mendorong berkembangnya beberapa ukuran R2 dalam regresi Poisson yang didasarkan pada proporsi reduksi dalam log likelihood yang dimaksimumkan. Selain itu (Myers, 1990), menyebutkan analog yang tepat pada koefisien determinasi R2 dalam analisis regresi biasa diperoleh melalui log likelihood. Pada pengujian keberartian parameter telah ditunjukkan bahwa jika mempunyai model regresi Poisson dengan parameter

 0 , 1 ,  2 ,  3 ,,  k

dan

variabel

independen

x1 , x2 , x3 ,, xk maka keberadaan dari konstanta  0 dalam model diberikan melalui devians dengan derajat bebas k, sebagai berikut:

D1, 2 ,, k 0   2 log L0 , 1 ,,  k   2 log L0  D0 , 1,, k   2 log L0 , 1,, k  Sedangkan analog pada jumlah kuadrat total adalah devians pada model yang berisi konstanta  0 , dengan demikian koefisien determinasi R2, sebagai berikut:

191

R2 

D1 ,  2 ,,  k  0  JK REG  JK TOTAL D 0  

2 log L 0 , 1 ,,  k   2 log L0  2 log L 0 , 1 ,,  k 

1

log L0  log L0 , 1 ,,  k 

5.5. Contoh Data I Jenis data yang digunakan adalah data tentang banyaknya pecahan yang terjadi pada lapisan atas di dalam tambang batubara (Myers, 1990). Adapun variabel yang akan digunakan adalah: X1

: Ketebalan beban bagian dalam (feet), merupakan jarak terpendek antara lapisan tanah dengan lapisan yang paling bawah.

X2

: Prosentase ekstrasi dari lapisan tambang sebelumnya yang paling bawah.

X3

: Tinggi lapisan paling dalam (feet), dan

X4

: Lamanya waktu (tahun) tambang itu dibuka.

Y

: Banyaknya Pecahan.

Berikut data tentang banyaknya pecahan yang terjadi pada lapisan atas tambang batubara:

192

Tabel 5.1. Data banyaknya pecahan pada lapisan atas tambang batubara No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Y 2 1 0 4 1 2 0 0 4 4 1 4 1 5 2 5

X1 50 230 125 75 70 65 65 350 350 160 145 145 180 43 42 42

X2 70 65 70 65 65 70 60 60 90 80 65 85 70 80 85 85

X3 52 42 45 68 53 46 62 54 54 38 38 38 42 40 51 51

X4 1 6 1 0.5 0.5 3 1 0.5 0.5 0 10 0 2 0 12 0

No 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

Y 3 3 2 2 0 1 5 2 3 3 3 0 0 2 0 0

X1 65 470 300 275 420 65 40 900 95 40 140 150 80 80 145 100

X2 75 90 80 90 50 80 75 90 88 85 90 50 60 85 65 65

X3 68 90 165 40 44 48 51 48 36 57 38 44 96 96 72 72

X4 5 9 9 4 17 15 15 35 20 10 7 5 5 5 9 9

17

5

45

85

18 19 20 21

5 0 5 1

83 300 190 145

85 65 90 90

42

0

39

3

150

80

48

3

48 68 84 54

10 10 6 12

40 41 42 43

2 3 5 0

150 210 11 100

80 75 75 65

48 42 42 60

0 2 0 25

22

1

510

80

57

10

44

3

50

88

60

20

Sumber : (Myers, 1990). Model penuh untuk regresi Poisson pada kasus ini adalah: ^

^

^

^

^

^

  exp(  0  1 x1   2 x2   3 x3   4 x4 ) Entri data pada program R dilakukan sebagai berikut >yx1x2x3x4library(systemfit) >library(micEcon) >Fungsi_NonLinierstart=c(0,0,0,0,0) >loglikHasil=summary(maxLik(Fungsi_NonLinier, start=start)) >loglikHasil

Hasil untuk Model 1 (model lengkap) Maximum Likelihood estimation Newton-Raphson maximisation, 5 iterations Return code 1: gradient close to zero. May be a solution Log-Likelihood: -67.06384 5 free parameters Estimates: Estimate Std. error t value Pr(> t) [1,] -3.59308956 1.03440535 -3.4736 0.0005136 *** [2,] -0.00140659 0.00083591 -1.6827 0.0924334 . [3,] 0.06234576 0.01238185 5.0353 4.772e-07 *** [4,] -0.00208034 0.00507014 -0.4103 0.6815766 [5,] -0.03081349 0.01626694 -1.8942 0.0581931 . Signif.codes: 0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Berdasarkan hasil pada penggunaan aplikasi software R untuk model 1 dimana seluruh variabel independen digunakan dalam pembentukan model regresi Poisson pada data tambang diperoleh estimasi untuk masing–masing parameter adalah sebagai berikut:

194

Tabel 5.2. Estimasi parameter model 1 untuk data tambang No

Parameter

Nilai

P-value

1

0

– 3.59308956

0.0005136

2

1

– 0.00140659

0.0924334

3

2

0.06234576

4.772e-07

4

3

– 0.00208034

0.6815766

5

4

– 0.03081349

0.0581931

Tabel 5.3. Estimasi parameter model 2 untuk data tambang No

Parameter

Nilai

Keterangan

1

0

– 3.72068232

0.0001315

2

1

– 0.00147925

0.0727517

3

2

0.06270111

2.759e-07

4

4

– 0.03165139

0.0522879

Tabel 5.4. Perhitungan keberartian parameter Model

Model

2

1

,

D

3

1

,

D

4

1

,

D

3

2

,

D

4

2

,

D

4

3

,

D

2

1

,

D

2

1

,

D

3

1

,

D

3

2

,

D

2

1

,

D

Reduksi

,

3

,

4

│ 0,

1

,

4

│ 0,

2

,

4

│ 0,

3

,

3

│ 0,

4

,

Model Full

│ 0)

1

│ 0,

1

│ 0,

1

│ 0,

2

│ 0,

2

│ 0,

3

Parameter

-85.6277

-67.06384

37.1277

)

-84.0557

-67.06384

33.9837

)

-72.4459

-67.06384

10.7642

)

-85.0566

-67.06384

35.9855

)

-84.1952

-67.06384

34.2628

)

-69.1827

-67.06384

4.2377

)

-83.6710

-67.06384

33.2143

)

-83.3491

-67.06384

32.5704

)

-71.9294

-67.06384

9.7312

)

-68.9489

-67.06384

3.7701

)

-83.7769

-67.06384

33.4262

4

│ 0,

Nilai Keberartian

,

2

,

3

,

4

,

3

,

4

,

4

195

D

4

D

3

D

2

D

1

│ 0,

1

│ 0,

1

│ 0,

1

│ 0,

2

,

2

,

2

,

3

,

3

,

3

,

4

,

4

,

4

)

-69.0111

-67.06384

3.8944

)

-67.1512

-67.06384

0.1747

)

-83.0394

-67.06384

31.9511

)

-68.6471

-67.06384

3.1665

Untuk mempermudah dalam mengetahui nilai keberartian pada setiap parameter dalam model, berikut hasil nilai keberartian parameter yang ditampilkan dalam tabel. Tabel 5.5. Pengujian hipotesis untuk masing – masing kombinasi model Nilai Keberartian

Model

H0

H

Parameter D

1

,

2

,

3

D

2

,

3

,

4

D

1

,

3

,

4

D

1

,

2

,

4

D

1

,

2

,

3

D

3

,

4

│ 0,

1

D

2

,

4

│ 0,

1

D

2

,

3

│ 0,

1

D

1

,

4

│ 0,

2

D

1

,

3

│ 0,

2

D

1

,

2

│ 0,

3

D

4

│ 0,

1

D

3

│ 0,

1

D

2

│ 0,

1

D

1

│ 0,

2

,

│ 0)

4

│ 0,

1

│ 0,

2

│ 0,

3

│ 0,

4

4

,

4

,

3

,

4

,

4

,

4

,

3

,

3

H0 Tolak

,

4

=0

3

6.251

H0 Tolak

,

4

=0

3

6.251

H0 Tolak

,

3

=0

3

6.251

H0 Tolak

=0

2

4.605

H0 Terima

=0

2

4.605

H0 Tolak

=0

2

4.605

H0 Tolak

=0

2

4.605

H0 Tolak

=0

2

4.605

H0 Terima

=0

H0 Tolak

2 2

1

3

H0 Tolak

6.251

,

1

34.2628

,

7.779

3

,

35.9855

)

,

4

=0

3

)

4

4 4

3

,

=0

Keputusan

,

,

1

,

, 3

10.7642

3

2

2

,

)

2

2

, 2

,

,

1

33.9837

,

,

37.1277

)

Nilai Tabel

)

4.2377

3

,

4

)

33.2143

2

,

4

)

32.5704

2

,

3

)

9.7312

1

,

4

)

3.7701

1

,

3

)

33.4262

1

,

2

2

4.605

)

3.8944

4

=0

1

2.706

H0 Tolak

)

0.1747

3

=0

1

2.706

H0 Terima

)

31.9511

2

=0

1

2.706

H0 Tolak

)

3.1665

1

=0

1

2.706

H0 Tolak

196

Hasil dari 15 kombinasi peubah yang ada terlihat bahwa X3 mempunyai peranan yang tidak berarti terhadap model, maka dapat dikatakan bahwa model dengan peubah – peubah X1, X2, dan X4 merupakan model yang terbaik karena mempunyai nilai devians yang paling kecil dan memiliki nilai keberartian yang paling besar serta masing – masing koefisien regresinya memberikan peranan yang cukup berarti terhadap model. Pada pengujian koefisien deteriminasi dalam regresi Poisson menujukkan hubungan pengaruh variabel y (sebagai variabel dependen) dan variabel x (sebagai variabel independen) yang diperoleh dengan menghitung:

D(0 , 1, 2 , 4 )  2 logL(0 , 1, 2 , 4 )  0.17466 D(0 )  2 logL(0 )  37.1277

sehingga nilai koefisien determinasi R2 dalam kasus ini adalah: D0 , 1 ,  2 ,  4  0.17466 R2  1  1  0.9953 D0  37.1277 Untuk menginterprestasikan nilai koefisien determinasi, peneliti harus membuat nilai tersebut dalam persentase yang berarti 99.53%. Maksud nilai ini adalah bahwa sebesar 99.53% perubahan atau variasi dari banyaknya pecahan dapat dijelaskan oleh ketebalan beban bagian dalam (feet), prosentase ekstrasi, dan lamanya waktu (tahun), sedangkan 0.46% dijelaskan oleh variabel lain. Berdasarkan dari pengujian yang telah dilakukan, maka model regresi Poisson dengan fungsi link log adalah sebagai berikut: ^

  exp( 3.72068232  0.00147925x1  0.06270111x2  0.03165139 x4 )

197

5.6. Contoh Data II Penelitian mengenai kelangsungan spesies possum (kus-kus). Variabel yang diamati adalah y

: banyaknya spesies possum yang ditemukan

Acacia

: banyaknya pohon acacia indeks kualitas Bark

Bark Habitat

: Habitat score untuk Leadbeater s possum

Shrubs

: banyaknya semak-semak (shrub) banyaknya hollow trees

Stags

Yang akan diteliti adalah apakah variabel-variabel tersebut di atas mempengaruhi populasi possum. Diperoleh data sebagai berikut (20 data pertama dari 150 data) Tabel 5.6. Data obeservasi Jumlah Possum (kus kus) No

y

Acacia

Bark

Habitat

Shrubs

Stags

1

3

32

30

10

7

13

2

2

5

13

3

6

16

3

1

9

27

3

8

7

4

2

17

17

9

7

15

5

3

21

12

9

6

17

6

2

32

7

11

4

17

7

3

17

11

9

7

10

8

2

18

5

9

14

21

9

0

1

14

4

6

8

10

0

9

10

2

9

5

11

1

9

4

3

12

7

12

1

10

4

7

17

6

13

0

12

12

2

9

5

14

4

1

15

8

10

7

198

15

2

26

9

2

5

5

16

3

17

14

8

10

11

17

1

8

18

2

12

7

18

3

24

9

10

9

12

19

3

20

8

9

5

12

20

1

14

13

10

9

5

Sumber : Biological Conservation, Kirkwood (1996). Entri data pada program R adalah sebagai berikut : > y length(y) [1] 151

Pertanyaan 1. Apakah semak (shrubs ) meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah semaksemak (shrubs) ? > Shrubs shrubdat shrub.fit summary(shrub.fit)

199

Call: glm(formula = y ~ Shrubs, family = poisson, data = shrubdat) Deviance Residuals: Min 1Q Median 3Q Max -1.8424 -1.6565 -0.3426 0.4917 2.2243 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.29261 0.12715 2.301 0.0214 * Shrubs 0.01576 0.01718 0.917 0.3591 --Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 186.67 on 149 degrees of freedom AIC: 471.47 Number of Fisher Scoring iterations: 5

Apakah model regresi Poisson cocok? Residual devians adalah sebesar 186.67, dari distribusi yang mendekati 2 dengan derajat kebebasan 149.

Perkiraan nilai P-value adalah 0.02. Ini berarti

bahwa penyimpangan yang besar seperti itu tidak mungkin terjadi jika

model

Poisson

memadai,

yang

memaksa

kita

untuk

menyimpulkan bahwa model tidak cocok. Apakah variabel Shrubs memperbaiki model? Perubahan dalam penyimpangan sangat kecil, hanya 0.82.

P-value (berdasar 2

dengan derajat kebebasan 1) adalah sekitar 0.36. Tidak ada cukup bukti untuk menyimpulkan bahwa Shrubs adalah prediktor berguna. Sementara Shrubs sebagai satu-satunya prediktor tidak berguna, mungkin jika kita menambahkan Shrubs untuk sebuah model yang memasukkan Stags, akan ada perbaikan. Penyelidikan berikutnya adalah model regresi dengan multiple prediktor.

200

Pertanyaan 2. Apakah Stags meningkatkan habitat kus-kus? Apakah ada hubungan antara jumlah spesies kuskus dan jumlah Stags ? Seberapa baik model regresi Poisson cocok dengan data? Kita dapat menggunakan deviasi residual untuk menjawab pertanyaan ini. Hipotesis nol-nya adalah bahwa model regresi Poisson memberikan yang memadai sesuai dengan data. Deviasi residual adalah ukuran berapa banyak data yang menyimpang dari model, jadi semakin besar sisa penyimpangan ini, semakin tidak cocok. deviasi residual adalah 153.34, untuk dapat dibandingkan dengan chi-kuadrat dengan derajat kebebasan 149.

Nilai P-value 0.387,

yang cukup besar sehingga kita tidak perlu menolak hipotesis nol. Model tampaknya memadai/sesuai. Apakah variabel prediktor x = stage signifikan secara statistik? Seperti

halnya

dalam

regresi

logistik,

deviasi

nol

adalah

penyimpangan dari model yang memiliki 1  0 , yaitu model nol mengabaikan x dan memprediksi nilai konstan untuk y. Jika x adalah prediktor yang dapat digunakan, model Poisson akan cocok dengan data yang lebih baik dan penyimpangan nol akan secara signifikan lebih besar daripada penyimpangan residu. distribusi dengan satu derajat kebebasan. Perbedaan antara dua devians memiliki distribusi 2 dengan derajat kebebasan 1. Perubahan deviasi (null devians minus residual devians) adalah 187.49-153.34 = 34.15.

Peluang variabel 2 dengan satu derajat kebebasan akan

mengambil nilai lebih besar dari 34.15

mendekati nol (0). Kita

dapat menyimpulkan bahwa penambahan x ke model nol menghasilkan peningkatan yang signifikan.

201

Cara lain untuk menguji kekuatan prediksi x = stage adalah dengan melihat P-value untuk z-test dimana

1  0 . P-value adalah

sebesar 2.88e-10, pada dasarnya 0, yang mendukung kesimpulan kami

bahwa

x

adalah

prediktor

yang

dapat

digunakan.

Persamaan yang sesuai adalah

yˆ i   i  e 0.080.05xi . Seperti yang diharapkan, semakin banyak stage dalam suatu area, semakin tinggi jumlah spesies kuskus yang ditemukan. > StagsStagsdatglm(formula = y ~ Stags, family = poisson, data = Stagsdat) Call: glm(formula = y ~ Stags, family = poisson, data = Stagsdat) Deviance Residuals: Min 1Q Median 3Q Max -2.46184 -1.38993 -0.06549 0.59729 1.89332 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.084347 0.110074 -0.766 0.444 Stags 0.049709 0.007884 6.305 2.88e-10 *** --Signif. codes: 0'***' 0.001'**' 0.01 '*' 0.05 '.' 0.1 '' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 187.49 on 150 degrees of freedom Residual deviance: 153.34 on 149 degrees of freedom AIC: 438.14 Number of Fisher Scoring iterations: 5

202

5.7. Contoh Data III Perhatikan data dalam tabel di bawah ini, disajikan banyaknya kejadian kanker kulit non-melanoma di kalangan wanita di Minneapolis-St. Paulus. Tabel 5.7. Data banyaknya kanker kulit Usia

Kasus

Populasi

15-24

1

172.675

25-34

16

146.207

35-44

30

121.374

45-54

71

111.353

55-64

102

83.004

65-74

130

55.932

75-84

133

29.007

85+

40

7.538

Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf. Menurut teori, kasus kanker kulit meningkat dengan usia. Tetapi jumlah kasus kanker kulit juga akan bergantung pada ukuran populasi. Selama ukuran populasi berbeda dengan kelompok usia, model akan sesuai dengan ukuran populasi. Hal ini cukup mudah sesuai dengan yang diperlukan dalam model regresi Poisson untuk memperkirakan tingkat kasus (incidence rate). Misal Ni menyatakan ukuran populasi dengan observasi ke-i. Jika i adalah jumlah kasus yang diharapkan, maka perkiraan tingkat kasus adalah i/Ni . Menggunakan sifat dari logaritma :

log(

i Ni

)  log(  i )  log( N i ) .

Dan dianggap bahwa log-rate adalah fungsi linear prediktor x:

203

log(

i Ni

)  log(  i )  log( N i ) =  0  1 xi

log(  i )   0   1 xi  log( N i ) . Dalam contoh ini,

karena kelompok Age (usia) merupakan

variabel kategorik dan kita membutuhkan prediksi numerik, kita akan menggunakan titik tengah interval umur dari masing-masing sebagai nilai dari variabel usia. Di bawah ini adalah kode R dan output. > age Cases Pop minn.txt minn.fit summary(minn.fit) Call: glm(formula = Cases ~ age + offset(log(Pop)), family = poisson, data = minn.txt) Deviance Residuals: Min 1Q Median 3Q Max -4.87198 -1.67519 -0.07185 1.20816 1.99291 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept)-10.551604 0.168780 -62.52