STATA Untuk Pemula PDF [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

PENGENALAN STATA (DRAFT)



DAFTAR ISI v



Kata Pengantar



v



Daftar Isi



vi



Bab 1



Bab 2



Pendahuluan



1



Membuka dan Menutup Program & File Data



1



Membuat File Data Baru Stata



6



Mengimpor File Excel ke dalam Stata



10



Menyimpan Analisis Data Stata dalam File Log



12



Manajemen Data



17



Membuka file data: use, sysuse, dan webuse



17



Membuka dan menyimpan file data dalam format



18



Excel: import dan export Menampilkan isi dataset: edit dan browse



18



Pembatasan perintah: ekspresi if dan in



19



Menampilkan nilai-nilai variabel dan definisi nilainilai label: list dan label list



21



Deskripsi data: describe



23



Tipe data dan kompresi data dalam memori: data types dan compress



24



Konversi variabel string menjadi numeric dan sebaliknya: destring dan tostring



25



Mengurutkan, membuang, dan mempertahankan variabel: order, drop, dan keep



25



vi



Mengurutkan nilai variabel dan penggunaan hasilnya:



26



sort dan by Membuat variabel baru dan mengganti nilai variabel:



27



generate, replace, dan egen



Bab 3



Bab 4



Bab 5



Bab 6



Bab 7



Statistika Deskriptif



28



Nilai-nilai Deskriptif Variabel Numerik



28



Nilai-nilai Deskriptif Variabel Kategorik



32



Grafik Statistik



39



Histogram dan Densitas Kernel



39



Histogram untuk Variabel Kategorik



46



Diagram Batang



47



Diagram Tebar



49



Diagram Kotak & Titik



52



Diagram Lingkar



55



Grafik Matriks



56



Analisis Statistik Sederhana



59



Uji t



59



Uji Khi-kuadrat



71



Analisis Variansi



80



Analisis Variansi 1-Arah



80



Analisis Variansi 2-Arah Tanpa Interaksi



84



Analisis Variansi 2-Arah Dengan Interaksi



87



Analisis Regresi Linear



90



vii



Bab 8



Bab 9



Regresi Linear Sederhana



90



Regresi Linear Sederhana dengan Prediktor Indikator



95



Regresi Linear Ganda



96



Regresi Linear Ganda dengan Prediktor Kategorik



99



Regresi Linear Ganda dengan Interaksi



101



Analisis Regresi Logistik



106



Model Regresi Logistik Sederhana



106



Model Regresi Logistik Ganda



109



Statistika Nonparametrik



114



Uji ranksum Wilcoxon (Mann-Whitney)



114



Uji signrank Wilcoxon



115



Uji Kesamaan Rank Kruskal-Wallis



116



Kepustakaan



119



viii



BAB 1 PENDAHULUAN



Pengantar Stata adalah software untuk keperluan statistik yang dibuat oleh StataCorp. Stata digunakan oleh banyak perusahaan dan lembaga akademis di seluruh dunia, termasuk di bidang kesehatan. Stata memiliki kemampuan yang lengkap meliputi manajemen data, analisis statistik, grafis, simulasi dll.



Membuka dan Menutup Program & File Data Stata adalah program statistik yang dikeluarkan oleh Stata Corporation. Salah satu keunikan Stata yaitu pengguna / organisasi pengguna dapat mengembangkan perintah-perintah baru untuk berbagai aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna Stata. Perintah-perintah Stata dapat diberikan baik melalui menu maupun secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata Command, Variables (terdiri atas 2 bagian: Name dan Properties), Review,



dan Stata Results (Gambar 1.1).



1



Gambar 1.1. Tampilan awal pada saat membuka program Stata



Keterangan : Menu bar merupakan daftar menu di stata untuk dapat memilih apa yang akan dilakukan di stata 1. File : membuka file baik file data, do-file maupun log-file, menyimpan data, membuka jendela penampil (viewer), menjalankan do-file, memberi/mengubah nama file, membuat/menghentikan/menambah logfile, melakukan import data, melakukan export data, mencetak file (print) 2. Edit: melakukan copy, paste, melakukan pencarian (find), mengubah tampilan Stata (preference) 3. Data: mendeskripsikan data, memunculkan dataset, mengedit dataset, memunculkan variabel manager, mengubah utilitas data. 4. graphics: menu untuk membuat grafik 5. statistics: menu untuk melakukan analisis deksriptif dan analitik 6. user: menampilkan data, grafik dan statistik 7. window: menampilkan jendela-jendela kerja 2



7. help: mencari bantuan.



Toolbar menampilkan ikon jalan pintas untuk memilih menu yang sering digunakan



1. open: membuka file, baik file data, do-file maupun log-file 2. save: menyimpan file data 3. print: mencetak output yang terdapat di jendela hasil 4. log-file: membuat, memulai, menghentikan, dan menambah log-file 5. viewer: jendela tampilan, menampilkan log-file dan bantuan (help) 6. graph: untuk menampilkan grafik, akan aktif bila kita telah membuat grafik di Stata 7. do-file editor: untuk membuat, dan melakukan editing do-file 8. data editor : untuk menampilkan data, tanpa bisa melakukan editing data 9. data browser : untuk menampilkan data, ste melakukan editing data 10. variable manager: untuk menampilkan jendela variabel manager, berisi daftar semua variabel dan sterisk dari setiap variabel yang ada (nama, tipe, format, label, dll). 11. more: untuk melanjutkan tampilan output di jendela hasil 12. break: untuk memotong tampilan output di jendela hasil



Membuka file data Stata (file dengan extension *.dta) dapat dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan perintah “use”. Misalnya untuk membuka file honolulu.dta yang tersimpan pada folder D:\Data\Stata\ diketikkan perintah: . use "D:\Data\Stata\honolulu.dta"



3



Jika sebelumnya ada file data Stata lain yang masih terbuka, maka ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan menghapus variabel-variabelnya dari memori komputer: . use "D:\Data\Stata\honolulu.dta", clear Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”: . cls



Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan tombol Enter. Tiap perintah diketik pada jendela Stata Command yang hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat, perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap perintah yang telah dieksekusi juga akan muncul secara otomatis pada jendela Review, yang dapat memuat lebih banyak baris perintah. Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear, walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka, semua



4



variabelnya, baik nama maupun properties-nya secara otomatis akan muncul pada jendela Variables (gambar 1.3). Gambar 1.3. Contoh penggunaan perintah 'use' untuk membuka file data Stata Untuk memperoleh informasi lebih detil mengenai pengertian dan penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”, misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“ atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan membuka jendela “help use” atau “help clear”: . help use



atau:



. help clear



dan seterusnya.



Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun tidak ada file data yang sedang terbuka. Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan program Stata, file yang masih terbuka ini harus dihapus dari memori (ditutup) setelah sebelumnya di-saved jika perlu. Perintah untuk menutup file, lalu menutup program Stata ialah “clear”, lalu “exit”: . clear . exit



Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika diberi perintah untuk membuka file data kedua, file data pertama otomatis akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu. Dengan membuka program Stata kedua, file data kedua dapat dibuka pada program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga dengan file data ketiga, dan seterusnya.



5



Perintah Stata Terdapat dua cara dalam menjalankan perintah stata, yaitu dengan syntaks dan menu pull down. Cara yang akan kita bahas dalam modul ini sebagian besar menggunakan syntaks. 1. Syntaks Syntaks merupakan perintah/command yang dituliskan pada jendela command. Cara ini akan lebih banyak kita gunakan dalam mengolah dan mengalisis data di stata. Karena cara ini lebih mudah digunakan jika kita sudah terbiasa menggunakan stata. Anda tidak perlu menghafalkan syntaks, secara otomatis jika Anda sering menggunakan stata Anda akan hafal dengan sendirinya, dan bila lupa Anda bisa mencarinya melalui help, yang penting adalah paham format logika syntaks. Format syntaks stata secara umum adalah: (command) [namavariabel] [if kondisi] [in] [,] [opsi] 



 







Command adalah input perintah yang harus ada pada setiap kali memberikan perintah pada Stata, perintah pada stata selalu menggunakan huruf kecil (lowercase), pada perintah tertentu, perintah dapat disingkat dengan hanya memasukan 3 digit pertama dari perintah, misalnya perintah describe yang dapat disingkat hanya memasukan perintah des, tetapi perlu diingat bahwa tidak semua perintah pada Stata dapat disingkat. Namavariabel adalah nilai yang diberikan untuk perintah yang dapat berupa variable dari dataset yang aktif, variable lainnya yang bertipe string atau numerik. “If kondisi” adalah formula atau rumus yang dapat dikostumisasi sesuai kebutuhan yang memberikan batasan pada perintah yang akan dijalankan, “if kondisi” pada semuacommand bersifat opsional dan tidak semua command dapat ditambahkan “if kondisi”. “in” adalah kondisi yang mengacu pada observasi, misalnya “in 1” artinya pada obervasi 1, “in 1/5” mengacu pada obervasi nomor 1 sampai nomor 5. Opsi pada perintah stata selalu berada setelah tanda koma “,”, sama seperti command, beberapa opsi pada beberapa command juga dapat disingkat. 2.



Pull Down Menu Cara pertama adalah memilih melalui menu bar (daftar menu) atau toolbar (jika pilihan menu ada di dalam toolbar). Cara ini banyak digunakan 6



apabila kita adalah pengguna baru Stata dan belum mengenal cara melakukan perintah dengan DOS.



Membuat File Data Baru Stata Untuk membuat file data baru, cara termudah yaitu membuka jendela Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan spreadsheet biasa (gambar 1.4a).



Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar



Gambar 1.4a. Jendela Stata Editor untuk pemasukan data Nama variabel baru dapat diberikan setelah paling sedikit satu nilai data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama 7



awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela Variable Properties akan ditampilkan dan pengguna dapat mengganti nama variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah. Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang kosong (blank spaces) di antaranya. Ruang kosong akan memisahkan suatu nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel. Nama variabel juga dapat diganti dengan menutup jendela Edit dan kembali ke jendela Stata Command dan gunakan sintaks: rename varname_old varname_new



Tiap variabel dapat diberi label dengan perintah label variable, yaitu istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis Stata, misalnya label untuk variabel bb adalah Berat Badan. Pemberian label dapat dilakukan melalui jendela Variable Properties ataupun diketikkan perintahnya pada jendela Stata Command dengan sintaks: label variable varname ["label"]



Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 = pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata, tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai yang direpresentasikan oleh suatu nama nilai label didefinisikan dengan perintah label define. Misalnya untuk variabel merokok dapat diberi nama nilai label (label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“. Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan definisi “1 primer 2 sekunder 3 tersier”. Perhatikan bahwa tiap nama nilai label yang telah didefinisikan dapat digunakan untuk variabel lain dengan definisi yang sama, misalnya nama nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok juga dapat dipakai untuk variabel hbp yang menyatakan apakah responden menderita hipertensi atau tidak. 8



Nama nilai label dan definisinya dapat dibuat dengan perintah pada jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan melalui jendela Variables Manager yang dibuka dengan mengklik icon



Gambar 1.5. Icon Variables Manager pada Tool Bar



Contoh 1.1: Buka program Stata, lalu klik ikon Data Editor atau ketikkan perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet Data Editor (5 baris pertama dan 6 kolom terkiri):



9



1



1



18



1



59



1



2



2



21



1



55



1



3



2



22



0



42



0



4



1



19



1



57



0



5



3



20



0



47



0



Stata secara otomatis memberi nama keenam kolom tersebut dengan var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut untuk memberi/mengganti nama-nama variabel: . rename var1 nores . rename var2 fak . rename var3 usia . rename var 4 seks . rename var5 bb . rename var6 nktt



Berikut adalah perintah untuk memberi label bagi tiap variabel: . label var nores “Nomor Responden” . label var fak “Fakultas” . label var usia “Usia” . label var seks “Jenis Kelamin” . label var bb “Berat Badan” . label var nktt “Riwayat Nyeri Kepala”



Variabel pertama nores bukan merupakan variabel sebenarnya. Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian nama nilai label untuk variabel kategorik dan definisinya. . label values fak kode_fak . label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi” . label values seks kode_seks 10



. label define kode_seks 1 “pria” 0 “wanita” . label values nktt yesno . label define yesno 1 “ya” 0 “tidak”



Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya pada contoh ini diperlihatkan pada tabel berikut: No Variabel 1



fak



Label



Nilai label



Definisi



Fakultas



kode_fak



1 Ilmu Komputer



2



seks



Jenis Kelamin



kode_seks



2 Ekonomi 3 Psikologi 1 pria 0 wanita



3



nktt



Riwayat Nyeri Kepala



yesno



1 ya 0 tidak



Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai label. Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat dilakukan melalui menu bar dengan mengklik “File > Save > D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat juga



dilakukan dengan mengetikkan perintah: . save "D:\Data\Stata\latihan1.dta"



file D:\Data\Stata\latihan1.dta saved



Mengimpor File Excel ke dalam Stata Membuat file data baru Stata dapat juga dilakukan dengan terlebih dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu jika data juga hendak diolah dengan program komputer statistik lain. Syarat untuk file Excel agar dapat di-“impor” ke dalam program Stata (dan juga program komputer statistik lainnya) yaitu:



11



-



File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam analisis data.



-



Nama-nama variabel dituliskan pada baris teratas, semuanya diawali dengan huruf kecil.



-



Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama), baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh responden termuat datanya, tanpa ada baris kosong yang terselip di antara baris-baris data.



Prosedur untuk meng-“impor” file Excel ke dalam program Stata dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata Command.



Contoh 1.2: Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata. Pada menu bar, klik File > Import > Excel spreadsheet (*.xls, *xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1 worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di depan tulisan “Import first row as variable names”, lalu klik OK., maka file Excel bankloan.xls tersebut telah terbuka dalam Stata.



Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan dengan mengetikkan perintah: . import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow



12



File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata, tetap harus melalui prosedur “save”: . save "D:\Data\Stata\bankloan.dta"



file D:\Data\Stata\bankloan.dta saved



Menyimpan Analisis Data Stata dalam File Log Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat direkam dan disimpan sebagai file log dengan format *.scml yang dapat dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur selengkapnya diperlihatkan pada contoh berikut.



Contoh 1.3: Buka file



log



exercise1.scml



untuk disimpan



dalam



“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya. Atau ketikkan perintah: . log using "D:\Data\Stata\exercise1"



Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai perintah-perintah akan diberikan dalam bab-bab berikut. Misalkan hendak dibuka file data Arctic9.dta. . use “D:\Data\Stata\Arctic9.dta”, clear



(Arctic September mean sea ice 1979-2011) Atau klik File > Open > . . . > Arctic9.dta 13



Untuk melihat deskripsi singkat dataset yang ada dalam memori, digunakan perintah describe. . describe



Untuk melihat isi dataset pada record No. 1 s.d. 10: . list in 1/10



+--------------------------------------------------------+ | year month extent area volume volumehi volumelo tempN | |--------------------------------------------------------| 1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 | 2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 | 3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 | 4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 | 5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 | |-------------------------------------------------------| 6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 | 7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 | 8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 | 9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 | 10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 | +-------------------------------------------------------+ Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi, minimum, dan maksimum digunakan perintah summarize.



14



. summarize



Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------------year | 33 1995 9.66954 1979 2011 month | 33 9 0 9 9 extent | 33 6.51697 .9691796 4.3 7.88 area | 33 4.850303 .8468452 3.09 6.02 volume | 33 12.04664 3.346079 4.210367 16.9095 --------+-------------------------------------------volumehi | 33 13.39664 3.346079 5.560367 18.2595 volumelo | 33 10.69664 3.346079 2.860367 15.5595 tempN | 33 .790303 .7157928 -.57 2.22 Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu: . correlate



(obs=33) | year month extent area volume volumehi volumelo tempN ---------+--------------------------------------------------------year | 1.0000 month | . . extent | -0.8446 . 1.0000 area | -0.8732 . 0.9826 1.0000 volume | -0.8999 . 0.9308 0.9450 1.0000 volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000 volumelo | 0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000 tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000 Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan dalam bentuk grafik: . graph twoway connect extent year



15



1980



1990



2000



2010



Year



Jika pengolahan dan analisis data telah selesai, file log dapat ditutup dan disimpan: . log close



name: log: D:\Data\Stata\exercise1.smcl log type: smcl closed on: 29 Jun 2014, 15:33:33 Perintah ini sama dengan melalui menu bar File > Log > Close. Selama file log terbuka pada saat pengolahan dan analisis data, seandainya program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis data belum selesai, perekaman dapat dihentikan sementara, kemudian dilanjutkan dengan sintaks: log off logname (perintah penghentian sementara) log on logname (perintah melanjutkan kembali)



File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam program Stata dengan mengklik File > Log > View. File dalam format *.scml dapat diubah menjadi format *.log yang dapat dibuka dengan wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File > Log > View yang akan membuka jendela “Translate file” atau dengan mengetikkan perintah: . translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”



16



Selanjutnya file exercise1.log dapat dibuka dengan menggunakan salah satu wordprocessor dalam MS Office, tanpa melalui program Stata. Hasil analisis data pada jendela Result juga dapat dipindahkan ke Word Processor, misalnya MS Word dengan metode “salin-tempel” (copypaste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font Courier New. Semua file data yang dipergunakan dalam buku ini dapat diunduh dari http://harlan_johan.staff.gunadarma.ac.id/Publications.



17



Bab 1. Pendahuluan



18



Bab 2. Manajemen Data



BAB 2 MANAJEMEN DATA Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam proses manajemen data.



Membuka file data: use, sysuse, dan webuse Sintaks untuk membuka file data Stata adalah: use filename [, clear]



Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear] diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini akan selalu muncul. Contoh: . use “D:\Data\Stata\honolulu”, clear



Sintaks untuk membuka file data Stata yang terinstalasi bersama program Stata atau tersimpan dalam ado-path adalah: sysuse filename [, clear]



Contoh: . sysuse auto, clear



(1978 Automobile Data) Sintaks untuk membuka file data yang tersimpan di Web adalah: webuse filename [, clear]



Secara default, file data untuk Stata 14 diperoleh dari http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:



19



Bab 2. Manajemen Data . webuse lifeexp



(Life expectancy, 1998)



Membuka dan menyimpan file data dalam format Excel: import dan export Stata dapat membuka atau menyimpan data dalam format data-based lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah: import excel filename [, options] export excel using filename [, options]



Salah satu opsi pada import excel ialah worksheet akan dibuka. Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris pertama file Excel akan diperlakukan sebagai nama variabel. Pada



export excel opsi terpenting adalah pilihan antara firstrow(variables) atau firstrow(varlabels) untuk menentukan yang



akan dijadikan baris pertama pada file Excel. Contoh: . import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow clear . use auto, clear . export excel using "D:\Data\Stata\auto.xls", firstrow(variables)



Menampilkan isi dataset: edit dan browse Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet dapat dilihat pada jendela Data Editor atau jendela Data Browser yang akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram 1).



20



Bab 2. Manajemen Data



Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar Dengan membuka jendela Data Editor, data dapat dilihat dan juga dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan sintaks: edit varlist [if] [in] browse varlist [if] [in]



dan:



Pembatasan perintah: ekspresi if dan in Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata. Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata. Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator relasional, dan operator logika. Operator aritmetika adalah: + (penjumlahan), − (pengurangan), * (perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan). Operator relasional adalah: > (lebih daripada), < (kurang daripada), >= (lebih besar atau sama dengan), 50000 | income>30000 & age30000” hanya untuk yang “age50000 | (income>30000 & age, =50 in 51/70



+------------------------+ | no_id usia td_sist | |------------------------| 51. | 51 52 118 | 56. | 56 53 134 | 57. | 57 52 124 | 58. | 58 56 124 | 59. | 59 52 114 | |-----------------------| . display usia[51]



52 . label list kode_pendidikan yatidak kode_pendidikan:



1 2 3 4 5



tidak ada SD SMP SMA SMK 0 tidak 1 ya



6 Universitas yatidak:



. label list 24



Bab 2. Manajemen Data



kode_fisik: 1 hampir selalu duduk 2 moderat 3 giat yatidak: 0 tidak 1 ya kode_pendidikan: 1 tidak ada 2 SD 3 SMP 4 SMA 5 SMK 6 Universitas



Deskripsi data: describe Perintah describe menampilkan ringkasan keterangan tentang variabel yang ada dalam dataset. Sintaks-nya adalah: describe [varlist]



Jika tidak ada nama variabel, perintah describe akan menampilkan ringkasan keterangan tentang semua variabel yang ada dalam dataset.



Contoh 2.3: . use “D:\Data\Stata\honolulu.dta”, clear



storage display value variable name type format label variable label -------------------------------------------------------- usia byte %10.0g Usia glukosa int %10.0g Kadar Glukosa Darah kolest int %10.0g Kadar Kolesterol Darah td_sist int %10.0g Tekanan Darah Sistolik



. desc usia glukosa kolest td_sist



. describe 25



Bab 2. Manajemen Data



Contains data from D:\Data\Stata\honolulu.dta obs: 100 vars: 11 18 Aug 2016 14:16 size: 2,200 -------------------------------------------------------storage display value variable name type format label variable label -------------------------------------------------------- no_id byte %10.0g Nomor Identitas tk_pend byte %10.0g Tingkat Pendidikan bb byte %10.0g Berat Badan tb int %10.0g Tinggi Badan usia byte %10.0g Usia merokok byte %10.0g Merokok akt_fisik byte %10.0g Aktivitas Fisik glukosa int %10.0g Kadar Glukosa Darah kolest int %10.0g Kadar Kolesterol Darah td_sist int %10.0g Tekanan Darah Sistolik bmi double %14.2f Indeks Massa Tubuh ---------------------------------------------------------Sorted by:



Tipe data dan kompresi data dalam memori: data types dan compress Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric dan string. Format ketiga ialah untuk dates dan times yang tidak akan dibahas di sini. Untuk mengetahui apakah suatu variabel memiliki data numeric atau string, dapat dilihat dari hasil perintah describe. Data numeric memiliki tipe penyimpanan (storage type) byte, int, long, float, atau double, kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d. 32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.



26



Bab 2. Manajemen Data



Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat menyimpan data dengan maksimum 5 karakter. Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int menjadi byte dengan perintah compress. Sintaksnya adalah: compress [varlist]



Jika perintah compress diberikan tanpa nama variabel, maka Stata akan mengkompresi semua variabel yang mungkin dikompresi tipe penyimpanannya.



Konversi variabel string menjadi numeric dan sebaliknya: destring dan tostring Program Stata hanya dapat mengolah nilai data dalam format numeric. Jika ada variabel dalam format string, maka nilai datanya perlu dikonversi terlebih dahulu dengan perintah destring menjadi format numeric sebelum diolah dengan program Stata. Adakalanya variabel dengan format numeric perlu diubah menjadi string dengan perintah tostring. Sintaks-nya adalah: dan:



destring [varlist] , {generate(newvarlist)|replace} tostring varlist , {generate(newvarlist)|replace}



Jika tidak ada variabel yang dispesifikasikan, dengan perintah destring semua variabel string akan dikonversi menjadi numeric. Opsi generate(newvarlist) akan mempertahankan variabel string lama, konversi numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan membentuk variabel numeric dengan nama variabel string lama.



Mengurutkan, membuang, dan mempertahankan variabel: order, drop, dan keep 27



Bab 2. Manajemen Data



Perintah order digunakan mengatur kembali urutan variabel dalam dataset menurut kehendak pengguna. Perintah drop akan menghapuskan variabel yang dispesifikasikan dalam dataset. Perintah keep akan mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah: order varlist Variabel akan tersusun menurut urutan pada varlist jika varlist mencakup semua variabel, atau variabel yang ada pada varlist akan diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel. drop varlist keep varlist



Perintah drop dan keep dapat juga digunakan untuk menghapus atau mempertahankan record dengan spesifikasi ekspresi if dan/atau in: drop if exp drop in range keep if exp keep in range



Mengurutkan nilai variabel dan penggunaan hasilnya: sort dan by Perintah sort mengurutkan nilai pengamatan variabel numeric yang dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf kecil. Sintaks-nya yaitu: sort varlist [in] [, stable]



Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu record setelah salah satu variabel di-sort. Perintah sort juga digunakan bersama by untuk memberikan perintah summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel kategorik yang di- sort. Sintaks-nya adalah: sort cat_var1 28



Bab 2. Manajemen Data by cat_var1: sum cont_var



atau:



by cat_var1: means cont_var



atau:



by cat_var1: tab cat_var2



cat_var : variabel kategorik cont_var :



variabel kontinu Perintah by di sini harus segera mengikuti perintah sort (tidak diselingi perintah lain dulu).



Membuat variabel baru dan mengganti nilai variabel: generate, replace, dan egen Perintah generate digunakan untuk membentuk variabel baru. Sintaks-nya adalah: generate newvar[:lblname] = exp [if] [in]



Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel lama lainnya. Contohnya yaitu: . gen luas = 0 . gen usia2 = usia^2 . gen usia_kat = 1 if usia=10



Perintah egen merupakan ekstensi terhadap perintah generate, yaitu ekspresi exp pada generate digantikan dengan suatu fungsi argumen. Sintaks-nya adalah: egen newvar = fcn(arguments) [if] [in]



Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp) dan median(exp), misalnya: . egen avg = mean(chol) . egen med_stay = median(los)



30



Bab 3. Statistika Deskriptif



BAB 3 STATISTIKA DESKRIPTIF Nilai-nilai Deskriptif Variabel Numerik Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi atau standard error, dapat digunakan perintah summarize, mean, atau means. Sintaks-nya masing-masing adalah: . summarize varlist [if] [in] summarize atau cukup singkatan su saja menampilkan nilai-nilai ringkasan



data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan maksimum. Dengan perintah sum akan ditampilkan ringkasan seluruh variabel yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak semua) variabel sekaligus, misalnya sum bb tb usia. Opsi (, detail) dapat ditambahkan pada perintah sum untuk memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan (skewness) dan kurtosis. . mean varlist [if] [in] mean menampilkan rerata (hitung), SE, dan estimasi interval rerata (interval



konfidensi 95% sebagai default). . means varlist [if] [in] means menampilkan nilai rerata dan nilai tengah lainnya, yaitu jumlah



pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik, masingmasing beserta interval konfidensi 95%-nya. Perintah means akan menampilkan rerata untuk seluruh variabel. Perintah means dapat diberikan untuk satu variabel saja (means bb, means tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means usia glukosa kolest bmi.



31



Bab 3. Statistika Deskriptif



Contoh 3.1: . use "D:\Data\Stata\honolulu.dta", clear . sum bb tb usia



Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------bb | 100 64.22 8.610048 47 91 tb | 100 161.75 5.596491 150 175 usia | 100 53.67 5.101109 46 67 Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi diketikkan perintah sum bmi, detail. . sum bmi, det



Indeks Massa Tubuh ----------------------------------------------Percentiles Smallest 1% 18.32308 18.28678 5% 19.91923 18.35938 10% 20.78645 18.87066 Obs 100 25% 22.65625 19.10009 Sum of Wgt. 100 50%



24.24242



Largest 26.33097 30.38502 90% 28.68545 30.86301 95% 30.07813 31.48789 99% 32.54082 33.59375



Mean Std. Dev.



24.54841 3.052831 75%



Variance Skewness Kurtosis



9.319776 .3563221 2.964489



. means usia glukosa kolest bmi



Variable | Type Obs Mean [95% Conf. Interval] ---------+----------------------------------------------usia | Arithmetic 100 53.67



32



Bab 3. Statistika Deskriptif



52.65783 53.44146



54.68217 | Geometric 100 52.47672 54.42393 | Harmonic 100 53.22408 52.30331 54.17786 ---------+----------------------------------------------- glukosa | Arithmetic 100 152.14 141.2753 163.0047 | Geometric 100 143.8674 134.6996 153.6591 | Harmonic 100 136.3451 127.8334 146.0712 ---------+----------------------------------------------kolest | Arithmetic 100 216.96 209.2496 224.6704 | Geometric 100 213.6993 206.458 221.1946 | Harmonic 100 210.5651 203.6 218.0236 ---------+----------------------------------------------bmi | Arithmetic 100 24.54841 23.94266 25.15415 | Geometric 100 24.36268 23.77141 24.96865 | Harmonic 100 24.17871 23.59809 24.78861 ---------+-----------------------------------------------



Contoh 3.2: . use “D:\Data\Stata\Arctic9”, clear



(Arctic September mean sea ice 1979-2011) . sum extent volume



Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------------------extent | 33 6.51697 .9691796 4.3 7.88 volume | 33 12.04664 3.346079 4.210367 16.9095 . sum extent volume, det



33



Bab 3. Statistika Deskriptif



Sea ice extent, million km^2 -------------------------------------------------Percentiles Smallest 1% 4.3 4.3 5% 4.61 4.61 10% 4.9 4.68 Obs 33 25% 6.05 4.9 Sum of Wgt. 33 50%



6.56



7.25 90% 95% 99%



7.54 7.54 7.85 7.88



Largest 7.55 7.85 7.88



Mean Std. Dev.



6.51697 .9691796 75%



Variance Skewness Kurtosis



.9393092 -.6647846 2.625661



Sea ice volume, 1000 km^3 -------------------------------------------------Percentiles Smallest 1% 4.210367 4.210367 5% 4.586367 4.586367 10% 6.977133 6.527733 Obs 33 25% 10.28357 6.977133 Sum of Wgt. 33 50% 12.81307 Mean 12.04664 Largest Std. Dev. 3.346079 75% 14.63357 15.3609 90% 15.3609 16.08027 Variance 11.19625 95% 16.31937 16.31937 Skewness -.7695098 99% 16.9095 16.9095 Kurtosis 2.7961 . mean extent volume



Mean estimation



Number of obs 34



=



33



Bab 3. Statistika Deskriptif



-------------------------------------------------------| Mean Std. Err. [95% Conf. Interval] --------+----------------------------------------------- extent | 6.51697 .1687125 6.173314 6.860626 volume | 12.04664 .5824776 10.86017 13.23311 -------------------------------------------------------. means extent volume



Variable | Type Obs Mean [95% Conf. Interval] ---------+------------------------------------------------extent | Arithmetic 33 6.51697 6.173314 6.860626 | Geometric 33 6.440565 6.085412 6.816445 | Harmonic 33 6.357201 5.990513 6.771707 ---------+------------------------------------------------- volume | Arithmetic 33 12.04664 10.86017 13.23311 | Geometric 33 11.46327 10.13751 12.96241 | Harmonic 33 10.70489 9.237083 12.7273 ---------+-------------------------------------------------



Nilai-nilai Deskriptif Variabel Kategorik Tabel Satu Arah Untuk memperoleh tabel satu-arah (one-way table; distribusi frekuensi), digunakan perintah tabulate: . tabulate varname [if] [in] [, options]



35



Bab 3. Statistika Deskriptif



Perintah tabulate (atau tab saja atau tab1) digunakan untuk menampilkan distribusi frekuensi variabel kategorik atau variabel numerik yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih daripada satu variabel (misalnya tab1 tk_pend akt_fisik). Beberapa opsi yang tersedia untuk perintah tab yaitu: -



nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai



persentase. -



nolabel: tidak menggunakan definisi nilai label (jika ada).



-



plot: perintah untuk menampilkan diagram batang (bar chart) beserta tabel



distribusi frekuensi. -



sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.



Contoh 3.3: . use "D:\Data\Stata\honolulu.dta", clear . tab tk_pend



Tingkat | Pendidikan | Freq. Percent Cum. ------------+--------------------------1 | 25 25.00 25.00 2 | 32 32.00 57.00 3 | 24 24.00 81.00 4 | 9 9.00 90.00 5 | 10 10.00 100.00 ------------+--------------------------Total | 100 100.00 . tab1 tk_pend akt_fisik



-> tabulation of tk_pend



36



Bab 3. Statistika Deskriptif



Tingkat | Pendidikan | Freq. Percent Cum. ------------+--------------------------1 | 25 25.00 25.00 2 | 32 32.00 57.00 3 | 24 24.00 81.00 4 | 9 9.00 90.00 5 | 10 10.00 100.00 ------------+--------------------------Total | 100 100.00 -> tabulation of akt_fisik Aktivitas | Fisik | Freq. Percent Cum. ------------+--------------------------1 | 49 49.00 49.00 2 | 51 51.00 100.00 ------------+--------------------------Total | 100 100.00



Contoh 3.4: . use “D:\Data\Stata\attract”, clear



(Perceived attractiveness and drinking -- DC Hamilton (2003)) . tab drinkfrq



Days | drinking in | previous | week | Freq. Percent Cum. ------------+---------------------------------0 | 4 2.04 2.04 .5 | 4 2.04 1 | 24 12.24 16.33 37



4.08



Bab 3. Statistika Deskriptif



2 |



52 2.5 |



3 |



26.53 4



40



42.86 2.04



20.41



44.90 65.31



3.5 | 12 6.12 71.43 4 | 20 10.20 81.63 4.5 | 4 2.04 83.67 5 | 16 8.16 91.84 6 | 16 8.16 100.00 ------------+---------------------------------Total | 196 100.00



Tabel Silang Untuk menampilkan tabel silang digunakan perintah tab2 sebagai berikut: tab2 varname1 varname2 [if] [in] [, options]



Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu tersedia juga opsi row (menampilkan persentase di tiap baris), column (menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di tiap sel), misalnya tab2 tk_pend akt_fisik, row.



Contoh 3.5: . use "D:\Data\Stata\honolulu.dta", clear . tab2 tk_pend akt_fisik



-> tabulation of tk_pend by akt_fisik Tingkat | Aktivitas Fisik Pendidikan | 1 2 | Total -----------+----------------+------1 | 13 12 | 25 2 | 17 15 | 32 38



Bab 3. Statistika Deskriptif



3 | 11 13 | 24 4 | 4 5 | 9 5 | 4 6 | 10 -----------+----------------+------Total | 49 51 | 100



. tab2 tk_pend akt_fisik, row



-> tabulation of tk_pend by akt_fisik +----------------+ | Key | |----------------| | frequency | | row percentage | +----------------+ Tingkat | Aktivitas Fisik Pendidikan | 1 2 | Total -----------+----------------+------1 | 13 12 | 25 | 52.00 48.00 | 100.00 -----------+----------------+------2 | 17 15 | 32 | 53.13 46.88 | 100.00 -----------+----------------+------3 | 11 13 | 24 | 45.83 54.17 | 100.00 -----------+----------------+------4 | 4 5 | 9 | 44.44 55.56 | 100.00 -----------+----------------+------5 | 4 6 | 10 39



Bab 3. Statistika Deskriptif



| 40.00 60.00 | 100.00 -----------+----------------+------Total | 49 51 | 100 | 49.00 51.00 | 100.00



Contoh 3.6: . use “D:\Data\Stata\attract”, clear



(Perceived attractiveness and drinking -- DC Hamilton (2003))



. tab2 drinkfrq gender



Days | drinking | in | previous | Gender week | Male Female | Total -----------+---------------------+---------0 | 4 0 | 4 .5 | 4 0 | 4 1 | 8 16 | 24 2 | 32 20 | 52 2.5 | 0 4 | 4 3 | 32 8 | 40 3.5 | 4 8 | 12 4 | 12 8 | 20 4.5 | 4 0 | 4 5 | 16 0 | 16 6 | 12 4 | 16 -----------+----------------------+---------Total | 128 68 | 196



40



Bab 3. Statistika Deskriptif



. tab2 drinkfrq gender, co



+-------------------+ | Key | |-------------------| | frequency | | column percentage | +-------------------+



Days | drinking | in | previous | Gender week | Male Female | Total ----------+----------------------+---------0 | 4 0 | 4 | 3.13 0.00 | 2.04 ----+----------------------+---------.5 | 4 0 | 4 | 3.13 0.00 | 2.04 -----------+----------------------+---------41



-------



Bab 3. Statistika Deskriptif



1 |



8 16 | 24 | 6.25 23.53 | 12.24 -----------+----------------------+---------2 | 32 20 | 52 | 25.00 29.41 | 26.53 ----+----------------------+---------2.5 | 0 4 | 4 | 0.00 5.88 | 2.04 ----------+----------------------+--------3 | 32 8 | 40 | 25.00 11.76 | 20.41 ----+----------------------+---------3.5 | 4 8 | 12 | 3.13 11.76 | 6.12 ----------+----------------------+--------4 | 12 8 | 20 | 9.38 11.76 | 10.20 ----+----------------------+---------4.5 | 4 0 | 4 | 3.13 0.00 | 2.04 -----------+----------------------+---------5 | 16 0 | 16 | 12.50 0.00 | 8.16 -----------+----------------------+---------6 | 12 4 | 16 | 9.38 5.88 | 8.16 ----+----------------------+---------Total | 128 68 | 196 | 100.00 100.00 | 100.00



-------



-------



-------



-------



Tabel Nilai Ringkasan Variabel Numerik menurut Kategori Variabel Kategorik Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk masing-



42



Bab 3. Statistika Deskriptif



masing kategori variabel_1. Sintaks-nya adalah: tabulate varname_1 [if] [in], summarize(varname_2)



Contoh 3.7: . use “D:\Data\Stata\attract”, clear



(Perceived attractiveness and drinking -- DC Hamilton (2003)) . tab gender, sum(bac)



| Summary of Blood alchohol content Gender | Mean Std. Dev. Freq. ------------+-----------------------------------Male | .09340909 .08052148 132 Female | .08111111 .06826947 72 ------------+-----------------------------------Total | .08906863 .07647798 204



43



Bab 4. Grafik Statistik



BAB 4 GRAFIK STATISTIK Histogram dan Densitas Kernel Histogram adalah representasi grafikal untuk sehimpunan pengamatan terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masingmasing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk histogram yaitu: histogram varname [if] [in] [, options]



Densitas kernel (kernel density) adalah fungsi licin (smoothed function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk histogram tidak konstan, tergantung pada titik awal dan lebar batang yang dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu: kdensity varname [if] [in] [, options]



Contoh 4.1: . use “D:\Data\Stata\auto”, clear . histogram weight



(bin=8, start=1760, width=385)S



44



Bab 4. Grafik Statistik



2,000



3,000 Weight (lbs.)



4,000



5,000



. kdensity weight Kernel density estimate



1000



2000



3000 Weight (lbs.)



4000



5000



kernel = epanechnikov, bandwidth = 295.7504



Perbandingan histogram dan grafik densitas kernel untuk variabel yang



45



Bab 4. Grafik Statistik



Untuk membandingkan histogram dan grafik densitas kernel dengan distribusi normal ditambahkan opsi (, normal): . histogram weight, normal



. kdensity weight, normal



46



Bab 4. Grafik Statistik



Penyajian histogram weight menurut kategorisasi foreign (domestic dan foreign): . histogram weight, by(foreign) Domestic



1,000



2,000



3,000



Foreign



4,000



5,0001,000



Weight (lbs.) Graphs by Car type



47



2,000



3,000



4,000



5,000



Bab 4. Grafik Statistik



Contoh 4.2: . use “D:\Data\Stata\attract”, clear



(Perceived attractiveness and drinking -- DC Hamilton (2003)) . histogram bac



(bin=14, start=0, width=.02571429)



0



.1



.2 Blood alchohol content



.3



.4



Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi frekuensi dengan perintah: . histogram bac, frequency



48



Bab 4. Grafik Statistik



(bin=14, start=0, width=.02571429)



0



.1



.2 Blood alchohol content



. histogram bac, start(0) width(0.03333333) norm



(bin=11, start=0, width=.03333333)



49



.3



.4



Bab 4. Grafik Statistik . histogram bac, by(gender) Male



0



.1



.2



Female



.3



.4



0



.1



.2



.3



.4



Blood alchohol content Graphs by Gender



. histogram bac, by(gender, total) percent Male



Female



0



Total



0



.1



.2



.3



.4



Blood alchohol content Graphs by Gender



50



.1



.2



.3



.4



Bab 4. Grafik Statistik . kdensity bac Kernel density estimate



0



.1



.2 Blood alchohol content



kernel = epanechnikov, bandwidth = 0.0238



51



.3



.4



Bab 4. Grafik Statistik



Histogram untuk Variabel Kategorik Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah sama dengan untuk penyajian histogram dengan sintaks: histogram varname [if] [in] [, options]



Contoh 4.3: . use “D:\Data\Stata\auto”, clear . histogram rep78



1



2



3 Repair Record 1978



52



4



5



Bab 4. Grafik Statistik



Contoh 4.4: . use “D:\Data\Stata\student2”, clear



(Student survey (Ward 1990)) . histogram live, frequency



1



2



3



4



Year in college



Diagram Batang Pengertian diagram batang (bar diagram) dalam Stata adalah penyajian nilainilai rerata (ataupun statistik lainnya) suatu variabel kontinu menurut kategori variabel kategorik lainnya. Sintaks-nya adalah: graph bar [(stat)] cont_var [if] [in], over(cat_var) (stat) : Statistik yang diminta (umumnya rerata) cont_var :



Variabel kontinu yang dimintakan statistiknya cat_var : Variabel kategorik



53



Bab 4. Grafik Statistik



Contoh 4.5: . use “D:\Data\Stata\auto”, clear . graph bar (mean) mpg, over(rep78)



1



2



3



Contoh 4.6: . use “D:\Data\Stata\student2”, clear



(Student survey (Ward 1990)) . graph bar (mean) aggress, over(gender)



54



4



5



Bab 4. Grafik Statistik



Female



Male



Diagram Tebar Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk pengamatan bivariat. Sintaks untuk diagram tebar adalah: [graph] twoway scatter yvar xvar [if] [in] [, options] [graph] :



: xvar : prediktor



Penulisan perintah graph bersifat opsional yvar Variabel pada sumbu Y, biasanya adalah respons Variabel pada sumbu X, biasanya adalah



Contoh 4.7: . use “D:\Data\Stata\auto”, clear . graph twoway scatter weight length



55



Bab 4. Grafik Statistik



Menyajikan estimasi garis regresi weight (respons) terhadap length (prediktor): . graph twoway lfit weight length



56



Bab 4. Grafik Statistik



140



160



180 200 Length (in.)



220



240



Diagram tebar dapat disajikan secara bersama dengan estimasi garis regresinya: . graph twoway scatter weight length || lfit weight length



Contoh 4.8: . use “D:\Data\Stata\student2”, clear



(Student survey (Ward 1990)) 57



Bab 4. Grafik Statistik . graph twoway scatter gpa study



. graph twoway lfit gpa study



0



10



20 30 Avg. hours/week studying



. graph twoway lfit gpa study || scatter gpa study



58



40



50



Bab 4. Grafik Statistik



Diagram Kotak & Titik Diagram kotak dan titik (box plot) adalah metode penyajian grafik untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah: graph box varname [if] [in] [, options]



Contoh 4.9: 59



Bab 4. Grafik Statistik . use “D:\Data\Stata\auto”, clear . graph box mpg



Diagram kotak dan titik juga dapat disajikan secara berdampingan menurut kategori variabel kategorik lainnya: . graph box mpg, by(foreign) Domestic



Foreign



Graphs by Car type



60



Bab 4. Grafik Statistik



Contoh 4.10: . use “D:\Data\Stata\



(Student survey (Ward 1990)) . graph box gpa



. graph box gpa, over(gender)



61



Bab 4. Grafik Statistik



student2”, clear



Female



Male



Diagram Lingkar Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor, masingmasing berukuran proporsional dengan frekuensi yang direpresentasikannya. Sintaks-nya adalah: graph pie [if] [in], over(varname) [options]



Contoh 4.11: . use “D:\Data\Stata\auto”, clear . graph pie, over(rep78)



62



Bab 4. Grafik Statistik



1 3 5



Contoh 4.12: . use “D:\Data\Stata\



(Student survey (Ward 1990)) . graph pie, over(live)



63



2 4



Bab 4. Grafik Statistik



student2”, clear



Dorm Apartmnt other



Greek w/Parent



Grafik Matriks Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah: graph matrix varlist [if] [in] [, options]



Contoh 4.13: 64



Bab 4. Grafik Statistik . use “D:\Data\Stata\auto”, clear . graph matrix price mpg weight length, half



Bandingkan grafik matriks di atas dengan matriks korelasi berikut: . corr price mpg weight length



(obs=74) | price mpg weight length -----------+-------------------------------price | 1.0000 mpg | -0.4686 1.0000 weight | 0.5386 -0.8072 1.0000 length | 0.4318 -0.7958 0.9460 1.0000



Contoh 4.14:



65



Bab 4. Grafik Statistik



student2”, clear . use “D:\Data\Stata\



(Student survey (Ward 1990)) . graph matrix age drink gpa study, half



66



Bab 5. Analisis Statistik Sederhana



BAB 5 ANALISIS STATISTIK SEDERHANA Uji t Uji t untuk 1 kelompok Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis H0 : µ = µ0. Sintaks pada uji t untuk 1 kelompok yaitu: ttest varname == # [if] [in] [, level (#)]



Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah : -



Data berskala kontinu



-



Data berdistribusi normal



-



Data berasal dari random sampling



Contoh 5.1: File data yang digunakan adalah auto.dta. . use “D:\Data\Stata\auto.dta”, clear



(1978 Automobile Data) . list mpg in 1/10



+-----+ | mpg | |-----| 1. | 22 | 2. | 17 | 3. | 22 | 4. | 20 | 5. | 15 | |-----| 67



Bab 5. Analisis Statistik Sederhana



6. | 18 7. | 26 | 8. | 20 | 9. | 16 | 10. | 19 |



|



+-----+



Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan uji normalitas Shapiro-Wilk dengan H0 : Data berdistribusi normal. . swilk mpg



Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 74 0.94821 3.335 2.627 0.00430 Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal, ditemukan penyimpangan bermakna terhadap distribusi H0 ), walaupun demikian uji t di sini diteruskan untuk latihan. Penilaian normalitas menggunakan grafik.



secara kasar dapat dilakukan



. qnorm mpg, grid



68



dengan



Bab 5. Analisis Statistik Sederhana



Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut adalah untuk menguji H0 : µ = 20. . ttest mpg==20



One-sample t test ---------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-----------------------------------------------------mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769 ---------------------------------------------------------------mean = mean(mpg) t = 1.9289 Ho: mean = 20 degrees of freedom = 73 Ha: mean < 20 > 20 Pr(T < t) = 0.9712 = 0.0288



Ha: mean != 20 Pr(|T| > |t|) = 0.0576



69



Ha: mean Pr(T > t)



Bab 5. Analisis Statistik Sederhana



Diperoleh hasil: untuk → p = 0.9712



H1: µ < 20



H1: µ ≠ 20



p = 0.0576



H1: µ > 20



p = 0.0288



Contoh 5.2: Pada contoh ini digunakan file data hsb2.dta. . use "D:\Data\Stata\hsb2.dta", clear



(highschool and beyond (200 cases)) . list write in 1/10



1. 2. | | 44 | | 6. 7. | | 57 | |



+-------+ | write | |-------| | 52 | 59 | 3. 33 | 4. | 5. | 52 |-------| | 52 | 59 | 8. 46 | 9. | 10. | 55 +-------+



. swilk write



Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------write | 200 0.96286 5.540 3.939 0.00004 write tidak berdistribusi normal (p = 0.00004).



70



Bab 5. Analisis Statistik Sederhana . ttest write=50



One-sample t test ----------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------write | 200 52.775 .6702372 9.478586 51.45332 54.09668 ----------------------------------------------------------------mean = mean(write) t = 4.1403 Ho: mean = 50 degrees of freedom = 199 Ha: mean < 50 Ha: mean != 50 Ha: mean > 50 Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000 Hipotesis H0 : µ = 50 ditolak dengan p = 0.0001.



Uji t untuk 2 kelompok independen Uji t untuk 2 kelompok independen adalah pengujian statistik terhadap hipotesis H0 : µ 1 = µ2. Sintaks untuk uji hipotesis ini adalah: ttest varname [if] [in] , by(groupvar) [options] Options yang



tersedia antara lain yaitu: -



unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya



-



level(#) untuk mengganti nilai default tingkat signifikansi



Asumsi-asumsi untuk uji hipotesis ini adalah: -



Data berskala kontinu



-



Data berdistribusi normal



-



Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)



-



Kedua kelompok independen (jika tidak independen, gunakan paired ttest) 71



Bab 5. Analisis Statistik Sederhana -



Data berasal dari random sampling



Contoh 5.3: File data yang digunakan di sini adalah fuel3.dta. webuse fuel3, clear



Mengambil dari Web dan membuka file fuel3.dta. . list in 1/5 Memperlihat isi ( . database ) file untuk record 1 s.d. 5 +---------------+ | mpg treated | |---------------| 1. | 20 0 | 2. | 23 0 | 3. | 21 0 | 4. | 25 0 | 5. | 18 0 | +---------------+ Pada uji t untuk 2 kelompok independen ini, uji normalitas harus dilakukan untuk masing-masing kelompok: . swilk mpg if treated==0



Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 12 0.93932 1.014 0.027 0.48937



. swilk mpg if treated==1



Shapiro-Wilk W test for normal data



72



Bab 5. Analisis Statistik Sederhana



Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 12 0.97637 0.395 -1.811 0.96493



Tampak bahwa untuk kedua kelompok tidak ditemukan penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan pengujian kesamaan variansi antar kedua kelompok dengan hipotesis H0 : σ12 / σ22 = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif terhadap asumsi normalitas: . sdtest mpg, by(treated)



Variance ratio test ----------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------0 | 12 21 .7881701 2.730301 19.26525 22.73475 1 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+------------------------------------------------------- combined | 24 21.875 .6264476 3.068954 20.57909 23.17091 ----------------------------------------------------------------ratio = sd(0) / sd(1) f = 0.7054 Ho: ratio = 1 degrees of freedom = 11, 11 Ha: ratio < 1 > 1 Pr(F < f) = 0.2862 0.7138



Ha: ratio != 1 2*Pr(F < f) = 0.5725



Ha: ratio Pr(F > f) =



Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji 73



Bab 5. Analisis Statistik Sederhana



Levene



yang bersifat robust terhadap asumsi normalitas: robvar mpg,



by(treated)



| Summary of mpg treated | Mean Std. Dev. Freq. -----------+-----------------------------------0 | 21 2.7303013 12 . 1 | 22.75 3.250874 12 ------------+-----------------------------------Total | 21.875 3.0689539 24 W0



=



0.03414971



df(1, 22)



Pr > F = 0.8550817



W50 =



0.01376721



df(1, 22)



Pr > F = 0.9076602



W10 =



0.02949384



df(1, 22)



Pr > F = 0.86521366



W0



:



W50 :



Levene’s F statistic Brown and Forsythe’s F statistic (median)



W10 : Brown and Forsythe’s F statistic (trimmed mean) Hasil uji Levene yaitu H0 tidak ditolak (p = 0.855), sehingga disimpulkan bahwa variansi kedua kelompok sama. ttest mpg, by(treated)



Uji . t terhadap rerata



mpg



antar 2 kelompok, treated = 1 vs treated = 0.



Two-sample t test with equal variances --------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+----------------------------------------------------0 | 12 21 .7881701 2.730301 19.26525 22.73475 74



Bab 5. Analisis Statistik Sederhana



1 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+----------------------------------------------------- combined | 24 21.875 .6264476 3.068954 20.57909 23.17091 ---------+----------------------------------------------------diff | -1.75 1.225518 -4.291568 .7915684 --------------------------------------------------------------diff = mean(0) - mean(1) t = -1.4280 Ho: diff = 0 degrees of freedom = 22 Ha: diff < 0 > 0 Pr(T < t) = 0.0837 0.9163



Ha: diff != 0 Pr(|T| > |t|) = 0.1673



Contoh 5.4: Digunakan file data hsb2.dta. . use “D\Data\Stata\hsb2.dta”, clear . list write female in 1/5



+----------------+ | write female | |----------------| 1. | 52 male | 2. | 59 female | 3. | 33 male | 4. | 44 male | 5. | 52 male | +---------------+



. ttest write, by(female)



Two-sample t test with equal variances 75



Ha: diff Pr(T > t) =



Bab 5. Analisis Statistik Sederhana



----------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------male | 91 50.12088 1.080274 10.30516 47.97473 52.26703 female | 109 54.99083 .7790686 8.133715 53.44658 56.53507 ---------+------------------------------------------------------combined | 200 52.775 .6702372 9.478586 51.45332 54.09668 ---------+------------------------------------------------------diff | -4.869947 1.304191 -7.441835 -2.298059 ----------------------------------------------------------------diff = mean(male) mean(female) t = -3.7341 Ho: diff = 0 degrees of freedom = 198 Ha: diff < 0 > 0 Pr(T < t) = 0.0001 = 0.9999



Ha: diff != 0 Pr(|T| > |t|) = 0.0002



Ha: diff Pr(T > t)



Uji t berpasangan (paired t-test) Uji t berpasangan adalah uji statistik untuk menguji hipotesis H0 : δ = 0, δ adalah rerata selisih 2 variabel berpasangan X1 dan X 2 . Sintaks uji statistik adalah: ttest varname1 == varname2 [if] [in] [, level(#)]



Asumsi-asumsi pada uji statistik ini yaitu: -



Data berskala kontinu



-



Selisih kedua variabel berpasangan berdistribusi normal



-



Data berasal dari random sampling



76



Bab 5. Analisis Statistik Sederhana



Contoh 5.5: File data untuk contoh ini adalah fuel.dta. . webuse fuel, clear . list in 1/5



+-------------+ | mpg1 mpg2 | |-------------| 1. | 20 24 | 2. | 23 25 | 3. | 21 21 | 4. | 25 22 | 5. | 18 23 | +-------------+ Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah sebagai berikut: . gen diff_mpg = mpg1 - mpg2 . swilk diff_mpg



Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------- diff_mpg | 12 0.92077 1.324 0.547 0.29236 Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg berdistribusi normal (p = 0.29236). . ttest mpg1==mpg2



(two-sample t test using variables) 77



Bab 5. Analisis Statistik Sederhana



Paired t test -------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+---------------------------------------------------mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475 mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+---------------------------------------------------diff | 12 -1.75 .7797144 2.70101 -3.46614 .0338602 -------------------------------------------------------------mean(diff) = mean(mpg1 - mpg2) t = -2.2444 Ho: mean(diff) = 0 degrees of freedom = 11 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0 Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768



Contoh 5.6: Digunakan file data hsb2.dta. . use “D:\Data\Stata\hsb2”, clear . list read write in 1/10



+--------------+ | read write | |--------------| 1. | 57 52 | 2. | 68 59 | 3. | 44 33 | 4. | 63 44 | 5. | 47 52 | |-------------| 6. | 44 52 | 7. | 50 59 | 8. | 34 46 | 9. | 78



Bab 5. Analisis Statistik Sederhana



63 55 | -+



57 | 10. | 57 +-------------



Berikut diperlihatkan sebagian dari dataset yang digunakan untuk contoh uji t berpasangan: pair 1 2 3 4 ...



read 57 68 44 63



write 52 59 46 57 dst.



d +5 +9 −2 +6



. ttest read==write



Paired t test ----------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------read | 200 52.23 .7249921 10.25294 50.80035 53.65965 write | 200 52.775 .6702372 9.478586 51.45332 54.09668 ---------+------------------------------------------------------diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424 ----------------------------------------------------------------mean(diff) = mean(read - write) t = -0.8673 Ho: mean(diff) = 0 degrees of freedom = 199 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0 Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066



79



Bab 5. Analisis Statistik Sederhana



Uji t tanpa dataset Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan diberikan data tentang ukuran sampel, rerata, dan standar deviasi.



o Uji t tanpa dataset untuk 1 kelompok: Yang diuji adalah hipotesis H0 : µ = µ0 . Sintaks untuk uji ini adalah: ttesti #obs #mean #sd #val [, level(#)]



Contoh 5.7: . ttesti 24 62.6 15.8 75



(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75) One-sample t test ---------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ----+----------------------------------------------------x | 24 62.6 3.225161 15.8 55.92825 69.27175 ---------------------------------------------------------mean = mean(x) t = -3.8448 Ho: mean = 75 degrees of freedom = 23 Ha: mean < 75 > 75 Pr(T < t) = 0.0004 = 0.9996



Ha: mean != 75 Pr(|T| > |t|) = 0.0008



Ha: mean Pr(T > t)



o Uji t tanpa dataset untuk 2 kelompok: Yang diuji adalah hipotesis H0 : µ 1 = µ2 . Sintaks untuk uji hipotesis ini adalah: 80



Bab 5. Analisis Statistik Sederhana ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options] Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).



Contoh 5.8: . ttesti 12 21.00 0.788 12 22.75 0.938



Two-sample t test with equal variances -------------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+---------------------------------------------------x | 12 21 .227476 .788 20.49933 21.50067 y | 12 22.75 .2707773 .938 22.15402 23.34598 ---------+---------------------------------------------------combined | 24 21.875 .2513863 1.231536 21.35497 22.39503 ---------+---------------------------------------------------diff | -1.75 .3536462 -2.483417 -1.016583 -------------------------------------------------------------diff = mean(x) mean(y) t = -4.9484 Ho: diff = 0 degrees of freedom = 22 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000



Uji khi-kuadrat



81



Bab 5. Analisis Statistik Sederhana



Uji Khi-Kuadrat untuk tabel 2×2 Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai “exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}. case



exposed



1



0



1



a



b



n1



0



c m1



d m2



n2 n



o Uji Khi-kuadrat untuk Studi Kasus-Kontrol Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR), yaitu:



ˆ ad OR = ψˆ =



(5.1)



bc Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis H0 : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu: -



Pengamatan independen satu sama lain



-



Frekuensi harapan tiap sel minimum sama dengan 5. Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H0 :



ψ = 1 adalah: cc var_case var_exposed [if] [in] [, cc_options]



Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk meminta uji eksak Fisher. 82



Bab 5. Analisis Statistik Sederhana



o Uji Khi-kuadrat untuk Studi Kohort Pada data yang berasal dari rancangan studi kohort, ukuran keeratan hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:



ˆ an RR = 1 (5.2) cn2 Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis H0 : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji hipotesis H0 : OR = 1. Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H0 : RR = 1 adalah: cs var_case var_exposed [if] [in] [, cs_options]



Seperti pada rancangan studi kasus kontrol, di sini juga salah satu opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.



o Uji Khi-kuadrat untuk Studi Non-Epidemiologi Jika data tidak berasal dari salah satu rancangan studi epidemiologi, sintaksnya adalah: tab2 varname1 varname2, chi2 exact



o Uji Khi-kuadrat tanpa Dataset Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masingmasing adalah: cci a b c d csi a b c d



dan:



tabi a b \ c d, chi2 exact



83



Bab 5. Analisis Statistik Sederhana



Contoh 5.9: Digunakan file data tt_headache_part-1.dta. . use “D:\Data\Stata\ tt_headache_part-1”, clear Membuka



file tt_headache_part-1.dta. . list nktt tpa_kat in 1/5



Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1 s.d. 5



1. 2. 3. 4. 5.



| | | | |



+----------------+ | nktt tpa_kat | |----------------| 0 1 | 1 0 | 1 1 | 0 0 | 0 0 | +----------------+



. tab2 nktt tpa_kat



Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat. -> tabulation of nktt by tpa_kat | TPA_kat NKTT | 0 1 | Total -----------+----------------------+---------0 | 86 24 | 110 1 | 44 64 | 108 -----------+----------------------+---------Total | 130 88 | 218



84



Bab 5. Analisis Statistik Sederhana



Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol, hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat (exposed) dengan respons nktt (case) serta uji hipotesis H0 : OR = 1. . cc nktt tpa_kat



Proportion | Exposed Unexposed | Total Exposed ----------------+--------------------+------------------Cases | 64 44 | 108 0.5926 Controls | 24 86 | 110 0.2182 ----------------+--------------------+------------------Total | 88 130 | 218 0.4037 | | | Point estimate |[95% Conf. Interval] |--------------------+------------------Odds ratio | 5.212121 | 2.770114 9.888089 (exact) Attr. frac. ex. | .8081395 | .639004 .8988682 (exact) Attr. frac. pop | .4788975 | +---------------------------------------chi2(1) = 31.74 Pr>chi2 = 0.0000 Diperoleh kesimpulan hipotesis H0 : OR = 1 ditolak dengan p = 0.0000. Estimasi titik



ORˆ



adalah 5.21 dengan interval konfidensi 95% [2.77 ;



9.89]. Jika data diasumsikan berasal dari rancangan studi kohort, yang diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah H0 : RR = 1 dengan perintah: 85



Bab 5. Analisis Statistik Sederhana . cs nktt tpa_kat



| TPA_kat | | Exposed Unexposed | Total ----------------+---------------------+---------Cases | 64 44 | 108 Noncases | 24 86 | 110 ----------------+---------------------+---------Total | 88 130 | 218 | | Risk | .7272727 .3384615 | .4954128 | |



| Interval] Risk difference Risk ratio Attr. frac. ex. Attr. frac. pop -------



Point estimate | [95% Conf. |---------------------+--------------------



| .3888112 | .2652201 .5124023 | 2.14876 | 1.636615 2.821171 | .5346154 | .3889827 .6455373 | .3168091 | +-----------------------------------chi2(1) = 31.74 Pr>chi2 = 0.0000



ˆ Hipotesis H0 : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk RR adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82]. Jika data tidak diasumsikan berasal dari salah satu rancangan studi Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt dapat dilakukan dengan perintah: . tab2 nktt tpa_kat, chi2



-> tabulation of nktt by tpa_kat 86



Bab 5. Analisis Statistik Sederhana



| TPA_kat NKTT | 0 1 | Total -----------+----------------------+---------0 | 86 24 | 110 1 | 44 64 | 108 -----------+---------------------+---------Total | 130 88 | 218 Pearson chi2(1) =



31.7354



Pr = 0.000



Contoh 5.10: Digunakan file data ccxmpl.dta. . webuse ccxmpl . list



+-----------------------+ | case exposed pop | |-----------------------| 1. | 1 1 4 | 2. | 1 0 386 | 3. | 0 1 4 | 4. | 0 0 1250 | +-----------------------+ Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang responden, 87



Bab 5. Analisis Statistik Sederhana



melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case = 1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat digunakan di sini adalah cci. . cci 4 386 4 1250



Proportion | Exposed Unexposed | Total Exposed ----------------+---------------------+-------------------Cases | 4 386 | 390 0.0103 Controls | 4 1250 | 1254 0.0032 ----------------+---------------------+-------------------Total | 8 1636 | 1644 0.0049 | | | Point estimate | [95% Conf. Interval] |---------------------+-------------------Odds ratio | 3.238342 | .5997233 17.45614 (exact) Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact) Attr. frac. pop | .0070892 | +-----------------------------------------chi2(1) = 3.07 Pr>chi2 = 0.0799



Contoh 5.11: . csi 7 12 9 2



| Exposed Unexposed | Total -----------------+-------------------+---------Cases | 7 12 | 19 Noncases | 9 2 | 11 88



Bab 5. Analisis Statistik Sederhana



-----------------+-------------------+---------Total | 16 14 | 30 | | Risk | .4375 .8571429 | .6333333 | | | Point estimate | [95% Conf. Interval] |-------------------+-------------------Risk difference Risk ratio Prev. frac. ex. Prev. frac. pop -------



| -.4196429 | -.7240828 -.1152029 | .5104167 | .2814332 .9257086 | .4895833 | .0742914 .7185668 | .2611111 | +---------------------------------chi2(1) = 5.66 Pr>chi2 = 0.0173



. csi 7 12 9 2, exact



| Exposed Unexposed | Total -----------------+--------------------+---------Cases | 7 12 | 19 Noncases | 9 2 | 11 -----------------+--------------------+---------Total | 16 14 | 30 | | Risk | .4375 .8571429 | .6333333 | | | Point estimate | [95% Conf. Interval] |--------------------+-------------------Risk difference | -.4196429 | -.7240828 .1152029 Risk ratio | .5104167 | .2814332 .9257086 Prev. frac. ex. | .4895833 | .0742914 .7185668 Prev. frac. pop | .2611111 | +----------------------------------------89



Bab 5. Analisis Statistik Sederhana



1-sided



Fisher's



exact



P



=



2-sided



Fisher's



exact



P



=



0.0212 0.0259



Uji Khi-kuadrat untuk tabel r × c (r baris dan c kolom): Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis H0 : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsiasumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khikuadrat yaitu: tabulate varname1 varname2 [if] [in] , chi2



Contoh 5.12: Digunakan file data citytemp2.dta. . use "D:\Data\Stata\citytemp2", clear



(City Temperature Data) . list region agecat in 1/7



+-----------------+ | region agecat | |-----------------| 1. | NE 19-29 | 2. | NE 19-29 | 3. | NE 19-29 | 4. | NE 19-29 | 5. | NE 19-29 | |----------------| 6. | NE 19-29 | 7. | NE 19-29 | +-----------------+ 90



Bab 5. Analisis Statistik Sederhana



. tabulate region agecat



Census | agecat Region | 19-29 30-34 35+ | Total -----------+---------------------------------+---------NE | 46 83 37 | 166 N Cntrl | 162 92 30 | 284 South | 139 68 43 | 250 West | 160 73 23 | 256 -----------+---------------------------------+---------Total | 507 316 133 | 956 . tabulate region agecat, chi2



Census | agecat Region | 19-29 30-34 35+ | Total -----------+---------------------------------+---------NE | 46 83 37 | 166 N Cntrl | 162 92 30 | 284 South | 139 68 43 | 250 West | 160 73 23 | 256 -----------+---------------------------------+---------Total | 507 316 133 | 956 Pearson chi2(6) =



61.2877



Pr = 0.000



Dengan p = 0.000, ditemukan asosiasi yang bermakna antara kelompok usia responden (agecat) dengan regio sensus mereka (region).



91



Bab 6. Analisis Variansi



BAB 6 ANALISIS VARIANSI Analisis variansi (analysis of variance; ANOVA) adalah analisis statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori, seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.



Analisis Variansi 1-Arah Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori (taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya. Sintaks-nya adalah: oneway resp_var fact_var [if] [in] [, options] resp_var :



:



respons, variabel dependen (kontinu) fact_var



faktor, variabel independen (kategorik) Model pada analisis variansi adalah: Yij = µ +



τ



i



+ εij



(6.1)



Hipotesis pada analisis variansi yaitu: H



0:



τ



1



=



τ



2



= . . . = τp



(6.1.a)



Asumsi-asumsi pada analisis variansi adalah: 1.



Independensi: Galat saling independen 92



Bab 6. Analisis Variansi



2.



Normalitas: Galat berdistribusi normal



3.



Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)



4.



Sampling acak: Data diperoleh dari sampling acak



Contoh 6.1: File data yang digunakan pada contoh ini adalah hsb2.dta, memuat data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata nilai write antar ketiga tipe program tersebut. . use “D:\Data\Stata\hsb2”



(highschool and beyond (200 cases)) . tabulate prog, summarize(write)



type of | Summary of writing score program | Mean Std. Dev. Freq. -----------+--------------------------------general | 51.333333 9.3977754 45 academic | 56.257143 7.9433433 105 vocation | 46.76 9.3187544 50 ------------+-------------------------------Total | 52.775 9.478586 200 Grafik batang rerata write pada ketiga tipe prog diperlihatkan sebagai berikut: . graph bar (mean) write, over(prog)



93



Bab 6. Analisis Variansi



general



academic



vocation



Analisis variansi 1-arah adalah: . oneway write prog



Source



Analysis of Variance SS df MS



F



Prob >



F ---------------------------------------------------------Between groups 3175.69786 2 1587.84893 21.27 0.0000 Within groups 14703.1771 197 74.635417 ---------------------------------------------------------Total 17878.875 199 89.843593 Bartlett's test for equal variances: chi2(2) = 2.6184 Prob>chi2 = 0.270 Kesimpulan yang diperoleh: -



Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap sama (uji Bartlett; p = 0.270)



-



Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p < 94



Bab 6. Analisis Variansi



0.0000) Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau Scheffe. . oneway write prog, bonferroni



Comparison of writing score by type of program (Bonferroni) Row Mean-| Col Mean | general academic ---------+---------------------academic | 4.92381 | 0.005 | vocation | -4.57333 -9.49714 | 0.032 0.000 Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras: vocation vs general; general vs academic; vocation vs academic) ketiganya menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05; p = 0.000).



Contoh 6.2: . use “D:\Data\Stata\apple”, clear



(Apple trees) . oneway weight treatment



Analysis of Variance Source SS df MS F Prob > F --------------------------------------------------------Between groups 5295.54433 3 1765.18144 21.46 0.0013 Within groups 493.591667 6 82.2652778 --------------------------------------------------------95



Bab 6. Analisis Variansi



Total



5789.136



9



643.237333



Bartlett's test for equal variances: Prob>chi2 = 0.708



chi2(3) = 1.3900



. oneway weight treatment, tabulate



| Summary of Average weight in grams Fertilizer | Mean Std. Dev. Freq. ------------+-----------------------------------1 | 111.9 6.7535176 3 2 | 52.733333 5.3928966 3 3 | 78.65 11.667262 2 4 | 77.5 14.424978 2 ------------+-----------------------------------Total | 80.62 25.362124 10



. graph hbar (mean) weight, over(treatment)



96



Bab 6. Analisis Variansi



1



2



3



4



0



50 mean of weight



100



. oneway weight treatment, scheffe



Comparison of Average weight in grams by Fertilizer (Scheffe) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------2 | -59.1667 | 0.001 | 3 | -33.25 25.9167 | 0.039 0.101 | 4 | -34.4 24.7667 -1.15 | 0.034 0.118 0.999



Analisis Variansi 2-Arah Tanpa Interaksi Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini, populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah: 97



Bab 6. Analisis Variansi anova resp_var fact_A fact_B [if] [in] [, options] respons, variabel dependen fact_A :



resp_var :



faktor A, variabel independen pertama fact_B



:



faktor B, variabel independen kedua Model penelitian ini adalah: Yij = µ +



α



i



(6.2)



+ βj + εij



Hipotesis penelitian adalah: H α α 0 : 1 = 2 = . . . = αp H



0:



β



1



=



β



2



= . . . = βq



(6.2.a) (6.2.b)



Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan ganda (Multiple Comparisons) seperti pada oneway.



Contoh 6.3: . use "D:\Data\Stata\systolic", clear



(Systolic Blood Pressure Data) . tabulate drug disease, summarize(systolic)



Means, Standard Deviations and Frequencies of Increment in Systolic B.P. | Patient's Disease Drug Used | 1 2 3 | Total -----------+---------------------------------+--------1 | 29.333333 28.25 20.4 | 26.066667 98



Bab 6. Analisis Variansi



| 13.017936 5.85235 13.371612 | 11.677002 | 6 4 5 | 15 -----------+---------------------------------+--------2 | 28 33.5 18.166667 | 25.533333 | 10.977249 2.081666 12.528634 | 11.61813 | 5 4 6 | 15 -----------+---------------------------------+--------3 | 16.333333 4.4 8.5 | 8.75 | 14.189198 6.9137544 9 | 10.0193 | 3 5 4 | 12 -----------+---------------------------------+--------4 | 13.6 12.833333 14.2 | 13.5 | 10.549882 10.342469 8.9274856 | 9.3238047 | 5 6 5 | 16 -----------+---------------------------------+---------Total | 22.789474 18.210526 15.8 | 18.87931 | 13.159614 13.554741 11.302538 | 12.800874 | 19 19 20 | 58 . anova systolic drug disease



Number of obs = 58 R-squared = 0.3803 Root MSE = 10.5503 Adj R-squared = 0.3207 Source | Partial SS df MS F Prob > F --------+------------------------------------------Model | 3552.07225 5 710.414449 6.38 0.0001 | drug | 3063.43286 3 1021.14429 9.17 0.0001 disease | 418.833741 2 209.41687 1.88 0.1626 | Residual| 5788.08293 52 111.309287 --------+-----------------------------------------Total | 9340.15517 57 163.862371 . margins drug disease



99



Bab 6. Analisis Variansi



Predictive margins = 58



Number of obs



Expression : Linear prediction, predict() -------------------------------------------------------------| Delta-method | Margin Std. Err. t P>|t| [95% Conf. Interval] --------+----------------------------------------------------drug | 1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858 2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877 3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574 4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398 | disease | 1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575 2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548 3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642 -------------------------------------------------------------. quietly: margins drug . marginsplot Variables that uniquely identify margins: drug



100



Bab 6. Analisis Variansi



Predictive Margins of drug with 95% CIs



1



2



3



4



Drug Used



Analisis Variansi 2-Arah Dengan Interaksi Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan faktor B. Sintaksnya adalah: anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options] Modelnya adalah: Y



ijk



= µ + αi + βj + (αβ)ij +



ε



ijk



(6.3)



Hipotesis penelitian adalah: H



α



H



β



0: 0:



1



=



1



=



α β



= . . . = αp



(6.3.a)



2



= . . . = βq



(6.3.b)



2



H0 : (αβ)ij = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q (6.3.c) 101



Bab 6. Analisis Variansi



Contoh 6.4: . use "D:\Data\Stata\systolic", clear



(Systolic Blood Pressure Data) . anova systolic drug disease drug#disease



Number of obs = 0.4560 Root MSE squared = 0.3259 Source |



58 = 10.5096



Partial SS



df



R-squared = Adj R-



MS



F



Prob >



F -------------+------------------------------------------Model | 4259.33851 11 387.212591 3.51 0.0013 | drug | 2997.47186 3 999.157287 9.05 0.0001 disease | 415.873046 2 207.936523 1.88 0.1637 drug#disease | 707.266259 6 117.87771 1.07 0.3958 | Residual | 5080.81667 46 110.452536 -------------+------------------------------------------Total | 9340.15517 57 163.862371 Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug dan disease terhadap systolic. . margins drug disease drug#disease



Predictive margins Number of obs = 58 Expression : Linear prediction, predict() -------------------------------------------------------------------| Delta-method | Margin Std. Err. t P>|t| [95% Conf. Interval] -------------+-----------------------------------------------------drug | 102



Bab 6. Analisis Variansi



1 | 25.89799 31.43452 2 | 26.41092 31.93181 3 | 9.722989 15.96132 4 | 13.55575 18.871 1 | 21.95862 26.87515 2 | 20.4204 25.3675 3 | 15.65 20.4014



2.750533



9.42



0.000



20.36145



2.742762



9.63



0.000



20.89003



3.099185



3.14



0.003



3.484652



2.640602 | 2.442515



5.13



2.457703



8.31



0.000



15.4733



2.360482



6.63



0.000



10.8986



0.000 8.24049 disease | 8.99 0.000 17.04209



| drug#disease | 1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975 1 2 | 28.25 5.25482 5.38 0.000 17.6726 38.8274 13 | 20.4 4.700054 4.34 0.000 10.93928 29.86072 21 | 28 4.700054 5.96 0.000 18.53928 37.46072 2 2 | 33.5 5.25482 6.38 0.000 22.9226 44.0774 2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308 3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707 3 2 | 4.4 4.700054 0.94 0.354 5.060718 13.86072 33 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774 41 | 13.6 4.700054 2.89 0.006 4.139282 23.06072 4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975 103



Bab 6. Analisis Variansi



4 3 | 14.2 4.700054 3.02 0.004 4.739282 23.66072 --------------------------------------------------------------------. quietly: margins drug#disease . marginsplot



Variables that uniquely identify margins: drug disease Adjusted Predictions of drug#disease with 95% CIs



1



2



3 Drug Used



disease=1 disease=3



disease=2



104



4



Bab 7. Analisis Regresi Linear



BAB 7 ANALISIS REGRESI LINEAR Regresi Linear Sederhana (Simple Linear Regression) Analisis regresi sederhana adalah pemodelan dan analisis statistik tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model hubungan adalah: Y



i



= β0 + β1



X



i



+



ε



i



(7.1)



Sintaks-nya untuk pengestimasian model dan garis regresi adalah: regress depvar indepvar [if] [in] [, options]



Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis regresi dengan sintaks: graph twoway scatter depvar indepvar twoway lfit depvar indepvar graph twoway scatter depvar indepvar || lfit depvar indepvar



Pengujian terhadap asumsi analisis regresi linear antara lain yaitu asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat, karena itu harus diawali dengan pembentukan suku galat: regress depvar indepvar predict resid, residuals resid : suku galat



Dilanjutkan dengan: Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia: swilk resid



(uji Shapiro-Wilk)



Shapiro-Francia) 105



francia resid (uji



Bab 7. Analisis Regresi Linear



Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas: estat hettest estat imtest, white



(uji Breusch-Pagan) (uji White)



Contoh 7.1: . use “D:\Data\Stata\elemapi” . describe enroll api00



storage display value variable name type format label variable label ---------------------------------------------------- enroll int %9.0g number of students api00 int %6.0g api 2000 enroll : Jumlah siswa api00 : Kinerja akademik sekolah



pada tahun 2000



. graph twoway scatter api00 enroll || lfit api00 enroll



. regress api00 enroll



106



Bab 7. Analisis Regresi Linear



Source | SS df MS Number of obs = 400 ---------+---------------------------F( 1, 398) = 44.83 Model | 817326.293 1 817326.293 Prob > F = 0.0000 Residual | 7256345.70 398 18232.0244 R-squared = 0.1012 ---------+---------------------------Adj R-squared = 0.0990 Total | 8073672.00 399 20234.7669 Root MSE = 135.03 --------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+------------------------------------------------------- enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817 _cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749 ---------------------------------------------------------------



Hasil dan kesimpulannya yaitu:



-



Uji F untuk menguji asumsi bahwa model benar bermakna secara statistik (p = 0.0000)



-



Koefisien determinasi R2 = 0.1012, menyatakan bahwa prediktor “menjelaskan” 10.12% variansi respons api00.



-



Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)



-



Koefisien regresi adalah enroll −0.1998674 ≈ −0.2



-



Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).



enroll



Perintah berikut adalah untuk menyajikan grafik yang dapat menilai kebenaran asumsi linearitas secara kasar.



107



Bab 7. Analisis Regresi Linear



Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang menguji hipotesis H0 : Tidak ada “lack of linear fit” . regress api00 enroll . maxr2



maximum R-square relative R-square actual adjusted R-square relative adjusted R-square



= = = =



SSLF (df) = 5574305.5 (306) SSPE (df) = 1682040.3 (92)



0.7917 0.1279 0.0990 0.1257 MSLF = 18216.684 MSPE = 18283.046



F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92) prob > F = 0.5206 number of covariate patterns = 308 as ratio of observations = 0.770 Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206), sehingga asumsi linearitas dianggap terpenuhi.



108



Bab 7. Analisis Regresi Linear



Selanjutnya pengujian asumsi normalitas dilakukan dengan uji ShapiroWilk dan uji Shapiro-Francia terhadap hipotesis H0 : Suku galat berdistribusi normal. . regress api00 enroll . predict e, residuals . swilk e



Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+----------------------------------------------e | 400 0.97083 8.030 4.957 0.00000 . sfrancia e



Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z ---------+----------------------------------------------e | 400 0.97214 8.263 4.567 0.00001 Baik dengan uji Shapiro-Wilk maupun uji ShapiroFrancia, hipotesis nol ditolak (p = 0.0000) Pengujian asumsi homoskedastisitas adalah dengan uji BreuschPagan dan uji White, menguji hipotesis H0 : Homoskedastisitas. Uji Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan uji White menguji heteroskedastisitas “glasshour”. . regress api00 enroll . estat hettest



Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of api00 chi2(1) = Prob > chi2 = 0.1665



1.91



Tidak ditemukan heteroskedastisitas (p = 0.1665) 109



Bab 7. Analisis Regresi Linear . estat imtest, white



White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(2) Prob > chi2 =



= 0.1514



3.78



Cameron & Trivedi's decomposition of IM-test -------------------------------------------------Source | chi2 df p ---------------------+----------------------------Heteroskedasticity | 3.78 2 0.1514 Skewness | 34.11 1 0.0000 Kurtosis | 26.44 1 0.0000 ---------------------+----------------------------Total | 64.32 4 0.0000 --------------------------------------------------Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.



Regresi Linear Sederhana dengan Prediktor Indikator Analisis regresi linear sederhana dapat dilakukan jika prediktornya adalah variabel indikator dengan model: Y



i



= β0 + β1



X



i



+



ε



i



;



X = {0, 1}



(7.2)



Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama, yaitu: regress depvar indepvar [if] [in] [, options] indepvar :



prediktor biner (variabel indikator)



110



Bab 7. Analisis Regresi Linear



Contoh 7.2: . use “D:\Data\Stata\elemapi.dta”, clear . tabulate yr_rnd



year round | school | Freq. Percent Cum. -----------+---------------------------------No | 308 77.00 77.00 Yes | 92 23.00 100.00 -----------+----------------------------------Total | 400 100.00 . tabulate yr_rnd, nolabel



year round | school | Freq. Percent Cum. -----------+---------------------------------0 | 308 77.00 77.00 1 | 92 23.00 100.00 -----------+----------------------------------Total | 400 100.00



. regress api00 yr_rnd



Source | SS df MS 400 --------+------------------------116.24 Model |1825000.56 1 1825000.56 0.0000 Residual|6248671.43 398 15700.1795 0.2260 111



Number of obs = F(



1,



398) =



Prob > F



=



R-squared



=



Bab 7. Analisis Regresi Linear



--------+------------------------Adj R-squared = 0.2241 Total |8073672 399 20234.7669 Root MSE = 125.3 ----------------------------------------------------------- api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+--------------------------------------------------- yr_rnd | -160.5064 14.8872 10.78 0.000 -189.7737 -131.239 _cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751 -----------------------------------------------------------



Regresi Linear Ganda (Multiple Linear Regression) Pada analisis regresi linear ganda, didapatkan prediktor lebih daripada satu dengan model: Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β p X pi + εi (7.3) Sintaks-nya adalah: regress depvar indepvars [if] [in] [, options]



Asumsi yang berlaku di sini adalah sama seperti pada regresi linear sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan variance inflation factor.



Contoh 7.3: . use “ D:\Data\Stata\elemapi”



: :



Variabel-variabel dalam dataset adalah: api00 Kinerja akademik sekolah tahun 2000 acs_k3 Rerata ukuran kelas dari TK s.d. kelas 3



meals :



Persentase siswa yang mendapat makan gratis (indikator 112



Bab 7. Analisis Regresi Linear



full



kemiskinan) : Persentase guru yang memiliki akreditasi penuh untuk mengajar



. list api00 acs_k3 meals full in 1/7



+---------------------------------+ | api00 acs_k3 meals full | |---------------------------------| 1. | 693 16 67 76.00 | 2. | 570 15 92 79.00 | 3. | 546 17 97 68.00 | 4. | 571 20 90 87.00 | 5. | 478 18 89 87.00 | |--------------------------------| 6. | 858 20 . 100.00 | 7. | 918 19 . 100.00 | +--------------------------------+ Perintah berikut menampilkan matriks grafik diagram tebar untuk tiap pasangan variabel kontinu:



113



Bab 7. Analisis Regresi Linear



Perintah ini adalah untuk menyajikan matriks korelasi: . correlate api00 acs_k3 meals full



(obs=313) | api00 acs_k3 meals full -------------+----------------------------------api00 | 1.0000 acs_k3 | -0.0641 1.0000 meals | -0.8184 0.0097 1.0000 full | 0.2328 0.1789 -0.2518 1.0000 Estimasi model dan persamaan garis regresi adalah: . regress api00 acs_k3 meals full



Source | SS df MS Number of obs = 313 ---------+-----------------------------F( 3, 309) = 213.41 Model | 2634884.26 3 878294.754 Prob > F = 0.0000 Residual | 1271713.21 309 4115.57673 R-squared = 0.6745 ---------+-----------------------------Adj Rsquared = 0.6713 Total | 3906597.47 312 12521.1457 Root MSE = 64.153 ------------------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073 meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348 full | .1086104 .090719 1.20 0.232 -.0698947 114



Bab 7. Analisis Regresi Linear



.2871154 _cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555 ------------------------------------------------------------------------Kesimpulan yang diperoleh yaitu: -



Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p = 0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang lebih besar terkait dengan kinerja akademik yang lebih rendah.



-



Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif menunjukkan bahwa semakin besar proporsi siswa penerima makanan gratis, semakin rendah kinerja akademik. Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.



-



Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru dengan akreditasi penuh bukan merupakan faktor penting untuk memprediksi kinerja. Uji multikolinearitas dilakukan sebagai berikut:



. vif



Variable | VIF 1/VIF -------------+---------------------full | 1.11 0.903713 meals | 1.07 0.933517 acs_k3 | 1.04 0.964781 -------------+--------------------Mean VIF | 1.07 Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00 atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10. 115



Bab 7. Analisis Regresi Linear



Regresi Linear Ganda dengan Prediktor Kategorik Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah variabel kategorik dengan 3 kategori: X = {1, 2, 3} Digunakan 2 variabel indikator Z1 dan Z2 ; masing-masing adalah variabel biner; Z1 = {0, 1} dan Z2 = {0, 1}, sehingga model yang digunakan menjadi: Yi = β 0 + β 1 Z1i + β 2 Z2i + εi



(7.4)



Konversi variabel kategorik menjadi variabel indikator pada Stata dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf direpresentasikan oleh (p – 1) indikator Z.



X=1



Z1 0



Z2 0



X=2



1



0



X=3 0 1 Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2 variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).



Contoh 7.4: . use “D:\Data\Stata\hsb2”, clear



(highschool and beyond (200 cases)) . tabulate ses



ses | Freq. Percent Cum. ------------+---------------------------------low | 47 23.50 23.50 middle | 95 47.50 71.00 high | 58 116



Bab 7. Analisis Regresi Linear



29.00 100.00 ------------+---------------------------------Total | 200 100.00 . tabulate ses, nolabel



ses | Freq. Percent Cum. -----------+----------------------------------1 | 47 23.50 23.50 2 | 95 47.50 71.00 3 | 58 29.00 100.00 ------------+----------------------------------Total | 200 100.00 . regress science i.ses



Source | SS df MS Number of obs = 200 ---------+-------------------------F( 2, 197) = 8.57 Model | 1561.57802 2 780.789008 Prob > F = 0.0003 Residual | 17945.922 197 91.0960507 R-squared = 0.0801 ---------+-------------------------Adj R-squared = 0.0707 Total | 19507.5 199 98.0276382 Root MSE = 9.5444 ------------------------------------------------------------- science | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------ses | middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797 high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022 | _cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765 -------------------------------------------------------------



117



Bab 7. Analisis Regresi Linear



Taraf low pada variabel kategorik ses menjadi baseline untuk kontras (middle vs low ; high vs low).



Regresi Linear Ganda dengan Interaksi Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu interaksi antara X1 dan X 2 . Modelnya adalah: Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + εi Sintaks



yang



digunakan



yaitu:



regress



(7.5)



depvar



indepvars



indepvar1#indepvar2 [if] [in] [, options] indepvar1#indepvar2 : Suku interaksi



Pada pemodelan regresi linear dengan interaksi pada Stata ini digunakan operator i. dan c.: -



Prediktor/variabel independen yang tidak dalam suku interaksi dalam model regresi linear harus merupakan variabel kontinu atau indikator. Operator i. mengubah variabel kategorik dengan kategori/taraf lebih daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator agar dapat dimasukkan ke dalam model regresi linear.



-



Prediktor/variabel independen dalam suku interaksi dalam model regresi linear harus merupakan variabel kategorik atau indikator. Operator c. mengubah variabel kontinu yang dalam suku interaksi menjadi variabel kategorik.



Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model regresi linear diperlihatkan sebagai berikut:



Biner {0, 1}



Variabel tunggal:



Suku Interaksi:



X



X1# X 2



varname



varname



Kategorik 118



Bab 7. Analisis Regresi Linear



(taraf > 2) Kontinu



i.varname



varname



varname



c.varname



Contoh 7.5: . use “D:\Data\Stata\honolulu” . regress tek_darah usia kolesterol Source | SS df MS Number of obs = 100 ---------+--------------------------F( 2, 97) = 4.02 Model | 3404.78195 2 1702.39098 Prob > F = 0.0211 Residual | 41118.218 97 423.899155 R-squared = 0.0765 ---------+--------------------------Adj R-squared = 0.0574 Total | 44523 99 449.727273 Root MSE = 20.589 ---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .8469443 .408067 2.08 0.041 .0370443 1.656844 kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972 _cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895 --------------------------------------------------------------. regress tek_darah usia kolesterol c.usia#c.kolesterol usia dan kolesterol keduanya adalah variabel kontinu, jika dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.



119



Bab 7. Analisis Regresi Linear



Source | SS df MS Number of obs = 100 ---------+---------------------------F( 3, 96) = 3.27 Model | 4127.36425 3 1375.78808 Prob > F = 0.0246 Residual | 40395.6358 96 420.787872 R-squared = 0.0927 ---------+---------------------------Adj R-squared = 0.0643 Total | 44523 99 449.727273 Root MSE = 20.513 ----------------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------------+-------------------------------------------------------usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813 kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808 | c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404 | _cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377 ----------------------------------------------------------------------------. regress tek_darah usia rokok Source | SS df MS Number of obs = 100 ---------+------------------------F( 2, 97) = 2.87 Model | 2485.12693 2 1242.56346 Prob > F = 0.0617 Residual | 42037.8731 97 433.380135 R-squared = 0.0558 ---------+------------------------Adj R-squared = 0.0363 Total | 44523 99 449.727273 Root MSE = 20.818 120



Bab 7. Analisis Regresi Linear



---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886 rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724 _cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148 ---------------------------------------------------------------. regress tek_darah usia rokok c.usia#rokok usia adalah variabel kontinu, jika dimasukkan ke dalam suku interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga selalu tidak



memerlukan operator. Source | SS df MS Number of obs = 100 ---------+--------------------------F( 3, 96) = 1.93 Model | 2531.81794 3 843.939314 Prob > F = 0.1300 Residual | 41991.1821 96 437.408146 R-squared = 0.0569 ---------+--------------------------Adj R-squared = 0.0274 Total | 44523 99 449.727273 Root MSE = 20.914 ---------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ------------+-------------------------------------------------------usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343 rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693 | rokok#c.usia | 1 | -.2877643 .8807723 -0.33 0.745 2.036083 1.460555 | _cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803 ---------------------------------------------------------------------121



Bab 7. Analisis Regresi Linear



. regress tek_darah usia i.pend pend adalah variabel kategorik, jika digunakan sebagai prediktor tunggal (tidak dalam suku interaksi), memerlukan operator i. Source | SS df MS Number of obs = 100 ---------+--------------------------F( 5, 94) = 1.68 Model | 3658.43513 5 731.687027 Prob > F = 0.1462 Residual | 40864.5649 94 434.729413 R-squared = 0.0822 ---------+--------------------------Adj R-squared = 0.0333 Total | 44523 99 449.727273 Root MSE = 20.85 ---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .8387384 .420814 1.99 0.049 .0032023 1.674275 | pend | 2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523 3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482 4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877 5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951 | _cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838 ---------------------------------------------------------------. regress tek_darah usia i.pend c.usia#pend Dalam suku interaksi, pend sebagai variabel kategorik tidak memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam suku interaksi memerlukan operator c. 122



Bab 7. Analisis Regresi Linear



Source | SS df MS Number of obs = 100 ---------+--------------------------F( 9, 90) = 1.25 Model | 4941.84363 9 549.093736 Prob > F = 0.2762 Residual | 39581.1564 90 439.790626 R-squared = 0.1110 ---------+--------------------------Adj R-squared = 0.0221 Total | 44523 99 449.727273 Root MSE = 20.971 -------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+-----------------------------------------------------usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985 | pend | 2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652 3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221 4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465 5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399 | pend#c.usia | 2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588 3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838 4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761 5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478 | _cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776 --------------------------------------------------------------------



123



Bab 8. Analisis Regresi Logistik



BAB 8 ANALISIS REGRESI LOGISTIK Model Regresi Logistik Sederhana Model regresi logistik adalah model hubungan antara prediktor dengan respons biner, sedemikian hingga logit probabilitas respons merupakan fungsi linear prediktornya: ˆ 1 Y = P [Y= X ]



(8.1) Y



ˆ ˆ logit Y = ln



dan:



ˆ = β0 + β1 X (8.2) 1−Y



dengan Y biner; Yi = 0, 1. Estimasinya yang diperoleh dari data sampel adalah: ˆ Yˆ logit Y = ln ˆ = b0 + b1 X (8.2.a) 1−Y Perhatikan bahwa:



-



Untuk model regresi logistik sederhana, ruas kanan persamaan (2) hanya memiliki satu prediktor X.



-



Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti halnya pada model regresi linear dengan respons kontinu.



1



−Yˆ



dan logit Yˆ dinamakan juga ln odds Yˆ : logit Yˆ = log odds Yˆ 124



Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau lebih variabel indikator seperti halnya pada model regresi linear. Karena nilai Yˆ merupakan sebuah nilai probabilitas, nilai Yˆ dibagi dengan komplemennya (= 1 − Yˆ ) adalah nilai odds Yˆ : ˆ Yˆ Odds Y = (8.3) Bab 8. Analisis Regresi Logistik



dan



ˆ Y = P [Y=1X ]



=



(8.4)



Estimasinya dari data sampel adalah: ˆ Y = P [Y=1X ]



=



(8.4.a) Yˆ



Dari persamaan ln



ˆ =



β



0



+



β



1X



, diperoleh:



1−Y Y



ˆ



ˆ Odds Y =



1−Y



= exp−(β0 +β1X) ˆ



Jika X juga biner, maka: Yˆ β β → Odds 1 = exp−( 0 + 1) dan untuk Yˆ β X = 0 → Odds 0 = exp−( 0 )



untuk X = 1



Rasio antara keduanya adalah rasio odds respons Y dengan prediktor X, yaitu: β OR = exp− 1



(8.5) dan estimasinya adalah:



125



Bab 8. Analisis Regresi Logistik



ORˆ



= exp−b1



(8.5.a)



Dalam praktik, ringkasan data sampel yang dikumpulkan dapat disajikan dalam bentuk tabel 2×2 sebagai berikut: Y=1 a c



X=1 X=0



Y=0 b d



Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:



ˆ a b ad = OR = c d bc



(8.6)



Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds adalah sebagai berikut: -



Prediktor X pada baris dan respons Y pada kolom.



-



Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0) pada baris bawah. Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada kolom kanan.



-



Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk tiap pertambahan nilai X sebesar 1 satuan): Y=1 X=x+1 a X=x c dengan estimasi rasio odds tetap adalah:



Y=0 b d



ORˆ = a b = ad c d bc Perintah Stata untuk melakukan analisis regresi logistik sederhana adalah: logit depvar indepvar [if] [in], [, options]



126



Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya adalah: logistic depvar indepvar [if] [in], [, options]



Contoh 8.1: . use "D:\Data\Stata\tension-type headache.dta", clear . logit nktt hos



Iteration Iteration Iteration Iteration



0: 1: 2: 3:



log log log log



likelihood likelihood likelihood likelihood



Logistic regression 218



= = = =



-151.09691 -138.66458 -138.65922 -138.65922 Number of obs = LR chi2(1)



=



Prob > chi2



=



24.88 0.0000 Log likelihood = -138.65922 0.0823



127



Pseudo R2



=



Bab 8. Analisis Regresi Logistik ---------------------------------------------------------- nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448 _cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253 ---------------------------------------------------------. logistic nktt hos



Logistic regression



Number of obs = LR chi2(1)



218 =



24.88 Prob 0.0000 Log likelihood = -138.65922



>



Pseudo R2



chi2



=



= 0.0823



--------------------------------------------------------- nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ------+-------------------------------------------------hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265 _cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648 ---------------------------------------------------------



Model Regresi Logistik Ganda Misalkan untuk model regresi logistik di atas dimiliki p prediktor, maka model logitnya menjadi: logit Yˆ = ln Yˆ (8.7) 1−Y ˆ



= β0 + β1 X1 + β2 X



128



2



+ . . . + βp Xp



Bab 8. Analisis Regresi Logistik dan probabilitas bersyarat responsnya adalah: ˆ Y = P [Y=1X ]



=



1



(8.8)



(



1+exp− β0 +β1X1 +β2X2 + . . . +βpXp



)



Estimasinya dari data sampel masing-masing adalah: ˆ = ln Yˆ logit Y (8.7.a) 1−Y



ˆ = b0 + b1 X1 + b2 X



2



+ . . . + bp Xp



dan ˆ 1 (8.8.a) Y = P [Y=1X ] = Di sini didapatkan p nilai rasio odds, masing-masing menyatakan rasio odds hubungan respons Y dengan prediktor Xi ; i = 1, 2, . . . , p.



ORi = exp−βi estimasinya adalah: ORˆ i = exp−bi



(8.9)



dan



(8.9.a)



Contoh 8.2: Dalam contoh ini digunakan file data binary.dta, yang memuat data penerimaan mahasiswa program pascasarjana (admit) sebagai respons. Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre (skor Graduate Record Exam), gpa (Grade Point Average), dan rank (prestise perguruan tinggi asal). . use "D:\Data\Stata\binary.dta", clear



1



(



+exp− b0 +bX1 1 +b2X2 + . . . +bpXp 129



)



Bab 8. Analisis Regresi Logistik . summarize gre gpa



gre dan gpa



adalah variabel kontinu. Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4 .



tab rank



rank adalah variabel



kategorik. rank | Freq. Percent Cum. -------+----------------------------1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00 -------+-----------------------------Total | 400 100.00



. tab admit admit sebagai respons, merupakan variabel



biner. admit | Freq. Percent Cum. -------+----------------------------0 | 273 68.25 68.25 1 | 127 31.75 100.00 -------+-----------------------------Total | 400 100.00 Berikut ditampilkan tabulasi silang admit dan rank.



130



Bab 8. Analisis Regresi Logistik . tab2 admit rank



| rank admit | 1 2 3 4 | Total ------+-------------------------------+---------0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 ------+--------------------------------+---------Total | 61 151 121 67 | 400 Model regresi logistik ganda diperoleh sebagai berikut. . logit admit gre gpa i.rank



Iteration Iteration Iteration Iteration Iteration



0: 1: 2: 3: 4:



log log log log log



likelihood likelihood likelihood likelihood likelihood



Logistic regression



= = = = =



-249.98826 -229.66446 -229.25955 -229.25875 -229.25875 Number of obs LR chi2(5) Prob > chi2 Pseudo R2



Log likelihood = -229.25875



= 400 = 41.46 = 0.0000 = 0.0829



---------------------------------------------------------------- admit | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------------gre | .0022644 .001094 2.07 0.038 .0001202 .0044086 gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392 |



rank | 2 | -.6754429 .0551346



.3164897



-2.13



131



0.033



-1.295751



-



Bab 8. Analisis Regresi Logistik 3 | -1.340204 .3453064 -3.88 0.000 -2.016992 .6634158 4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287 | _cons | -3.989979 1.139951 -3.50 0.000 -6.224242 1.755717 ---------------------------------------------------------------Perintah test menguji efek menyeluruh (overall effect) prediktor rank. . test 2.rank 3.rank 4.rank



( 1) ( 2) ( 3)



[admit]2.rank = 0 [admit]3.rank = 0 [admit]4.rank = 0



chi2( 3) = Prob > chi2 = 0.0001



20.90



Tampak bahwa efek menyeluruh rank bermakna secara statistik. Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan koefisien rank=3. . test 2.rank = 3.rank



( 1)



[admit]2.rank - [admit]3.rank = 0



chi2( 1) = Prob > chi2 = 0.0190



5.51



. logit , or



Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds. Logistic regression



Log likelihood = -229.25875



132



Number of obs LR chi2(5) Prob > chi2 Pseudo R2



= 400 = 41.46 = 0.0000 = 0.0829



Bab 8. Analisis Regresi Logistik ---------------------------------------------------------------- admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------------gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418 gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877 | rank | 2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578 3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889 4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919 | _cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834 ---------------------------------------------------------------Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic admit gre gpa i.rank”. . margins rank, atmeans



Perintah margins adalah untuk menghitung probabilitas prediksi respons untuk masing-masing prediktor. Adjusted predictions 400 Model VCE : OIM Expression : gre gpa 1.rank 2.rank 3.rank



Number of obs =



: Pr(admit), predict() at = 587.7 (mean) = 3.3899 (mean) = .1525 (mean) = .3775 (mean) = .3025 (mean) 4.rank = .1675 (mean)



-------------------------------------------------------------| Delta-method



133



Bab 8. Analisis Regresi Logistik | Margin Std. Err. z P>|z| [95% Conf. Interval] -----+-------------------------------------------------------- rank | 1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771 2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614 3 | .218612 .0382506 5.72 0.000 .1436422 .2935819 4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937 --------------------------------------------------------------



134



Bab 9. Statistika Nonparametrik



BAB 9 STATISTIKA NONPARAMETRIK Uji ranksum Wilcoxon (Mann-Whitney) Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa dua sampel independen berasal dari populasi dengan distribusi yang sama. Sintaks-nya adalah: ranksum varname [if] [in], by(groupvar)



Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel independen pada Statistika Paramerik.



Contoh 9.1: Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12 dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg (mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta mpg untuk treat bernilai 1 (mobil dengan treatment). . use “D:\Data\Stata\fuel2”, clear . ranksum mpg, by(treat)



Two-sample Wilcoxon rank-sum (Mann-Whitney) test treat | obs rank sum expected ------------+--------------------------------untreated | 12 128 150 treated | 12 172 150 ------------+--------------------------------combined | 24 300 300



135



Bab 9. Statistika Nonparametrik



unadjusted variance 300.00 adjustment for ties -4.04 ---------- adjusted variance 295.96 Ho: mpg(treat==untreated) = mpg(treat==treated) z = 1.279 Prob > |z| = 0.2010



-



Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda secara bermakna.



Uji signrank Wilcoxon Uji signrank Wilcoxon menguji kesamaan distribusi data berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel terpisah adalah: signrank var_1 = var_2



Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh taraf variabel kategoriknya: by cat_var: signrank var_name



Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel berpasangan pada Statistika Paramerik.



Contoh 9.2: Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap pasangan berada dalam variabel mpg1 dan mpg2. . use "D:\Data\Stata\fuel.dta", clear . signrank mpg1=mpg2



Wilcoxon signed-rank test



136



Bab 9. Statistika Nonparametrik



sign | obs sum ranks expected ------------+--------------------------------positive | 3 13.5 38.5 negative | 8 63.5 38.5 zero | 1 1 1 ------------+--------------------------------all | 12 78 78 unadjusted variance 162.50 adjustment for ties -1.63 adjustment for zeros -0.25 ---------adjusted variance 160.63 Ho: mpg1 = mpg2 = -1.973 Prob > |z| =



z 0.0485



Didapatkan perbedaan yang bermakna antara distribusi kedua pasangan data.



Uji Kesamaan Rank Kruskal-Wallis Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2) sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji ranksum Wilcoxon. Sintaks-nya adalah: kwallis varname [if] [in] , by(groupvar)



Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada Statistika Parametrik.



Contoh 9.3: . use “D:\Data\Stata\census”, clear



(1980 Census data by state) . tab region



137



Bab 9. Statistika Nonparametrik



Census | region | Freq. Percent Cum. ---------+-------------------------NE | 9 18.00 18.00 N Cntrl | 12 24.00 42.00 South | 16 32.00 74.00 West | 13 26.00 100.00 ---------+--------------------------Total | 50 100.00



. tab region, nolabel



Census | region | Freq. Percent Cum. ---------+-------------------------1 | 9 18.00 18.00 2 | 12 24.00 42.00 3 | 16 32.00 74.00 4 | 13 26.00 100.00 ---------+--------------------------Total | 50 100.00 Untuk menguji adanya perbedaan medage pada keempat region: . kwallis medage, by(region)



Kruskal-Wallis equality-of-populations rank test +--------------------------+ | region | Obs | Rank Sum | |---------+-----+----------| 138



Bab 9. Statistika Nonparametrik



| NE | 9 | 376.50 | | N Cntrl | 12 | 294.00 | | South | 16 | 398.00 | | West | 13 | 206.50 | +--------------------------+ chi-squared = probability =



17.041 with 3 d.f. 0.0007



chi-squared with ties = probability = 0.0007



17.062 with 3 d.f.



Tampak bahwa ada paling sedikit 1 pasang region yang medage nya berbeda secara bermakna. Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya “NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:



. ranksum medage if region==1 | region==2, by(region)



Two-sample Wilcoxon rank-sum (Mann-Whitney) test region | obs rank sum expected ----------+--------------------------NE | 9 144 99 N Cntrl | 12 87 132 ----------+--------------------------combined | 21 231 231 unadjusted variance adjustment for ties



198.00 -0.51 139



Bab 9. Statistika Nonparametrik



---------- adjusted variance 197.49 Ho: medage(region==NE) = medage(region==N Cntrl) z = 3.202 Prob > |z| = 0.0014



Tampak bahwa medage antara kedua region berbeda secara bermakna.



140



Kepustakaan



KEPUSTAKAAN Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata Press, 2014. Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston College, August 2011. View 1 June 2017, available from http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf. Bhattacharya PK, Burman P. Theory and Methods of Statistics. Amsterdam: Elsevier, 2016. Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA: Brooks/Cole, Cenage Learning, 2013. Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station: Stata Press, 2012. Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015. Kraska-Miller M. Nonparametric Statistics for Social and Behavioral Sciences. Boca Raton, FL: CRC Press, 2014. Long JS, Freese J. Regression Models for Categorical Dependent Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014. Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks, California: Sage Publications, 2012. Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata Press, 2004.



141



Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012. Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.



Kepustakaan



StataCorp LP. Stata Base Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata Data-Management Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata Graphics Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata User’s Guide: Release 14. College Station, Texas: Stata Press, 2015. Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.



142