STATA Untuk Pemula PDF [PDF]

PENGENALAN STATA (DRAFT)

DAFTAR ISI v

Kata Pengantar

v

Daftar Isi

vi

Bab 1

Bab 2

Pendahuluan

1

Membuka dan Me

13 0 3 MB

Report DMCA / Copyright

DOWNLOAD FILE

Forex Untuk Pemula PDF

0 0 2 MB Read more

Materi CANVA Untuk Pemula

4 0 2 MB Read more

Google Adwords Untuk Pemula

0 0 6 MB Read more

Python Untuk Pemula

0 0 1 MB Read more

Kimia Untuk Pemula

0 0 5 MB Read more

Belajar GNS3 Untuk Pemula

2 0 408 KB Read more

Bahasa Inggris Untuk Pemula

0 0 218 KB Read more

Python Untuk Pemula

2 0 1 MB Read more

(E) #YukBelajarSaham Untuk Pemula - Komunitas Investor Saham Pemula PDF

2 0 9 MB Read more

Bahasa Jepang untuk Pemula

98 40 803 KB Read more

File loading please wait...

Citation preview

PENGENALAN STATA (DRAFT)

DAFTAR ISI v

Kata Pengantar

v

Daftar Isi

vi

Bab 1

Bab 2

Pendahuluan

1

Membuka dan Menutup Program & File Data

1

Membuat File Data Baru Stata

6

Mengimpor File Excel ke dalam Stata

10

Menyimpan Analisis Data Stata dalam File Log

12

Manajemen Data

17

Membuka file data: use, sysuse, dan webuse

17

Membuka dan menyimpan file data dalam format

18

Excel: import dan export Menampilkan isi dataset: edit dan browse

18

Pembatasan perintah: ekspresi if dan in

19

Menampilkan nilai-nilai variabel dan definisi nilainilai label: list dan label list

21

Deskripsi data: describe

23

Tipe data dan kompresi data dalam memori: data types dan compress

24

Konversi variabel string menjadi numeric dan sebaliknya: destring dan tostring

25

Mengurutkan, membuang, dan mempertahankan variabel: order, drop, dan keep

25

vi

Mengurutkan nilai variabel dan penggunaan hasilnya:

26

sort dan by Membuat variabel baru dan mengganti nilai variabel:

27

generate, replace, dan egen

Bab 3

Bab 4

Bab 5

Bab 6

Bab 7

Statistika Deskriptif

28

Nilai-nilai Deskriptif Variabel Numerik

28

Nilai-nilai Deskriptif Variabel Kategorik

32

Grafik Statistik

39

Histogram dan Densitas Kernel

39

Histogram untuk Variabel Kategorik

46

Diagram Batang

47

Diagram Tebar

49

Diagram Kotak & Titik

52

Diagram Lingkar

55

Grafik Matriks

56

Analisis Statistik Sederhana

59

Uji t

59

Uji Khi-kuadrat

71

Analisis Variansi

80

Analisis Variansi 1-Arah

80

Analisis Variansi 2-Arah Tanpa Interaksi

84

Analisis Variansi 2-Arah Dengan Interaksi

87

Analisis Regresi Linear

90

vii

Bab 8

Bab 9

Regresi Linear Sederhana

90

Regresi Linear Sederhana dengan Prediktor Indikator

95

Regresi Linear Ganda

96

Regresi Linear Ganda dengan Prediktor Kategorik

99

Regresi Linear Ganda dengan Interaksi

101

Analisis Regresi Logistik

106

Model Regresi Logistik Sederhana

106

Model Regresi Logistik Ganda

109

Statistika Nonparametrik

114

Uji ranksum Wilcoxon (Mann-Whitney)

114

Uji signrank Wilcoxon

115

Uji Kesamaan Rank Kruskal-Wallis

116

Kepustakaan

119

viii

BAB 1 PENDAHULUAN

Pengantar Stata adalah software untuk keperluan statistik yang dibuat oleh StataCorp. Stata digunakan oleh banyak perusahaan dan lembaga akademis di seluruh dunia, termasuk di bidang kesehatan. Stata memiliki kemampuan yang lengkap meliputi manajemen data, analisis statistik, grafis, simulasi dll.

Membuka dan Menutup Program & File Data Stata adalah program statistik yang dikeluarkan oleh Stata Corporation. Salah satu keunikan Stata yaitu pengguna / organisasi pengguna dapat mengembangkan perintah-perintah baru untuk berbagai aplikasi untuk disumbangkan bagi seluruh masyarakat pengguna Stata. Perintah-perintah Stata dapat diberikan baik melalui menu maupun secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata Command, Variables (terdiri atas 2 bagian: Name dan Properties), Review,

dan Stata Results (Gambar 1.1).

1

Gambar 1.1. Tampilan awal pada saat membuka program Stata

Keterangan : Menu bar merupakan daftar menu di stata untuk dapat memilih apa yang akan dilakukan di stata 1. File : membuka file baik file data, do-file maupun log-file, menyimpan data, membuka jendela penampil (viewer), menjalankan do-file, memberi/mengubah nama file, membuat/menghentikan/menambah logfile, melakukan import data, melakukan export data, mencetak file (print) 2. Edit: melakukan copy, paste, melakukan pencarian (find), mengubah tampilan Stata (preference) 3. Data: mendeskripsikan data, memunculkan dataset, mengedit dataset, memunculkan variabel manager, mengubah utilitas data. 4. graphics: menu untuk membuat grafik 5. statistics: menu untuk melakukan analisis deksriptif dan analitik 6. user: menampilkan data, grafik dan statistik 7. window: menampilkan jendela-jendela kerja 2

7. help: mencari bantuan.

Toolbar menampilkan ikon jalan pintas untuk memilih menu yang sering digunakan

1. open: membuka file, baik file data, do-file maupun log-file 2. save: menyimpan file data 3. print: mencetak output yang terdapat di jendela hasil 4. log-file: membuat, memulai, menghentikan, dan menambah log-file 5. viewer: jendela tampilan, menampilkan log-file dan bantuan (help) 6. graph: untuk menampilkan grafik, akan aktif bila kita telah membuat grafik di Stata 7. do-file editor: untuk membuat, dan melakukan editing do-file 8. data editor : untuk menampilkan data, tanpa bisa melakukan editing data 9. data browser : untuk menampilkan data, ste melakukan editing data 10. variable manager: untuk menampilkan jendela variabel manager, berisi daftar semua variabel dan sterisk dari setiap variabel yang ada (nama, tipe, format, label, dll). 11. more: untuk melanjutkan tampilan output di jendela hasil 12. break: untuk memotong tampilan output di jendela hasil

Membuka file data Stata (file dengan extension *.dta) dapat dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan perintah “use”. Misalnya untuk membuka file honolulu.dta yang tersimpan pada folder D:\Data\Stata\ diketikkan perintah: . use "D:\Data\Stata\honolulu.dta"

3

Jika sebelumnya ada file data Stata lain yang masih terbuka, maka ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan menghapus variabel-variabelnya dari memori komputer: . use "D:\Data\Stata\honolulu.dta", clear Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”: . cls

Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan tombol Enter. Tiap perintah diketik pada jendela Stata Command yang hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat, perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap perintah yang telah dieksekusi juga akan muncul secara otomatis pada jendela Review, yang dapat memuat lebih banyak baris perintah. Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear, walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka, semua

4

variabelnya, baik nama maupun properties-nya secara otomatis akan muncul pada jendela Variables (gambar 1.3). Gambar 1.3. Contoh penggunaan perintah 'use' untuk membuka file data Stata Untuk memperoleh informasi lebih detil mengenai pengertian dan penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”, misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“ atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan membuka jendela “help use” atau “help clear”: . help use

atau:

. help clear

dan seterusnya.

Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun tidak ada file data yang sedang terbuka. Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan program Stata, file yang masih terbuka ini harus dihapus dari memori (ditutup) setelah sebelumnya di-saved jika perlu. Perintah untuk menutup file, lalu menutup program Stata ialah “clear”, lalu “exit”: . clear . exit

Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika diberi perintah untuk membuka file data kedua, file data pertama otomatis akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu. Dengan membuka program Stata kedua, file data kedua dapat dibuka pada program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga dengan file data ketiga, dan seterusnya.

5

Perintah Stata Terdapat dua cara dalam menjalankan perintah stata, yaitu dengan syntaks dan menu pull down. Cara yang akan kita bahas dalam modul ini sebagian besar menggunakan syntaks. 1. Syntaks Syntaks merupakan perintah/command yang dituliskan pada jendela command. Cara ini akan lebih banyak kita gunakan dalam mengolah dan mengalisis data di stata. Karena cara ini lebih mudah digunakan jika kita sudah terbiasa menggunakan stata. Anda tidak perlu menghafalkan syntaks, secara otomatis jika Anda sering menggunakan stata Anda akan hafal dengan sendirinya, dan bila lupa Anda bisa mencarinya melalui help, yang penting adalah paham format logika syntaks. Format syntaks stata secara umum adalah: (command) [namavariabel] [if kondisi] [in] [,] [opsi] 

 



Command adalah input perintah yang harus ada pada setiap kali memberikan perintah pada Stata, perintah pada stata selalu menggunakan huruf kecil (lowercase), pada perintah tertentu, perintah dapat disingkat dengan hanya memasukan 3 digit pertama dari perintah, misalnya perintah describe yang dapat disingkat hanya memasukan perintah des, tetapi perlu diingat bahwa tidak semua perintah pada Stata dapat disingkat. Namavariabel adalah nilai yang diberikan untuk perintah yang dapat berupa variable dari dataset yang aktif, variable lainnya yang bertipe string atau numerik. “If kondisi” adalah formula atau rumus yang dapat dikostumisasi sesuai kebutuhan yang memberikan batasan pada perintah yang akan dijalankan, “if kondisi” pada semuacommand bersifat opsional dan tidak semua command dapat ditambahkan “if kondisi”. “in” adalah kondisi yang mengacu pada observasi, misalnya “in 1” artinya pada obervasi 1, “in 1/5” mengacu pada obervasi nomor 1 sampai nomor 5. Opsi pada perintah stata selalu berada setelah tanda koma “,”, sama seperti command, beberapa opsi pada beberapa command juga dapat disingkat. 2.

Pull Down Menu Cara pertama adalah memilih melalui menu bar (daftar menu) atau toolbar (jika pilihan menu ada di dalam toolbar). Cara ini banyak digunakan 6

apabila kita adalah pengguna baru Stata dan belum mengenal cara melakukan perintah dengan DOS.

Membuat File Data Baru Stata Untuk membuat file data baru, cara termudah yaitu membuka jendela Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan spreadsheet biasa (gambar 1.4a).

Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar

Gambar 1.4a. Jendela Stata Editor untuk pemasukan data Nama variabel baru dapat diberikan setelah paling sedikit satu nilai data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama 7

awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela Variable Properties akan ditampilkan dan pengguna dapat mengganti nama variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan diawali dengan huruf kecil, bukan huruf besar, angka ataupun garis bawah. Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang kosong (blank spaces) di antaranya. Ruang kosong akan memisahkan suatu nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel. Nama variabel juga dapat diganti dengan menutup jendela Edit dan kembali ke jendela Stata Command dan gunakan sintaks: rename varname_old varname_new

Tiap variabel dapat diberi label dengan perintah label variable, yaitu istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis Stata, misalnya label untuk variabel bb adalah Berat Badan. Pemberian label dapat dilakukan melalui jendela Variable Properties ataupun diketikkan perintahnya pada jendela Stata Command dengan sintaks: label variable varname ["label"]

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 = pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata, tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai yang direpresentasikan oleh suatu nama nilai label didefinisikan dengan perintah label define. Misalnya untuk variabel merokok dapat diberi nama nilai label (label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“. Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan definisi “1 primer 2 sekunder 3 tersier”. Perhatikan bahwa tiap nama nilai label yang telah didefinisikan dapat digunakan untuk variabel lain dengan definisi yang sama, misalnya nama nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok juga dapat dipakai untuk variabel hbp yang menyatakan apakah responden menderita hipertensi atau tidak. 8

Nama nilai label dan definisinya dapat dibuat dengan perintah pada jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan melalui jendela Variables Manager yang dibuka dengan mengklik icon

Gambar 1.5. Icon Variables Manager pada Tool Bar

Contoh 1.1: Buka program Stata, lalu klik ikon Data Editor atau ketikkan perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet Data Editor (5 baris pertama dan 6 kolom terkiri):

9

1

1

18

1

59

1

2

2

21

1

55

1

3

2

22

0

42

0

4

1

19

1

57

0

5

3

20

0

47

0

Stata secara otomatis memberi nama keenam kolom tersebut dengan var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut untuk memberi/mengganti nama-nama variabel: . rename var1 nores . rename var2 fak . rename var3 usia . rename var 4 seks . rename var5 bb . rename var6 nktt

Berikut adalah perintah untuk memberi label bagi tiap variabel: . label var nores “Nomor Responden” . label var fak “Fakultas” . label var usia “Usia” . label var seks “Jenis Kelamin” . label var bb “Berat Badan” . label var nktt “Riwayat Nyeri Kepala”

Variabel pertama nores bukan merupakan variabel sebenarnya. Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian nama nilai label untuk variabel kategorik dan definisinya. . label values fak kode_fak . label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi” . label values seks kode_seks 10

. label define kode_seks 1 “pria” 0 “wanita” . label values nktt yesno . label define yesno 1 “ya” 0 “tidak”

Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya pada contoh ini diperlihatkan pada tabel berikut: No Variabel 1

fak

Label

Nilai label

Definisi

Fakultas

kode_fak

1 Ilmu Komputer

2

seks

Jenis Kelamin

kode_seks

2 Ekonomi 3 Psikologi 1 pria 0 wanita

3

nktt

Riwayat Nyeri Kepala

yesno

1 ya 0 tidak

Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai label. Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat dilakukan melalui menu bar dengan mengklik “File > Save > D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat juga

dilakukan dengan mengetikkan perintah: . save "D:\Data\Stata\latihan1.dta"

file D:\Data\Stata\latihan1.dta saved

Mengimpor File Excel ke dalam Stata Membuat file data baru Stata dapat juga dilakukan dengan terlebih dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu jika data juga hendak diolah dengan program komputer statistik lain. Syarat untuk file Excel agar dapat di-“impor” ke dalam program Stata (dan juga program komputer statistik lainnya) yaitu:

11

-

File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam analisis data.

-

Nama-nama variabel dituliskan pada baris teratas, semuanya diawali dengan huruf kecil.

-

Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama), baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh responden termuat datanya, tanpa ada baris kosong yang terselip di antara baris-baris data.

Prosedur untuk meng-“impor” file Excel ke dalam program Stata dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata Command.

Contoh 1.2: Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata. Pada menu bar, klik File > Import > Excel spreadsheet (*.xls, *xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1 worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di depan tulisan “Import first row as variable names”, lalu klik OK., maka file Excel bankloan.xls tersebut telah terbuka dalam Stata.

Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan dengan mengetikkan perintah: . import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow

12

File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata, tetap harus melalui prosedur “save”: . save "D:\Data\Stata\bankloan.dta"

file D:\Data\Stata\bankloan.dta saved

Menyimpan Analisis Data Stata dalam File Log Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat direkam dan disimpan sebagai file log dengan format *.scml yang dapat dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur selengkapnya diperlihatkan pada contoh berikut.

Contoh 1.3: Buka file

log

exercise1.scml

untuk disimpan

dalam

“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya. Atau ketikkan perintah: . log using "D:\Data\Stata\exercise1"

Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai perintah-perintah akan diberikan dalam bab-bab berikut. Misalkan hendak dibuka file data Arctic9.dta. . use “D:\Data\Stata\Arctic9.dta”, clear

(Arctic September mean sea ice 1979-2011) Atau klik File > Open > . . . > Arctic9.dta 13

Untuk melihat deskripsi singkat dataset yang ada dalam memori, digunakan perintah describe. . describe

Untuk melihat isi dataset pada record No. 1 s.d. 10: . list in 1/10

+--------------------------------------------------------+ | year month extent area volume volumehi volumelo tempN | |--------------------------------------------------------| 1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 | 2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 | 3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 | 4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 | 5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 | |-------------------------------------------------------| 6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 | 7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 | 8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 | 9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 | 10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 | +-------------------------------------------------------+ Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi, minimum, dan maksimum digunakan perintah summarize.

14

. summarize

Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------------year | 33 1995 9.66954 1979 2011 month | 33 9 0 9 9 extent | 33 6.51697 .9691796 4.3 7.88 area | 33 4.850303 .8468452 3.09 6.02 volume | 33 12.04664 3.346079 4.210367 16.9095 --------+-------------------------------------------volumehi | 33 13.39664 3.346079 5.560367 18.2595 volumelo | 33 10.69664 3.346079 2.860367 15.5595 tempN | 33 .790303 .7157928 -.57 2.22 Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu: . correlate

(obs=33) | year month extent area volume volumehi volumelo tempN ---------+--------------------------------------------------------year | 1.0000 month | . . extent | -0.8446 . 1.0000 area | -0.8732 . 0.9826 1.0000 volume | -0.8999 . 0.9308 0.9450 1.0000 volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000 volumelo | 0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000 tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000 Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan dalam bentuk grafik: . graph twoway connect extent year

15

1980

1990

2000

2010

Year

Jika pengolahan dan analisis data telah selesai, file log dapat ditutup dan disimpan: . log close

name: log: D:\Data\Stata\exercise1.smcl log type: smcl closed on: 29 Jun 2014, 15:33:33 Perintah ini sama dengan melalui menu bar File > Log > Close. Selama file log terbuka pada saat pengolahan dan analisis data, seandainya program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis data belum selesai, perekaman dapat dihentikan sementara, kemudian dilanjutkan dengan sintaks: log off logname (perintah penghentian sementara) log on logname (perintah melanjutkan kembali)

File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam program Stata dengan mengklik File > Log > View. File dalam format *.scml dapat diubah menjadi format *.log yang dapat dibuka dengan wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File > Log > View yang akan membuka jendela “Translate file” atau dengan mengetikkan perintah: . translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”

16

Selanjutnya file exercise1.log dapat dibuka dengan menggunakan salah satu wordprocessor dalam MS Office, tanpa melalui program Stata. Hasil analisis data pada jendela Result juga dapat dipindahkan ke Word Processor, misalnya MS Word dengan metode “salin-tempel” (copypaste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font Courier New. Semua file data yang dipergunakan dalam buku ini dapat diunduh dari http://harlan_johan.staff.gunadarma.ac.id/Publications.

17

Bab 1. Pendahuluan

18

Bab 2. Manajemen Data

BAB 2 MANAJEMEN DATA Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam proses manajemen data.

Membuka file data: use, sysuse, dan webuse Sintaks untuk membuka file data Stata adalah: use filename [, clear]

Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear] diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini akan selalu muncul. Contoh: . use “D:\Data\Stata\honolulu”, clear

Sintaks untuk membuka file data Stata yang terinstalasi bersama program Stata atau tersimpan dalam ado-path adalah: sysuse filename [, clear]

Contoh: . sysuse auto, clear

(1978 Automobile Data) Sintaks untuk membuka file data yang tersimpan di Web adalah: webuse filename [, clear]

Secara default, file data untuk Stata 14 diperoleh dari http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:

19

Bab 2. Manajemen Data . webuse lifeexp

(Life expectancy, 1998)

Membuka dan menyimpan file data dalam format Excel: import dan export Stata dapat membuka atau menyimpan data dalam format data-based lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah: import excel filename [, options] export excel using filename [, options]

Salah satu opsi pada import excel ialah worksheet akan dibuka. Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris pertama file Excel akan diperlakukan sebagai nama variabel. Pada

export excel opsi terpenting adalah pilihan antara firstrow(variables) atau firstrow(varlabels) untuk menentukan yang

akan dijadikan baris pertama pada file Excel. Contoh: . import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow clear . use auto, clear . export excel using "D:\Data\Stata\auto.xls", firstrow(variables)

Menampilkan isi dataset: edit dan browse Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet dapat dilihat pada jendela Data Editor atau jendela Data Browser yang akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram 1).

20

Bab 2. Manajemen Data

Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar Dengan membuka jendela Data Editor, data dapat dilihat dan juga dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan sintaks: edit varlist [if] [in] browse varlist [if] [in]

dan:

Pembatasan perintah: ekspresi if dan in Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata. Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata. Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator relasional, dan operator logika. Operator aritmetika adalah: + (penjumlahan), − (pengurangan), * (perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan). Operator relasional adalah: > (lebih daripada), < (kurang daripada), >= (lebih besar atau sama dengan), 50000 | income>30000 & age30000” hanya untuk yang “age50000 | (income>30000 & age, =50 in 51/70

+------------------------+ | no_id usia td_sist | |------------------------| 51. | 51 52 118 | 56. | 56 53 134 | 57. | 57 52 124 | 58. | 58 56 124 | 59. | 59 52 114 | |-----------------------| . display usia[51]

52 . label list kode_pendidikan yatidak kode_pendidikan:

1 2 3 4 5

tidak ada SD SMP SMA SMK 0 tidak 1 ya

6 Universitas yatidak:

. label list 24

Bab 2. Manajemen Data

kode_fisik: 1 hampir selalu duduk 2 moderat 3 giat yatidak: 0 tidak 1 ya kode_pendidikan: 1 tidak ada 2 SD 3 SMP 4 SMA 5 SMK 6 Universitas

Deskripsi data: describe Perintah describe menampilkan ringkasan keterangan tentang variabel yang ada dalam dataset. Sintaks-nya adalah: describe [varlist]

Jika tidak ada nama variabel, perintah describe akan menampilkan ringkasan keterangan tentang semua variabel yang ada dalam dataset.

Contoh 2.3: . use “D:\Data\Stata\honolulu.dta”, clear

storage display value variable name type format label variable label -------------------------------------------------------- usia byte %10.0g Usia glukosa int %10.0g Kadar Glukosa Darah kolest int %10.0g Kadar Kolesterol Darah td_sist int %10.0g Tekanan Darah Sistolik

. desc usia glukosa kolest td_sist

. describe 25

Bab 2. Manajemen Data

Contains data from D:\Data\Stata\honolulu.dta obs: 100 vars: 11 18 Aug 2016 14:16 size: 2,200 -------------------------------------------------------storage display value variable name type format label variable label -------------------------------------------------------- no_id byte %10.0g Nomor Identitas tk_pend byte %10.0g Tingkat Pendidikan bb byte %10.0g Berat Badan tb int %10.0g Tinggi Badan usia byte %10.0g Usia merokok byte %10.0g Merokok akt_fisik byte %10.0g Aktivitas Fisik glukosa int %10.0g Kadar Glukosa Darah kolest int %10.0g Kadar Kolesterol Darah td_sist int %10.0g Tekanan Darah Sistolik bmi double %14.2f Indeks Massa Tubuh ---------------------------------------------------------Sorted by:

Tipe data dan kompresi data dalam memori: data types dan compress Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric dan string. Format ketiga ialah untuk dates dan times yang tidak akan dibahas di sini. Untuk mengetahui apakah suatu variabel memiliki data numeric atau string, dapat dilihat dari hasil perintah describe. Data numeric memiliki tipe penyimpanan (storage type) byte, int, long, float, atau double, kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d. 32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.

26

Bab 2. Manajemen Data

Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat menyimpan data dengan maksimum 5 karakter. Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int menjadi byte dengan perintah compress. Sintaksnya adalah: compress [varlist]

Jika perintah compress diberikan tanpa nama variabel, maka Stata akan mengkompresi semua variabel yang mungkin dikompresi tipe penyimpanannya.

Konversi variabel string menjadi numeric dan sebaliknya: destring dan tostring Program Stata hanya dapat mengolah nilai data dalam format numeric. Jika ada variabel dalam format string, maka nilai datanya perlu dikonversi terlebih dahulu dengan perintah destring menjadi format numeric sebelum diolah dengan program Stata. Adakalanya variabel dengan format numeric perlu diubah menjadi string dengan perintah tostring. Sintaks-nya adalah: dan:

destring [varlist] , {generate(newvarlist)|replace} tostring varlist , {generate(newvarlist)|replace}

Jika tidak ada variabel yang dispesifikasikan, dengan perintah destring semua variabel string akan dikonversi menjadi numeric. Opsi generate(newvarlist) akan mempertahankan variabel string lama, konversi numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan membentuk variabel numeric dengan nama variabel string lama.

Mengurutkan, membuang, dan mempertahankan variabel: order, drop, dan keep 27

Bab 2. Manajemen Data

Perintah order digunakan mengatur kembali urutan variabel dalam dataset menurut kehendak pengguna. Perintah drop akan menghapuskan variabel yang dispesifikasikan dalam dataset. Perintah keep akan mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah: order varlist Variabel akan tersusun menurut urutan pada varlist jika varlist mencakup semua variabel, atau variabel yang ada pada varlist akan diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel. drop varlist keep varlist

Perintah drop dan keep dapat juga digunakan untuk menghapus atau mempertahankan record dengan spesifikasi ekspresi if dan/atau in: drop if exp drop in range keep if exp keep in range

Mengurutkan nilai variabel dan penggunaan hasilnya: sort dan by Perintah sort mengurutkan nilai pengamatan variabel numeric yang dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf kecil. Sintaks-nya yaitu: sort varlist [in] [, stable]

Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu record setelah salah satu variabel di-sort. Perintah sort juga digunakan bersama by untuk memberikan perintah summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel kategorik yang di- sort. Sintaks-nya adalah: sort cat_var1 28

Bab 2. Manajemen Data by cat_var1: sum cont_var

atau:

by cat_var1: means cont_var

atau:

by cat_var1: tab cat_var2

cat_var : variabel kategorik cont_var :

variabel kontinu Perintah by di sini harus segera mengikuti perintah sort (tidak diselingi perintah lain dulu).

Membuat variabel baru dan mengganti nilai variabel: generate, replace, dan egen Perintah generate digunakan untuk membentuk variabel baru. Sintaks-nya adalah: generate newvar[:lblname] = exp [if] [in]

Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel lama lainnya. Contohnya yaitu: . gen luas = 0 . gen usia2 = usia^2 . gen usia_kat = 1 if usia=10

Perintah egen merupakan ekstensi terhadap perintah generate, yaitu ekspresi exp pada generate digantikan dengan suatu fungsi argumen. Sintaks-nya adalah: egen newvar = fcn(arguments) [if] [in]

Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp) dan median(exp), misalnya: . egen avg = mean(chol) . egen med_stay = median(los)

30

Bab 3. Statistika Deskriptif

BAB 3 STATISTIKA DESKRIPTIF Nilai-nilai Deskriptif Variabel Numerik Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi atau standard error, dapat digunakan perintah summarize, mean, atau means. Sintaks-nya masing-masing adalah: . summarize varlist [if] [in] summarize atau cukup singkatan su saja menampilkan nilai-nilai ringkasan

data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan maksimum. Dengan perintah sum akan ditampilkan ringkasan seluruh variabel yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak semua) variabel sekaligus, misalnya sum bb tb usia. Opsi (, detail) dapat ditambahkan pada perintah sum untuk memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan (skewness) dan kurtosis. . mean varlist [if] [in] mean menampilkan rerata (hitung), SE, dan estimasi interval rerata (interval

konfidensi 95% sebagai default). . means varlist [if] [in] means menampilkan nilai rerata dan nilai tengah lainnya, yaitu jumlah

pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik, masingmasing beserta interval konfidensi 95%-nya. Perintah means akan menampilkan rerata untuk seluruh variabel. Perintah means dapat diberikan untuk satu variabel saja (means bb, means tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means usia glukosa kolest bmi.

31

Bab 3. Statistika Deskriptif

Contoh 3.1: . use "D:\Data\Stata\honolulu.dta", clear . sum bb tb usia

Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------bb | 100 64.22 8.610048 47 91 tb | 100 161.75 5.596491 150 175 usia | 100 53.67 5.101109 46 67 Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi diketikkan perintah sum bmi, detail. . sum bmi, det

Indeks Massa Tubuh ----------------------------------------------Percentiles Smallest 1% 18.32308 18.28678 5% 19.91923 18.35938 10% 20.78645 18.87066 Obs 100 25% 22.65625 19.10009 Sum of Wgt. 100 50%

24.24242

Largest 26.33097 30.38502 90% 28.68545 30.86301 95% 30.07813 31.48789 99% 32.54082 33.59375

Mean Std. Dev.

24.54841 3.052831 75%

Variance Skewness Kurtosis

9.319776 .3563221 2.964489

. means usia glukosa kolest bmi

Variable | Type Obs Mean [95% Conf. Interval] ---------+----------------------------------------------usia | Arithmetic 100 53.67

32

Bab 3. Statistika Deskriptif

52.65783 53.44146

54.68217 | Geometric 100 52.47672 54.42393 | Harmonic 100 53.22408 52.30331 54.17786 ---------+----------------------------------------------- glukosa | Arithmetic 100 152.14 141.2753 163.0047 | Geometric 100 143.8674 134.6996 153.6591 | Harmonic 100 136.3451 127.8334 146.0712 ---------+----------------------------------------------kolest | Arithmetic 100 216.96 209.2496 224.6704 | Geometric 100 213.6993 206.458 221.1946 | Harmonic 100 210.5651 203.6 218.0236 ---------+----------------------------------------------bmi | Arithmetic 100 24.54841 23.94266 25.15415 | Geometric 100 24.36268 23.77141 24.96865 | Harmonic 100 24.17871 23.59809 24.78861 ---------+-----------------------------------------------

Contoh 3.2: . use “D:\Data\Stata\Arctic9”, clear

(Arctic September mean sea ice 1979-2011) . sum extent volume

Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------------------extent | 33 6.51697 .9691796 4.3 7.88 volume | 33 12.04664 3.346079 4.210367 16.9095 . sum extent volume, det

33

Bab 3. Statistika Deskriptif

Sea ice extent, million km^2 -------------------------------------------------Percentiles Smallest 1% 4.3 4.3 5% 4.61 4.61 10% 4.9 4.68 Obs 33 25% 6.05 4.9 Sum of Wgt. 33 50%

6.56

7.25 90% 95% 99%

7.54 7.54 7.85 7.88

Largest 7.55 7.85 7.88

Mean Std. Dev.

6.51697 .9691796 75%

Variance Skewness Kurtosis

.9393092 -.6647846 2.625661

Sea ice volume, 1000 km^3 -------------------------------------------------Percentiles Smallest 1% 4.210367 4.210367 5% 4.586367 4.586367 10% 6.977133 6.527733 Obs 33 25% 10.28357 6.977133 Sum of Wgt. 33 50% 12.81307 Mean 12.04664 Largest Std. Dev. 3.346079 75% 14.63357 15.3609 90% 15.3609 16.08027 Variance 11.19625 95% 16.31937 16.31937 Skewness -.7695098 99% 16.9095 16.9095 Kurtosis 2.7961 . mean extent volume

Mean estimation

Number of obs 34

=

33

Bab 3. Statistika Deskriptif

-------------------------------------------------------| Mean Std. Err. [95% Conf. Interval] --------+----------------------------------------------- extent | 6.51697 .1687125 6.173314 6.860626 volume | 12.04664 .5824776 10.86017 13.23311 -------------------------------------------------------. means extent volume

Variable | Type Obs Mean [95% Conf. Interval] ---------+------------------------------------------------extent | Arithmetic 33 6.51697 6.173314 6.860626 | Geometric 33 6.440565 6.085412 6.816445 | Harmonic 33 6.357201 5.990513 6.771707 ---------+------------------------------------------------- volume | Arithmetic 33 12.04664 10.86017 13.23311 | Geometric 33 11.46327 10.13751 12.96241 | Harmonic 33 10.70489 9.237083 12.7273 ---------+-------------------------------------------------

Nilai-nilai Deskriptif Variabel Kategorik Tabel Satu Arah Untuk memperoleh tabel satu-arah (one-way table; distribusi frekuensi), digunakan perintah tabulate: . tabulate varname [if] [in] [, options]

35

Bab 3. Statistika Deskriptif

Perintah tabulate (atau tab saja atau tab1) digunakan untuk menampilkan distribusi frekuensi variabel kategorik atau variabel numerik yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih daripada satu variabel (misalnya tab1 tk_pend akt_fisik). Beberapa opsi yang tersedia untuk perintah tab yaitu: -

nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai

persentase. -

nolabel: tidak menggunakan definisi nilai label (jika ada).

-

plot: perintah untuk menampilkan diagram batang (bar chart) beserta tabel

distribusi frekuensi. -

sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.

Contoh 3.3: . use "D:\Data\Stata\honolulu.dta", clear . tab tk_pend

Tingkat | Pendidikan | Freq. Percent Cum. ------------+--------------------------1 | 25 25.00 25.00 2 | 32 32.00 57.00 3 | 24 24.00 81.00 4 | 9 9.00 90.00 5 | 10 10.00 100.00 ------------+--------------------------Total | 100 100.00 . tab1 tk_pend akt_fisik

-> tabulation of tk_pend

36

Bab 3. Statistika Deskriptif

Tingkat | Pendidikan | Freq. Percent Cum. ------------+--------------------------1 | 25 25.00 25.00 2 | 32 32.00 57.00 3 | 24 24.00 81.00 4 | 9 9.00 90.00 5 | 10 10.00 100.00 ------------+--------------------------Total | 100 100.00 -> tabulation of akt_fisik Aktivitas | Fisik | Freq. Percent Cum. ------------+--------------------------1 | 49 49.00 49.00 2 | 51 51.00 100.00 ------------+--------------------------Total | 100 100.00

Contoh 3.4: . use “D:\Data\Stata\attract”, clear

(Perceived attractiveness and drinking -- DC Hamilton (2003)) . tab drinkfrq

Days | drinking in | previous | week | Freq. Percent Cum. ------------+---------------------------------0 | 4 2.04 2.04 .5 | 4 2.04 1 | 24 12.24 16.33 37

4.08

Bab 3. Statistika Deskriptif

2 |

52 2.5 |

3 |

26.53 4

40

42.86 2.04

20.41

44.90 65.31

3.5 | 12 6.12 71.43 4 | 20 10.20 81.63 4.5 | 4 2.04 83.67 5 | 16 8.16 91.84 6 | 16 8.16 100.00 ------------+---------------------------------Total | 196 100.00

Tabel Silang Untuk menampilkan tabel silang digunakan perintah tab2 sebagai berikut: tab2 varname1 varname2 [if] [in] [, options]

Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu tersedia juga opsi row (menampilkan persentase di tiap baris), column (menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di tiap sel), misalnya tab2 tk_pend akt_fisik, row.

Contoh 3.5: . use "D:\Data\Stata\honolulu.dta", clear . tab2 tk_pend akt_fisik

-> tabulation of tk_pend by akt_fisik Tingkat | Aktivitas Fisik Pendidikan | 1 2 | Total -----------+----------------+------1 | 13 12 | 25 2 | 17 15 | 32 38

Bab 3. Statistika Deskriptif

3 | 11 13 | 24 4 | 4 5 | 9 5 | 4 6 | 10 -----------+----------------+------Total | 49 51 | 100

. tab2 tk_pend akt_fisik, row

-> tabulation of tk_pend by akt_fisik +----------------+ | Key | |----------------| | frequency | | row percentage | +----------------+ Tingkat | Aktivitas Fisik Pendidikan | 1 2 | Total -----------+----------------+------1 | 13 12 | 25 | 52.00 48.00 | 100.00 -----------+----------------+------2 | 17 15 | 32 | 53.13 46.88 | 100.00 -----------+----------------+------3 | 11 13 | 24 | 45.83 54.17 | 100.00 -----------+----------------+------4 | 4 5 | 9 | 44.44 55.56 | 100.00 -----------+----------------+------5 | 4 6 | 10 39

Bab 3. Statistika Deskriptif

| 40.00 60.00 | 100.00 -----------+----------------+------Total | 49 51 | 100 | 49.00 51.00 | 100.00

Contoh 3.6: . use “D:\Data\Stata\attract”, clear

(Perceived attractiveness and drinking -- DC Hamilton (2003))

. tab2 drinkfrq gender

Days | drinking | in | previous | Gender week | Male Female | Total -----------+---------------------+---------0 | 4 0 | 4 .5 | 4 0 | 4 1 | 8 16 | 24 2 | 32 20 | 52 2.5 | 0 4 | 4 3 | 32 8 | 40 3.5 | 4 8 | 12 4 | 12 8 | 20 4.5 | 4 0 | 4 5 | 16 0 | 16 6 | 12 4 | 16 -----------+----------------------+---------Total | 128 68 | 196

40

Bab 3. Statistika Deskriptif

. tab2 drinkfrq gender, co

+-------------------+ | Key | |-------------------| | frequency | | column percentage | +-------------------+

Days | drinking | in | previous | Gender week | Male Female | Total ----------+----------------------+---------0 | 4 0 | 4 | 3.13 0.00 | 2.04 ----+----------------------+---------.5 | 4 0 | 4 | 3.13 0.00 | 2.04 -----------+----------------------+---------41

-------

Bab 3. Statistika Deskriptif

1 |

8 16 | 24 | 6.25 23.53 | 12.24 -----------+----------------------+---------2 | 32 20 | 52 | 25.00 29.41 | 26.53 ----+----------------------+---------2.5 | 0 4 | 4 | 0.00 5.88 | 2.04 ----------+----------------------+--------3 | 32 8 | 40 | 25.00 11.76 | 20.41 ----+----------------------+---------3.5 | 4 8 | 12 | 3.13 11.76 | 6.12 ----------+----------------------+--------4 | 12 8 | 20 | 9.38 11.76 | 10.20 ----+----------------------+---------4.5 | 4 0 | 4 | 3.13 0.00 | 2.04 -----------+----------------------+---------5 | 16 0 | 16 | 12.50 0.00 | 8.16 -----------+----------------------+---------6 | 12 4 | 16 | 9.38 5.88 | 8.16 ----+----------------------+---------Total | 128 68 | 196 | 100.00 100.00 | 100.00

-------

-------

-------

-------

Tabel Nilai Ringkasan Variabel Numerik menurut Kategori Variabel Kategorik Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk masing-

42

Bab 3. Statistika Deskriptif

masing kategori variabel_1. Sintaks-nya adalah: tabulate varname_1 [if] [in], summarize(varname_2)

Contoh 3.7: . use “D:\Data\Stata\attract”, clear

(Perceived attractiveness and drinking -- DC Hamilton (2003)) . tab gender, sum(bac)

| Summary of Blood alchohol content Gender | Mean Std. Dev. Freq. ------------+-----------------------------------Male | .09340909 .08052148 132 Female | .08111111 .06826947 72 ------------+-----------------------------------Total | .08906863 .07647798 204

43

Bab 4. Grafik Statistik

BAB 4 GRAFIK STATISTIK Histogram dan Densitas Kernel Histogram adalah representasi grafikal untuk sehimpunan pengamatan terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masingmasing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk histogram yaitu: histogram varname [if] [in] [, options]

Densitas kernel (kernel density) adalah fungsi licin (smoothed function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk histogram tidak konstan, tergantung pada titik awal dan lebar batang yang dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu: kdensity varname [if] [in] [, options]

Contoh 4.1: . use “D:\Data\Stata\auto”, clear . histogram weight

(bin=8, start=1760, width=385)S

44

Bab 4. Grafik Statistik

2,000

3,000 Weight (lbs.)

4,000

5,000

. kdensity weight Kernel density estimate

1000

2000

3000 Weight (lbs.)

4000

5000

kernel = epanechnikov, bandwidth = 295.7504

Perbandingan histogram dan grafik densitas kernel untuk variabel yang

45

Bab 4. Grafik Statistik

Untuk membandingkan histogram dan grafik densitas kernel dengan distribusi normal ditambahkan opsi (, normal): . histogram weight, normal

. kdensity weight, normal

46

Bab 4. Grafik Statistik

Penyajian histogram weight menurut kategorisasi foreign (domestic dan foreign): . histogram weight, by(foreign) Domestic

1,000

2,000

3,000

Foreign

4,000

5,0001,000

Weight (lbs.) Graphs by Car type

47

2,000

3,000

4,000

5,000

Bab 4. Grafik Statistik

Contoh 4.2: . use “D:\Data\Stata\attract”, clear

(Perceived attractiveness and drinking -- DC Hamilton (2003)) . histogram bac

(bin=14, start=0, width=.02571429)

0

.1

.2 Blood alchohol content

.3

.4

Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi frekuensi dengan perintah: . histogram bac, frequency

48

Bab 4. Grafik Statistik

(bin=14, start=0, width=.02571429)

0

.1

.2 Blood alchohol content

. histogram bac, start(0) width(0.03333333) norm

(bin=11, start=0, width=.03333333)

49

.3

.4

Bab 4. Grafik Statistik . histogram bac, by(gender) Male

0

.1

.2

Female

.3

.4

0

.1

.2

.3

.4

Blood alchohol content Graphs by Gender

. histogram bac, by(gender, total) percent Male

Female

0

Total

0

.1

.2

.3

.4

Blood alchohol content Graphs by Gender

50

.1

.2

.3

.4

Bab 4. Grafik Statistik . kdensity bac Kernel density estimate

0

.1

.2 Blood alchohol content

kernel = epanechnikov, bandwidth = 0.0238

51

.3

.4

Bab 4. Grafik Statistik

Histogram untuk Variabel Kategorik Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah sama dengan untuk penyajian histogram dengan sintaks: histogram varname [if] [in] [, options]

Contoh 4.3: . use “D:\Data\Stata\auto”, clear . histogram rep78

1

2

3 Repair Record 1978

52

4

5

Bab 4. Grafik Statistik

Contoh 4.4: . use “D:\Data\Stata\student2”, clear

(Student survey (Ward 1990)) . histogram live, frequency

1

2

3

4

Year in college

Diagram Batang Pengertian diagram batang (bar diagram) dalam Stata adalah penyajian nilainilai rerata (ataupun statistik lainnya) suatu variabel kontinu menurut kategori variabel kategorik lainnya. Sintaks-nya adalah: graph bar [(stat)] cont_var [if] [in], over(cat_var) (stat) : Statistik yang diminta (umumnya rerata) cont_var :

Variabel kontinu yang dimintakan statistiknya cat_var : Variabel kategorik

53

Bab 4. Grafik Statistik

Contoh 4.5: . use “D:\Data\Stata\auto”, clear . graph bar (mean) mpg, over(rep78)

1

2

3

Contoh 4.6: . use “D:\Data\Stata\student2”, clear

(Student survey (Ward 1990)) . graph bar (mean) aggress, over(gender)

54

4

5

Bab 4. Grafik Statistik

Female

Male

Diagram Tebar Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk pengamatan bivariat. Sintaks untuk diagram tebar adalah: [graph] twoway scatter yvar xvar [if] [in] [, options] [graph] :

: xvar : prediktor

Penulisan perintah graph bersifat opsional yvar Variabel pada sumbu Y, biasanya adalah respons Variabel pada sumbu X, biasanya adalah

Contoh 4.7: . use “D:\Data\Stata\auto”, clear . graph twoway scatter weight length

55

Bab 4. Grafik Statistik

Menyajikan estimasi garis regresi weight (respons) terhadap length (prediktor): . graph twoway lfit weight length

56

Bab 4. Grafik Statistik

140

160

180 200 Length (in.)

220

240

Diagram tebar dapat disajikan secara bersama dengan estimasi garis regresinya: . graph twoway scatter weight length || lfit weight length

Contoh 4.8: . use “D:\Data\Stata\student2”, clear

(Student survey (Ward 1990)) 57

Bab 4. Grafik Statistik . graph twoway scatter gpa study

. graph twoway lfit gpa study

0

10

20 30 Avg. hours/week studying

. graph twoway lfit gpa study || scatter gpa study

58

40

50

Bab 4. Grafik Statistik

Diagram Kotak & Titik Diagram kotak dan titik (box plot) adalah metode penyajian grafik untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah: graph box varname [if] [in] [, options]

Contoh 4.9: 59

Bab 4. Grafik Statistik . use “D:\Data\Stata\auto”, clear . graph box mpg

Diagram kotak dan titik juga dapat disajikan secara berdampingan menurut kategori variabel kategorik lainnya: . graph box mpg, by(foreign) Domestic

Foreign

Graphs by Car type

60

Bab 4. Grafik Statistik

Contoh 4.10: . use “D:\Data\Stata\

(Student survey (Ward 1990)) . graph box gpa

. graph box gpa, over(gender)

61

Bab 4. Grafik Statistik

student2”, clear

Female

Male

Diagram Lingkar Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor, masingmasing berukuran proporsional dengan frekuensi yang direpresentasikannya. Sintaks-nya adalah: graph pie [if] [in], over(varname) [options]

Contoh 4.11: . use “D:\Data\Stata\auto”, clear . graph pie, over(rep78)

62

Bab 4. Grafik Statistik

1 3 5

Contoh 4.12: . use “D:\Data\Stata\

(Student survey (Ward 1990)) . graph pie, over(live)

63

2 4

Bab 4. Grafik Statistik

student2”, clear

Dorm Apartmnt other

Greek w/Parent

Grafik Matriks Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah: graph matrix varlist [if] [in] [, options]

Contoh 4.13: 64

Bab 4. Grafik Statistik . use “D:\Data\Stata\auto”, clear . graph matrix price mpg weight length, half

Bandingkan grafik matriks di atas dengan matriks korelasi berikut: . corr price mpg weight length

(obs=74) | price mpg weight length -----------+-------------------------------price | 1.0000 mpg | -0.4686 1.0000 weight | 0.5386 -0.8072 1.0000 length | 0.4318 -0.7958 0.9460 1.0000

Contoh 4.14:

65

Bab 4. Grafik Statistik

student2”, clear . use “D:\Data\Stata\

(Student survey (Ward 1990)) . graph matrix age drink gpa study, half

66

Bab 5. Analisis Statistik Sederhana

BAB 5 ANALISIS STATISTIK SEDERHANA Uji t Uji t untuk 1 kelompok Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis H0 : µ = µ0. Sintaks pada uji t untuk 1 kelompok yaitu: ttest varname == # [if] [in] [, level (#)]

Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah : -

Data berskala kontinu

-

Data berdistribusi normal

-

Data berasal dari random sampling

Contoh 5.1: File data yang digunakan adalah auto.dta. . use “D:\Data\Stata\auto.dta”, clear

(1978 Automobile Data) . list mpg in 1/10

+-----+ | mpg | |-----| 1. | 22 | 2. | 17 | 3. | 22 | 4. | 20 | 5. | 15 | |-----| 67

Bab 5. Analisis Statistik Sederhana

6. | 18 7. | 26 | 8. | 20 | 9. | 16 | 10. | 19 |

|

+-----+

Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan uji normalitas Shapiro-Wilk dengan H0 : Data berdistribusi normal. . swilk mpg

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 74 0.94821 3.335 2.627 0.00430 Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal, ditemukan penyimpangan bermakna terhadap distribusi H0 ), walaupun demikian uji t di sini diteruskan untuk latihan. Penilaian normalitas menggunakan grafik.

secara kasar dapat dilakukan

. qnorm mpg, grid

68

dengan

Bab 5. Analisis Statistik Sederhana

Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut adalah untuk menguji H0 : µ = 20. . ttest mpg==20

One-sample t test ---------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-----------------------------------------------------mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769 ---------------------------------------------------------------mean = mean(mpg) t = 1.9289 Ho: mean = 20 degrees of freedom = 73 Ha: mean < 20 > 20 Pr(T < t) = 0.9712 = 0.0288

Ha: mean != 20 Pr(|T| > |t|) = 0.0576

69

Ha: mean Pr(T > t)

Bab 5. Analisis Statistik Sederhana

Diperoleh hasil: untuk → p = 0.9712

H1: µ < 20

H1: µ ≠ 20

p = 0.0576

H1: µ > 20

p = 0.0288

Contoh 5.2: Pada contoh ini digunakan file data hsb2.dta. . use "D:\Data\Stata\hsb2.dta", clear

(highschool and beyond (200 cases)) . list write in 1/10

1. 2. | | 44 | | 6. 7. | | 57 | |

+-------+ | write | |-------| | 52 | 59 | 3. 33 | 4. | 5. | 52 |-------| | 52 | 59 | 8. 46 | 9. | 10. | 55 +-------+

. swilk write

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------write | 200 0.96286 5.540 3.939 0.00004 write tidak berdistribusi normal (p = 0.00004).

70

Bab 5. Analisis Statistik Sederhana . ttest write=50

One-sample t test ----------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------write | 200 52.775 .6702372 9.478586 51.45332 54.09668 ----------------------------------------------------------------mean = mean(write) t = 4.1403 Ho: mean = 50 degrees of freedom = 199 Ha: mean < 50 Ha: mean != 50 Ha: mean > 50 Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000 Hipotesis H0 : µ = 50 ditolak dengan p = 0.0001.

Uji t untuk 2 kelompok independen Uji t untuk 2 kelompok independen adalah pengujian statistik terhadap hipotesis H0 : µ 1 = µ2. Sintaks untuk uji hipotesis ini adalah: ttest varname [if] [in] , by(groupvar) [options] Options yang

tersedia antara lain yaitu: -

unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya

-

level(#) untuk mengganti nilai default tingkat signifikansi

Asumsi-asumsi untuk uji hipotesis ini adalah: -

Data berskala kontinu

-

Data berdistribusi normal

-

Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)

-

Kedua kelompok independen (jika tidak independen, gunakan paired ttest) 71

Bab 5. Analisis Statistik Sederhana -

Data berasal dari random sampling

Contoh 5.3: File data yang digunakan di sini adalah fuel3.dta. webuse fuel3, clear

Mengambil dari Web dan membuka file fuel3.dta. . list in 1/5 Memperlihat isi ( . database ) file untuk record 1 s.d. 5 +---------------+ | mpg treated | |---------------| 1. | 20 0 | 2. | 23 0 | 3. | 21 0 | 4. | 25 0 | 5. | 18 0 | +---------------+ Pada uji t untuk 2 kelompok independen ini, uji normalitas harus dilakukan untuk masing-masing kelompok: . swilk mpg if treated==0

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 12 0.93932 1.014 0.027 0.48937

. swilk mpg if treated==1

Shapiro-Wilk W test for normal data

72

Bab 5. Analisis Statistik Sederhana

Variable | Obs W V z Prob>z ---------+------------------------------------------------mpg | 12 0.97637 0.395 -1.811 0.96493

Tampak bahwa untuk kedua kelompok tidak ditemukan penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan pengujian kesamaan variansi antar kedua kelompok dengan hipotesis H0 : σ12 / σ22 = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif terhadap asumsi normalitas: . sdtest mpg, by(treated)

Variance ratio test ----------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------0 | 12 21 .7881701 2.730301 19.26525 22.73475 1 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+------------------------------------------------------- combined | 24 21.875 .6264476 3.068954 20.57909 23.17091 ----------------------------------------------------------------ratio = sd(0) / sd(1) f = 0.7054 Ho: ratio = 1 degrees of freedom = 11, 11 Ha: ratio < 1 > 1 Pr(F < f) = 0.2862 0.7138

Ha: ratio != 1 2*Pr(F < f) = 0.5725

Ha: ratio Pr(F > f) =

Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji 73

Bab 5. Analisis Statistik Sederhana

Levene

yang bersifat robust terhadap asumsi normalitas: robvar mpg,

by(treated)

| Summary of mpg treated | Mean Std. Dev. Freq. -----------+-----------------------------------0 | 21 2.7303013 12 . 1 | 22.75 3.250874 12 ------------+-----------------------------------Total | 21.875 3.0689539 24 W0

=

0.03414971

df(1, 22)

Pr > F = 0.8550817

W50 =

0.01376721

df(1, 22)

Pr > F = 0.9076602

W10 =

0.02949384

df(1, 22)

Pr > F = 0.86521366

W0

:

W50 :

Levene’s F statistic Brown and Forsythe’s F statistic (median)

W10 : Brown and Forsythe’s F statistic (trimmed mean) Hasil uji Levene yaitu H0 tidak ditolak (p = 0.855), sehingga disimpulkan bahwa variansi kedua kelompok sama. ttest mpg, by(treated)

Uji . t terhadap rerata

mpg

antar 2 kelompok, treated = 1 vs treated = 0.

Two-sample t test with equal variances --------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+----------------------------------------------------0 | 12 21 .7881701 2.730301 19.26525 22.73475 74

Bab 5. Analisis Statistik Sederhana

1 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+----------------------------------------------------- combined | 24 21.875 .6264476 3.068954 20.57909 23.17091 ---------+----------------------------------------------------diff | -1.75 1.225518 -4.291568 .7915684 --------------------------------------------------------------diff = mean(0) - mean(1) t = -1.4280 Ho: diff = 0 degrees of freedom = 22 Ha: diff < 0 > 0 Pr(T < t) = 0.0837 0.9163

Ha: diff != 0 Pr(|T| > |t|) = 0.1673

Contoh 5.4: Digunakan file data hsb2.dta. . use “D\Data\Stata\hsb2.dta”, clear . list write female in 1/5

+----------------+ | write female | |----------------| 1. | 52 male | 2. | 59 female | 3. | 33 male | 4. | 44 male | 5. | 52 male | +---------------+

. ttest write, by(female)

Two-sample t test with equal variances 75

Ha: diff Pr(T > t) =

Bab 5. Analisis Statistik Sederhana

----------------------------------------------------------------Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------male | 91 50.12088 1.080274 10.30516 47.97473 52.26703 female | 109 54.99083 .7790686 8.133715 53.44658 56.53507 ---------+------------------------------------------------------combined | 200 52.775 .6702372 9.478586 51.45332 54.09668 ---------+------------------------------------------------------diff | -4.869947 1.304191 -7.441835 -2.298059 ----------------------------------------------------------------diff = mean(male) mean(female) t = -3.7341 Ho: diff = 0 degrees of freedom = 198 Ha: diff < 0 > 0 Pr(T < t) = 0.0001 = 0.9999

Ha: diff != 0 Pr(|T| > |t|) = 0.0002

Ha: diff Pr(T > t)

Uji t berpasangan (paired t-test) Uji t berpasangan adalah uji statistik untuk menguji hipotesis H0 : δ = 0, δ adalah rerata selisih 2 variabel berpasangan X1 dan X 2 . Sintaks uji statistik adalah: ttest varname1 == varname2 [if] [in] [, level(#)]

Asumsi-asumsi pada uji statistik ini yaitu: -

Data berskala kontinu

-

Selisih kedua variabel berpasangan berdistribusi normal

-

Data berasal dari random sampling

76

Bab 5. Analisis Statistik Sederhana

Contoh 5.5: File data untuk contoh ini adalah fuel.dta. . webuse fuel, clear . list in 1/5

+-------------+ | mpg1 mpg2 | |-------------| 1. | 20 24 | 2. | 23 25 | 3. | 21 21 | 4. | 25 22 | 5. | 18 23 | +-------------+ Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah sebagai berikut: . gen diff_mpg = mpg1 - mpg2 . swilk diff_mpg

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+------------------------------------------------- diff_mpg | 12 0.92077 1.324 0.547 0.29236 Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg berdistribusi normal (p = 0.29236). . ttest mpg1==mpg2

(two-sample t test using variables) 77

Bab 5. Analisis Statistik Sederhana

Paired t test -------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+---------------------------------------------------mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475 mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551 ---------+---------------------------------------------------diff | 12 -1.75 .7797144 2.70101 -3.46614 .0338602 -------------------------------------------------------------mean(diff) = mean(mpg1 - mpg2) t = -2.2444 Ho: mean(diff) = 0 degrees of freedom = 11 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0 Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768

Contoh 5.6: Digunakan file data hsb2.dta. . use “D:\Data\Stata\hsb2”, clear . list read write in 1/10

+--------------+ | read write | |--------------| 1. | 57 52 | 2. | 68 59 | 3. | 44 33 | 4. | 63 44 | 5. | 47 52 | |-------------| 6. | 44 52 | 7. | 50 59 | 8. | 34 46 | 9. | 78

Bab 5. Analisis Statistik Sederhana

63 55 | -+

57 | 10. | 57 +-------------

Berikut diperlihatkan sebagian dari dataset yang digunakan untuk contoh uji t berpasangan: pair 1 2 3 4 ...

read 57 68 44 63

write 52 59 46 57 dst.

d +5 +9 −2 +6

. ttest read==write

Paired t test ----------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------read | 200 52.23 .7249921 10.25294 50.80035 53.65965 write | 200 52.775 .6702372 9.478586 51.45332 54.09668 ---------+------------------------------------------------------diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424 ----------------------------------------------------------------mean(diff) = mean(read - write) t = -0.8673 Ho: mean(diff) = 0 degrees of freedom = 199 Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0 Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066

79

Bab 5. Analisis Statistik Sederhana

Uji t tanpa dataset Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan diberikan data tentang ukuran sampel, rerata, dan standar deviasi.

o Uji t tanpa dataset untuk 1 kelompok: Yang diuji adalah hipotesis H0 : µ = µ0 . Sintaks untuk uji ini adalah: ttesti #obs #mean #sd #val [, level(#)]

Contoh 5.7: . ttesti 24 62.6 15.8 75

(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75) One-sample t test ---------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ----+----------------------------------------------------x | 24 62.6 3.225161 15.8 55.92825 69.27175 ---------------------------------------------------------mean = mean(x) t = -3.8448 Ho: mean = 75 degrees of freedom = 23 Ha: mean < 75 > 75 Pr(T < t) = 0.0004 = 0.9996

Ha: mean != 75 Pr(|T| > |t|) = 0.0008

Ha: mean Pr(T > t)

o Uji t tanpa dataset untuk 2 kelompok: Yang diuji adalah hipotesis H0 : µ 1 = µ2 . Sintaks untuk uji hipotesis ini adalah: 80

Bab 5. Analisis Statistik Sederhana ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options] Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).

Contoh 5.8: . ttesti 12 21.00 0.788 12 22.75 0.938

Two-sample t test with equal variances -------------------------------------------------------------| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+---------------------------------------------------x | 12 21 .227476 .788 20.49933 21.50067 y | 12 22.75 .2707773 .938 22.15402 23.34598 ---------+---------------------------------------------------combined | 24 21.875 .2513863 1.231536 21.35497 22.39503 ---------+---------------------------------------------------diff | -1.75 .3536462 -2.483417 -1.016583 -------------------------------------------------------------diff = mean(x) mean(y) t = -4.9484 Ho: diff = 0 degrees of freedom = 22 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000

Uji khi-kuadrat

81

Bab 5. Analisis Statistik Sederhana

Uji Khi-Kuadrat untuk tabel 2×2 Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai “exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}. case

exposed

1

0

1

a

b

n1

0

c m1

d m2

n2 n

o Uji Khi-kuadrat untuk Studi Kasus-Kontrol Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR), yaitu:

ˆ ad OR = ψˆ =

(5.1)

bc Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis H0 : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu: -

Pengamatan independen satu sama lain

-

Frekuensi harapan tiap sel minimum sama dengan 5. Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H0 :

ψ = 1 adalah: cc var_case var_exposed [if] [in] [, cc_options]

Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk meminta uji eksak Fisher. 82

Bab 5. Analisis Statistik Sederhana

o Uji Khi-kuadrat untuk Studi Kohort Pada data yang berasal dari rancangan studi kohort, ukuran keeratan hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:

ˆ an RR = 1 (5.2) cn2 Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis H0 : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji hipotesis H0 : OR = 1. Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H0 : RR = 1 adalah: cs var_case var_exposed [if] [in] [, cs_options]

Seperti pada rancangan studi kasus kontrol, di sini juga salah satu opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.

o Uji Khi-kuadrat untuk Studi Non-Epidemiologi Jika data tidak berasal dari salah satu rancangan studi epidemiologi, sintaksnya adalah: tab2 varname1 varname2, chi2 exact

o Uji Khi-kuadrat tanpa Dataset Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masingmasing adalah: cci a b c d csi a b c d

dan:

tabi a b \ c d, chi2 exact

83

Bab 5. Analisis Statistik Sederhana

Contoh 5.9: Digunakan file data tt_headache_part-1.dta. . use “D:\Data\Stata\ tt_headache_part-1”, clear Membuka

file tt_headache_part-1.dta. . list nktt tpa_kat in 1/5

Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1 s.d. 5

1. 2. 3. 4. 5.

| | | | |

+----------------+ | nktt tpa_kat | |----------------| 0 1 | 1 0 | 1 1 | 0 0 | 0 0 | +----------------+

. tab2 nktt tpa_kat

Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat. -> tabulation of nktt by tpa_kat | TPA_kat NKTT | 0 1 | Total -----------+----------------------+---------0 | 86 24 | 110 1 | 44 64 | 108 -----------+----------------------+---------Total | 130 88 | 218

84

Bab 5. Analisis Statistik Sederhana

Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol, hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat (exposed) dengan respons nktt (case) serta uji hipotesis H0 : OR = 1. . cc nktt tpa_kat

Proportion | Exposed Unexposed | Total Exposed ----------------+--------------------+------------------Cases | 64 44 | 108 0.5926 Controls | 24 86 | 110 0.2182 ----------------+--------------------+------------------Total | 88 130 | 218 0.4037 | | | Point estimate |[95% Conf. Interval] |--------------------+------------------Odds ratio | 5.212121 | 2.770114 9.888089 (exact) Attr. frac. ex. | .8081395 | .639004 .8988682 (exact) Attr. frac. pop | .4788975 | +---------------------------------------chi2(1) = 31.74 Pr>chi2 = 0.0000 Diperoleh kesimpulan hipotesis H0 : OR = 1 ditolak dengan p = 0.0000. Estimasi titik

ORˆ

adalah 5.21 dengan interval konfidensi 95% [2.77 ;

9.89]. Jika data diasumsikan berasal dari rancangan studi kohort, yang diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah H0 : RR = 1 dengan perintah: 85

Bab 5. Analisis Statistik Sederhana . cs nktt tpa_kat

| TPA_kat | | Exposed Unexposed | Total ----------------+---------------------+---------Cases | 64 44 | 108 Noncases | 24 86 | 110 ----------------+---------------------+---------Total | 88 130 | 218 | | Risk | .7272727 .3384615 | .4954128 | |

| Interval] Risk difference Risk ratio Attr. frac. ex. Attr. frac. pop -------

Point estimate | [95% Conf. |---------------------+--------------------

| .3888112 | .2652201 .5124023 | 2.14876 | 1.636615 2.821171 | .5346154 | .3889827 .6455373 | .3168091 | +-----------------------------------chi2(1) = 31.74 Pr>chi2 = 0.0000

ˆ Hipotesis H0 : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk RR adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82]. Jika data tidak diasumsikan berasal dari salah satu rancangan studi Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt dapat dilakukan dengan perintah: . tab2 nktt tpa_kat, chi2

-> tabulation of nktt by tpa_kat 86

Bab 5. Analisis Statistik Sederhana

| TPA_kat NKTT | 0 1 | Total -----------+----------------------+---------0 | 86 24 | 110 1 | 44 64 | 108 -----------+---------------------+---------Total | 130 88 | 218 Pearson chi2(1) =

31.7354

Pr = 0.000

Contoh 5.10: Digunakan file data ccxmpl.dta. . webuse ccxmpl . list

+-----------------------+ | case exposed pop | |-----------------------| 1. | 1 1 4 | 2. | 1 0 386 | 3. | 0 1 4 | 4. | 0 0 1250 | +-----------------------+ Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang responden, 87

Bab 5. Analisis Statistik Sederhana

melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case = 1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat digunakan di sini adalah cci. . cci 4 386 4 1250

Proportion | Exposed Unexposed | Total Exposed ----------------+---------------------+-------------------Cases | 4 386 | 390 0.0103 Controls | 4 1250 | 1254 0.0032 ----------------+---------------------+-------------------Total | 8 1636 | 1644 0.0049 | | | Point estimate | [95% Conf. Interval] |---------------------+-------------------Odds ratio | 3.238342 | .5997233 17.45614 (exact) Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact) Attr. frac. pop | .0070892 | +-----------------------------------------chi2(1) = 3.07 Pr>chi2 = 0.0799

Contoh 5.11: . csi 7 12 9 2

| Exposed Unexposed | Total -----------------+-------------------+---------Cases | 7 12 | 19 Noncases | 9 2 | 11 88

Bab 5. Analisis Statistik Sederhana

-----------------+-------------------+---------Total | 16 14 | 30 | | Risk | .4375 .8571429 | .6333333 | | | Point estimate | [95% Conf. Interval] |-------------------+-------------------Risk difference Risk ratio Prev. frac. ex. Prev. frac. pop -------

| -.4196429 | -.7240828 -.1152029 | .5104167 | .2814332 .9257086 | .4895833 | .0742914 .7185668 | .2611111 | +---------------------------------chi2(1) = 5.66 Pr>chi2 = 0.0173

. csi 7 12 9 2, exact

| Exposed Unexposed | Total -----------------+--------------------+---------Cases | 7 12 | 19 Noncases | 9 2 | 11 -----------------+--------------------+---------Total | 16 14 | 30 | | Risk | .4375 .8571429 | .6333333 | | | Point estimate | [95% Conf. Interval] |--------------------+-------------------Risk difference | -.4196429 | -.7240828 .1152029 Risk ratio | .5104167 | .2814332 .9257086 Prev. frac. ex. | .4895833 | .0742914 .7185668 Prev. frac. pop | .2611111 | +----------------------------------------89

Bab 5. Analisis Statistik Sederhana

1-sided

Fisher's

exact

P

=

2-sided

Fisher's

exact

P

=

0.0212 0.0259

Uji Khi-kuadrat untuk tabel r × c (r baris dan c kolom): Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis H0 : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsiasumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khikuadrat yaitu: tabulate varname1 varname2 [if] [in] , chi2

Contoh 5.12: Digunakan file data citytemp2.dta. . use "D:\Data\Stata\citytemp2", clear

(City Temperature Data) . list region agecat in 1/7

+-----------------+ | region agecat | |-----------------| 1. | NE 19-29 | 2. | NE 19-29 | 3. | NE 19-29 | 4. | NE 19-29 | 5. | NE 19-29 | |----------------| 6. | NE 19-29 | 7. | NE 19-29 | +-----------------+ 90

Bab 5. Analisis Statistik Sederhana

. tabulate region agecat

Census | agecat Region | 19-29 30-34 35+ | Total -----------+---------------------------------+---------NE | 46 83 37 | 166 N Cntrl | 162 92 30 | 284 South | 139 68 43 | 250 West | 160 73 23 | 256 -----------+---------------------------------+---------Total | 507 316 133 | 956 . tabulate region agecat, chi2

Census | agecat Region | 19-29 30-34 35+ | Total -----------+---------------------------------+---------NE | 46 83 37 | 166 N Cntrl | 162 92 30 | 284 South | 139 68 43 | 250 West | 160 73 23 | 256 -----------+---------------------------------+---------Total | 507 316 133 | 956 Pearson chi2(6) =

61.2877

Pr = 0.000

Dengan p = 0.000, ditemukan asosiasi yang bermakna antara kelompok usia responden (agecat) dengan regio sensus mereka (region).

91

Bab 6. Analisis Variansi

BAB 6 ANALISIS VARIANSI Analisis variansi (analysis of variance; ANOVA) adalah analisis statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori, seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.

Analisis Variansi 1-Arah Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori (taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya. Sintaks-nya adalah: oneway resp_var fact_var [if] [in] [, options] resp_var :

:

respons, variabel dependen (kontinu) fact_var

faktor, variabel independen (kategorik) Model pada analisis variansi adalah: Yij = µ +

τ

i

+ εij

(6.1)

Hipotesis pada analisis variansi yaitu: H

0:

τ

1

=

τ

2

= . . . = τp

(6.1.a)

Asumsi-asumsi pada analisis variansi adalah: 1.

Independensi: Galat saling independen 92

Bab 6. Analisis Variansi

2.

Normalitas: Galat berdistribusi normal

3.

Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)

4.

Sampling acak: Data diperoleh dari sampling acak

Contoh 6.1: File data yang digunakan pada contoh ini adalah hsb2.dta, memuat data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata nilai write antar ketiga tipe program tersebut. . use “D:\Data\Stata\hsb2”

(highschool and beyond (200 cases)) . tabulate prog, summarize(write)

type of | Summary of writing score program | Mean Std. Dev. Freq. -----------+--------------------------------general | 51.333333 9.3977754 45 academic | 56.257143 7.9433433 105 vocation | 46.76 9.3187544 50 ------------+-------------------------------Total | 52.775 9.478586 200 Grafik batang rerata write pada ketiga tipe prog diperlihatkan sebagai berikut: . graph bar (mean) write, over(prog)

93

Bab 6. Analisis Variansi

general

academic

vocation

Analisis variansi 1-arah adalah: . oneway write prog

Source

Analysis of Variance SS df MS

F

Prob >

F ---------------------------------------------------------Between groups 3175.69786 2 1587.84893 21.27 0.0000 Within groups 14703.1771 197 74.635417 ---------------------------------------------------------Total 17878.875 199 89.843593 Bartlett's test for equal variances: chi2(2) = 2.6184 Prob>chi2 = 0.270 Kesimpulan yang diperoleh: -

Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap sama (uji Bartlett; p = 0.270)

-

Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p < 94

Bab 6. Analisis Variansi

0.0000) Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau Scheffe. . oneway write prog, bonferroni

Comparison of writing score by type of program (Bonferroni) Row Mean-| Col Mean | general academic ---------+---------------------academic | 4.92381 | 0.005 | vocation | -4.57333 -9.49714 | 0.032 0.000 Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras: vocation vs general; general vs academic; vocation vs academic) ketiganya menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05; p = 0.000).

Contoh 6.2: . use “D:\Data\Stata\apple”, clear

(Apple trees) . oneway weight treatment

Analysis of Variance Source SS df MS F Prob > F --------------------------------------------------------Between groups 5295.54433 3 1765.18144 21.46 0.0013 Within groups 493.591667 6 82.2652778 --------------------------------------------------------95

Bab 6. Analisis Variansi

Total

5789.136

9

643.237333

Bartlett's test for equal variances: Prob>chi2 = 0.708

chi2(3) = 1.3900

. oneway weight treatment, tabulate

| Summary of Average weight in grams Fertilizer | Mean Std. Dev. Freq. ------------+-----------------------------------1 | 111.9 6.7535176 3 2 | 52.733333 5.3928966 3 3 | 78.65 11.667262 2 4 | 77.5 14.424978 2 ------------+-----------------------------------Total | 80.62 25.362124 10

. graph hbar (mean) weight, over(treatment)

96

Bab 6. Analisis Variansi

1

2

3

4

0

50 mean of weight

100

. oneway weight treatment, scheffe

Comparison of Average weight in grams by Fertilizer (Scheffe) Row Mean-| Col Mean | 1 2 3 ---------+--------------------------------2 | -59.1667 | 0.001 | 3 | -33.25 25.9167 | 0.039 0.101 | 4 | -34.4 24.7667 -1.15 | 0.034 0.118 0.999

Analisis Variansi 2-Arah Tanpa Interaksi Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini, populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah: 97

Bab 6. Analisis Variansi anova resp_var fact_A fact_B [if] [in] [, options] respons, variabel dependen fact_A :

resp_var :

faktor A, variabel independen pertama fact_B

:

faktor B, variabel independen kedua Model penelitian ini adalah: Yij = µ +

α

i

(6.2)

+ βj + εij

Hipotesis penelitian adalah: H α α 0 : 1 = 2 = . . . = αp H

0:

β

1

=

β

2

= . . . = βq

(6.2.a) (6.2.b)

Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan ganda (Multiple Comparisons) seperti pada oneway.

Contoh 6.3: . use "D:\Data\Stata\systolic", clear

(Systolic Blood Pressure Data) . tabulate drug disease, summarize(systolic)

Means, Standard Deviations and Frequencies of Increment in Systolic B.P. | Patient's Disease Drug Used | 1 2 3 | Total -----------+---------------------------------+--------1 | 29.333333 28.25 20.4 | 26.066667 98

Bab 6. Analisis Variansi

| 13.017936 5.85235 13.371612 | 11.677002 | 6 4 5 | 15 -----------+---------------------------------+--------2 | 28 33.5 18.166667 | 25.533333 | 10.977249 2.081666 12.528634 | 11.61813 | 5 4 6 | 15 -----------+---------------------------------+--------3 | 16.333333 4.4 8.5 | 8.75 | 14.189198 6.9137544 9 | 10.0193 | 3 5 4 | 12 -----------+---------------------------------+--------4 | 13.6 12.833333 14.2 | 13.5 | 10.549882 10.342469 8.9274856 | 9.3238047 | 5 6 5 | 16 -----------+---------------------------------+---------Total | 22.789474 18.210526 15.8 | 18.87931 | 13.159614 13.554741 11.302538 | 12.800874 | 19 19 20 | 58 . anova systolic drug disease

Number of obs = 58 R-squared = 0.3803 Root MSE = 10.5503 Adj R-squared = 0.3207 Source | Partial SS df MS F Prob > F --------+------------------------------------------Model | 3552.07225 5 710.414449 6.38 0.0001 | drug | 3063.43286 3 1021.14429 9.17 0.0001 disease | 418.833741 2 209.41687 1.88 0.1626 | Residual| 5788.08293 52 111.309287 --------+-----------------------------------------Total | 9340.15517 57 163.862371 . margins drug disease

99

Bab 6. Analisis Variansi

Predictive margins = 58

Number of obs

Expression : Linear prediction, predict() -------------------------------------------------------------| Delta-method | Margin Std. Err. t P>|t| [95% Conf. Interval] --------+----------------------------------------------------drug | 1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858 2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877 3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574 4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398 | disease | 1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575 2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548 3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642 -------------------------------------------------------------. quietly: margins drug . marginsplot Variables that uniquely identify margins: drug

100

Bab 6. Analisis Variansi

Predictive Margins of drug with 95% CIs

1

2

3

4

Drug Used

Analisis Variansi 2-Arah Dengan Interaksi Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan faktor B. Sintaksnya adalah: anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options] Modelnya adalah: Y

ijk

= µ + αi + βj + (αβ)ij +

ε

ijk

(6.3)

Hipotesis penelitian adalah: H

α

H

β

0: 0:

1

=

1

=

α β

= . . . = αp

(6.3.a)

2

= . . . = βq

(6.3.b)

2

H0 : (αβ)ij = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q (6.3.c) 101

Bab 6. Analisis Variansi

Contoh 6.4: . use "D:\Data\Stata\systolic", clear

(Systolic Blood Pressure Data) . anova systolic drug disease drug#disease

Number of obs = 0.4560 Root MSE squared = 0.3259 Source |

58 = 10.5096

Partial SS

df

R-squared = Adj R-

MS

F

Prob >

F -------------+------------------------------------------Model | 4259.33851 11 387.212591 3.51 0.0013 | drug | 2997.47186 3 999.157287 9.05 0.0001 disease | 415.873046 2 207.936523 1.88 0.1637 drug#disease | 707.266259 6 117.87771 1.07 0.3958 | Residual | 5080.81667 46 110.452536 -------------+------------------------------------------Total | 9340.15517 57 163.862371 Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug dan disease terhadap systolic. . margins drug disease drug#disease

Predictive margins Number of obs = 58 Expression : Linear prediction, predict() -------------------------------------------------------------------| Delta-method | Margin Std. Err. t P>|t| [95% Conf. Interval] -------------+-----------------------------------------------------drug | 102

Bab 6. Analisis Variansi

1 | 25.89799 31.43452 2 | 26.41092 31.93181 3 | 9.722989 15.96132 4 | 13.55575 18.871 1 | 21.95862 26.87515 2 | 20.4204 25.3675 3 | 15.65 20.4014

2.750533

9.42

0.000

20.36145

2.742762

9.63

0.000

20.89003

3.099185

3.14

0.003

3.484652

2.640602 | 2.442515

5.13

2.457703

8.31

0.000

15.4733

2.360482

6.63

0.000

10.8986

0.000 8.24049 disease | 8.99 0.000 17.04209

| drug#disease | 1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975 1 2 | 28.25 5.25482 5.38 0.000 17.6726 38.8274 13 | 20.4 4.700054 4.34 0.000 10.93928 29.86072 21 | 28 4.700054 5.96 0.000 18.53928 37.46072 2 2 | 33.5 5.25482 6.38 0.000 22.9226 44.0774 2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308 3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707 3 2 | 4.4 4.700054 0.94 0.354 5.060718 13.86072 33 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774 41 | 13.6 4.700054 2.89 0.006 4.139282 23.06072 4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975 103

Bab 6. Analisis Variansi

4 3 | 14.2 4.700054 3.02 0.004 4.739282 23.66072 --------------------------------------------------------------------. quietly: margins drug#disease . marginsplot

Variables that uniquely identify margins: drug disease Adjusted Predictions of drug#disease with 95% CIs

1

2

3 Drug Used

disease=1 disease=3

disease=2

104

4

Bab 7. Analisis Regresi Linear

BAB 7 ANALISIS REGRESI LINEAR Regresi Linear Sederhana (Simple Linear Regression) Analisis regresi sederhana adalah pemodelan dan analisis statistik tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model hubungan adalah: Y

i

= β0 + β1

X

i

+

ε

i

(7.1)

Sintaks-nya untuk pengestimasian model dan garis regresi adalah: regress depvar indepvar [if] [in] [, options]

Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis regresi dengan sintaks: graph twoway scatter depvar indepvar twoway lfit depvar indepvar graph twoway scatter depvar indepvar || lfit depvar indepvar

Pengujian terhadap asumsi analisis regresi linear antara lain yaitu asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat, karena itu harus diawali dengan pembentukan suku galat: regress depvar indepvar predict resid, residuals resid : suku galat

Dilanjutkan dengan: Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia: swilk resid

(uji Shapiro-Wilk)

Shapiro-Francia) 105

francia resid (uji

Bab 7. Analisis Regresi Linear

Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas: estat hettest estat imtest, white

(uji Breusch-Pagan) (uji White)

Contoh 7.1: . use “D:\Data\Stata\elemapi” . describe enroll api00

storage display value variable name type format label variable label ---------------------------------------------------- enroll int %9.0g number of students api00 int %6.0g api 2000 enroll : Jumlah siswa api00 : Kinerja akademik sekolah

pada tahun 2000

. graph twoway scatter api00 enroll || lfit api00 enroll

. regress api00 enroll

106

Bab 7. Analisis Regresi Linear

Source | SS df MS Number of obs = 400 ---------+---------------------------F( 1, 398) = 44.83 Model | 817326.293 1 817326.293 Prob > F = 0.0000 Residual | 7256345.70 398 18232.0244 R-squared = 0.1012 ---------+---------------------------Adj R-squared = 0.0990 Total | 8073672.00 399 20234.7669 Root MSE = 135.03 --------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+------------------------------------------------------- enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817 _cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749 ---------------------------------------------------------------

Hasil dan kesimpulannya yaitu:

-

Uji F untuk menguji asumsi bahwa model benar bermakna secara statistik (p = 0.0000)

-

Koefisien determinasi R2 = 0.1012, menyatakan bahwa prediktor “menjelaskan” 10.12% variansi respons api00.

-

Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)

-

Koefisien regresi adalah enroll −0.1998674 ≈ −0.2

-

Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).

enroll

Perintah berikut adalah untuk menyajikan grafik yang dapat menilai kebenaran asumsi linearitas secara kasar.

107

Bab 7. Analisis Regresi Linear

Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang menguji hipotesis H0 : Tidak ada “lack of linear fit” . regress api00 enroll . maxr2

maximum R-square relative R-square actual adjusted R-square relative adjusted R-square

= = = =

SSLF (df) = 5574305.5 (306) SSPE (df) = 1682040.3 (92)

0.7917 0.1279 0.0990 0.1257 MSLF = 18216.684 MSPE = 18283.046

F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92) prob > F = 0.5206 number of covariate patterns = 308 as ratio of observations = 0.770 Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206), sehingga asumsi linearitas dianggap terpenuhi.

108

Bab 7. Analisis Regresi Linear

Selanjutnya pengujian asumsi normalitas dilakukan dengan uji ShapiroWilk dan uji Shapiro-Francia terhadap hipotesis H0 : Suku galat berdistribusi normal. . regress api00 enroll . predict e, residuals . swilk e

Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z ---------+----------------------------------------------e | 400 0.97083 8.030 4.957 0.00000 . sfrancia e

Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z ---------+----------------------------------------------e | 400 0.97214 8.263 4.567 0.00001 Baik dengan uji Shapiro-Wilk maupun uji ShapiroFrancia, hipotesis nol ditolak (p = 0.0000) Pengujian asumsi homoskedastisitas adalah dengan uji BreuschPagan dan uji White, menguji hipotesis H0 : Homoskedastisitas. Uji Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan uji White menguji heteroskedastisitas “glasshour”. . regress api00 enroll . estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of api00 chi2(1) = Prob > chi2 = 0.1665

1.91

Tidak ditemukan heteroskedastisitas (p = 0.1665) 109

Bab 7. Analisis Regresi Linear . estat imtest, white

White's test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(2) Prob > chi2 =

= 0.1514

3.78

Cameron & Trivedi's decomposition of IM-test -------------------------------------------------Source | chi2 df p ---------------------+----------------------------Heteroskedasticity | 3.78 2 0.1514 Skewness | 34.11 1 0.0000 Kurtosis | 26.44 1 0.0000 ---------------------+----------------------------Total | 64.32 4 0.0000 --------------------------------------------------Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.

Regresi Linear Sederhana dengan Prediktor Indikator Analisis regresi linear sederhana dapat dilakukan jika prediktornya adalah variabel indikator dengan model: Y

i

= β0 + β1

X

i

+

ε

i

;

X = {0, 1}

(7.2)

Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama, yaitu: regress depvar indepvar [if] [in] [, options] indepvar :

prediktor biner (variabel indikator)

110

Bab 7. Analisis Regresi Linear

Contoh 7.2: . use “D:\Data\Stata\elemapi.dta”, clear . tabulate yr_rnd

year round | school | Freq. Percent Cum. -----------+---------------------------------No | 308 77.00 77.00 Yes | 92 23.00 100.00 -----------+----------------------------------Total | 400 100.00 . tabulate yr_rnd, nolabel

year round | school | Freq. Percent Cum. -----------+---------------------------------0 | 308 77.00 77.00 1 | 92 23.00 100.00 -----------+----------------------------------Total | 400 100.00

. regress api00 yr_rnd

Source | SS df MS 400 --------+------------------------116.24 Model |1825000.56 1 1825000.56 0.0000 Residual|6248671.43 398 15700.1795 0.2260 111

Number of obs = F(

1,

398) =

Prob > F

=

R-squared

=

Bab 7. Analisis Regresi Linear

--------+------------------------Adj R-squared = 0.2241 Total |8073672 399 20234.7669 Root MSE = 125.3 ----------------------------------------------------------- api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------+--------------------------------------------------- yr_rnd | -160.5064 14.8872 10.78 0.000 -189.7737 -131.239 _cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751 -----------------------------------------------------------

Regresi Linear Ganda (Multiple Linear Regression) Pada analisis regresi linear ganda, didapatkan prediktor lebih daripada satu dengan model: Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β p X pi + εi (7.3) Sintaks-nya adalah: regress depvar indepvars [if] [in] [, options]

Asumsi yang berlaku di sini adalah sama seperti pada regresi linear sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan variance inflation factor.

Contoh 7.3: . use “ D:\Data\Stata\elemapi”

: :

Variabel-variabel dalam dataset adalah: api00 Kinerja akademik sekolah tahun 2000 acs_k3 Rerata ukuran kelas dari TK s.d. kelas 3

meals :

Persentase siswa yang mendapat makan gratis (indikator 112

Bab 7. Analisis Regresi Linear

full

kemiskinan) : Persentase guru yang memiliki akreditasi penuh untuk mengajar

. list api00 acs_k3 meals full in 1/7

+---------------------------------+ | api00 acs_k3 meals full | |---------------------------------| 1. | 693 16 67 76.00 | 2. | 570 15 92 79.00 | 3. | 546 17 97 68.00 | 4. | 571 20 90 87.00 | 5. | 478 18 89 87.00 | |--------------------------------| 6. | 858 20 . 100.00 | 7. | 918 19 . 100.00 | +--------------------------------+ Perintah berikut menampilkan matriks grafik diagram tebar untuk tiap pasangan variabel kontinu:

113

Bab 7. Analisis Regresi Linear

Perintah ini adalah untuk menyajikan matriks korelasi: . correlate api00 acs_k3 meals full

(obs=313) | api00 acs_k3 meals full -------------+----------------------------------api00 | 1.0000 acs_k3 | -0.0641 1.0000 meals | -0.8184 0.0097 1.0000 full | 0.2328 0.1789 -0.2518 1.0000 Estimasi model dan persamaan garis regresi adalah: . regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313 ---------+-----------------------------F( 3, 309) = 213.41 Model | 2634884.26 3 878294.754 Prob > F = 0.0000 Residual | 1271713.21 309 4115.57673 R-squared = 0.6745 ---------+-----------------------------Adj Rsquared = 0.6713 Total | 3906597.47 312 12521.1457 Root MSE = 64.153 ------------------------------------------------------------------------api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073 meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348 full | .1086104 .090719 1.20 0.232 -.0698947 114

Bab 7. Analisis Regresi Linear

.2871154 _cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555 ------------------------------------------------------------------------Kesimpulan yang diperoleh yaitu: -

Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p = 0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang lebih besar terkait dengan kinerja akademik yang lebih rendah.

-

Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif menunjukkan bahwa semakin besar proporsi siswa penerima makanan gratis, semakin rendah kinerja akademik. Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.

-

Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru dengan akreditasi penuh bukan merupakan faktor penting untuk memprediksi kinerja. Uji multikolinearitas dilakukan sebagai berikut:

. vif

Variable | VIF 1/VIF -------------+---------------------full | 1.11 0.903713 meals | 1.07 0.933517 acs_k3 | 1.04 0.964781 -------------+--------------------Mean VIF | 1.07 Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00 atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10. 115

Bab 7. Analisis Regresi Linear

Regresi Linear Ganda dengan Prediktor Kategorik Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah variabel kategorik dengan 3 kategori: X = {1, 2, 3} Digunakan 2 variabel indikator Z1 dan Z2 ; masing-masing adalah variabel biner; Z1 = {0, 1} dan Z2 = {0, 1}, sehingga model yang digunakan menjadi: Yi = β 0 + β 1 Z1i + β 2 Z2i + εi

(7.4)

Konversi variabel kategorik menjadi variabel indikator pada Stata dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf direpresentasikan oleh (p – 1) indikator Z.

X=1

Z1 0

Z2 0

X=2

1

0

X=3 0 1 Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2 variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).

Contoh 7.4: . use “D:\Data\Stata\hsb2”, clear

(highschool and beyond (200 cases)) . tabulate ses

ses | Freq. Percent Cum. ------------+---------------------------------low | 47 23.50 23.50 middle | 95 47.50 71.00 high | 58 116

Bab 7. Analisis Regresi Linear

29.00 100.00 ------------+---------------------------------Total | 200 100.00 . tabulate ses, nolabel

ses | Freq. Percent Cum. -----------+----------------------------------1 | 47 23.50 23.50 2 | 95 47.50 71.00 3 | 58 29.00 100.00 ------------+----------------------------------Total | 200 100.00 . regress science i.ses

Source | SS df MS Number of obs = 200 ---------+-------------------------F( 2, 197) = 8.57 Model | 1561.57802 2 780.789008 Prob > F = 0.0003 Residual | 17945.922 197 91.0960507 R-squared = 0.0801 ---------+-------------------------Adj R-squared = 0.0707 Total | 19507.5 199 98.0276382 Root MSE = 9.5444 ------------------------------------------------------------- science | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------ses | middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797 high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022 | _cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765 -------------------------------------------------------------

117

Bab 7. Analisis Regresi Linear

Taraf low pada variabel kategorik ses menjadi baseline untuk kontras (middle vs low ; high vs low).

Regresi Linear Ganda dengan Interaksi Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu interaksi antara X1 dan X 2 . Modelnya adalah: Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + εi Sintaks

yang

digunakan

yaitu:

regress

(7.5)

depvar

indepvars

indepvar1#indepvar2 [if] [in] [, options] indepvar1#indepvar2 : Suku interaksi

Pada pemodelan regresi linear dengan interaksi pada Stata ini digunakan operator i. dan c.: -

Prediktor/variabel independen yang tidak dalam suku interaksi dalam model regresi linear harus merupakan variabel kontinu atau indikator. Operator i. mengubah variabel kategorik dengan kategori/taraf lebih daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator agar dapat dimasukkan ke dalam model regresi linear.

-

Prediktor/variabel independen dalam suku interaksi dalam model regresi linear harus merupakan variabel kategorik atau indikator. Operator c. mengubah variabel kontinu yang dalam suku interaksi menjadi variabel kategorik.

Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model regresi linear diperlihatkan sebagai berikut:

Biner {0, 1}

Variabel tunggal:

Suku Interaksi:

X

X1# X 2

varname

varname

Kategorik 118

Bab 7. Analisis Regresi Linear

(taraf > 2) Kontinu

i.varname

varname

varname

c.varname

Contoh 7.5: . use “D:\Data\Stata\honolulu” . regress tek_darah usia kolesterol Source | SS df MS Number of obs = 100 ---------+--------------------------F( 2, 97) = 4.02 Model | 3404.78195 2 1702.39098 Prob > F = 0.0211 Residual | 41118.218 97 423.899155 R-squared = 0.0765 ---------+--------------------------Adj R-squared = 0.0574 Total | 44523 99 449.727273 Root MSE = 20.589 ---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .8469443 .408067 2.08 0.041 .0370443 1.656844 kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972 _cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895 --------------------------------------------------------------. regress tek_darah usia kolesterol c.usia#c.kolesterol usia dan kolesterol keduanya adalah variabel kontinu, jika dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.

119

Bab 7. Analisis Regresi Linear

Source | SS df MS Number of obs = 100 ---------+---------------------------F( 3, 96) = 3.27 Model | 4127.36425 3 1375.78808 Prob > F = 0.0246 Residual | 40395.6358 96 420.787872 R-squared = 0.0927 ---------+---------------------------Adj R-squared = 0.0643 Total | 44523 99 449.727273 Root MSE = 20.513 ----------------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------------+-------------------------------------------------------usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813 kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808 | c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404 | _cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377 ----------------------------------------------------------------------------. regress tek_darah usia rokok Source | SS df MS Number of obs = 100 ---------+------------------------F( 2, 97) = 2.87 Model | 2485.12693 2 1242.56346 Prob > F = 0.0617 Residual | 42037.8731 97 433.380135 R-squared = 0.0558 ---------+------------------------Adj R-squared = 0.0363 Total | 44523 99 449.727273 Root MSE = 20.818 120

Bab 7. Analisis Regresi Linear

---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886 rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724 _cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148 ---------------------------------------------------------------. regress tek_darah usia rokok c.usia#rokok usia adalah variabel kontinu, jika dimasukkan ke dalam suku interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga selalu tidak

memerlukan operator. Source | SS df MS Number of obs = 100 ---------+--------------------------F( 3, 96) = 1.93 Model | 2531.81794 3 843.939314 Prob > F = 0.1300 Residual | 41991.1821 96 437.408146 R-squared = 0.0569 ---------+--------------------------Adj R-squared = 0.0274 Total | 44523 99 449.727273 Root MSE = 20.914 ---------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ------------+-------------------------------------------------------usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343 rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693 | rokok#c.usia | 1 | -.2877643 .8807723 -0.33 0.745 2.036083 1.460555 | _cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803 ---------------------------------------------------------------------121

Bab 7. Analisis Regresi Linear

. regress tek_darah usia i.pend pend adalah variabel kategorik, jika digunakan sebagai prediktor tunggal (tidak dalam suku interaksi), memerlukan operator i. Source | SS df MS Number of obs = 100 ---------+--------------------------F( 5, 94) = 1.68 Model | 3658.43513 5 731.687027 Prob > F = 0.1462 Residual | 40864.5649 94 434.729413 R-squared = 0.0822 ---------+--------------------------Adj R-squared = 0.0333 Total | 44523 99 449.727273 Root MSE = 20.85 ---------------------------------------------------------------- tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] ----------+----------------------------------------------------usia | .8387384 .420814 1.99 0.049 .0032023 1.674275 | pend | 2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523 3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482 4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877 5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951 | _cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838 ---------------------------------------------------------------. regress tek_darah usia i.pend c.usia#pend Dalam suku interaksi, pend sebagai variabel kategorik tidak memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam suku interaksi memerlukan operator c. 122

Bab 7. Analisis Regresi Linear

Source | SS df MS Number of obs = 100 ---------+--------------------------F( 9, 90) = 1.25 Model | 4941.84363 9 549.093736 Prob > F = 0.2762 Residual | 39581.1564 90 439.790626 R-squared = 0.1110 ---------+--------------------------Adj R-squared = 0.0221 Total | 44523 99 449.727273 Root MSE = 20.971 -------------------------------------------------------------------tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+-----------------------------------------------------usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985 | pend | 2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652 3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221 4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465 5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399 | pend#c.usia | 2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588 3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838 4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761 5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478 | _cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776 --------------------------------------------------------------------

123

Bab 8. Analisis Regresi Logistik

BAB 8 ANALISIS REGRESI LOGISTIK Model Regresi Logistik Sederhana Model regresi logistik adalah model hubungan antara prediktor dengan respons biner, sedemikian hingga logit probabilitas respons merupakan fungsi linear prediktornya: ˆ 1 Y = P [Y= X ]

(8.1) Y

ˆ ˆ logit Y = ln

dan:

ˆ = β0 + β1 X (8.2) 1−Y

dengan Y biner; Yi = 0, 1. Estimasinya yang diperoleh dari data sampel adalah: ˆ Yˆ logit Y = ln ˆ = b0 + b1 X (8.2.a) 1−Y Perhatikan bahwa:

-

Untuk model regresi logistik sederhana, ruas kanan persamaan (2) hanya memiliki satu prediktor X.

-

Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti halnya pada model regresi linear dengan respons kontinu.

1

−Yˆ

dan logit Yˆ dinamakan juga ln odds Yˆ : logit Yˆ = log odds Yˆ 124

Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau lebih variabel indikator seperti halnya pada model regresi linear. Karena nilai Yˆ merupakan sebuah nilai probabilitas, nilai Yˆ dibagi dengan komplemennya (= 1 − Yˆ ) adalah nilai odds Yˆ : ˆ Yˆ Odds Y = (8.3) Bab 8. Analisis Regresi Logistik

dan

ˆ Y = P [Y=1X ]

=

(8.4)

Estimasinya dari data sampel adalah: ˆ Y = P [Y=1X ]

=

(8.4.a) Yˆ

Dari persamaan ln

ˆ =

β

0

+

β

1X

, diperoleh:

1−Y Y

ˆ

ˆ Odds Y =

1−Y

= exp−(β0 +β1X) ˆ

Jika X juga biner, maka: Yˆ β β → Odds 1 = exp−( 0 + 1) dan untuk Yˆ β X = 0 → Odds 0 = exp−( 0 )

untuk X = 1

Rasio antara keduanya adalah rasio odds respons Y dengan prediktor X, yaitu: β OR = exp− 1

(8.5) dan estimasinya adalah:

125

Bab 8. Analisis Regresi Logistik

ORˆ

= exp−b1

(8.5.a)

Dalam praktik, ringkasan data sampel yang dikumpulkan dapat disajikan dalam bentuk tabel 2×2 sebagai berikut: Y=1 a c

X=1 X=0

Y=0 b d

Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:

ˆ a b ad = OR = c d bc

(8.6)

Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds adalah sebagai berikut: -

Prediktor X pada baris dan respons Y pada kolom.

-

Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0) pada baris bawah. Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada kolom kanan.

-

Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk tiap pertambahan nilai X sebesar 1 satuan): Y=1 X=x+1 a X=x c dengan estimasi rasio odds tetap adalah:

Y=0 b d

ORˆ = a b = ad c d bc Perintah Stata untuk melakukan analisis regresi logistik sederhana adalah: logit depvar indepvar [if] [in], [, options]

126

Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya adalah: logistic depvar indepvar [if] [in], [, options]

Contoh 8.1: . use "D:\Data\Stata\tension-type headache.dta", clear . logit nktt hos

Iteration Iteration Iteration Iteration

0: 1: 2: 3:

log log log log

likelihood likelihood likelihood likelihood

Logistic regression 218

= = = =

-151.09691 -138.66458 -138.65922 -138.65922 Number of obs = LR chi2(1)

=

Prob > chi2

=

24.88 0.0000 Log likelihood = -138.65922 0.0823

127

Pseudo R2

=

Bab 8. Analisis Regresi Logistik ---------------------------------------------------------- nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448 _cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253 ---------------------------------------------------------. logistic nktt hos

Logistic regression

Number of obs = LR chi2(1)

218 =

24.88 Prob 0.0000 Log likelihood = -138.65922

>

Pseudo R2

chi2

=

= 0.0823

--------------------------------------------------------- nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ------+-------------------------------------------------hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265 _cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648 ---------------------------------------------------------

Model Regresi Logistik Ganda Misalkan untuk model regresi logistik di atas dimiliki p prediktor, maka model logitnya menjadi: logit Yˆ = ln Yˆ (8.7) 1−Y ˆ

= β0 + β1 X1 + β2 X

128

2

+ . . . + βp Xp

Bab 8. Analisis Regresi Logistik dan probabilitas bersyarat responsnya adalah: ˆ Y = P [Y=1X ]

=

1

(8.8)

(

1+exp− β0 +β1X1 +β2X2 + . . . +βpXp

)

Estimasinya dari data sampel masing-masing adalah: ˆ = ln Yˆ logit Y (8.7.a) 1−Y

ˆ = b0 + b1 X1 + b2 X

2

+ . . . + bp Xp

dan ˆ 1 (8.8.a) Y = P [Y=1X ] = Di sini didapatkan p nilai rasio odds, masing-masing menyatakan rasio odds hubungan respons Y dengan prediktor Xi ; i = 1, 2, . . . , p.

ORi = exp−βi estimasinya adalah: ORˆ i = exp−bi

(8.9)

dan

(8.9.a)

Contoh 8.2: Dalam contoh ini digunakan file data binary.dta, yang memuat data penerimaan mahasiswa program pascasarjana (admit) sebagai respons. Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre (skor Graduate Record Exam), gpa (Grade Point Average), dan rank (prestise perguruan tinggi asal). . use "D:\Data\Stata\binary.dta", clear

1

(

+exp− b0 +bX1 1 +b2X2 + . . . +bpXp 129

)

Bab 8. Analisis Regresi Logistik . summarize gre gpa

gre dan gpa

adalah variabel kontinu. Variable | Obs Mean Std. Dev. Min Max ---------+-------------------------------------gre | 400 587.7 115.5165 220 800 gpa | 400 3.3899 .3805668 2.26 4 .

tab rank

rank adalah variabel

kategorik. rank | Freq. Percent Cum. -------+----------------------------1 | 61 15.25 15.25 2 | 151 37.75 53.00 3 | 121 30.25 83.25 4 | 67 16.75 100.00 -------+-----------------------------Total | 400 100.00

. tab admit admit sebagai respons, merupakan variabel

biner. admit | Freq. Percent Cum. -------+----------------------------0 | 273 68.25 68.25 1 | 127 31.75 100.00 -------+-----------------------------Total | 400 100.00 Berikut ditampilkan tabulasi silang admit dan rank.

130

Bab 8. Analisis Regresi Logistik . tab2 admit rank

| rank admit | 1 2 3 4 | Total ------+-------------------------------+---------0 | 28 97 93 55 | 273 1 | 33 54 28 12 | 127 ------+--------------------------------+---------Total | 61 151 121 67 | 400 Model regresi logistik ganda diperoleh sebagai berikut. . logit admit gre gpa i.rank

Iteration Iteration Iteration Iteration Iteration

0: 1: 2: 3: 4:

log log log log log

likelihood likelihood likelihood likelihood likelihood

Logistic regression

= = = = =

-249.98826 -229.66446 -229.25955 -229.25875 -229.25875 Number of obs LR chi2(5) Prob > chi2 Pseudo R2

Log likelihood = -229.25875

= 400 = 41.46 = 0.0000 = 0.0829

---------------------------------------------------------------- admit | Coef. Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------------gre | .0022644 .001094 2.07 0.038 .0001202 .0044086 gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392 |

rank | 2 | -.6754429 .0551346

.3164897

-2.13

131

0.033

-1.295751

-

Bab 8. Analisis Regresi Logistik 3 | -1.340204 .3453064 -3.88 0.000 -2.016992 .6634158 4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287 | _cons | -3.989979 1.139951 -3.50 0.000 -6.224242 1.755717 ---------------------------------------------------------------Perintah test menguji efek menyeluruh (overall effect) prediktor rank. . test 2.rank 3.rank 4.rank

( 1) ( 2) ( 3)

[admit]2.rank = 0 [admit]3.rank = 0 [admit]4.rank = 0

chi2( 3) = Prob > chi2 = 0.0001

20.90

Tampak bahwa efek menyeluruh rank bermakna secara statistik. Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan koefisien rank=3. . test 2.rank = 3.rank

( 1)

[admit]2.rank - [admit]3.rank = 0

chi2( 1) = Prob > chi2 = 0.0190

5.51

. logit , or

Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds. Logistic regression

Log likelihood = -229.25875

132

Number of obs LR chi2(5) Prob > chi2 Pseudo R2

= 400 = 41.46 = 0.0000 = 0.0829

Bab 8. Analisis Regresi Logistik ---------------------------------------------------------------- admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ------+--------------------------------------------------------gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418 gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877 | rank | 2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578 3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889 4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919 | _cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834 ---------------------------------------------------------------Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic admit gre gpa i.rank”. . margins rank, atmeans

Perintah margins adalah untuk menghitung probabilitas prediksi respons untuk masing-masing prediktor. Adjusted predictions 400 Model VCE : OIM Expression : gre gpa 1.rank 2.rank 3.rank

Number of obs =

: Pr(admit), predict() at = 587.7 (mean) = 3.3899 (mean) = .1525 (mean) = .3775 (mean) = .3025 (mean) 4.rank = .1675 (mean)

-------------------------------------------------------------| Delta-method

133

Bab 8. Analisis Regresi Logistik | Margin Std. Err. z P>|z| [95% Conf. Interval] -----+-------------------------------------------------------- rank | 1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771 2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614 3 | .218612 .0382506 5.72 0.000 .1436422 .2935819 4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937 --------------------------------------------------------------

134

Bab 9. Statistika Nonparametrik

BAB 9 STATISTIKA NONPARAMETRIK Uji ranksum Wilcoxon (Mann-Whitney) Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa dua sampel independen berasal dari populasi dengan distribusi yang sama. Sintaks-nya adalah: ranksum varname [if] [in], by(groupvar)

Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel independen pada Statistika Paramerik.

Contoh 9.1: Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12 dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg (mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta mpg untuk treat bernilai 1 (mobil dengan treatment). . use “D:\Data\Stata\fuel2”, clear . ranksum mpg, by(treat)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test treat | obs rank sum expected ------------+--------------------------------untreated | 12 128 150 treated | 12 172 150 ------------+--------------------------------combined | 24 300 300

135

Bab 9. Statistika Nonparametrik

unadjusted variance 300.00 adjustment for ties -4.04 ---------- adjusted variance 295.96 Ho: mpg(treat==untreated) = mpg(treat==treated) z = 1.279 Prob > |z| = 0.2010

-

Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda secara bermakna.

Uji signrank Wilcoxon Uji signrank Wilcoxon menguji kesamaan distribusi data berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel terpisah adalah: signrank var_1 = var_2

Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh taraf variabel kategoriknya: by cat_var: signrank var_name

Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel berpasangan pada Statistika Paramerik.

Contoh 9.2: Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap pasangan berada dalam variabel mpg1 dan mpg2. . use "D:\Data\Stata\fuel.dta", clear . signrank mpg1=mpg2

Wilcoxon signed-rank test

136

Bab 9. Statistika Nonparametrik

sign | obs sum ranks expected ------------+--------------------------------positive | 3 13.5 38.5 negative | 8 63.5 38.5 zero | 1 1 1 ------------+--------------------------------all | 12 78 78 unadjusted variance 162.50 adjustment for ties -1.63 adjustment for zeros -0.25 ---------adjusted variance 160.63 Ho: mpg1 = mpg2 = -1.973 Prob > |z| =

z 0.0485

Didapatkan perbedaan yang bermakna antara distribusi kedua pasangan data.

Uji Kesamaan Rank Kruskal-Wallis Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2) sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji ranksum Wilcoxon. Sintaks-nya adalah: kwallis varname [if] [in] , by(groupvar)

Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada Statistika Parametrik.

Contoh 9.3: . use “D:\Data\Stata\census”, clear

(1980 Census data by state) . tab region

137

Bab 9. Statistika Nonparametrik

Census | region | Freq. Percent Cum. ---------+-------------------------NE | 9 18.00 18.00 N Cntrl | 12 24.00 42.00 South | 16 32.00 74.00 West | 13 26.00 100.00 ---------+--------------------------Total | 50 100.00

. tab region, nolabel

Census | region | Freq. Percent Cum. ---------+-------------------------1 | 9 18.00 18.00 2 | 12 24.00 42.00 3 | 16 32.00 74.00 4 | 13 26.00 100.00 ---------+--------------------------Total | 50 100.00 Untuk menguji adanya perbedaan medage pada keempat region: . kwallis medage, by(region)

Kruskal-Wallis equality-of-populations rank test +--------------------------+ | region | Obs | Rank Sum | |---------+-----+----------| 138

Bab 9. Statistika Nonparametrik

| NE | 9 | 376.50 | | N Cntrl | 12 | 294.00 | | South | 16 | 398.00 | | West | 13 | 206.50 | +--------------------------+ chi-squared = probability =

17.041 with 3 d.f. 0.0007

chi-squared with ties = probability = 0.0007

17.062 with 3 d.f.

Tampak bahwa ada paling sedikit 1 pasang region yang medage nya berbeda secara bermakna. Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya “NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:

. ranksum medage if region==1 | region==2, by(region)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test region | obs rank sum expected ----------+--------------------------NE | 9 144 99 N Cntrl | 12 87 132 ----------+--------------------------combined | 21 231 231 unadjusted variance adjustment for ties

198.00 -0.51 139

Bab 9. Statistika Nonparametrik

---------- adjusted variance 197.49 Ho: medage(region==NE) = medage(region==N Cntrl) z = 3.202 Prob > |z| = 0.0014

Tampak bahwa medage antara kedua region berbeda secara bermakna.

140

Kepustakaan

KEPUSTAKAAN Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata Press, 2014. Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston College, August 2011. View 1 June 2017, available from http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf. Bhattacharya PK, Burman P. Theory and Methods of Statistics. Amsterdam: Elsevier, 2016. Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA: Brooks/Cole, Cenage Learning, 2013. Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station: Stata Press, 2012. Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015. Kraska-Miller M. Nonparametric Statistics for Social and Behavioral Sciences. Boca Raton, FL: CRC Press, 2014. Long JS, Freese J. Regression Models for Categorical Dependent Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014. Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks, California: Sage Publications, 2012. Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata Press, 2004.

141

Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012. Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.

Kepustakaan

StataCorp LP. Stata Base Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata Data-Management Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata Graphics Reference Manual: Release 14. College Station, Texas: Stata Press, 2015. _______. Stata User’s Guide: Release 14. College Station, Texas: Stata Press, 2015. Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.

142

STATA Untuk Pemula PDF [PDF]

PENGENALAN STATA (DRAFT) DAFTAR ISI v Kata Pengantar v Daftar Isi vi Bab 1 Bab 2 Pendahuluan 1 Membuka dan Me

Forex Untuk Pemula PDF

Materi CANVA Untuk Pemula

Google Adwords Untuk Pemula

Python Untuk Pemula

Kimia Untuk Pemula

Belajar GNS3 Untuk Pemula

Bahasa Inggris Untuk Pemula

Python Untuk Pemula

(E) #YukBelajarSaham Untuk Pemula - Komunitas Investor Saham Pemula PDF

Bahasa Jepang untuk Pemula

File loading please wait...

Citation preview

PENGENALAN STATA (DRAFT)

DAFTAR ISI v

Kata Pengantar

v

Daftar Isi

vi

Bab 1

Bab 2

Pendahuluan

1

Membuka dan Me