8 - Modul Pelatihan STATA MPKP Hari Pertama Lampung [PDF]

(PUSUIS) I PUSAT STUDI STATISTIK UNTUK ILMU SOSIAL PELATIHAN PENGOLAHAN DATA Tentang

Modul Pelatihan STATA MPKP

FAKULT

5 0 941 KB

Report DMCA / Copyright

DOWNLOAD FILE

Modul Stata

0 0 161 KB Read more

Modul MPKP

0 0 205 KB Read more

Modul STATA STAN

2 0 1 MB Read more

Skenario Handover Hari Pertama

2 0 88 KB Read more

Soal Praktek Hari Pertama

2 0 167 KB Read more

1000 Hari Pertama Kehidupan

0 0 43 KB Read more

Pelatihan Pertolongan Pertama

0 0 108 KB Read more

Penawaran Pelatihan Pertolongan Pertama

2 0 197 KB Read more

MPKP

0 0 145 KB Read more

B Lampung 8 Ganjil

0 0 135 KB Read more

File loading please wait...

Citation preview

(PUSUIS) I PUSAT STUDI STATISTIK UNTUK ILMU SOSIAL PELATIHAN PENGOLAHAN DATA Tentang

Modul Pelatihan STATA MPKP

FAKULTAS EKONOMI DAN BISNIS ISLAM (FEBI) UIN IMAM BONJOL PADANG 2018

1|Page

PELATIHAN STATA MPKP

1. Format Time Series STATA Sebelum melakukan regresi time series untuk STATA, sama seperti halnya software statistic lainnya kita perlu menentukan identifikasi atau identifier time series. tis time (identifier variabel waktu di STATA) tsset time (membuat format data menjadi time series) Dikarenakan STATA mempunyai format time series yang berbeda dengan software statistik lainnya, menyebabkan STATA dianggap lemah untuk data time series. Tapi jika kalian mengerti format pembentukan variabel time series pada STATA, akan memudahkan kalian dalam melakukan regresi untuk data time series.

Format data time series yang kita ketahui selama ini adalah; •

Tahun

•

Bulan

•

Kuartalan

•

Mingguan

•

Harian

Untuk membentuk format variabel time series ini STATA menggunakan sistem nilai integer (bilangan bulat) dan menganggap nilai 0 sebagai base time stata. Dimana base time 0 ini untuk format time series yang berbeda sebagai berikut; •

Tahun

 1960

•

Bulan

 January 1960

•

Kuartalan

 Quarter-1 1960

•

Mingguan

 week-1 1960

•

Harian

 01 January 1960

2|Page

Sedangkan Format STATA untuk kategori variabel time series yang akan terbentuk sebagai berikut; •

Tahun

 1960

•

Bulan

 1960m1

•

Kuartalan

 1960Q1

•

Mingguan

 1960w1

•

Harian

 01Jan1960

Pembentukan Variabel Tahunan STATA Untuk membuat variabel waktu tahun di STATA sangatlah mudah. Terdapat beberapa cara dalam membentuk data tahun ini, cara termudah untuk membentuk variabel waktu tahun adalah dengan membuat data tahun di-excel sebagai berikut;

Disini nama variabel time series yang akan saya gunakan adalah year. Sehingga langkah selanjutnya adalah melakukan setting format data menjadi time series dengan perintah sebagai berikut: tis year tsset year

Atau kita bisa membuat variabel dari data yang tidak ada dengan perintah sebagai berikut: 3|Page

generate tahun=y(1960)+_n-1 format tahun %ty

Maka kita akan mendapatkan variabel tahun sebagai berikut.

Pembentukan Variabel Kuartalan STATA Biasanya untuk membuat variabel kuartal pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun diatas, sebagai berikut; generate kuartal=q(1960q1)+_n-1 format tahun %tq tis kuartal tsset kuartal

Maka tampilannya akan sebagai berikut;

4|Page

Pembentukan Variabel Bulanan STATA Biasanya untuk membuat variabel bulanan pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun & kuartal diatas, sebagai berikut; generate bulan=m(1960m1)+_n-1 format bulan %tm tis bulan tsset bulan

Maka tampilannya akan sebagai berikut;

5|Page

Pembentukan Variabel Harian STATA Biasanya untuk membuat variabel Harian pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun, kuartal & harian diatas, sebagai berikut; generate hari=d(01jan1960)+_n-1 format hari %td tis hari tsset hari

Maka tampilannya akan sebagai berikut;

6|Page

7|Page

2. Statistikal Deskriptif dengan STATA Pembuatan statistikal deskriptif sangat penting untuk melihat kewajaran dari data sebelum melakukan estimasi. Maksud dari melihat kewajaran disini, adalah untuk melihat ada atau tidaknya outlier didalam data, ukuran terpusat dari data, dan distribusi data tersebut. Berikut adalah perintah untuk statistika deskriptif;

tabstat csat expense percent income high college region, stat(mean, median, min, max, sd, ske, kur) stats |

csat

expense

percent

income

high

college

region

---------+---------------------------------------------------------------------mean |

944.098

5235.961

35.76471

33.95657

76.26078

20.02157

2.54

p50 |

926

5000

26

33.452

76.7

19.3

3

min |

832

2960

4

23.465

64.3

12.3

1

max |

1093

9259

81

48.618

86.6

33.3

4

sd |

66.93497

1401.155

26.19281

6.423134

5.588741

4.16578

1.128662

skewness |

.2296206

1.058997

.2545542

.6077681 -.4765523

.6760049 -.1432918

kurtosis |

1.974656

3.953973

1.450802

2.769854

3.599549

2.508335

1.657034

--------------------------------------------------------------------------------

summarize csat expense percent income high college region Variable |

Obs

Mean

Std. Dev.

Min

Max

-------------+-------------------------------------------------------csat |

51

944.098

66.93497

832

1093

expense |

51

5235.961

1401.155

2960

9259

percent |

51

35.76471

26.19281

4

81

income |

51

33.95657

6.423134

23.465

48.618

high |

51

76.26078

5.588741

64.3

86.6

-------------+-------------------------------------------------------college |

51

20.02157

4.16578

12.3

33.3

region |

50

2.54

1.128662

1

4

8|Page

3. Regresi Berganda dengan STATA Berikut adalah simulasi regresi linear berganda (OLS) dari data Scholastic Aptitude Test (SAT) negara bagian USA dengan persamaan regresi dibawah:

csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε

Dimana csat

= nilai (Scholastic Aptitude Test) SAT Score rata-rata per negara bagian

expense

= rata-rata pengeluaran murid oleh negara bagian

percent

= persentase anak SMA yang baru lulus langsung ambil tes SAT per negara bagian

income

= nilai median pendapatan keluarga per negara

high

= persentase orang dewasa dengan gelar SMA yang mengambil SAT

college

= persentase orang dewasa dengan gelar S1 yang mengambil SAT

region

= regional negara bagian

Hipotesa atau pertanyaan penelitian : Apakah nilai SAT rata-rata per negara bagian yang tinggi dipengaruhi oleh pengeluaran negara bagian pada bidang pendidikan dengan memasukan faktor lain sebagai variabel control. Langkah-langkah yang perlu dilakukan sebagai berikut Pertama, kita harus membuka data kursus dengan menuliskan syntaks pada syntaks command use C:\Users\Husnul\Desktop\049510972X_52276\states.dta, clear Lalu melakukan perintah regresi regress csat expense percent income high college region . /* Persamaan OLS Cross Section */ . regress csat expense percent income high college region Source |

SS

df

MS

-------------+------------------------------

Number of obs = F(

6,

50

43) =

45.97

Model |

184241.2

6

30706.8666

Prob > F

=

0.0000

Residual |

28720.1801

43

667.911166

R-squared

=

0.8651

Adj R-squared =

0.8463

-------------+------------------------------

9|Page

Total |

212961.38

49

4346.15061

Root MSE

=

25.844

-----------------------------------------------------------------------------csat |

Coef.

Std. Err.

t

P>|t|

[95% Conf. Interval]

-------------+---------------------------------------------------------------expense |

.0070982

.0045073

1.57

0.123

-.0019916

.0161881

percent |

-2.57585

.2370452

-10.87

0.000

-3.053897

-2.097803

income |

-1.708083

1.163397

-1.47

0.149

-4.054296

.6381294

high |

1.285603

.990814

1.30

0.201

-.7125639

3.28377

college |

6.146536

1.929756

3.19

0.003

2.254812

10.03826

region |

10.44893

3.799183

2.75

0.009

2.787149

18.11071

_cons |

811.7382

61.72662

13.15

0.000

687.2546

936.2218

------------------------------------------------------------------------------

Evaluasi Hasil Regresi Ada beberapa kriteria untuk menyatakan bahwa model regresi yang dihasilkan adalah baik. Pada umumnya ada tiga kriteria evaluasi yang digunakan yaitu: 1.

kriteria ekonomi (tanda dan besaran)

2.

kriteria statistik (uji t, F dan R2)

3.

kriteria ekonometrika (multikolinearitas, autokorelasi, dan heteroskedastisitas)

Pertama, kriteria ekonomi yaitu melihat kecocokan tanda dan nilai koefisien penduga dengan teori atau nalar. Dalam model kita misalnya nilai rata-rata SAT dipengaruhi positif terhadap pengeluaran pendidikan per Negara bagian dan negatif terhadap persentase fresh graduate SMA yang ikut ujian SAT. Kedua, kriteria statistik yaitu menyangkut uji terhadap koefisien dari variabel penduga atau variabel bebas (uji t). Koefisien penduga perlu berbeda dari nol secara signifikan atau P-value sangat kecil. Uji kedua adalah uji F atau uji model secara keseluruhan. Uji F ini dilakukan untuk melihat apakah semua koefisien regresi berbeda dengan nol atau model diterima. Pengujian ketiga yaitu melihat koefisien determinasi R2 atau R2 adjusted. Koefisien determinasi ini menunjukkan kemampuan garis regresi menerangkan variasi variabel terikat (proporsi (persen) variasi variabel terikat yang dapat dijelaskan oleh variabel bebas). Nilai R2 atau R2 adjusted berkisar antara 0 sampai dengan 1, semakin mendekati satu semakin baik.

10 | P a g e

Ketiga, kriteria ekonometrik yaitu menyangkut pelanggaran asumsi Ordinary Least Square (OLS) yaitu meliputi multicolinearity, heterocedasticity dan autocorrelation (serial correlation). Jika asumsiasumsi diatas telah dipenuhi maka akan memperoleh nilai parameter yang BLUE (Best Linear Unbiased Estimator).

Kriteria Ekonomi.

csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε

csat = 811.7382 + 0.0070982*expense - 2.57585*percent - 1.708083*income + 1.285603*high + 6.146536*college + 10.44893*region + ε

Hasil yang diperoleh menunjukkan: •

B1 bernilai positif dengan besaran 0.0070982 artinya jika terjadi kenaikan pengeluaran negara bagian untuk pendidikan satu satuan(dollar) maka nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian akan naik sebesar 0.0070982 satuan(nilai).

•

B2 bernilai negatif dengan besaran 2.57585 artinya jika terjadi kenaikan persentase anak SMA yang baru lulus satu satuan(persen) maka nilai SAT rata-rata per negara bagian akan turun sebesar 2.57585 satuan(nilai).

Ternyata seluruh koefisien regresi, berkesesuian dengan logika hipotesa mengenai Scholastic Aptitude Test (SAT). Jadi kita dapat melanjutkan pembacaan ketahap selanjutnya, yaitu kriteria statistika

Kriteria Statistik

Pada kriteria statistika, terdapat 3 penilaian bahwa hasil output yang dikeluarkan adalah suatu hasil yang baik. Ketiga penilaian itu adalah: 1. Uji signifikasi parsial (t-test). 2. Uji signifikasi serentak/ uji signifikasi model (F-test). 3. Koefisien Determinasi (R2).

11 | P a g e

Uji signiikasi parsial (t-test) kita gunakan untuk melihat secara individual, apakah pengeluaran negara bagian untuk pendidikan dan persentase SMA Fresh graduate secara signifikan berpengaruh terhadap Nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian. H0: b1 = 0 (Expense tidak mempengaruhi csat) H1: b1  0 (Expense mempengaruhi csat) ✓ Jika Prob >  (5%), maka H0 diterima, karena 0.123 < 0.05, maka H0 diterima ✓ t-stat = 1.57, karena t-stat lebih kecil dari nilai kritis yang positif maka H0 diterima dan H1 ditolak. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial pengeluaran pendidikan negara bagian tidak mempengaruhi Scholastic Aptitude Test (SAT) H0: b2 = 0 (percent tidak mempengaruhi csat) H1: b2  0 (percent mempengaruhi csat) ✓ Jika Prob >  (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak ✓ t-stat = 10.87, karena t-stat lebih kecil dari nilai kritis yang negatif maka H0 ditolak dan H1 diterima. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial tingkat fresh graduate SMA mempengaruhi SAT.

Uji signifikasi serentak/ uji signifikasi model (F-test) kita gunakan untuk membuktikan apakah secara bersama-sama variable independen secara bersama-sama mempengaruhi permintaan uang. H0: b1,b2,b3,b4,b5,b6,b7 = 0 secara serentak mempengaruhi csat H1: b1,b2,b3,b4,b5,b6,b7 ≠ 0 secara serentak tidak berpengaruh terhadap csat •

Jika Prob >  (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak .

•

F-stat = 45,97, karena F-stat lebih besar dari nilai kritis maka H0 ditolak dan H1 diterima. (membutuhkan tabel)

•

Jadi dengan tingkat keyakinan sebesar 95%, dapt kita katakan bahwa variable independen secara serentak mempengaruhi score SAT.

Koefisien Determinasi (R2). Kita gunakan untuk mengukur seberapa besar variasi dari nilai varibel terikatnya, dapat dijelaskan oleh variasi nilai dari variabel-variabel bebasnya.

12 | P a g e

Karena R2= 0.8651 Dibaca= 86,51% variasi dari CSAT dapat dijelaskan oleh variasi variable independen. Koefisien determinasi ini menunjukkan kesesuaian garis regresi terhadap data (semakin besar semakin baik).

Kriteria Ekonometrika. Dalam melakukan estimasi persamaan linear dengan menggunakan metode OLS maka asumsi-asumsi dari OLS harus dipenuhi, jika asumsi tidak terpenuhi maka tidak menghasilkan nilai parameter yang BLUE (Best Linear Unbiased Estimator).

Asumsi BLUE (Best Linear Unbiased Estimator), yaitu : 1. Nilai harapan dari rata-rata kesalahan adalah nol 2. Variansnya tetap (homoskedasticity) 3. Tidak ada hubungan antara variable bebas dan error term 4. Tidak ada korelasi serial antara error (no-autocorrelation) 5. Pada regresi linear berganda tidak terjadi hubungan antar variable bebas (multicolinearity) (Gujarati, 2003) Ada tiga masalah utama yang seringkali muncul yang dapat mengakibatkan tidak terpenuhinya asumsi dasar yaitu heteroscedasticity, autocorelation dan multicolinearity. Pada contoh ini akan dilakukan berbagai pengujian tentang multicolinearity, autocorrelations dan heterocedastisity.

PENGUJIAN KRITERIA EKONOMETRIKA Pengujian Multikolinearitas Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Multikolinearitas; cara pertama dengan melihat grafik keeratan Hubungan Kolinearitasnya pada seluruh variabel. graph matrix csat expense percent income high college, half maxis(ylabel(none) xlabel(none))

13 | P a g e

Jika Ingin Melihat Koefisien Korelasi Per variabel. Sintaksnya sebagai berikut; scatter csat expense

14 | P a g e

Pengujian dengan analisa gambar tidak dapat disimpulkan dengan pasti bahwa suatu variabel memiliki masalah multikolinearitas atau tidak. Untuk itu diperlukan metode pengujian yang lebih pasti yakni pengujian pearson correlation matrix, VIF dan TOL. Pengujian Pairwise Pearson Correlation Matrix

pwcorr expense percent income high college region |

expense

percent

income

high

college

region

-------------+-----------------------------------------------------expense |

1.0000

percent |

0.6509

1.0000

income |

0.6784

0.6733

1.0000

high |

0.3133

0.1413

0.5099

1.0000

college |

0.6400

0.6091

0.7234

0.5319

1.0000

region |

-0.1525

-0.3194

-0.2908

-0.3774

-0.4006

1.0000

Untuk melihat ada atau tidaknya masalah multikolinearitas pada metode pearson corelation matrix, cukup dengan melihat angka korelasinya jika angkanya lebih dari 0.8 maka dapat disimpulkan terdapat masalah multikol pada variabel tersebut. Berdasarkan tabel diatas dapat disimpulkan tidak terdapatnya masalah multikolinearias. Pengujian dengan menggunakan variance inflation factors (VIF) dan Tolerance (TOL), dimana TOL = 1/VIF. Masalah Multikol pada pengujian ini akan muncul bila angka VIF menunjukan nilai lebih dari 10 atau nilai Tolerance yang lebih rendah daripada 0.10 VARIANCE INFLATED FACTOR Variable

|

VIF

1/VIF

-------------------+---------------------Income

|

4.17 0.239627

college

|

3.84 0.260750

percent

|

2.78 0.359798

expense

|

2.48 0.402637

high

|

2.28 0.438510

region

|

1.35 0.741335

------------------+---------------------Mean VIF

|

2.82

15 | P a g e

Pengujian Heteroskedastis Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Heteroskedastisitas; cara pertama dengan melihat grafik residual terhadap nilai fitted value-nya. rvfplot, yline(0)

Pengujian kedua dengan Bruesch-Pagan/ Cook-Weisberg, pada pengujian ini kita dapat lebih pasti menyimpulkan ada atau tidaknya masalah hetero terdapat pada model estimasi kita atau tidak. Caranya dengan melihat Prob Chi2, jika Prob Chi2 < α (atau Chi2 stat >Chi2 tabel) maka dapat disimpulkan terdapat masalah Heteroskedastis. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of csat chi2(1)

=

0.02

16 | P a g e

Prob > chi2 = 0.8820 Pengujian lainnya dengan menggunakan Szroeter's test, dimana pada pengujian ini dapat kita lihat, variabel mana yang menyebabkan masalah heteroskedastis. Jika P < α maka terdapat masalah heteroskedastis pada variabel yang berdampak pada persamaan. . szroeter csat expense percent income high college region Szroeter's test for homoskedasticity Ho: variance constant Ha: variance monotonic in variable ------------------------------------------------------Variable

|

chi2

df

p

---------------------------+-------------------------csat

|

0.34

1

0.5623 #

expense

|

0.13

1

0.7234 #

percent

|

0.04

1

0.8442 #

income

|

0.17

1

0.6831 #

high

|

0.10

1

0.7558 #

college

|

0.17

1

0.6796 #

region

|

1.52

1

0.2183 #

-------------------------------------------------------# unadjusted p-values Pengujian Autocorrelation Pengujian Autocorrelation hanya berlaku untuk persamaan time series, dimana pada persamaan kita diatas tidak dapat dilakukan karena kita menggunakan persamaan cross section untuk itu kita harus mengubah persamaan kita menjadi persamaan time series. Caranya dengan membuat variabel baru dengan nama time, dan men-set data agar sesuai time series. Contoh: generate time=1+_n-1 tsset time

17 | P a g e

regress csat expense percent income high college region Source |

SS

df

MS

Number of obs =

-------------+------------------------------

F(

43) =

45.97

Model |

184241.2

6

30706.8666

Prob > F

=

0.0000

Residual |

28720.1801

43

667.911166

R-squared

=

0.8651

Adj R-squared =

0.8463

Root MSE

25.844

-------------+-----------------------------Total |

212961.38

49

4346.15061

6,

50

=

-----------------------------------------------------------------------------csat |

Coef.

Std. Err.

t

P>|t|

[95% Conf. Interval]

-------------+---------------------------------------------------------------expense |

.0070982

.0045073

1.57

0.123

-.0019916

.0161881

percent |

-2.57585

.2370452

-10.87

0.000

-3.053897

-2.097803

income |

-1.708083

1.163397

-1.47

0.149

-4.054296

.6381294

high |

1.285603

.990814

1.30

0.201

-.7125639

3.28377

college |

6.146536

1.929756

3.19

0.003

2.254812

10.03826

region |

10.44893

3.799183

2.75

0.009

2.787149

18.11071

_cons |

811.7382

61.72662

13.15

0.000

687.2546

936.2218

------------------------------------------------------------------------------

Dimana persamaan time series diatas tidak akan terlalu jauh berbeda dengan persamaan cross sectionnya.

Pengujian Autokorelasi pada program STATA, dapat dilakukan dengan berbagai cara. Salah satu pengujiannya dengan menggunakan Breusch Godfrey. bgodfrey Number of gaps in sample: 1 Breusch-Godfrey LM test for autocorrelation --------------------------------------------------------------------------lags(p) |

chi2

df

Prob > chi2

-------------+------------------------------------------------------------1

|

3.250

1

0.0714

--------------------------------------------------------------------------H0: no serial correlation

18 | P a g e

Dimana dalam pengujian ini dapat disimpulkan, jika angka Prob chi2 < α atau Chi2 stat > chi2 tabel, df maka H0 ditolak. Penolakan H0 ini menandakan bahwa tidak terdapatnya masalah autokorelasi dalam persamaan. Pengujian lain dengan menggunakan Durbin Watson Statistik. . dwstat Number of gaps in sample: 1 Durbin-Watson d-statistic( 7, 50) = 2.422935 Pada range nilai pengujian durbinn watson berkisar diantara angka 0 hingga 4, dimana jika angka durbin watson statistik mendekati angka 2, menandakan model ini bebas masalah autokorelasi. Tapi pernyataan ini tidak sejelas dengan penyimpulan Breusch-Godfrey.

Pengujian Normalitas Pengujian normalitas didalam program STATA, dapat dilakukan dengan berbagai cara, cara pertama dengan grafik, misalnya kita ingin menguji apakah error terdistribusi normal atau tidak. Caranya kita harus mencari nilai error dari persamaan lalu dibuat lah grafiknya. Perintahnya sebagai berikut; predict e, resid kdensity e, normal

19 | P a g e

Tapi analisa grafik kita mendapatkan masalah dalam penyimpulannya, untuk itu kita perlu melakukan pengujian Jarque Berra dan Shapiro Wilk sktest csat Skewness/Kurtosis tests for Normality ------- joint -----Variable |

Obs

Pr(Skewness)

Pr(Kurtosis)

adj chi2(2)

Prob>chi2

-------------+--------------------------------------------------------------csat |

51

0.4601

0.0139

6.14

0.0464

. swilk csat Shapiro-Wilk W test for normal data Variable |

Obs

W

V

z

Prob>z

-------------+-------------------------------------------------csat |

51

0.95120

2.331

1.807

0.03539

20 | P a g e