5 0 941 KB
(PUSUIS) I PUSAT STUDI STATISTIK UNTUK ILMU SOSIAL PELATIHAN PENGOLAHAN DATA Tentang
Modul Pelatihan STATA MPKP
FAKULTAS EKONOMI DAN BISNIS ISLAM (FEBI) UIN IMAM BONJOL PADANG 2018
1|Page
PELATIHAN STATA MPKP
1. Format Time Series STATA Sebelum melakukan regresi time series untuk STATA, sama seperti halnya software statistic lainnya kita perlu menentukan identifikasi atau identifier time series. tis time (identifier variabel waktu di STATA) tsset time (membuat format data menjadi time series) Dikarenakan STATA mempunyai format time series yang berbeda dengan software statistik lainnya, menyebabkan STATA dianggap lemah untuk data time series. Tapi jika kalian mengerti format pembentukan variabel time series pada STATA, akan memudahkan kalian dalam melakukan regresi untuk data time series.
Format data time series yang kita ketahui selama ini adalah; •
Tahun
•
Bulan
•
Kuartalan
•
Mingguan
•
Harian
Untuk membentuk format variabel time series ini STATA menggunakan sistem nilai integer (bilangan bulat) dan menganggap nilai 0 sebagai base time stata. Dimana base time 0 ini untuk format time series yang berbeda sebagai berikut; •
Tahun
1960
•
Bulan
January 1960
•
Kuartalan
Quarter-1 1960
•
Mingguan
week-1 1960
•
Harian
01 January 1960
2|Page
Sedangkan Format STATA untuk kategori variabel time series yang akan terbentuk sebagai berikut; •
Tahun
1960
•
Bulan
1960m1
•
Kuartalan
1960Q1
•
Mingguan
1960w1
•
Harian
01Jan1960
Pembentukan Variabel Tahunan STATA Untuk membuat variabel waktu tahun di STATA sangatlah mudah. Terdapat beberapa cara dalam membentuk data tahun ini, cara termudah untuk membentuk variabel waktu tahun adalah dengan membuat data tahun di-excel sebagai berikut;
Disini nama variabel time series yang akan saya gunakan adalah year. Sehingga langkah selanjutnya adalah melakukan setting format data menjadi time series dengan perintah sebagai berikut: tis year tsset year
Atau kita bisa membuat variabel dari data yang tidak ada dengan perintah sebagai berikut: 3|Page
generate tahun=y(1960)+_n-1 format tahun %ty
Maka kita akan mendapatkan variabel tahun sebagai berikut.
Pembentukan Variabel Kuartalan STATA Biasanya untuk membuat variabel kuartal pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun diatas, sebagai berikut; generate kuartal=q(1960q1)+_n-1 format tahun %tq tis kuartal tsset kuartal
Maka tampilannya akan sebagai berikut;
4|Page
Pembentukan Variabel Bulanan STATA Biasanya untuk membuat variabel bulanan pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun & kuartal diatas, sebagai berikut; generate bulan=m(1960m1)+_n-1 format bulan %tm tis bulan tsset bulan
Maka tampilannya akan sebagai berikut;
5|Page
Pembentukan Variabel Harian STATA Biasanya untuk membuat variabel Harian pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun, kuartal & harian diatas, sebagai berikut; generate hari=d(01jan1960)+_n-1 format hari %td tis hari tsset hari
Maka tampilannya akan sebagai berikut;
6|Page
7|Page
2. Statistikal Deskriptif dengan STATA Pembuatan statistikal deskriptif sangat penting untuk melihat kewajaran dari data sebelum melakukan estimasi. Maksud dari melihat kewajaran disini, adalah untuk melihat ada atau tidaknya outlier didalam data, ukuran terpusat dari data, dan distribusi data tersebut. Berikut adalah perintah untuk statistika deskriptif;
tabstat csat expense percent income high college region, stat(mean, median, min, max, sd, ske, kur) stats |
csat
expense
percent
income
high
college
region
---------+---------------------------------------------------------------------mean |
944.098
5235.961
35.76471
33.95657
76.26078
20.02157
2.54
p50 |
926
5000
26
33.452
76.7
19.3
3
min |
832
2960
4
23.465
64.3
12.3
1
max |
1093
9259
81
48.618
86.6
33.3
4
sd |
66.93497
1401.155
26.19281
6.423134
5.588741
4.16578
1.128662
skewness |
.2296206
1.058997
.2545542
.6077681 -.4765523
.6760049 -.1432918
kurtosis |
1.974656
3.953973
1.450802
2.769854
3.599549
2.508335
1.657034
--------------------------------------------------------------------------------
summarize csat expense percent income high college region Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------csat |
51
944.098
66.93497
832
1093
expense |
51
5235.961
1401.155
2960
9259
percent |
51
35.76471
26.19281
4
81
income |
51
33.95657
6.423134
23.465
48.618
high |
51
76.26078
5.588741
64.3
86.6
-------------+-------------------------------------------------------college |
51
20.02157
4.16578
12.3
33.3
region |
50
2.54
1.128662
1
4
8|Page
3. Regresi Berganda dengan STATA Berikut adalah simulasi regresi linear berganda (OLS) dari data Scholastic Aptitude Test (SAT) negara bagian USA dengan persamaan regresi dibawah:
csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε
Dimana csat
= nilai (Scholastic Aptitude Test) SAT Score rata-rata per negara bagian
expense
= rata-rata pengeluaran murid oleh negara bagian
percent
= persentase anak SMA yang baru lulus langsung ambil tes SAT per negara bagian
income
= nilai median pendapatan keluarga per negara
high
= persentase orang dewasa dengan gelar SMA yang mengambil SAT
college
= persentase orang dewasa dengan gelar S1 yang mengambil SAT
region
= regional negara bagian
Hipotesa atau pertanyaan penelitian : Apakah nilai SAT rata-rata per negara bagian yang tinggi dipengaruhi oleh pengeluaran negara bagian pada bidang pendidikan dengan memasukan faktor lain sebagai variabel control. Langkah-langkah yang perlu dilakukan sebagai berikut Pertama, kita harus membuka data kursus dengan menuliskan syntaks pada syntaks command use C:\Users\Husnul\Desktop\049510972X_52276\states.dta, clear Lalu melakukan perintah regresi regress csat expense percent income high college region . /* Persamaan OLS Cross Section */ . regress csat expense percent income high college region Source |
SS
df
MS
-------------+------------------------------
Number of obs = F(
6,
50
43) =
45.97
Model |
184241.2
6
30706.8666
Prob > F
=
0.0000
Residual |
28720.1801
43
667.911166
R-squared
=
0.8651
Adj R-squared =
0.8463
-------------+------------------------------
9|Page
Total |
212961.38
49
4346.15061
Root MSE
=
25.844
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------expense |
.0070982
.0045073
1.57
0.123
-.0019916
.0161881
percent |
-2.57585
.2370452
-10.87
0.000
-3.053897
-2.097803
income |
-1.708083
1.163397
-1.47
0.149
-4.054296
.6381294
high |
1.285603
.990814
1.30
0.201
-.7125639
3.28377
college |
6.146536
1.929756
3.19
0.003
2.254812
10.03826
region |
10.44893
3.799183
2.75
0.009
2.787149
18.11071
_cons |
811.7382
61.72662
13.15
0.000
687.2546
936.2218
------------------------------------------------------------------------------
Evaluasi Hasil Regresi Ada beberapa kriteria untuk menyatakan bahwa model regresi yang dihasilkan adalah baik. Pada umumnya ada tiga kriteria evaluasi yang digunakan yaitu: 1.
kriteria ekonomi (tanda dan besaran)
2.
kriteria statistik (uji t, F dan R2)
3.
kriteria ekonometrika (multikolinearitas, autokorelasi, dan heteroskedastisitas)
Pertama, kriteria ekonomi yaitu melihat kecocokan tanda dan nilai koefisien penduga dengan teori atau nalar. Dalam model kita misalnya nilai rata-rata SAT dipengaruhi positif terhadap pengeluaran pendidikan per Negara bagian dan negatif terhadap persentase fresh graduate SMA yang ikut ujian SAT. Kedua, kriteria statistik yaitu menyangkut uji terhadap koefisien dari variabel penduga atau variabel bebas (uji t). Koefisien penduga perlu berbeda dari nol secara signifikan atau P-value sangat kecil. Uji kedua adalah uji F atau uji model secara keseluruhan. Uji F ini dilakukan untuk melihat apakah semua koefisien regresi berbeda dengan nol atau model diterima. Pengujian ketiga yaitu melihat koefisien determinasi R2 atau R2 adjusted. Koefisien determinasi ini menunjukkan kemampuan garis regresi menerangkan variasi variabel terikat (proporsi (persen) variasi variabel terikat yang dapat dijelaskan oleh variabel bebas). Nilai R2 atau R2 adjusted berkisar antara 0 sampai dengan 1, semakin mendekati satu semakin baik.
10 | P a g e
Ketiga, kriteria ekonometrik yaitu menyangkut pelanggaran asumsi Ordinary Least Square (OLS) yaitu meliputi multicolinearity, heterocedasticity dan autocorrelation (serial correlation). Jika asumsiasumsi diatas telah dipenuhi maka akan memperoleh nilai parameter yang BLUE (Best Linear Unbiased Estimator).
Kriteria Ekonomi.
csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε
csat = 811.7382 + 0.0070982*expense - 2.57585*percent - 1.708083*income + 1.285603*high + 6.146536*college + 10.44893*region + ε
Hasil yang diperoleh menunjukkan: •
B1 bernilai positif dengan besaran 0.0070982 artinya jika terjadi kenaikan pengeluaran negara bagian untuk pendidikan satu satuan(dollar) maka nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian akan naik sebesar 0.0070982 satuan(nilai).
•
B2 bernilai negatif dengan besaran 2.57585 artinya jika terjadi kenaikan persentase anak SMA yang baru lulus satu satuan(persen) maka nilai SAT rata-rata per negara bagian akan turun sebesar 2.57585 satuan(nilai).
Ternyata seluruh koefisien regresi, berkesesuian dengan logika hipotesa mengenai Scholastic Aptitude Test (SAT). Jadi kita dapat melanjutkan pembacaan ketahap selanjutnya, yaitu kriteria statistika
Kriteria Statistik
Pada kriteria statistika, terdapat 3 penilaian bahwa hasil output yang dikeluarkan adalah suatu hasil yang baik. Ketiga penilaian itu adalah: 1. Uji signifikasi parsial (t-test). 2. Uji signifikasi serentak/ uji signifikasi model (F-test). 3. Koefisien Determinasi (R2).
11 | P a g e
Uji signiikasi parsial (t-test) kita gunakan untuk melihat secara individual, apakah pengeluaran negara bagian untuk pendidikan dan persentase SMA Fresh graduate secara signifikan berpengaruh terhadap Nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian. H0: b1 = 0 (Expense tidak mempengaruhi csat) H1: b1 0 (Expense mempengaruhi csat) ✓ Jika Prob > (5%), maka H0 diterima, karena 0.123 < 0.05, maka H0 diterima ✓ t-stat = 1.57, karena t-stat lebih kecil dari nilai kritis yang positif maka H0 diterima dan H1 ditolak. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial pengeluaran pendidikan negara bagian tidak mempengaruhi Scholastic Aptitude Test (SAT) H0: b2 = 0 (percent tidak mempengaruhi csat) H1: b2 0 (percent mempengaruhi csat) ✓ Jika Prob > (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak ✓ t-stat = 10.87, karena t-stat lebih kecil dari nilai kritis yang negatif maka H0 ditolak dan H1 diterima. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial tingkat fresh graduate SMA mempengaruhi SAT.
Uji signifikasi serentak/ uji signifikasi model (F-test) kita gunakan untuk membuktikan apakah secara bersama-sama variable independen secara bersama-sama mempengaruhi permintaan uang. H0: b1,b2,b3,b4,b5,b6,b7 = 0 secara serentak mempengaruhi csat H1: b1,b2,b3,b4,b5,b6,b7 ≠ 0 secara serentak tidak berpengaruh terhadap csat •
Jika Prob > (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak .
•
F-stat = 45,97, karena F-stat lebih besar dari nilai kritis maka H0 ditolak dan H1 diterima. (membutuhkan tabel)
•
Jadi dengan tingkat keyakinan sebesar 95%, dapt kita katakan bahwa variable independen secara serentak mempengaruhi score SAT.
Koefisien Determinasi (R2). Kita gunakan untuk mengukur seberapa besar variasi dari nilai varibel terikatnya, dapat dijelaskan oleh variasi nilai dari variabel-variabel bebasnya.
12 | P a g e
Karena R2= 0.8651 Dibaca= 86,51% variasi dari CSAT dapat dijelaskan oleh variasi variable independen. Koefisien determinasi ini menunjukkan kesesuaian garis regresi terhadap data (semakin besar semakin baik).
Kriteria Ekonometrika. Dalam melakukan estimasi persamaan linear dengan menggunakan metode OLS maka asumsi-asumsi dari OLS harus dipenuhi, jika asumsi tidak terpenuhi maka tidak menghasilkan nilai parameter yang BLUE (Best Linear Unbiased Estimator).
Asumsi BLUE (Best Linear Unbiased Estimator), yaitu : 1. Nilai harapan dari rata-rata kesalahan adalah nol 2. Variansnya tetap (homoskedasticity) 3. Tidak ada hubungan antara variable bebas dan error term 4. Tidak ada korelasi serial antara error (no-autocorrelation) 5. Pada regresi linear berganda tidak terjadi hubungan antar variable bebas (multicolinearity) (Gujarati, 2003) Ada tiga masalah utama yang seringkali muncul yang dapat mengakibatkan tidak terpenuhinya asumsi dasar yaitu heteroscedasticity, autocorelation dan multicolinearity. Pada contoh ini akan dilakukan berbagai pengujian tentang multicolinearity, autocorrelations dan heterocedastisity.
PENGUJIAN KRITERIA EKONOMETRIKA Pengujian Multikolinearitas Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Multikolinearitas; cara pertama dengan melihat grafik keeratan Hubungan Kolinearitasnya pada seluruh variabel. graph matrix csat expense percent income high college, half maxis(ylabel(none) xlabel(none))
13 | P a g e
Jika Ingin Melihat Koefisien Korelasi Per variabel. Sintaksnya sebagai berikut; scatter csat expense
14 | P a g e
Pengujian dengan analisa gambar tidak dapat disimpulkan dengan pasti bahwa suatu variabel memiliki masalah multikolinearitas atau tidak. Untuk itu diperlukan metode pengujian yang lebih pasti yakni pengujian pearson correlation matrix, VIF dan TOL. Pengujian Pairwise Pearson Correlation Matrix
pwcorr expense percent income high college region |
expense
percent
income
high
college
region
-------------+-----------------------------------------------------expense |
1.0000
percent |
0.6509
1.0000
income |
0.6784
0.6733
1.0000
high |
0.3133
0.1413
0.5099
1.0000
college |
0.6400
0.6091
0.7234
0.5319
1.0000
region |
-0.1525
-0.3194
-0.2908
-0.3774
-0.4006
1.0000
Untuk melihat ada atau tidaknya masalah multikolinearitas pada metode pearson corelation matrix, cukup dengan melihat angka korelasinya jika angkanya lebih dari 0.8 maka dapat disimpulkan terdapat masalah multikol pada variabel tersebut. Berdasarkan tabel diatas dapat disimpulkan tidak terdapatnya masalah multikolinearias. Pengujian dengan menggunakan variance inflation factors (VIF) dan Tolerance (TOL), dimana TOL = 1/VIF. Masalah Multikol pada pengujian ini akan muncul bila angka VIF menunjukan nilai lebih dari 10 atau nilai Tolerance yang lebih rendah daripada 0.10 VARIANCE INFLATED FACTOR Variable
|
VIF
1/VIF
-------------------+---------------------Income
|
4.17 0.239627
college
|
3.84 0.260750
percent
|
2.78 0.359798
expense
|
2.48 0.402637
high
|
2.28 0.438510
region
|
1.35 0.741335
------------------+---------------------Mean VIF
|
2.82
15 | P a g e
Pengujian Heteroskedastis Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Heteroskedastisitas; cara pertama dengan melihat grafik residual terhadap nilai fitted value-nya. rvfplot, yline(0)
Pengujian kedua dengan Bruesch-Pagan/ Cook-Weisberg, pada pengujian ini kita dapat lebih pasti menyimpulkan ada atau tidaknya masalah hetero terdapat pada model estimasi kita atau tidak. Caranya dengan melihat Prob Chi2, jika Prob Chi2 < α (atau Chi2 stat >Chi2 tabel) maka dapat disimpulkan terdapat masalah Heteroskedastis. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of csat chi2(1)
=
0.02
16 | P a g e
Prob > chi2 = 0.8820 Pengujian lainnya dengan menggunakan Szroeter's test, dimana pada pengujian ini dapat kita lihat, variabel mana yang menyebabkan masalah heteroskedastis. Jika P < α maka terdapat masalah heteroskedastis pada variabel yang berdampak pada persamaan. . szroeter csat expense percent income high college region Szroeter's test for homoskedasticity Ho: variance constant Ha: variance monotonic in variable ------------------------------------------------------Variable
|
chi2
df
p
---------------------------+-------------------------csat
|
0.34
1
0.5623 #
expense
|
0.13
1
0.7234 #
percent
|
0.04
1
0.8442 #
income
|
0.17
1
0.6831 #
high
|
0.10
1
0.7558 #
college
|
0.17
1
0.6796 #
region
|
1.52
1
0.2183 #
-------------------------------------------------------# unadjusted p-values Pengujian Autocorrelation Pengujian Autocorrelation hanya berlaku untuk persamaan time series, dimana pada persamaan kita diatas tidak dapat dilakukan karena kita menggunakan persamaan cross section untuk itu kita harus mengubah persamaan kita menjadi persamaan time series. Caranya dengan membuat variabel baru dengan nama time, dan men-set data agar sesuai time series. Contoh: generate time=1+_n-1 tsset time
17 | P a g e
regress csat expense percent income high college region Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
43) =
45.97
Model |
184241.2
6
30706.8666
Prob > F
=
0.0000
Residual |
28720.1801
43
667.911166
R-squared
=
0.8651
Adj R-squared =
0.8463
Root MSE
25.844
-------------+-----------------------------Total |
212961.38
49
4346.15061
6,
50
=
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------expense |
.0070982
.0045073
1.57
0.123
-.0019916
.0161881
percent |
-2.57585
.2370452
-10.87
0.000
-3.053897
-2.097803
income |
-1.708083
1.163397
-1.47
0.149
-4.054296
.6381294
high |
1.285603
.990814
1.30
0.201
-.7125639
3.28377
college |
6.146536
1.929756
3.19
0.003
2.254812
10.03826
region |
10.44893
3.799183
2.75
0.009
2.787149
18.11071
_cons |
811.7382
61.72662
13.15
0.000
687.2546
936.2218
------------------------------------------------------------------------------
Dimana persamaan time series diatas tidak akan terlalu jauh berbeda dengan persamaan cross sectionnya.
Pengujian Autokorelasi pada program STATA, dapat dilakukan dengan berbagai cara. Salah satu pengujiannya dengan menggunakan Breusch Godfrey. bgodfrey Number of gaps in sample: 1 Breusch-Godfrey LM test for autocorrelation --------------------------------------------------------------------------lags(p) |
chi2
df
Prob > chi2
-------------+------------------------------------------------------------1
|
3.250
1
0.0714
--------------------------------------------------------------------------H0: no serial correlation
18 | P a g e
Dimana dalam pengujian ini dapat disimpulkan, jika angka Prob chi2 < α atau Chi2 stat > chi2 tabel, df maka H0 ditolak. Penolakan H0 ini menandakan bahwa tidak terdapatnya masalah autokorelasi dalam persamaan. Pengujian lain dengan menggunakan Durbin Watson Statistik. . dwstat Number of gaps in sample: 1 Durbin-Watson d-statistic( 7, 50) = 2.422935 Pada range nilai pengujian durbinn watson berkisar diantara angka 0 hingga 4, dimana jika angka durbin watson statistik mendekati angka 2, menandakan model ini bebas masalah autokorelasi. Tapi pernyataan ini tidak sejelas dengan penyimpulan Breusch-Godfrey.
Pengujian Normalitas Pengujian normalitas didalam program STATA, dapat dilakukan dengan berbagai cara, cara pertama dengan grafik, misalnya kita ingin menguji apakah error terdistribusi normal atau tidak. Caranya kita harus mencari nilai error dari persamaan lalu dibuat lah grafiknya. Perintahnya sebagai berikut; predict e, resid kdensity e, normal
19 | P a g e
Tapi analisa grafik kita mendapatkan masalah dalam penyimpulannya, untuk itu kita perlu melakukan pengujian Jarque Berra dan Shapiro Wilk sktest csat Skewness/Kurtosis tests for Normality ------- joint -----Variable |
Obs
Pr(Skewness)
Pr(Kurtosis)
adj chi2(2)
Prob>chi2
-------------+--------------------------------------------------------------csat |
51
0.4601
0.0139
6.14
0.0464
. swilk csat Shapiro-Wilk W test for normal data Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------csat |
51
0.95120
2.331
1.807
0.03539
20 | P a g e