8 - Modul Pelatihan STATA MPKP Hari Pertama Lampung [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

(PUSUIS) I PUSAT STUDI STATISTIK UNTUK ILMU SOSIAL PELATIHAN PENGOLAHAN DATA Tentang



Modul Pelatihan STATA MPKP



FAKULTAS EKONOMI DAN BISNIS ISLAM (FEBI) UIN IMAM BONJOL PADANG 2018



1|Page



PELATIHAN STATA MPKP



1. Format Time Series STATA Sebelum melakukan regresi time series untuk STATA, sama seperti halnya software statistic lainnya kita perlu menentukan identifikasi atau identifier time series. tis time (identifier variabel waktu di STATA) tsset time (membuat format data menjadi time series) Dikarenakan STATA mempunyai format time series yang berbeda dengan software statistik lainnya, menyebabkan STATA dianggap lemah untuk data time series. Tapi jika kalian mengerti format pembentukan variabel time series pada STATA, akan memudahkan kalian dalam melakukan regresi untuk data time series.



Format data time series yang kita ketahui selama ini adalah; •



Tahun







Bulan







Kuartalan







Mingguan







Harian



Untuk membentuk format variabel time series ini STATA menggunakan sistem nilai integer (bilangan bulat) dan menganggap nilai 0 sebagai base time stata. Dimana base time 0 ini untuk format time series yang berbeda sebagai berikut; •



Tahun



 1960







Bulan



 January 1960







Kuartalan



 Quarter-1 1960







Mingguan



 week-1 1960







Harian



 01 January 1960



2|Page



Sedangkan Format STATA untuk kategori variabel time series yang akan terbentuk sebagai berikut; •



Tahun



 1960







Bulan



 1960m1







Kuartalan



 1960Q1







Mingguan



 1960w1







Harian



 01Jan1960



Pembentukan Variabel Tahunan STATA Untuk membuat variabel waktu tahun di STATA sangatlah mudah. Terdapat beberapa cara dalam membentuk data tahun ini, cara termudah untuk membentuk variabel waktu tahun adalah dengan membuat data tahun di-excel sebagai berikut;



Disini nama variabel time series yang akan saya gunakan adalah year. Sehingga langkah selanjutnya adalah melakukan setting format data menjadi time series dengan perintah sebagai berikut: tis year tsset year



Atau kita bisa membuat variabel dari data yang tidak ada dengan perintah sebagai berikut: 3|Page



generate tahun=y(1960)+_n-1 format tahun %ty



Maka kita akan mendapatkan variabel tahun sebagai berikut.



Pembentukan Variabel Kuartalan STATA Biasanya untuk membuat variabel kuartal pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun diatas, sebagai berikut; generate kuartal=q(1960q1)+_n-1 format tahun %tq tis kuartal tsset kuartal



Maka tampilannya akan sebagai berikut;



4|Page



Pembentukan Variabel Bulanan STATA Biasanya untuk membuat variabel bulanan pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun & kuartal diatas, sebagai berikut; generate bulan=m(1960m1)+_n-1 format bulan %tm tis bulan tsset bulan



Maka tampilannya akan sebagai berikut;



5|Page



Pembentukan Variabel Harian STATA Biasanya untuk membuat variabel Harian pada STATA kita membuat variabel baru, seperti dengan cara variabel tahun, kuartal & harian diatas, sebagai berikut; generate hari=d(01jan1960)+_n-1 format hari %td tis hari tsset hari



Maka tampilannya akan sebagai berikut;



6|Page



7|Page



2. Statistikal Deskriptif dengan STATA Pembuatan statistikal deskriptif sangat penting untuk melihat kewajaran dari data sebelum melakukan estimasi. Maksud dari melihat kewajaran disini, adalah untuk melihat ada atau tidaknya outlier didalam data, ukuran terpusat dari data, dan distribusi data tersebut. Berikut adalah perintah untuk statistika deskriptif;



tabstat csat expense percent income high college region, stat(mean, median, min, max, sd, ske, kur) stats |



csat



expense



percent



income



high



college



region



---------+---------------------------------------------------------------------mean |



944.098



5235.961



35.76471



33.95657



76.26078



20.02157



2.54



p50 |



926



5000



26



33.452



76.7



19.3



3



min |



832



2960



4



23.465



64.3



12.3



1



max |



1093



9259



81



48.618



86.6



33.3



4



sd |



66.93497



1401.155



26.19281



6.423134



5.588741



4.16578



1.128662



skewness |



.2296206



1.058997



.2545542



.6077681 -.4765523



.6760049 -.1432918



kurtosis |



1.974656



3.953973



1.450802



2.769854



3.599549



2.508335



1.657034



--------------------------------------------------------------------------------



summarize csat expense percent income high college region Variable |



Obs



Mean



Std. Dev.



Min



Max



-------------+-------------------------------------------------------csat |



51



944.098



66.93497



832



1093



expense |



51



5235.961



1401.155



2960



9259



percent |



51



35.76471



26.19281



4



81



income |



51



33.95657



6.423134



23.465



48.618



high |



51



76.26078



5.588741



64.3



86.6



-------------+-------------------------------------------------------college |



51



20.02157



4.16578



12.3



33.3



region |



50



2.54



1.128662



1



4



8|Page



3. Regresi Berganda dengan STATA Berikut adalah simulasi regresi linear berganda (OLS) dari data Scholastic Aptitude Test (SAT) negara bagian USA dengan persamaan regresi dibawah:



csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε



Dimana csat



= nilai (Scholastic Aptitude Test) SAT Score rata-rata per negara bagian



expense



= rata-rata pengeluaran murid oleh negara bagian



percent



= persentase anak SMA yang baru lulus langsung ambil tes SAT per negara bagian



income



= nilai median pendapatan keluarga per negara



high



= persentase orang dewasa dengan gelar SMA yang mengambil SAT



college



= persentase orang dewasa dengan gelar S1 yang mengambil SAT



region



= regional negara bagian



Hipotesa atau pertanyaan penelitian : Apakah nilai SAT rata-rata per negara bagian yang tinggi dipengaruhi oleh pengeluaran negara bagian pada bidang pendidikan dengan memasukan faktor lain sebagai variabel control. Langkah-langkah yang perlu dilakukan sebagai berikut Pertama, kita harus membuka data kursus dengan menuliskan syntaks pada syntaks command use C:\Users\Husnul\Desktop\049510972X_52276\states.dta, clear Lalu melakukan perintah regresi regress csat expense percent income high college region . /* Persamaan OLS Cross Section */ . regress csat expense percent income high college region Source |



SS



df



MS



-------------+------------------------------



Number of obs = F(



6,



50



43) =



45.97



Model |



184241.2



6



30706.8666



Prob > F



=



0.0000



Residual |



28720.1801



43



667.911166



R-squared



=



0.8651



Adj R-squared =



0.8463



-------------+------------------------------



9|Page



Total |



212961.38



49



4346.15061



Root MSE



=



25.844



-----------------------------------------------------------------------------csat |



Coef.



Std. Err.



t



P>|t|



[95% Conf. Interval]



-------------+---------------------------------------------------------------expense |



.0070982



.0045073



1.57



0.123



-.0019916



.0161881



percent |



-2.57585



.2370452



-10.87



0.000



-3.053897



-2.097803



income |



-1.708083



1.163397



-1.47



0.149



-4.054296



.6381294



high |



1.285603



.990814



1.30



0.201



-.7125639



3.28377



college |



6.146536



1.929756



3.19



0.003



2.254812



10.03826



region |



10.44893



3.799183



2.75



0.009



2.787149



18.11071



_cons |



811.7382



61.72662



13.15



0.000



687.2546



936.2218



------------------------------------------------------------------------------



Evaluasi Hasil Regresi Ada beberapa kriteria untuk menyatakan bahwa model regresi yang dihasilkan adalah baik. Pada umumnya ada tiga kriteria evaluasi yang digunakan yaitu: 1.



kriteria ekonomi (tanda dan besaran)



2.



kriteria statistik (uji t, F dan R2)



3.



kriteria ekonometrika (multikolinearitas, autokorelasi, dan heteroskedastisitas)



Pertama, kriteria ekonomi yaitu melihat kecocokan tanda dan nilai koefisien penduga dengan teori atau nalar. Dalam model kita misalnya nilai rata-rata SAT dipengaruhi positif terhadap pengeluaran pendidikan per Negara bagian dan negatif terhadap persentase fresh graduate SMA yang ikut ujian SAT. Kedua, kriteria statistik yaitu menyangkut uji terhadap koefisien dari variabel penduga atau variabel bebas (uji t). Koefisien penduga perlu berbeda dari nol secara signifikan atau P-value sangat kecil. Uji kedua adalah uji F atau uji model secara keseluruhan. Uji F ini dilakukan untuk melihat apakah semua koefisien regresi berbeda dengan nol atau model diterima. Pengujian ketiga yaitu melihat koefisien determinasi R2 atau R2 adjusted. Koefisien determinasi ini menunjukkan kemampuan garis regresi menerangkan variasi variabel terikat (proporsi (persen) variasi variabel terikat yang dapat dijelaskan oleh variabel bebas). Nilai R2 atau R2 adjusted berkisar antara 0 sampai dengan 1, semakin mendekati satu semakin baik.



10 | P a g e



Ketiga, kriteria ekonometrik yaitu menyangkut pelanggaran asumsi Ordinary Least Square (OLS) yaitu meliputi multicolinearity, heterocedasticity dan autocorrelation (serial correlation). Jika asumsiasumsi diatas telah dipenuhi maka akan memperoleh nilai parameter yang BLUE (Best Linear Unbiased Estimator).



Kriteria Ekonomi.



csat = α + β1.expense + β2.percent + β3.income + β4.high + β5.college + β6.region + ε



csat = 811.7382 + 0.0070982*expense - 2.57585*percent - 1.708083*income + 1.285603*high + 6.146536*college + 10.44893*region + ε



Hasil yang diperoleh menunjukkan: •



B1 bernilai positif dengan besaran 0.0070982 artinya jika terjadi kenaikan pengeluaran negara bagian untuk pendidikan satu satuan(dollar) maka nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian akan naik sebesar 0.0070982 satuan(nilai).







B2 bernilai negatif dengan besaran 2.57585 artinya jika terjadi kenaikan persentase anak SMA yang baru lulus satu satuan(persen) maka nilai SAT rata-rata per negara bagian akan turun sebesar 2.57585 satuan(nilai).



Ternyata seluruh koefisien regresi, berkesesuian dengan logika hipotesa mengenai Scholastic Aptitude Test (SAT). Jadi kita dapat melanjutkan pembacaan ketahap selanjutnya, yaitu kriteria statistika



Kriteria Statistik



Pada kriteria statistika, terdapat 3 penilaian bahwa hasil output yang dikeluarkan adalah suatu hasil yang baik. Ketiga penilaian itu adalah: 1. Uji signifikasi parsial (t-test). 2. Uji signifikasi serentak/ uji signifikasi model (F-test). 3. Koefisien Determinasi (R2).



11 | P a g e



Uji signiikasi parsial (t-test) kita gunakan untuk melihat secara individual, apakah pengeluaran negara bagian untuk pendidikan dan persentase SMA Fresh graduate secara signifikan berpengaruh terhadap Nilai rata-rata Scholastic Aptitude Test (SAT) per negara bagian. H0: b1 = 0 (Expense tidak mempengaruhi csat) H1: b1  0 (Expense mempengaruhi csat) ✓ Jika Prob >  (5%), maka H0 diterima, karena 0.123 < 0.05, maka H0 diterima ✓ t-stat = 1.57, karena t-stat lebih kecil dari nilai kritis yang positif maka H0 diterima dan H1 ditolak. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial pengeluaran pendidikan negara bagian tidak mempengaruhi Scholastic Aptitude Test (SAT) H0: b2 = 0 (percent tidak mempengaruhi csat) H1: b2  0 (percent mempengaruhi csat) ✓ Jika Prob >  (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak ✓ t-stat = 10.87, karena t-stat lebih kecil dari nilai kritis yang negatif maka H0 ditolak dan H1 diterima. (membutuhkan tabel) ✓ Kesimpulan, dengan tingkat kepercayaan 95% dapat dinyatakan bahwa secara parsial tingkat fresh graduate SMA mempengaruhi SAT.



Uji signifikasi serentak/ uji signifikasi model (F-test) kita gunakan untuk membuktikan apakah secara bersama-sama variable independen secara bersama-sama mempengaruhi permintaan uang. H0: b1,b2,b3,b4,b5,b6,b7 = 0 secara serentak mempengaruhi csat H1: b1,b2,b3,b4,b5,b6,b7 ≠ 0 secara serentak tidak berpengaruh terhadap csat •



Jika Prob >  (5%), maka H0 diterima, karena 0.0000 < 0.05, maka H0 ditolak .







F-stat = 45,97, karena F-stat lebih besar dari nilai kritis maka H0 ditolak dan H1 diterima. (membutuhkan tabel)







Jadi dengan tingkat keyakinan sebesar 95%, dapt kita katakan bahwa variable independen secara serentak mempengaruhi score SAT.



Koefisien Determinasi (R2). Kita gunakan untuk mengukur seberapa besar variasi dari nilai varibel terikatnya, dapat dijelaskan oleh variasi nilai dari variabel-variabel bebasnya.



12 | P a g e



Karena R2= 0.8651 Dibaca= 86,51% variasi dari CSAT dapat dijelaskan oleh variasi variable independen. Koefisien determinasi ini menunjukkan kesesuaian garis regresi terhadap data (semakin besar semakin baik).



Kriteria Ekonometrika. Dalam melakukan estimasi persamaan linear dengan menggunakan metode OLS maka asumsi-asumsi dari OLS harus dipenuhi, jika asumsi tidak terpenuhi maka tidak menghasilkan nilai parameter yang BLUE (Best Linear Unbiased Estimator).



Asumsi BLUE (Best Linear Unbiased Estimator), yaitu : 1. Nilai harapan dari rata-rata kesalahan adalah nol 2. Variansnya tetap (homoskedasticity) 3. Tidak ada hubungan antara variable bebas dan error term 4. Tidak ada korelasi serial antara error (no-autocorrelation) 5. Pada regresi linear berganda tidak terjadi hubungan antar variable bebas (multicolinearity) (Gujarati, 2003) Ada tiga masalah utama yang seringkali muncul yang dapat mengakibatkan tidak terpenuhinya asumsi dasar yaitu heteroscedasticity, autocorelation dan multicolinearity. Pada contoh ini akan dilakukan berbagai pengujian tentang multicolinearity, autocorrelations dan heterocedastisity.



PENGUJIAN KRITERIA EKONOMETRIKA Pengujian Multikolinearitas Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Multikolinearitas; cara pertama dengan melihat grafik keeratan Hubungan Kolinearitasnya pada seluruh variabel. graph matrix csat expense percent income high college, half maxis(ylabel(none) xlabel(none))



13 | P a g e



Jika Ingin Melihat Koefisien Korelasi Per variabel. Sintaksnya sebagai berikut; scatter csat expense



14 | P a g e



Pengujian dengan analisa gambar tidak dapat disimpulkan dengan pasti bahwa suatu variabel memiliki masalah multikolinearitas atau tidak. Untuk itu diperlukan metode pengujian yang lebih pasti yakni pengujian pearson correlation matrix, VIF dan TOL. Pengujian Pairwise Pearson Correlation Matrix



pwcorr expense percent income high college region |



expense



percent



income



high



college



region



-------------+-----------------------------------------------------expense |



1.0000



percent |



0.6509



1.0000



income |



0.6784



0.6733



1.0000



high |



0.3133



0.1413



0.5099



1.0000



college |



0.6400



0.6091



0.7234



0.5319



1.0000



region |



-0.1525



-0.3194



-0.2908



-0.3774



-0.4006



1.0000



Untuk melihat ada atau tidaknya masalah multikolinearitas pada metode pearson corelation matrix, cukup dengan melihat angka korelasinya jika angkanya lebih dari 0.8 maka dapat disimpulkan terdapat masalah multikol pada variabel tersebut. Berdasarkan tabel diatas dapat disimpulkan tidak terdapatnya masalah multikolinearias. Pengujian dengan menggunakan variance inflation factors (VIF) dan Tolerance (TOL), dimana TOL = 1/VIF. Masalah Multikol pada pengujian ini akan muncul bila angka VIF menunjukan nilai lebih dari 10 atau nilai Tolerance yang lebih rendah daripada 0.10 VARIANCE INFLATED FACTOR Variable



|



VIF



1/VIF



-------------------+---------------------Income



|



4.17 0.239627



college



|



3.84 0.260750



percent



|



2.78 0.359798



expense



|



2.48 0.402637



high



|



2.28 0.438510



region



|



1.35 0.741335



------------------+---------------------Mean VIF



|



2.82



15 | P a g e



Pengujian Heteroskedastis Pada Program STATA terdapat beberapa cara untuk melakukan Pengujian Heteroskedastisitas; cara pertama dengan melihat grafik residual terhadap nilai fitted value-nya. rvfplot, yline(0)



Pengujian kedua dengan Bruesch-Pagan/ Cook-Weisberg, pada pengujian ini kita dapat lebih pasti menyimpulkan ada atau tidaknya masalah hetero terdapat pada model estimasi kita atau tidak. Caranya dengan melihat Prob Chi2, jika Prob Chi2 < α (atau Chi2 stat >Chi2 tabel) maka dapat disimpulkan terdapat masalah Heteroskedastis. hettest Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of csat chi2(1)



=



0.02



16 | P a g e



Prob > chi2 = 0.8820 Pengujian lainnya dengan menggunakan Szroeter's test, dimana pada pengujian ini dapat kita lihat, variabel mana yang menyebabkan masalah heteroskedastis. Jika P < α maka terdapat masalah heteroskedastis pada variabel yang berdampak pada persamaan. . szroeter csat expense percent income high college region Szroeter's test for homoskedasticity Ho: variance constant Ha: variance monotonic in variable ------------------------------------------------------Variable



|



chi2



df



p



---------------------------+-------------------------csat



|



0.34



1



0.5623 #



expense



|



0.13



1



0.7234 #



percent



|



0.04



1



0.8442 #



income



|



0.17



1



0.6831 #



high



|



0.10



1



0.7558 #



college



|



0.17



1



0.6796 #



region



|



1.52



1



0.2183 #



-------------------------------------------------------# unadjusted p-values Pengujian Autocorrelation Pengujian Autocorrelation hanya berlaku untuk persamaan time series, dimana pada persamaan kita diatas tidak dapat dilakukan karena kita menggunakan persamaan cross section untuk itu kita harus mengubah persamaan kita menjadi persamaan time series. Caranya dengan membuat variabel baru dengan nama time, dan men-set data agar sesuai time series. Contoh: generate time=1+_n-1 tsset time



17 | P a g e



regress csat expense percent income high college region Source |



SS



df



MS



Number of obs =



-------------+------------------------------



F(



43) =



45.97



Model |



184241.2



6



30706.8666



Prob > F



=



0.0000



Residual |



28720.1801



43



667.911166



R-squared



=



0.8651



Adj R-squared =



0.8463



Root MSE



25.844



-------------+-----------------------------Total |



212961.38



49



4346.15061



6,



50



=



-----------------------------------------------------------------------------csat |



Coef.



Std. Err.



t



P>|t|



[95% Conf. Interval]



-------------+---------------------------------------------------------------expense |



.0070982



.0045073



1.57



0.123



-.0019916



.0161881



percent |



-2.57585



.2370452



-10.87



0.000



-3.053897



-2.097803



income |



-1.708083



1.163397



-1.47



0.149



-4.054296



.6381294



high |



1.285603



.990814



1.30



0.201



-.7125639



3.28377



college |



6.146536



1.929756



3.19



0.003



2.254812



10.03826



region |



10.44893



3.799183



2.75



0.009



2.787149



18.11071



_cons |



811.7382



61.72662



13.15



0.000



687.2546



936.2218



------------------------------------------------------------------------------



Dimana persamaan time series diatas tidak akan terlalu jauh berbeda dengan persamaan cross sectionnya.



Pengujian Autokorelasi pada program STATA, dapat dilakukan dengan berbagai cara. Salah satu pengujiannya dengan menggunakan Breusch Godfrey. bgodfrey Number of gaps in sample: 1 Breusch-Godfrey LM test for autocorrelation --------------------------------------------------------------------------lags(p) |



chi2



df



Prob > chi2



-------------+------------------------------------------------------------1



|



3.250



1



0.0714



--------------------------------------------------------------------------H0: no serial correlation



18 | P a g e



Dimana dalam pengujian ini dapat disimpulkan, jika angka Prob chi2 < α atau Chi2 stat > chi2 tabel, df maka H0 ditolak. Penolakan H0 ini menandakan bahwa tidak terdapatnya masalah autokorelasi dalam persamaan. Pengujian lain dengan menggunakan Durbin Watson Statistik. . dwstat Number of gaps in sample: 1 Durbin-Watson d-statistic( 7, 50) = 2.422935 Pada range nilai pengujian durbinn watson berkisar diantara angka 0 hingga 4, dimana jika angka durbin watson statistik mendekati angka 2, menandakan model ini bebas masalah autokorelasi. Tapi pernyataan ini tidak sejelas dengan penyimpulan Breusch-Godfrey.



Pengujian Normalitas Pengujian normalitas didalam program STATA, dapat dilakukan dengan berbagai cara, cara pertama dengan grafik, misalnya kita ingin menguji apakah error terdistribusi normal atau tidak. Caranya kita harus mencari nilai error dari persamaan lalu dibuat lah grafiknya. Perintahnya sebagai berikut; predict e, resid kdensity e, normal



19 | P a g e



Tapi analisa grafik kita mendapatkan masalah dalam penyimpulannya, untuk itu kita perlu melakukan pengujian Jarque Berra dan Shapiro Wilk sktest csat Skewness/Kurtosis tests for Normality ------- joint -----Variable |



Obs



Pr(Skewness)



Pr(Kurtosis)



adj chi2(2)



Prob>chi2



-------------+--------------------------------------------------------------csat |



51



0.4601



0.0139



6.14



0.0464



. swilk csat Shapiro-Wilk W test for normal data Variable |



Obs



W



V



z



Prob>z



-------------+-------------------------------------------------csat |



51



0.95120



2.331



1.807



0.03539



20 | P a g e