Analisis Regresi Sederhana [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Regresi Linear Sederhana dan Korelasi



Analisis Regresi Linear Sederhana Kegunaan: Model Regression dapat digunakan untuk memprediksi nilai variabel dependen yang dinyatakan sebagai fungsi dari variabel independen setelah model lolos dari analisis. variabel dependen: dinyatakan dengan Y variabel independen : dinyatakan dengan X1, X2, …, Xk



Jika hanya menggunakan satu variabel independen , model regresi disebut regresi linear sederhana Data sampel digunakan untuk menduga β0 dan β1 .



Model Regresi Linear Sederhana variabel : X = variabel independen (dapat ditentukan dari awal) Y = variabel dependen(didapat berdasarkan observasi) Parameters: β0 = titik potong sumbu Y β1 = slop/ kemiringan galat ε ~ variabel acak bersebaran normal (με = 0, σε = konstan)



Efek keragaman data terhadap σε Luas sama, tetapi harga tidak sama • (contoh: variasi dekorasi, lokasi, fsilitas umum…) Keragaman rendah vs keragaman tinggi



Harga rumah



25K$



Harga rumah= 25,000 + 75(Ukuran)+ Ukuran rumah



Model Linear secara Teoritis



Tahapan Analisis Regresi– Pengumpulan Data Ranking Test 2 = β0 + β1*(Ranking Test 1)



Dari data diduga nilai parameter: β0 β1 σε



Student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23



Test 1 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72



Test 2 32 33 34 35 36 37 39 40 41 42 43 44 46 47 48 49 50 51 53 54 55 56 57



Tahapan Analisis Regresi – olah data awal Plot of Fitted Model 92



80



82



Test B2



100



60 40 20



72 62 52



0 40



50



60



70



80



90



42



100



60



Test 1



70



80



Test B1 Plot of Fitted Model 100 90



Test B2



Test 2



Plot of Fitted Model



80 70 60 50 50



60



70



80



Test B1



90



100



90



100



Tahapan Analisis Regresi – Analisis Korelasi… “-1 <  < 1” Jika ingin diketahui apakah ada keterkaitan fungsional antara variabel dependen dan independen, dihitung nilai koefisien korelasi. Contoh: keterkaitan antara tinggi dan berat badan



.



Plot of Height vs Weight



Plot of Height vs Weight



7



7 6.6



6.2



Height



Height



6.6



5.8 5.4



6.2 5.8



5 4.6 100



140



180



220



5.4



260



100



140



Weight



220



260



Weight



Plot of Height vs Weight



Plot of Height vs Weight 6.6



6.8 6.5



6.2



Height



Height



180



6.2 5.9



5.8 5.4



5.6 5.3 100



140



180



Weight



220



260



5 100



140



180



Weight



220



260



Tahapan Analisis Regresi – Analisis Korelasi… Jika koefisien korelasi mendekati +1 berarti terdapat keterkaitan antara dua variabel secara searah. Jika koefisien korelasi mendekati -1 berarti terdapat keterkaitan antara dua variabel secara berlawanan arah. Jika koefisien korelasi mendekati 0 berarti tidak terdapat keterkaitan antara dua variabel . Untuk menilai apakah korelasi antar variabel signifikan dapat digunakan pengujian hipothesis.



Model Deterministik Nilai variabel dependen hanya dikaitkan dengan nilai variabel independen dalam bentuk sebuah persamaan linear y = 25,000 + (75/m2)(x) Model Probabilistik : Nilai variabel dependen dikaitkan dengan nilai variabel independen dan suatu variabel acak dalam bentuk sebuah persamaan linear –Variabel acak mengakomodasi fenomena realitas data. y = 25,000 + 75x + ε Contoh: Tidak semua rumah dengan luasan sama dijual dengan harga sama



Model Regresi Linear Sederhana… Arti dari



dan



> 0 [kemiringan positif]



< 0 [kemiringan negatif]



y



tegak datar



= slope (=tegak/datar)



=titik potong garis regresi thd y x



Garis apa yang adalah best “fit” untuk data? ? ?



?



Estimasi Koefisien Regresi… Sama halnya dengan sebelumnya, nilai tengah populasi diduga menggunakan rerata sampel. Intersep diduga oleh b0 dan dengan b1 least squares garis regresi diberikan oleh:



Metode least squares menghasilkan garis lurus yang meminimalkan jumlah kuadrat beda antara data y dan nilai y hat)



Least Squares Regresi…



Perbedaan antara y dan y hat disebut



residuals/ error



Garis Regresi…



Koefisien b1 dan b0 untuk persamaan penduga



…dihitung sbb:



Garis regresi penduga… Statistics



Data



Ingat…



Information



Data Points: x



y



1



6



2



1



3



9



4



5



5



17



6



12



y = .934 + 2.114x



Garis regresi penduga…



Sum = Xbar = Ybar = sxy = sx 2 = b1 = b0 =



X 1 2 3 4 5 6 21 3.500 8.333 7.400 3.500 2.114 0.933



Y 6 1 9 5 17 12 50



X - Xbar -2.500 -1.500 -0.500 0.500 1.500 2.500 0.000



37.00/(6-1) 17.5/(6-1) 7.4/3.5 8.33 - 2.114*3.50



2 Y - Ybar (X-Xbar)*(Y-Ybar) (X - Xbar) -2.333 5.833 6.250 -7.333 11.000 2.250 0.667 -0.333 0.250 -3.333 -1.667 0.250 8.667 13.000 2.250 3.667 9.167 6.250 0.000 37.000 17.500



Excel: Data Analysis - Regression



Excel: Plot Model Regresi



Y



X Variable 1 Line Fit Plot 20 15 10 5 0



Y Predicted Y



0



1



2



3



4



X Variable 1



5



6



7



Kondisi validitas model regresi… Model regresi akan valid jika empat kondisi dipenuhi: • Sebaran peluang residual normal. • Mean sebaran residual 0. • Simpangan baku residual konstan terhadap nilai variabel independen • Residual independen terhadap nilai variabel dependen y



Menilai model Regresi… Metode least squares akan selalu menghasilkan persamaan garis lurus, sekalipun tidak ada korelasi antara dua macam variabel atau relasi antar variabelnya nonlinear. Sehingga hasil estimasi garis regresi memerlukan penilaian, untuk mengetahui seberapa baik model menjelaskan data. Penilaian menggunakan jumlah kuadrat Error (SSE).



Jumlah Kuadrat Galat (SSE)…



SSE dapat dihitung dengan rumus:



Digunakan untuk penghitungan simpangan baku garis regresi:



Jika nol, semua data menempel pada garis regresi.



Standard Error…



Jika rendah, model linear dapat digunakan untuk memprediksi dan sebaliknya



Standard Error… Pada contoh ini, standard error = .3265 dan y = 14.841 Sehingga model regresi linear dari harga mobil sebagai fungsi dari penunjuk nilai pada odometer cukup baik.



Uji untuk Slope….



Jika tidak ada hubungan linear diantara variabel y dan x, maka garis regresi nampak sebagai garis horizontal atau nilai slope = 0.



Sebalikanya jika ada hubungan linear diantara variabel y dan x, maka slope ( ) tidak sama dengan 0. Sehingga dapat digunakan uji hipotesis : H0: = 0 H1: ≠ 0



Uji untuk Slope… Statistik uji untuk pengujian koefisien regresi: H0: β1 = 0 Dengan adalah deviasi standard dari b1: Jika residual ( ) tersebar secara normal, Statistik uji mengikuti sebaran Student t dengan derajat bebas n–2.



Prosedur uji hipotesis 2 arah lebih sering digunakan.



Contoh … Gunakan uji hipotesis statistika untuk menentukan apakah nilai slope berbeda nyata dari 0 pada level signifikan 5% . Uji hipotesis: H0: = 0 H1: ≠ 0 (Dengan kata lain jika hipotesis nol diterima maka tidak ada bukti bahwa terdapat hubungan linear Daerah penolakan H0 Atau lihat “p-value” pada output program.



Contoh … Perhatikan output Excel …



p-value



Nampak statistik t untuk bandingkan “odometer” (slope, b1) adalah –13.49  Lebih rendah dari nilai kritis tCritical = –1.984. Terlihat p-value = 0.000.  Terdapat bukti adanya keterkaitan secara linear antara variabel dependen (harga mobil) dan independen (nilai odometer



Uji untuk Slope… Pendugaan interval dengan tingkat keyakinan tertentu untuk parameter slope , menggunakan konsep IK yang sama. Prakiraan titik untuk menggunakan data sampel adalah b1.IK (1-alfa) adalah: Sehingga:



Interval ini menduga slope berada dalam selang: –.0768 dan –.0570



Koefisien Determinasi… Ukuran seberapa kuat keterkaitan secara linear antara variabel dependen dan independen dihitung dengan koefisien determinasi R2.



Koefisien Determinasi = kuadrat dari koefisien korelasi (r), atau R2 = (r)2



Koefisien Determinasi Jika R2 =.6483, Berarti model regresi yang digunakan dapat menjelaskan 64.83% total keragaman harga jual rumah (y). Sedangkan 35.17% merupakan keragaman yang tidak dapat dijelaskan oleh model (error) Koefisien Determinasi tidak mempunyai nilai kritis, sehingga tidak dapat dilakukan uji hipotesis nilai statistiknya. Secara umum makin besar R2, semakin baik kesesuaian model dengan data . R2 = 1: Data menempel pada garis regresi. R2 = 0: tidak ada hubungan linear antara x dan y.



Output Excel … Tabel Analisis ragam (ANOVA) : Source



degrees of freedom



Sums of Squares



Mean Squares



F-Statistic



Regression



1



SSR



MSR = SSR/1



F=MSR/MSE



Error



n–2



SSE



MSE = SSE/(n–2)



Total



n–1



Variation in y (SST)



Penggunaan Persamaan Regresi… Persamaan regresi : y = 17.250 – .0669x Dapat digunakan untuk predikasi harga jual mobil dengan odometer 40 (40,000) km: y = 17.250 – .0669x = 17.250 – .0669(40) = 14, 574



Nilai ($14,574) adalah estimasi titik. Interval konfidensi dapat digunakan untuk predikasi tersebut karena harga jual sering berbeda untuk kondisi sama.



Interval Predikasi Interval predikasi digunakan jika diinginkan untuk memprediksi suatu nilai dari variabel dependen, berdasarkan suatu nilai variabel independen



(xg = nilai variabel independen x di mana nilai variabel dependen y ingin diramalkan)



Pendugaan Interval Konfidensi untuk Nilai Tengah Y… Penduga interval konfidensi untuk nilai tengah y (Mean dari Y) digunakan jika diinginkan prakiraan sebuah selang dalam tingkat keyakinan (1- alfa) di mana garis regresi terdapat di dalamnya. Estimasi mean y, untuk suatu nilai x adalah:



(Secara teory,formula di atas digunakan untuk jumlah data populasi tak hingga. Namun dari hasil ini dapat diintepretasikan, sebagai harga jual rerato mobil tipe “XXX” dengan odometer menunjuk nilai 40,000



Apa Bedanya ? Interval konfidensi



Interval Prediksi



1 Digunakan untuk estimasi suatu nilai y (pada suatu x)



no 1



Digunakan untuk estimasi nilai tengah dari y (pada suatu x)



Pendugaan Interval konfidensi Nilai tengah y lebih sempit daripada Interval Prediksi Untuk suatu nilai x dan taraf signifikan alfa karena semakin banyak data digunakan untuk pendugaan maka galat menjadi semakin kecil.



Penilaian Model Regresi… Tiga hal dalam melakukan analisis model regresi: • Variabel error harus menyebar normal, • ragam Variabel error harus konstan, • Variabel error harus saling bebas. Untuk memeriksa apakah tiga kondisi terpenuhi dilakukan Analysis Residual, untuk melihat apakah sebaran variabel acak residual memenuhi ketiga kriteria tersebut



Nonnormality… Membuat histogram dari residual (pendugaan galat) untuk mengetahui apakah sebarannya normal…



…historam berbentuk genta merupakan indikasi residual mempunyai sebaran normal dengan mean mendekati nol.



Heteroskedastisitas… Jika asumsi keragaman residual yang konstan tidak dipenuhi, hal ini disebut heteroskedastisitas.



Heteroskedastisitas dapat terjadi jika plot antara residual dan nilai prediksi y-hat yang semakin melebar seiring bertambahnya nilai y-hat pada sumbu datar.



Heteroscedasticity… Gambar plot antara residual dan y-hat berikut adalah contoh model regresi yang tidak mengalami heteroskedastisitas:



tidak berindikasi



heteroscedastiisitas







Otokorelasi Residual Jika data residual diurutkan menurut waktu maka akan diperoleh data time series. Untuk data time series, sering dijumpai error saling berkorelasi, disebut autocorrelated atau serially correlated.



Deteksi autocorrelation dengan membuat grafik nilai residuals terhadap waktu. Pola beraturan (trend, siklus) mengindikasi asumsi otokorelasi dilanggar.



Nonindependence pada Variabel Eror Pola pada grafik antara residual terhadap waktu menunjukkan adanya otokorelasi



Perhatikan pola hasil plot: tren negatif berganti ke positif



Perhatikan pola hasil plot: Osilasi residual di sekitar sumbu datar.



Outliers… Sebuah outlier adalah nilai pengamatan yang sangat rendah atau tinggi. Contoh: Pada modil second, odometer menunjuk nilai mulai 19.1 sampai 49.2 ribu mil. Jika terdapat nilai 5,000 mil (mungkin mobil digunakan hanya pada vcar free day) — nilai ini adalah outlier



Outliers… Data Outlier terjadi karena: • Kesalahan dalam input data (operator keliru) • Data seharusnya bukan elemen populasi sehingga tidak dapat digunakan sebagai sampel * Mungkin memang data valid.



Outliers dapat dideteksi menggunakan scatter plot. Outlier memerlukan penanganan khusus karena kalau tidak sangat memengaruhi hasil estimasi regresi



Prosedur untuk mementukan Model Regresi… 1. 2. 3.



4. 5.



6. 7.



Pengembangan Model yang didukung teori . Pengumpulan data untuk mendapat sampel dua macam variabel. Membuat diagram pencar untuk melihat apakah model linear sesuai untuk data tersebut. Tandai apakah terdapat pengamatan terpencar jauh (outliers). Estimasi parameter model regresi. Hitung residual (selisish antara data y dan y-hat) dan periksa apakah empat kondisi residual dipenuhi Uji signifikansi parameter model, dan kemampuan model dalam menjelaskan keragaman data variabel tidak bebas Jika model lulus uji pada langkah (6) maka persamaan regresi dapat digunakan untuk melakukan prediksi.



Cara menggunakan Excel untuk Regresi Sederhana



• Pada instalasi excel yang dikerjakan secara lengkap, Untuk dapat menggunakan fungsi regresi secara cepat/otomatis dapat digunakan menu adds-ins dengan meng-klik simbol windows pada windows 7, yaitu dengan meng-klik “excel options” dan kemudian memilih opsi “add-ins” dan tekan tombol “go” pada opsi “excel add-ins. Kemudian pilih “tool-pak” pada menu tersebut. • Jika instalasi excel tidak lengkap, maka hanya dapat dilakukan secara manual menggunakan fungsi “Statistical” pada menu “formulas” untuk opsi “more functions”



Contoh: Solusi soal no 11 hal.369 dengan Excel X



Y



X-mean(X)



Y- mean(Y)



X-mean(X) (Y- mean(Y))



X-mean(X)(X-mean(X))



35



16



-37.5



-42.6667



1600.00125



1406.25



50



26



-22.5



-32.6667



735.00075



506.25



65



41



-7.5



-17.6667



132.50025



56.25



80



62



7.5



3.3333



24.99975



56.25



95



88



22.5



29.3333



659.99925



506.25



110



119



37.5



60.3333



2262.49875



1406.25



5415



3937.5



jumlah =a1-nilai average(a1:a6)



=11-nilai average(b1:b6) Auto sum (e1:e6)



Autosum (f1:f6)



mean(X) Mean(Y) Sxy Sx2 b a Rsqr Std Error



Lanjutan solusi dg. excel 72.5 58.66666667 1083 787.5 1.375238095 -41.03809524 0.965710334



Gunakan formula slope atau fungsi ‘slope’



Gunakan formula intersep atau fungsi ‘intercept’



98.1705028



Std Error = sqr(SSE/n-2) dengan SSE=(n-1)*((Y-mean(Y))*(Y-mean(Y)) - slope(b1:b6; a1:a6))