4 0 1 MB
Regresi Linear Sederhana dan Korelasi
Analisis Regresi Linear Sederhana Kegunaan: Model Regression dapat digunakan untuk memprediksi nilai variabel dependen yang dinyatakan sebagai fungsi dari variabel independen setelah model lolos dari analisis. variabel dependen: dinyatakan dengan Y variabel independen : dinyatakan dengan X1, X2, …, Xk
Jika hanya menggunakan satu variabel independen , model regresi disebut regresi linear sederhana Data sampel digunakan untuk menduga β0 dan β1 .
Model Regresi Linear Sederhana variabel : X = variabel independen (dapat ditentukan dari awal) Y = variabel dependen(didapat berdasarkan observasi) Parameters: β0 = titik potong sumbu Y β1 = slop/ kemiringan galat ε ~ variabel acak bersebaran normal (με = 0, σε = konstan)
Efek keragaman data terhadap σε Luas sama, tetapi harga tidak sama • (contoh: variasi dekorasi, lokasi, fsilitas umum…) Keragaman rendah vs keragaman tinggi
Harga rumah
25K$
Harga rumah= 25,000 + 75(Ukuran)+ Ukuran rumah
Model Linear secara Teoritis
Tahapan Analisis Regresi– Pengumpulan Data Ranking Test 2 = β0 + β1*(Ranking Test 1)
Dari data diduga nilai parameter: β0 β1 σε
Student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Test 1 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
Test 2 32 33 34 35 36 37 39 40 41 42 43 44 46 47 48 49 50 51 53 54 55 56 57
Tahapan Analisis Regresi – olah data awal Plot of Fitted Model 92
80
82
Test B2
100
60 40 20
72 62 52
0 40
50
60
70
80
90
42
100
60
Test 1
70
80
Test B1 Plot of Fitted Model 100 90
Test B2
Test 2
Plot of Fitted Model
80 70 60 50 50
60
70
80
Test B1
90
100
90
100
Tahapan Analisis Regresi – Analisis Korelasi… “-1 < < 1” Jika ingin diketahui apakah ada keterkaitan fungsional antara variabel dependen dan independen, dihitung nilai koefisien korelasi. Contoh: keterkaitan antara tinggi dan berat badan
.
Plot of Height vs Weight
Plot of Height vs Weight
7
7 6.6
6.2
Height
Height
6.6
5.8 5.4
6.2 5.8
5 4.6 100
140
180
220
5.4
260
100
140
Weight
220
260
Weight
Plot of Height vs Weight
Plot of Height vs Weight 6.6
6.8 6.5
6.2
Height
Height
180
6.2 5.9
5.8 5.4
5.6 5.3 100
140
180
Weight
220
260
5 100
140
180
Weight
220
260
Tahapan Analisis Regresi – Analisis Korelasi… Jika koefisien korelasi mendekati +1 berarti terdapat keterkaitan antara dua variabel secara searah. Jika koefisien korelasi mendekati -1 berarti terdapat keterkaitan antara dua variabel secara berlawanan arah. Jika koefisien korelasi mendekati 0 berarti tidak terdapat keterkaitan antara dua variabel . Untuk menilai apakah korelasi antar variabel signifikan dapat digunakan pengujian hipothesis.
Model Deterministik Nilai variabel dependen hanya dikaitkan dengan nilai variabel independen dalam bentuk sebuah persamaan linear y = 25,000 + (75/m2)(x) Model Probabilistik : Nilai variabel dependen dikaitkan dengan nilai variabel independen dan suatu variabel acak dalam bentuk sebuah persamaan linear –Variabel acak mengakomodasi fenomena realitas data. y = 25,000 + 75x + ε Contoh: Tidak semua rumah dengan luasan sama dijual dengan harga sama
Model Regresi Linear Sederhana… Arti dari
dan
> 0 [kemiringan positif]
< 0 [kemiringan negatif]
y
tegak datar
= slope (=tegak/datar)
=titik potong garis regresi thd y x
Garis apa yang adalah best “fit” untuk data? ? ?
?
Estimasi Koefisien Regresi… Sama halnya dengan sebelumnya, nilai tengah populasi diduga menggunakan rerata sampel. Intersep diduga oleh b0 dan dengan b1 least squares garis regresi diberikan oleh:
Metode least squares menghasilkan garis lurus yang meminimalkan jumlah kuadrat beda antara data y dan nilai y hat)
Least Squares Regresi…
Perbedaan antara y dan y hat disebut
residuals/ error
Garis Regresi…
Koefisien b1 dan b0 untuk persamaan penduga
…dihitung sbb:
Garis regresi penduga… Statistics
Data
Ingat…
Information
Data Points: x
y
1
6
2
1
3
9
4
5
5
17
6
12
y = .934 + 2.114x
Garis regresi penduga…
Sum = Xbar = Ybar = sxy = sx 2 = b1 = b0 =
X 1 2 3 4 5 6 21 3.500 8.333 7.400 3.500 2.114 0.933
Y 6 1 9 5 17 12 50
X - Xbar -2.500 -1.500 -0.500 0.500 1.500 2.500 0.000
37.00/(6-1) 17.5/(6-1) 7.4/3.5 8.33 - 2.114*3.50
2 Y - Ybar (X-Xbar)*(Y-Ybar) (X - Xbar) -2.333 5.833 6.250 -7.333 11.000 2.250 0.667 -0.333 0.250 -3.333 -1.667 0.250 8.667 13.000 2.250 3.667 9.167 6.250 0.000 37.000 17.500
Excel: Data Analysis - Regression
Excel: Plot Model Regresi
Y
X Variable 1 Line Fit Plot 20 15 10 5 0
Y Predicted Y
0
1
2
3
4
X Variable 1
5
6
7
Kondisi validitas model regresi… Model regresi akan valid jika empat kondisi dipenuhi: • Sebaran peluang residual normal. • Mean sebaran residual 0. • Simpangan baku residual konstan terhadap nilai variabel independen • Residual independen terhadap nilai variabel dependen y
Menilai model Regresi… Metode least squares akan selalu menghasilkan persamaan garis lurus, sekalipun tidak ada korelasi antara dua macam variabel atau relasi antar variabelnya nonlinear. Sehingga hasil estimasi garis regresi memerlukan penilaian, untuk mengetahui seberapa baik model menjelaskan data. Penilaian menggunakan jumlah kuadrat Error (SSE).
Jumlah Kuadrat Galat (SSE)…
SSE dapat dihitung dengan rumus:
Digunakan untuk penghitungan simpangan baku garis regresi:
Jika nol, semua data menempel pada garis regresi.
Standard Error…
Jika rendah, model linear dapat digunakan untuk memprediksi dan sebaliknya
Standard Error… Pada contoh ini, standard error = .3265 dan y = 14.841 Sehingga model regresi linear dari harga mobil sebagai fungsi dari penunjuk nilai pada odometer cukup baik.
Uji untuk Slope….
Jika tidak ada hubungan linear diantara variabel y dan x, maka garis regresi nampak sebagai garis horizontal atau nilai slope = 0.
Sebalikanya jika ada hubungan linear diantara variabel y dan x, maka slope ( ) tidak sama dengan 0. Sehingga dapat digunakan uji hipotesis : H0: = 0 H1: ≠ 0
Uji untuk Slope… Statistik uji untuk pengujian koefisien regresi: H0: β1 = 0 Dengan adalah deviasi standard dari b1: Jika residual ( ) tersebar secara normal, Statistik uji mengikuti sebaran Student t dengan derajat bebas n–2.
Prosedur uji hipotesis 2 arah lebih sering digunakan.
Contoh … Gunakan uji hipotesis statistika untuk menentukan apakah nilai slope berbeda nyata dari 0 pada level signifikan 5% . Uji hipotesis: H0: = 0 H1: ≠ 0 (Dengan kata lain jika hipotesis nol diterima maka tidak ada bukti bahwa terdapat hubungan linear Daerah penolakan H0 Atau lihat “p-value” pada output program.
Contoh … Perhatikan output Excel …
p-value
Nampak statistik t untuk bandingkan “odometer” (slope, b1) adalah –13.49 Lebih rendah dari nilai kritis tCritical = –1.984. Terlihat p-value = 0.000. Terdapat bukti adanya keterkaitan secara linear antara variabel dependen (harga mobil) dan independen (nilai odometer
Uji untuk Slope… Pendugaan interval dengan tingkat keyakinan tertentu untuk parameter slope , menggunakan konsep IK yang sama. Prakiraan titik untuk menggunakan data sampel adalah b1.IK (1-alfa) adalah: Sehingga:
Interval ini menduga slope berada dalam selang: –.0768 dan –.0570
Koefisien Determinasi… Ukuran seberapa kuat keterkaitan secara linear antara variabel dependen dan independen dihitung dengan koefisien determinasi R2.
Koefisien Determinasi = kuadrat dari koefisien korelasi (r), atau R2 = (r)2
Koefisien Determinasi Jika R2 =.6483, Berarti model regresi yang digunakan dapat menjelaskan 64.83% total keragaman harga jual rumah (y). Sedangkan 35.17% merupakan keragaman yang tidak dapat dijelaskan oleh model (error) Koefisien Determinasi tidak mempunyai nilai kritis, sehingga tidak dapat dilakukan uji hipotesis nilai statistiknya. Secara umum makin besar R2, semakin baik kesesuaian model dengan data . R2 = 1: Data menempel pada garis regresi. R2 = 0: tidak ada hubungan linear antara x dan y.
Output Excel … Tabel Analisis ragam (ANOVA) : Source
degrees of freedom
Sums of Squares
Mean Squares
F-Statistic
Regression
1
SSR
MSR = SSR/1
F=MSR/MSE
Error
n–2
SSE
MSE = SSE/(n–2)
Total
n–1
Variation in y (SST)
Penggunaan Persamaan Regresi… Persamaan regresi : y = 17.250 – .0669x Dapat digunakan untuk predikasi harga jual mobil dengan odometer 40 (40,000) km: y = 17.250 – .0669x = 17.250 – .0669(40) = 14, 574
Nilai ($14,574) adalah estimasi titik. Interval konfidensi dapat digunakan untuk predikasi tersebut karena harga jual sering berbeda untuk kondisi sama.
Interval Predikasi Interval predikasi digunakan jika diinginkan untuk memprediksi suatu nilai dari variabel dependen, berdasarkan suatu nilai variabel independen
(xg = nilai variabel independen x di mana nilai variabel dependen y ingin diramalkan)
Pendugaan Interval Konfidensi untuk Nilai Tengah Y… Penduga interval konfidensi untuk nilai tengah y (Mean dari Y) digunakan jika diinginkan prakiraan sebuah selang dalam tingkat keyakinan (1- alfa) di mana garis regresi terdapat di dalamnya. Estimasi mean y, untuk suatu nilai x adalah:
(Secara teory,formula di atas digunakan untuk jumlah data populasi tak hingga. Namun dari hasil ini dapat diintepretasikan, sebagai harga jual rerato mobil tipe “XXX” dengan odometer menunjuk nilai 40,000
Apa Bedanya ? Interval konfidensi
Interval Prediksi
1 Digunakan untuk estimasi suatu nilai y (pada suatu x)
no 1
Digunakan untuk estimasi nilai tengah dari y (pada suatu x)
Pendugaan Interval konfidensi Nilai tengah y lebih sempit daripada Interval Prediksi Untuk suatu nilai x dan taraf signifikan alfa karena semakin banyak data digunakan untuk pendugaan maka galat menjadi semakin kecil.
Penilaian Model Regresi… Tiga hal dalam melakukan analisis model regresi: • Variabel error harus menyebar normal, • ragam Variabel error harus konstan, • Variabel error harus saling bebas. Untuk memeriksa apakah tiga kondisi terpenuhi dilakukan Analysis Residual, untuk melihat apakah sebaran variabel acak residual memenuhi ketiga kriteria tersebut
Nonnormality… Membuat histogram dari residual (pendugaan galat) untuk mengetahui apakah sebarannya normal…
…historam berbentuk genta merupakan indikasi residual mempunyai sebaran normal dengan mean mendekati nol.
Heteroskedastisitas… Jika asumsi keragaman residual yang konstan tidak dipenuhi, hal ini disebut heteroskedastisitas.
Heteroskedastisitas dapat terjadi jika plot antara residual dan nilai prediksi y-hat yang semakin melebar seiring bertambahnya nilai y-hat pada sumbu datar.
Heteroscedasticity… Gambar plot antara residual dan y-hat berikut adalah contoh model regresi yang tidak mengalami heteroskedastisitas:
tidak berindikasi
heteroscedastiisitas
Otokorelasi Residual Jika data residual diurutkan menurut waktu maka akan diperoleh data time series. Untuk data time series, sering dijumpai error saling berkorelasi, disebut autocorrelated atau serially correlated.
Deteksi autocorrelation dengan membuat grafik nilai residuals terhadap waktu. Pola beraturan (trend, siklus) mengindikasi asumsi otokorelasi dilanggar.
Nonindependence pada Variabel Eror Pola pada grafik antara residual terhadap waktu menunjukkan adanya otokorelasi
Perhatikan pola hasil plot: tren negatif berganti ke positif
Perhatikan pola hasil plot: Osilasi residual di sekitar sumbu datar.
Outliers… Sebuah outlier adalah nilai pengamatan yang sangat rendah atau tinggi. Contoh: Pada modil second, odometer menunjuk nilai mulai 19.1 sampai 49.2 ribu mil. Jika terdapat nilai 5,000 mil (mungkin mobil digunakan hanya pada vcar free day) — nilai ini adalah outlier
Outliers… Data Outlier terjadi karena: • Kesalahan dalam input data (operator keliru) • Data seharusnya bukan elemen populasi sehingga tidak dapat digunakan sebagai sampel * Mungkin memang data valid.
Outliers dapat dideteksi menggunakan scatter plot. Outlier memerlukan penanganan khusus karena kalau tidak sangat memengaruhi hasil estimasi regresi
Prosedur untuk mementukan Model Regresi… 1. 2. 3.
4. 5.
6. 7.
Pengembangan Model yang didukung teori . Pengumpulan data untuk mendapat sampel dua macam variabel. Membuat diagram pencar untuk melihat apakah model linear sesuai untuk data tersebut. Tandai apakah terdapat pengamatan terpencar jauh (outliers). Estimasi parameter model regresi. Hitung residual (selisish antara data y dan y-hat) dan periksa apakah empat kondisi residual dipenuhi Uji signifikansi parameter model, dan kemampuan model dalam menjelaskan keragaman data variabel tidak bebas Jika model lulus uji pada langkah (6) maka persamaan regresi dapat digunakan untuk melakukan prediksi.
Cara menggunakan Excel untuk Regresi Sederhana
• Pada instalasi excel yang dikerjakan secara lengkap, Untuk dapat menggunakan fungsi regresi secara cepat/otomatis dapat digunakan menu adds-ins dengan meng-klik simbol windows pada windows 7, yaitu dengan meng-klik “excel options” dan kemudian memilih opsi “add-ins” dan tekan tombol “go” pada opsi “excel add-ins. Kemudian pilih “tool-pak” pada menu tersebut. • Jika instalasi excel tidak lengkap, maka hanya dapat dilakukan secara manual menggunakan fungsi “Statistical” pada menu “formulas” untuk opsi “more functions”
Contoh: Solusi soal no 11 hal.369 dengan Excel X
Y
X-mean(X)
Y- mean(Y)
X-mean(X) (Y- mean(Y))
X-mean(X)(X-mean(X))
35
16
-37.5
-42.6667
1600.00125
1406.25
50
26
-22.5
-32.6667
735.00075
506.25
65
41
-7.5
-17.6667
132.50025
56.25
80
62
7.5
3.3333
24.99975
56.25
95
88
22.5
29.3333
659.99925
506.25
110
119
37.5
60.3333
2262.49875
1406.25
5415
3937.5
jumlah =a1-nilai average(a1:a6)
=11-nilai average(b1:b6) Auto sum (e1:e6)
Autosum (f1:f6)
mean(X) Mean(Y) Sxy Sx2 b a Rsqr Std Error
Lanjutan solusi dg. excel 72.5 58.66666667 1083 787.5 1.375238095 -41.03809524 0.965710334
Gunakan formula slope atau fungsi ‘slope’
Gunakan formula intersep atau fungsi ‘intercept’
98.1705028
Std Error = sqr(SSE/n-2) dengan SSE=(n-1)*((Y-mean(Y))*(Y-mean(Y)) - slope(b1:b6; a1:a6))