3.pengujian Satu Vektor Rata-Rata [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Pengujian satu vektor rata-rata populasi Inferences about a mean vector



1



▪ Inferensi: membuat kesimpulan yang valid tentang rata-rata populasi berdasarkan sampel. ▪ Ketika 𝑝 variabel berkorelasi maka seharusnya dianalisis secara bersamaan. ▪ Analisis secara bersamaan menghasilkan uji yang lebih kuat dengan kontrol error yang lebih baik.



2



Univariat: Uji 𝑡 untuk satu sampel ▪ Misal 𝑋1 , … , 𝑋𝑛 adalah sampel dari pengamatan yang saling bebas dan identik dari distribusi normal dengan rata-rata 𝜇 dan variansi 𝜎 2 , 𝑋𝑖 ~𝑖𝑖𝑑 𝑁 𝜇, 𝜎 2 . ▪ Misal 𝜎 2 tidak diketahui dan diinginkan menguji hipotesis 𝐻0 : 𝜇 = 𝜇0 vs 𝐻1 : 𝜇 ≠ 𝜇0



▪ Uji yang digunakan adalah uji Student’s 𝑡, dengan statistik uji 𝑡: 𝑡= 1 𝑛



ҧ 0 𝑥−𝜇 𝑠Τ 𝑛



dengan 𝑥ҧ = σ𝑛𝑖=1 𝑥𝑖 dan 𝑠 2 =



1 σ𝑛𝑖=1 𝑛−1



𝑥𝑖 − 𝑥ҧ 2 , 𝑛 banyaknya pengamatan.



3



Univariat: Uji 𝑡 satu sampel (lanjutan) ▪ Di bawah 𝐻0 , statistik uji mengikuti distribusi Student’s 𝑡 dengan derajat bebas (degree of freedom, df) 𝜈 = 𝑛 − 1. Tolak 𝐻0 jika 𝑡 > 𝑡𝛼 𝑛−1 atau 2



Tolak 𝐻0 jika 𝑝-𝑣𝑎𝑙𝑢𝑒 = 2𝑃 𝑡 > 𝑡ℎ𝑖𝑡



𝑡𝛼2 𝑛−1 2



4



Contoh 1: Dekan memperkirakan bahwa jumlah jam mengajar per minggu untuk dosen adalah 11 jam. Sebagai mahasiswa, Anda ingin menguji klaim ini. Sampel acak dari jumlah jam mengajar dari delapan dosen selama satu minggu tercantum di bawah ini. Dapatkah Anda menolak klaim Dekan? 11.8 8.6 12.6 7.9 6.4 10.4 13.6 9.1 > x x [1] 11.8 8.6 12.6 7.9 6.4 10.4 13.6 9.1 > mean(x) [1] 10.05 > sd(x) [1] 2.485386 > t.test(x,mu=11,alternative="two.sided") One Sample t-test data: x t = -1.0811, df = 7, p-value = 0.3155 alternative hypothesis: true mean is not equal to 11 95 percent confidence interval: 7.972165 12.127835 sample estimates: mean of x 10.05



Hipotesis: 𝐻0 : 𝜇 = 11 𝐻1 : 𝜇 ≠ 11 Taraf signifikansi: 𝛼 = 0.05 Statistik uji: 𝑡 =



ҧ 0 𝑥−𝜇 𝑠/ 𝑛



> qt(0.975,df=7) [1] 2.364624 > p.value p.value [1] 0.3154759



Kriteria keputusan : 𝑡0.025(7) = 2.365 H0 ditolak jika t < -2.365 atau 𝑡 > 2.365 Atau H0 ditolak jika nilai p < 0.05 Hitungan: 𝑡=



10.05−11 2.485386Τ 8



= −1.081122



Pada taraf signifikansi 0.05, karena 𝑡 = −1.081122 > −2.365 (𝑝-𝑣𝑎𝑙𝑢𝑒 = 0.3155 > 0.05) maka 𝐻0 tidak ditolak. Sehingga dapat disimpulkan bahwa rata-rata jumlah jam per minggu dosen sama dengan 11 jam. (Klaim Dekan tidak dapat ditolak). 5



Asumsi yang harus dipenuhi pada Contoh 1 adalah asumsi normalitas. Ketentuan: jika semua titik-titik jatuh kira-kira sepanjang garis lurus maka asumsi normalitas terpenuhi. > library(ggpubr) > ggqqplot(x) > shapiro.test(x) Shapiro-Wilk normality test data: x W = 0.97015, p-value = 0.8992



Dari uji Shapiro-Wilk diperoleh nilai p = 0.8992 > 0.05 maka data mengikuti distribusi normal (asumsi normalitas terpenuhi).



Karena titik-titik berada di sekitar garis lurus maka asumsi normalitas terpenuhi. 6



Multivariat dari uji Student’s 𝑡 Misal 𝐗 𝑖 ~𝑖𝑖𝑑 𝑁 𝝁, 𝚺 dengan



▪ 𝐗 𝑖 = 𝑋𝑖1 , ⋯ , 𝑋𝑖𝑝 ▪ 𝝁 = 𝜇1 , ⋯ , 𝜇𝑝











adalah pengamatan ke-𝑖 pada vektor 𝑝 × 1



adalah vektor rata-rata 𝑝 × 1



▪ 𝚺 = 𝜎𝑗𝑘 adalah matrix kovarians 𝑝 × 𝑝 Misal 𝚺 diketahui dan ingin menguji hipotesis 𝐻0 : 𝝁 = 𝝁0



vs 𝐻1 : 𝝁 ≠ 𝝁0



dengan 𝝁0 adalah vektor yang ditentukan dalam hipotesis nol.



7



Statistik Uji Hotelling’s 𝑇



2



Hottelings 𝑇 2 adalah perluasan multivariat dari statistik uji 𝑡 kuadrat 𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0 dengan ▪ 𝐱ത = ▪ 𝐒=







1 𝐒 𝑛



1 𝑛 σ𝑖=1 𝐱 𝑖 𝑛 1 σ𝑛𝑖=1 𝑛−1



adalah vektor sampel rata-rata 𝐱 𝑖 − 𝐱ത



𝐱 𝑖 − 𝐱ത







adalah matriks kovarians sampel



adalah matriks kovarians sampel dari 𝐱ത



Misal 𝐗 = 𝑥𝑖𝑗 menyatakan matriks data 𝑛 × 𝑝, maka dapat ditulis ▪ ▪



1 𝑛 𝐱ത = σ𝑖=1 𝐱 𝑖 𝑛 1 σ𝑛𝑖=1 𝐒= 𝑛−1



= 𝑛−1 𝐗 ′ 𝟏𝑛 𝐱 𝑖 − 𝐱ത



𝐱 𝑖 − 𝐱ത ′ =



▪ 𝐗 𝑐 = 𝐂𝐗 dengan 𝐂 = 𝐈𝑛 −



1 𝟏𝑛 𝟏′𝑛 𝑛



1 𝐗 ′𝑐 𝐗 𝑐 𝑛−1



adalah matriks pusat 8



Inferensi dengan Hotelling’s 𝑇 2 Di bawah 𝐻0 , Hotteling’s 𝑇 2 mengikuti distribusi 𝐹 𝑇2~



𝑛−1 𝑝 𝐹𝛼 𝑝,𝑛−𝑝 𝑛−𝑝



dengan 𝐹𝛼 𝑝,𝑛−𝑝 menyatakan distribusi 𝐹 dengan derajat bebas pembilang 𝑝 dan derajat bebas penyebut 𝑛 − 𝑝. ▪Hal ini berakibat bahwa 𝛼 = 𝑃 𝑇 2 > ▪𝐹𝛼



𝑝,𝑛−𝑝



𝑝 𝑛−1 𝑛−𝑝



𝐹𝛼



𝑝,𝑛−𝑝



menyatakan persentil ke-100𝛼 atas dari distribusi 𝐹



𝑝,𝑛−𝑝



Tolak hipotesis nol jika 𝑇 2 cukup besar yaitu 𝑇2 >



𝑝 𝑛−1 𝑛−𝑝



𝐹𝛼



𝑝,𝑛−𝑝



dengan 𝛼 adalah level signifikasi dari uji ini.



9



Hotelling’s 𝑇 2 ke 𝑭 Statistik uji: ▪ Hotteling’s 𝑇 2



𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0 Hotteling’s 𝑇 2 mengikuti distribusi 𝐹 maka 𝑇2~



𝑛−1 𝑝 𝐹𝛼 𝑝,𝑛−𝑝 𝑛−𝑝



▪𝐹 𝐹=



(𝑛−𝑝) 2 𝑇 𝑛−1 𝑝



10



Contoh 2: Uji Vektor Rata-rata ▪ Uji vektor rata-rata dilakukan untuk mengetahui apakah rata-rata kemampuan penalaran matematika, kemampuan komunikasi matematis, dan efikasi diri pada kelas eksperimen sama dengan nilai kriteria ketuntasan minimal (KKM) yang telah disesuaikan secara berturut-turut sebesar 11, 27, dan 102. ▪ Data yang digunakan adalah data posttest pada kelas eksperimen untuk ketiga variabel dependen tersebut. ▪ Hipotesis: 𝜇1 𝜇1 11 11 𝐻0 : 𝜇2 = 27 dan 𝐻1 : 𝜇2 ≠ 27 𝜇3 𝜇3 102 102 dengan 𝜇1 adalah rata-rata populasi skor posttest kemampuan penalaran matematika pada kelas eksperimen, 𝜇2 adalah rata-rata populasi skor posttest kemampuan komunikasi matematis pada kelas eksperimen, dan 𝜇3 adalah rata-rata populasi skor posttest efikasi diri pada kelas eksperimen. 11



▪ Taraf signifikansi: 𝛼 = 0.05 ▪ Statistik uji: 𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0



▪ Kriteria keputusan: tolak H0 jika 𝑇 2 >



𝑝 𝑛−1 𝑛−𝑝



qf(0.95,df1=3,df2=22) [1] 3.049125 𝐹𝛼



𝑝,𝑛−𝑝



𝑝 = 3, 𝑛 = 25, 𝐹0.05(3,22) = 3.049125 3 24



Nilai kritis = 22 (3.049125)= 9.978955 Tolak H0 jika 𝑇 2 > 9.978955 Vektor rata-rata sampel: 11.72 𝐱ത = 30.48 107.40 Matriks variansi dan kovariansi sampel adalah 4.626667 4.931667 22.86667 0.45856640 −0.05511288 −0.03716482 −𝟏 𝐒 = 4.931667 15.010000 38.59167 , 𝐒 = −0.05511288 0.12583654 −0.01598812 22.866667 38.591667 224.91667 −0.03716482 −0.01598812 0.01096781 ▪ Hitungan: 𝑇 2 = 22.88501 ▪ Kesimpulan: Karena 𝑇 2 = 22.88501 > 9.978955 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat disimpulkan bahwa rata-rata kemampuan penalaran matematika, kemampuan komunikasi matematis, dan efikasi diri pada kelas eksperimen berturut-turut tidak sama dengan 11, 27, dan 102. 12



> dat str(dat) 'data.frame': 48 obs. of 7 variables: $ Kelas : Factor w/ 2 levels "Eksperimen","Kontrol": 1 1 1 1 1 1 1 1 1 1 ... $ pre_SE : int 113 90 87 114 113 85 74 100 97 116 ... $ pre_penalaran : int 8 2 2 8 9 3 1 2 2 8 ... $ pre_komunikasi: int 16 14 9 12 17 8 6 13 14 17 ... $ pos_SE : int 111 113 106 127 134 103 108 110 94 137 ... $ pos_penalaran : int 14 13 13 14 15 10 8 13 9 15 ... $ pos_komunikasi: int 35 33 32 33 36 34 27 21 30 36 ... > eksp attach(eksp) > X n n #25 [1] 25 > p p #3 [1] 3 > xbar xbar pos_penalaran pos_komunikasi 11.72 30.48



pos_SE 107.40



13



> mu.null S S pos_penalaran pos_komunikasi pos_SE pos_penalaran 4.626667 4.931667 22.86667 pos_komunikasi 4.931667 15.010000 38.59167 pos_SE 22.866667 38.591667 224.91667 > solve(S) pos_penalaran pos_komunikasi pos_SE pos_penalaran 0.45856640 -0.05511288 -0.03716482 pos_komunikasi -0.05511288 0.12583654 -0.01598812 pos_SE -0.03716482 -0.01598812 0.01096781 > T2 T2 Fhit > T2 [1] 22.88501 > Fhit > qf(0.95,p,n-p) [1] 3.049125 > crit crit [1] 9.978955 > p.value p.value [1] 4.267415e-05



qf(0.95,p,n-p) [1] 3.049125 > p.value.F p.value.F [1] 0.001780911 14



Using ICSNP package in R > muH0 library(ICSNP) > HotellingsT2(X, mu=muH0,test="chi") Hotelling's one sample T2-test data: X T.2 = 22.885, df = 3, p-value = 4.267e-05 alternative hypothesis: true location is not equal to c(11,27,102)



> HotellingsT2(X, mu=muH0,test="f") Hotelling's one sample T2-test data: X T.2 = 6.9926, df1 = 3, df2 = 22, p-value = 0.001781 alternative hypothesis: true location is not equal to c(11,27,102)



15



Asumsi yang harus dipenuhi dari contoh nomor 2 adalah asumsi normalitas multivariat. > library(MVN) > result = mvn(data = eksp, mvnTest = "hz", univariateTest = "AD", univariatePlot = "histogram", multivariatePlot = "qq", multivariateOutlierMethod = "adj", showOutliers = FALSE, showNewData = FALSE) > result Hipotesis: $`multivariateNormality` H0: Data berdistribusi normal multivariat Test HZ p value MVN H1: Data tidak berdistribusi normal multivariat 1 Henze-Zirkler 0.7984766 0.08767643 YES $univariateNormality Test Variable Statistic 1 Anderson-Darling pos_penalaran 0.3798 2 Anderson-Darling pos_komunikasi 0.4015 3 Anderson-Darling pos_SE 0.4449



p value Normality 0.3774 YES 0.3342 YES 0.2613 YES



Berdasarkan uji Henze-Zirkler, diperoleh HZ = 0.798 dan nilai p = 0.088 > 0.05 maka ketiga variabel dependen pada grup eksperimen tersebut mengikuti distribusi normal multivariat.



$Descriptives n Mean Std.Dev Median Min Max 25th 75th Skew Kurtosis pos_penalaran 25 11.72 2.150969 12 8 15 10 13 -0.1092368 -1.1273061 pos_komunikasi 25 30.48 3.874274 30 21 36 28 34 -0.4453851 -0.5254521 pos_SE 25 107.40 14.997222 106 86 137 97 113 0.3945872 -0.8588835 16



Dari Chi-Square Q-Q plot untuk grup eksperimen terlihat bahwa hampir semua titik-titik dekat dengan garis lurus mengindikasikan asumsi normalitas multivariat terpenuhi. 17



Fungsi mvn (Multivariate Normality Tests) di R dengan paket MVN Description Performs multivariate normality tests, including Mardia, Royston, Henze-Zirkler, Dornik-Haansen, E-Statistics, and graphical approaches and implements multivariate outlier detection and univariate normality of marginal distributions through plots and tests.



18



19



20



Plot khi-kuadrat untuk mengecek normalitas ▪ Jarak kuadrat umum (the squared generalized distances) ′



𝑑𝑗2 = 𝐱𝑗 − 𝐱ത 𝐒 −𝟏 𝐱𝑗 − 𝐱ത , 𝑗 = 1, 2, … , 𝑛 dengan 𝐱1 , 𝐱 2 , … , 𝐱 n adalah pengamatan-pengamatan sampel. ▪ Prosedur ini dapat digunakan bagi semua 𝑝 ≥ 2. ▪ Ketika populasi berdistribusi normal multivariat dan 𝑛 dan 𝑛 − 𝑝 lebih besar dari 25 atau 30, setiap jarak kuadrat 𝑑12 , 𝑑22 , … , 𝑑𝑛2 seharusnya mengikuti variabel acak khikuadrat.



▪ Walau jarak-jarak ini tidak independen atau secara eksak berdistribusi khi-kuadrat, akan sangat membantu untuk memplotkan jarak-jarak tersebut. ▪ Plot inilah yang disebut sebagai plot khi-kuadrat.



21



▪ Langkah-langkah dalam membuat plot khi-kuadrat: 1) Jarak kuadrat umum diurutkan dari kecil ke besar, 𝑑 21 ≤ 𝑑 22 ≤ ⋯ ≤ 𝑑 2𝑛 . 1



2) Buat plot berpasangan 𝑞𝑐,𝑝 100 𝑞𝑐,𝑝



1 2



𝑗−



𝑛 1 𝑗−2 𝑛



𝑗−2



𝑛



1



, 𝑑 2𝑗



dengan 𝑞𝑐,𝑝



𝑗−2



𝑛



adalah kuantil ke-



dari distribusi khi-kuadrat dengan derajat bebas 𝑝. 1



= 𝜒𝑝2



𝑛−𝑗+2 𝑛



▪ Plot seharusnya menyerupai garis lurus melalui titik asal dengan kemiringan 1. ▪ Pola lengkung sistematis menunjukkan non-normalitas. ▪ Satu atau dua titik jauh dari garis mengindikasikan jarak yang besar atau pengamatan berupa pencilan (outlier) yang memerlukan perhatian lebih.



22



Contoh > > > >



> n n [1] 10 > p p [1] 2 > xbar xbar x1 x2 155.603 14.704



x1 diffs gdist n #sort the distances > n > s.gdist s.gdist > p p [9] 3.5332867 4.3665512 [1] 2 > #find the matching list of quantiles > xbar quant xbar > plot(quant,s.gdist,pch=20,main="Chi-Square Plot",xlab="Chi-Square Quantile", x1 x2 ylab="Squared Distance") 155.603 14.704 > lines(quant,quant) 23



Titik-titik pada gambar adalah cukup lurus. Oleh karena ukuran sampel kecil maka sulit untuk menolak normalitas bivariat dari bukti pada gambar tersebut.



24



Contoh 3: Data scores > scores head(scores) ▪ Hipotesis sex Test1 Test2 Test3 Test4 1 1 15 17 24 14 𝐻0 : 𝝁 = 𝝁0 2 1 17 15 32 26 𝐻1 : 𝝁 ≠ 𝝁0 3 1 15 14 29 23 dengan 𝝁′0 = 15,15,22,22 4 1 13 12 10 16 5 1 20 17 26 28 ▪ Taraf signifikansi: 𝛼 = 0.05 6 1 15 21 26 21 ▪ Statistik Uji: Hotelling 𝑇 2



𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0 ▪ Kriteria keputusan: 𝑛 = 64, 𝑝 = 4, 𝐹0.05(4,60) = 2.525215. (63) 4



Nilai kritis = 60 2.525215=10.6059 Tolak 𝐻0 jika 𝑇 2 > 10.6059 ▪ Hitungan: 𝑇 2 = 8.9066 ▪ Kesimpulan: Karena 𝑇 2 = 8.9066 < 10.6059 maka 𝐻0 tidak ditolak pada taraf signifikansi 0.05. Sehingga rata-rata populasi keempat tes sama dengan [15,15,22,22]. Tolak 𝐻0 jika 𝑇 2 >



𝑛−1 𝑝 𝐹𝛼 𝑝,𝑛−𝑝 𝑛−𝑝



25



Contoh 3: Data scores



> n [1] 64 > p [1] 4 > xbar Test1 Test2 Test3 Test4 14.15625 14.90625 21.92188 22.34375 > S Test1 Test2 Test3 Test4 Test1 10.387897 7.792659 15.29812 5.374008 Test2 7.792659 16.657738 13.70685 6.175595 Test3 15.298115 13.706845 57.05729 15.932044 Test4 5.374008 6.175595 15.93204 22.133929 > qf(0.95,p,n-p) [1] 2.525215



> X n p xbar mu.null S T2 T2 T2 [1] 8.906623 > crit crit [1] 10.6059



26



Using ICSNP package in R > > > > > >



scores