Validitas Dan Reliabilitas Tes [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

VALIDITAS DAN RELIABILITAS TES 19.36 | By: Furing, Stefanus and Inany Setelah menentukan jenis pengukuran untuk mengevaluasi tujuan, memilih atau mengembangkan instrument menjadi tugas berikutnya. Penting untuk memastikan bahwa instrument tersebut memiliki dua kualitas yang diperlukan: Validitas dan Reliabilitas 1. Validitas



a.



b.



c.



d.



Uji validitas dibutuhkan setelah ada indikasi hubungan langsung antara tujuan pembelajaran dan butir soal evaluasi. Tes dianggap valid ketika dapat mengukur dengan spesifik apa yang telah dipelajari sebagaimana ditentukan oleh tujuan pembelajaran untuk setiap unit atau topik. Menurut Arikunto (2002:59) sebuah tes disebut valid apabila tes itu dapat tepat mengukur yang hendak diukur. Salah satu cara memastikan tinggi rendahnya tingkat uji validitas adalah merencanakan sebuah tabel spesifikasi kedua.Tabel memiliki dua tujuan. Pertama, tabel tersebut membantu memverifikasi hasil pada level belajar tingkat tinggi (aplikasi, analisis, sintesis, dan evaluasi) mendapat perhatian memadai. Kedua, tabel ini menunjukkan jumlah pertanyaan yang diperlukan untuk mengukur tujuan pembelajaran individu atau kelompok. Nilai-nilai frekuensi ini mencerminkan pentingnya setiap tujuan yang diberikan selama pembelajaran. Tabel 1 menunjukkan sifat dan jumlah pertanyaan tes untuk tujuan pembelajaran dalam unit berbasis pengetahuan. Tabel 2 menunjukkan jumlah butir soal tes berkaitan dengan tujuan pembelajaran pada tugas yang melibatkan berbagai tingkat kognitif dan kinerja psikomotorik. Dengan mendesain seperti tabel tersebut dapat membuat yakin dalam menguji semua tujuan pembelajaran dan memberi masing-masing banyaknya perhatian yang tepat. Meskipun validitas biasanya berhubungan dengan tes pengetahuan, tetapi juga memiliki peran yang sama pentingnya untuk semua jenis pengukuran evaluasi. Ide kuncinya adalah bahwa tes menilai apa yang seharusnya untuk diukur. Dengan demikian, survey sikap perlu digunakan untuk mengukur respon mata pelajaran (bukan mengutamakan popularitas guru atau beberapa variabel insidental lainnya). Uji kinerja perlu untuk menilai proses dan hasil yang berkaitan dengan keahlian khusus. Pengamatan pembelajaran perlu untuk menggambarkan peristiwa secara akurat untuk menangkap apa yang terjadi ketika proses pembelajaran. Validitas tidak selalu mudah untuk diukur atau dihitung. Berbagai jenis yang ada dan dibahas dalam kebanyakan teks pengukuran (misalnya: validitas “face”, validitas isi, validitas prediksi, validitas “ada sekarang”, dan validitas konstruksi). Arikunto (2002:67-69) menjelaskan macammacam validitas yaitu: Validitas Isi (content validity) Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus yang sejajar dengan materi atau isi pelajaran yang diberikan. Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara memerinci materi kurikulum atau materi buku pelajaran. Validitas Konstruksi (construct validity) Sebuah tes dikatakan memiliki validitas konstruksi apabila butir soal yang membangun tes tersebut mengukur setiap aspek berpikir yang disebutkan dalam tujuan pembelajaran. Validitas “ada sekarang” (concurrent validity) Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Data pengalaman tersebut sekarang sudah ada (ada sekarang, concurrent). Hasil tes dibandingkan dnegan alat banding yaitu hasil tes sebelumnya. Validitas Prediksi (predictive validity)







Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan meramalkan apa yang akan terjadi di masa yang akan datang. Kemp (1994:165) menyatakan “Dua jenis yang paling penting bagi para perancang pembelajaran adalah validitas “face” dan validitas isi, keduanya melibatkan proses pengambilan keputusan.” Validitas “face” didukung oleh penilai (biasanya seorang ahli) yang pada kenyataannya untuk menilai pengukuran minat. Validitas isi adalah serupa dengan validitas keadaan luar, tapi biasanya melibatkan sebuah pemeriksaan yang lebih spesifik terhadap individu atau memastikan bahwa setiap ranah isi sudah sepantasnya ditujukan. Sebagai contoh ujian akhir yang mencapai 90% dari butir soal hanya satu dari empat unit matapelajaran utama yang memiliki validitas isi dipertanyakan. Tabel spesifikasi (lihat tabel 9-1 dan 9-2) terutama berguna dalam membuat penilaian validitas isi. Arikunto (2002:185-186) menjelaskan bahwa tabel spesifikasi diperlukan untuk menjaga agar tes yang disusun tidak menyimpang dari bahan (materi) serta aspek kejiwaan (tingkah laku) yang akan dicakup dalam tes. Tabel spesifikasi dapat disebut juga sebagai grid, kisi-kisi atau blue print. Wujudnya adalah sebuah tabel yang memuat tentang perincian materi dan tingkah laku beserta proporsi yang dikehendaki oleh penilai. Tiap kotak diisi dengan bilangan yang menunjukkan jumlah soal. Langkah-langkah membuat tabel spesifikasi yaitu: Menentukan pokok-pokok materi dan bobot untuk masing-masing pokok materi yang akan dimasukkan dalam tes evaluasi. Penentuan imbangan bobot dilakukan oleh penyusun soal berdasarkan atas luasnya materi atau kepentingannya untuk dites. Penentuan imbangan dilakukan atas perkiraan saja. Pada waktu menuliskan angka tidka perlu dihitung-hitung bahwa jumlahnya harus 10 karena semuanya akan diubah menjadi angka dlaam bentuk presentase. Pokok-pokok materi dapat dipindahkan ke dalam tabel dan mengubah indeks (bobot pokok materi) menjadi presentase. Memerinci banyaknya butir soal untuk tiap-tiap pokok materi dan angka ini dituliskan pada kolom paling kanan. Caranya membagi jumlah butir soal yang ditentukan dengan banyaknya pokok materi berdasarkan imbangan bobot yang tertera sebagai presentase. Banyaknya butir soal sangat ditentukan oleh: waktu yang tersedia dan bentuk soal. Langkah selanjutnya merupakan langkah khusus,antara lain Untuk materi yang seragam, maka banyaknya butir soal untuk setiap kotak (tingkat ranah pada







taksonomi Bloom yang diharapkan) diperoleh dengan cara menghitung persentase dari banyaknya soal bagi tiap pokok materi yang sudah tertulis di kolom paling kanan. Ada lagi cara lain yang diambil yaitu mulai dari pengisian kotak-kotak kemudian baru diperoleh jumlah soal tiap pokok materi. Untuk materi yang tidak seragam, tidak perlu mencantumkan angka persentase di kepala kolom.



a. b. c. d.



Apabila tabel spesifikasi sudah jadi, maka guru sudah melakukan hal yang betul dan aman dalam rangkaian tugas menyusun tes. Penyusunan tes yang disertai dengan melalui tabel spesifikasi dapat dijamin bahwa tesnya cukup mempunyai validitas isi dan validitas tingkah laku. Berikut ini contoh pembuatan tabel spesifikasi: Langkah 1 Pokok-pokok materi: (Bobot) Pengertian (2) Fungsi Evaluasi (3) Macam-macam cara evaluasi (5) Persyaratan evaluasi (4)



1.



2. 3.



Langkah 2 dan 3



Aspek yang diungkap



Ingatan



Pemahaman



Aplikasi



Jumlah



Pengertian evaluasi (14%) Fungsi evaluasi (21%) Macam-macam cara evaluasi (36%) Persyaratan evaluasi (29%) Jumlah



7 10 18 15 50 butir soal



Langkah Khusus untuk materi yang seragam



Aspek yang diungkap Pokok Materi Pengertian evaluasi (14%) Fungsi evaluasi (21%) Macam-macam cara evaluasi (36%) Persyaratan evaluasi (29%) Jumlah



Ingatan (50%) (A) (D)



Pemahaman (30%) (B) (E)



Aplikasi (20%) (C) (F)



(G)



(H)



(I)



(J)



(K)



(L)



Jumlah (100%) 7 10 18 15 50 butir soal



Cara menentukan banyak butir soal tiap kotak dengan cara: Kotak A = 50/100 x 7 soal = 3,5 soal (4 soal) dan seterusnya. Langkah Khusus untuk materi yang tidak seragam



Aspek yang diungkap Pokok Materi BAB 1 (25%) BAB 2 (40%) BAB 3 (35%) Jumlah



Ingatan (I) (A) (D) (G)



Pemahaman (P) (B) (E) (H)



Aplikasi (A) (C) (F) (I)



Jumlah 10 16 14 40 butir soal



Cara menentukan banyak butir soal tiap kotak dengan cara: Untuk BAB 1, Ingatan 60%, pemahaman 30%, dan aplikasi (10%) maka: Kotak A = 60/100 x 10 soal = 6 soal dan seterusnya Untuk BAB 2, Ingatan 20%, pemahaman 50%, dan aplikasi (30%) maka: Kotak D = 20/100 x 16 soal = 3 soal dan seterusnya Di bawah ini contoh tabel spesifikasi yang telah jadi (Kemp, 1994).Tabel spesifikasi ini telah mengalami langkah-langkah yang telah dijelaskan di atas: Tabel 1 Spesifikasi berkaitan jumlah butir soal tes dengan tingkat tujuan pembelajaran pada level kognitif. Topik: Pelayanan masyarakat untuk orang tua.



No 1. 2. 3.



Tujuan Mengenali kesalahpahaman dan mitos tentang orang tua. Membedakan antara fakta dan opini tentang perilaku sosial dan fisik orang tua. Menggambarkan sikap orang tua sebagai praktik



Pengetahuan



Pemahaman



3 2 2



Aplikasi



Analisis



Sintesis



Evaluasi



4.



5.



6.



7. 8.



dari berbagai kelompok etnis. Menempatkan informasi keluarga dengan programprogram komunitas untuk orang tua. Mengklasifikasikan organisasi masyarakat sesuai jenis layanan yang ditawarkan untuk orang tua. Mengembangkan rencana untuk menilai program individu masyarakat untuk orang tua. Menilai manfaat program komunitas untuk orang tua. Mengingat situasi nyata, menganalisis kebutuhan warga negara senior&merekomendasikan satu/lebih program komunitas.



4



2



3



2



4



Tabel 2 Spesifikasi berkaitan dengan jumlah butir soal tes untuk tujuan belajar pada tingkat kognitif dan kinerja psikomotorik. Tugas: Mengukur nilai-nilai listrik dalam susunan seri



No 1.



2. 3. 4.



5.



6.



Tujuan Daftar simbol-simbol yang digunakan untuk komponen dalam susunan listrik Mengenal komponenkomponen dari susunan seri lengkap Mengidentifikasi susunan seri di diagram skematis Merakit sebuah susunan seri pada komponen yang menggunakan papan Mengatur dan menyesuaikan sebuah multimeter untuk mengukur masing-masing dari tiga nilai listrik Mengukur dan menghitung tegangan, arus dan



Pengetahuan



Pemahaman



Aplikasi



Psikomotorik



2



3 1



2



2



1



3



3



perlawanan di susunan seri.



2. Reliabilitas Reliabilitas mengacu pada tes kemampuan untuk mendapatkan hasil yang konsisten kapanpun digunakan. Jika siswa-siswa yang sama, tanpa perubahan dalam persiapan mereka, mengambil tes yang sama atau bentuk tes yang sama, pasti ada sedikit variasi dalam nilai. Arikunto (2002:59-60) menyatakan bahwa reliabilitas diambil dari kata reliability dalam bahasa Inggris, berasal dari kata asal reliable yang artinya dapat dipercaya. Sebuah tes dikatakan reliabel apabila hasil-hasil tes tersebut menunjukkan ketepatan yaitu jika para siswa diberikan tes yang sama pada waktu yang berlainan, maka setiap siswa akan tetap berada dalam urutan (ranking) yang sama dalam kelompoknya. Beberapa hal yang dapat mempengaruhi reliabilitas tes:  Lebih banyak pertanyaan yang digunakan menghubungkan setiap tujuan pembelajaran, tes akan lebih reliabel. Jika hanya satu pertanyaan yang bertanya tentang tujuan yang utama, hal itu dapat menyulitkan untuk menetapkan apakah seorang siswa telah memperoleh pengetahuan atau menjawab dengan benar. Arikunto (2002:87) menyatakan bahwa semakin panjang tes, maka reliabilitasnya tinggi. Kualitas butir-butir soal ditentukan oleh: a) Jelas tidaknya rumusan soal. b) Baik tidaknya pengarahan soal kepada jawaban sehingga tidak menimbulkan salah jawab. c) Petunjuknya jelas sehingga mudah dan cepat dikerjakan.  Tes harus diurus dalam cara yang standar. Jika lebih dari satu orang mengikuti ujian langsung, pembelajaran yang serupa harus diberikan kepada setiap kelompok individu yang mengambil tes selama periode waktu. Menurut Arikunto (2012:89) suatu tes yang dicobakan kepada kelompok yang terdiri dari banyak siswa akan mencerminkan keragaman hasil yang menggambarkan besar-kecilnya reliabilitas tes.  Setiap orang harus diuji dalam kondisi yang sama sehingga gangguan tidak memberikan pengaruh perbedaan nilai.  Ujian harus memiliki waktu yang sama untuk semua siswa.  Mungkin faktor yang paling penting yang dapat mempengaruhi uji reliabilitas adalah metode penskoran, terutama ketika menandai tes esai atau menilai kinerja pada skala peringkat. Meskipun usaha menstandarkan berbedanya skor tes individu, kriteria dapat dilihat dalam berbagai cara, dan variasi tidak dapat dihindari. Mengurangi kesubjektifitasan menskor, maka hasil tes akan menjadi lebih realibel.  Hal-hal yang berhubungan dengan penyelenggaraan tes juga menentukan hasil tes (petunjuk yang







diberikan sebelum tes dimulai, pengawas yang tertib, suasana lingkungan dan tempat tes) Ada beberapa metode yang berbeda untuk menilai reliabilitas: Metode test-retest (Metode Tes Ulang)







Dalam menggunakan metode ini, pengetes hanya memiliki satu seri tes tetapi dicobakan dua kali. Untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang mengena karena siswa masih ingat dnegan butir-butir soalnya. Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes kedua harus diperhatikan. Metode parallel forms (Metode Bentuk Paralel) Metode ini dalam bahasa Indonesia disebut juga tes parallel atau tes ekuivalen yaitu dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan tetapi butir-butir soalnya berbeda. Pengetes harus menyiapkan dua buah tes dan masing-masing dicobakan pada kelompok siswa yang sama.







Metode split-half (Metode Belah Dua)



Dalam menggunakan metode itu pengetes hanya menggunakan sebuah tes dan dicobakan satu kali.Banyak pemakai metode ini salah membelah hasil tes pada waktu menganalisis, yaitu mereka mengelompokkan hasil separuh subjek siswa dan separuh yang lain kemudian hasil kedua kelompok ini dikorelasikan. Memakai metode ini yang benar harus ingat bahwa banyaknya butir soal harus genap agar dapat dibelah. Ada dua cara membelah butir soal ini, yaitu: 1) Membelah atas butir-butir soal genap dan butir-butir soal yang ganjil (Belahan ganjil-genap) 2) Membelah atas butir-butir soal awal dan butir-butir soal akhir, yaitu separuh jiwa pada nomer awal dan separuh pada nomer akhir (Belahan awal-akhir)  Ketika dihitung dengan rumus popular menggunakan formula seperti KR 20 dan koefisien alfa, internal consistency reliabilitas sebanding dengan melakukan semua korelasi split-half yang unik. Internal consistency yang tinggi berarti bahwa butir soal tes yang berbedam engukur kemampuan atau sifat yang sama. 3. Hubungan antara Validitas dan Reliabilitas Pertanyaan terakhir untuk pertimbangan adalah hubungan antara validitas dan reliabilitas. Apakah validitas memerlukan reliabilitas? Apakah reliabilitas memerlukan validitas? Jawaban atas dua pertanyaan ini adalah ya dan tidak. Agar tes menjadi valid, tes harus reliabel. Berpikir tentang hal ini: Bagaimana bisa tes mengukur apa yang sebenarnya, jika skor bervariasi dari ujian ke ujian (tanpa ada perubahan apapun dalam kondisi ujian atau Negara siswa)? Di sisi lain, bisa memiliki realibitas tanpa validitas. Misalnya, seorang guru mungkin mencoba menilai kemampuan siswa untuk merancang pembelajaran dengan memberi mereka 50 butir soal benar/salah yang menguji teori-teori pembelajaran. Nilai mungkin tetap konsisten dari ujian satu ke ujian berikutnya, tetapi mereka sulit mencerminkan keterampilan rancangan pembelajaran, hasil dari minat yang utama. Scarvia B. Anderson (dalam Arikunto, 2002) menyatakan bahwa persyaratan tes adalah validitas dan reliabilitas. Validitas lebih penting dan reliabilitas itu perlu untuk mendukung terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid. Sebaliknya, sebuah tes yang valid biasanya reliabel.



DAFTAR RUJUKAN



Arikunto, Suharsimi. 2002. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara Kemp,J.E, Morrison, G.R., and Ross, S.M. 1994. Designing Effective Instruction. New York: Maxwell Macmilan International.



Uji Validitas Pengertian Uji Validitas



Uji Validitas adalah Uji ketepatan atau ketelitian suatu alat ukur dalam mengukur apa yang sedang ingin diukur. Dalam pengertian yang mudah



dipahami, uji validitas adalah uji yang bertujuan untuk menilai apakah seperangkat alat ukur sudah tepat mengukur apa yang seharusnya diukur. Saya ambil contoh mudahnya saja, jika anda ingin mengukur berat badan, maka harus menggunakan timbangan. Sedangkan jika anda ingin mengukur tinggi badan, maka harus menggunakan meteran. Nah, itulah yang dimaksud dengan validitas. Jadi validitas dapat diartikan sebagai tingkat kesahihan alat ukur ukur dalam mengukur apa yang seharusnya diukur. Dalam pengujian alat ukur pengumpulan data penelitian, validitas itu ada dua macam, yaitu validitas faktor dan validitas item. Validitas faktor diukur apabila item yang disusun menggunakan lebih dari sebuah faktor (antara faktor yang satu dengan faktor yang lain ada kesamaannya). Cara Uji Validitas



Proses mengukur validitas faktor tersebut adalah dengan cara menghubungkan atau mengkorelasikan antara skor faktor (penjumlahan dari semua item dalam satu faktor) dengan skor total faktor (total keseluruhan dari faktor). Sedangkan pengukuran validitas item adalah dengan cara mengkorelasikan antara skor item dengan skor total dari semua item yang ada. Dengan uraian diatas, para pembaca pasti sudah memahami, bahwa sebenarnya uji validitas item adalah uji yang menilai apakah seperangkat soal yang terdiri dari beberapa item dapat mendukung seperangkat item soal sebagai satu kesatuan yang tunggal. Pada artikel lainnya kita telah membahas banyak perihal uji validitas, salah satunya adalah Tutorial Uji Validitas Instrumen dengan SPSS. Disini kami akan coba menerangkan apa, bagaimana dan rumus perhitungan uji validitas. Uji Validitas dilakukan untuk menilai apakah soal sudah valid atau tidak untuk sebuah penelitian yang sesungguhnya. Pada saat anda membaca paragraph awal artikel ini, anda jangan pergi kemana-mana dulu, sebab yang anda cari pasti ada disini. Namun dalam bahasan ini, kami lebih fokus kepada pengertian dan penjelasan tentang apa sebenarnya uji validitas dan manfaatnya. Berikut kami sampai dulu singkat saja perihal perbedaan antara uji validitas dan reliabilitas:



Uji Validitas dan Reliabilitas



Sebagian pembaca mungkin bertanya-tanya selama ini, apa sih perbedaan antara uji validitas dan reliabilitas? keduanya adalah dua hal yang benarbenar berbeda, namun saling melengkapi satu sama lain. Keduanya perlu dilakukan dengan tujuan agar alat ukur yang kita gunakan dapat menghasilkan data yang benar-benar dapat digunakan untuk menjawab permasalahan penelitian. Alat ukur yang seperti itu, haruslah memenuhi kriteria, yaitu valid dan reliabel. Valid berarti sahih atau tepat apa yang diukur sedangkan reliabel adalah handal, yaitu digunakan kapan saja dan dimana saja maka hasilnya tetaplah sama. Pada prakteknya, sebuah item soal dalam sebuah alat ukur haruslah valid terlebih dahulu, baru kemudian diuji kehandalannnya. Jadi dapat dimaknai, bahwa: soal yang valid belum tentu reliabel. Sedangkan soal yang reliabel, maka pastilah sudah valid. Demikian kiranya perbedaan uji validitas dan reliabilitas. Bagi anda yang ingin mencari referensi uji validitas butir, silahkan baca artikel kami yang berjudul: Tutorial Uji Validitas Instrumen dengan SPSS. Dalam artikel tersebut dijelaskan langkah demi langkah atau step by step tutorial melakukan analisis atau uji validitas butir, baik menggunakan pearson product moment ataupun corrected item to total correlation. Manfaat Uji Validitas Instrumen



Kegunaan uji validitas adalah untuk daya ketepatan mengukur:  



Segi tes sebagai suatu totalitas Segi item tes



Jenis Validitas Instrumen



Validitas Tes terbagi jadi 2:  



Logika Empirik.



Logika



Macam-Macam Logika:



 



Isi : untuk menguji apa tes ini representatif atau tidak (untuk sampel, populasi untuk penelitian) Konstruksi : diteliti dari segi susunan dan rekaan aspek: kognitif, afektif, dan psikomotor.



Empirik



(Didasarkan pada keadaan di lapangan) Macam-macam Empirik: 







Ramalan: suatu kondisi yang menunjukkan seberapa jauhkah sebuah tes telah dapat dengan secara tepat menunjukkan kemampuannya untuk meramalkan apa yang bakal terjadi pada masa mendatang. Contoh : penerimaan mahasiswa baru. Bandingan: tes tersebut dalam kurun waktu yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan searah antara tes yang pertama dan kedua (validitas sekarang/pengalaman).



Rumus Uji Validitas



Ada beberapa teknik atau rumus uji validitas yang dapat anda gunakan. Dibawah ini akan kami jelaskan beberapa diantaranya. Teknik pertama dan populer yang digunakan adalah teknik Korelasi Product Moment yang dikemukakan oleh Pearson. Rumus korelasi Product Moment ada 2 :  



Korelasi Product moment dengan Simpangan, Korelasi Product moment dengan angka kasar



Rumus Pearson dengan Simpangan Rumus Pearson dengan Angka Kasar



Persiapan Untuk Mencari Validitas Tes dengan Simpangan:



Dimasukkan ke rumus:



Persiapan Mencari Tes dengan kasar:



Untuk Validitas angka



Bila dilihat pada kedua hitungan diatas terdapat perbedaan 0,003 lebih besar pada simpangan ini wajar karena adanya pembulatan. Koefisien Korelasi Dalam Uji Validitas



Koefisien Korelasi adalah sebagai berikut:







Antara 0,800 sampai dengan 1,00 = sangat tinggi Antara 0,600 sampai dengan 0,800 = tinggi







Antara 0,400 sampai dengan 0,600 = cukup











Antara 0,200 sampai dengan 0,400 = rendah







Antara 0,00 sampai dengan 0,200 = sangat rendah



Korelasi positif menunjukkan adanya hubungan sejajar antara 2 hal: Misal: IPA



:2357432



Matematika : 4 5 6 8 5 4 3 Kondisi nilai Matematika sejajar dengan IPA karena naik dan turunnya nilai Matematika mengikuti naik dan turunnya nilai IPA. Korelasi Negatif menunjukkan adanya hubungan kebalikan antara dua hal: Bahasa Indonesia dengan Matematika Bahasa Indonesia : 5 6 8 4 3 2 Matematika



:875123



Koefisien korelasi terdapat antara -1,00 sampai +1,00. karena dalam perhitungan sering dilakukan pembulatan angka yang didapatkan 1,00 Penafsiran Harga Koefisien Korelasi Pearson Product Moment



Ada 2 cara yaitu :  



Dengan melihat harga r dan diinterprestasikan misalnya korelasi Tinggi, Cukup dan sebagainya. Dengan mengkonsultasikan ke tabel harga kritik r product moment sehingga dapat diketahui signifikan tidaknya korelasi tersebut. Jika harga r lebih kecil dari harga kritik dalam tabel, maka korelasi tersebut tidak signifikan. Begitu juga arti sebaliknya.



Tabel analisis item Untuk Perhitungan Uji Validitas Item atau validitas butir.



Untuk menghitung validitas item nomor 6, dibuat terlebih dahulu tabel



persiapannya sebagai berikut:



Dimasukkan ke Korelasi Product Moment dengan rumus angka kasar:



Contoh Hitung Uji Validitas Pearson Produk Momen



Koefisien validitas item nomor 6 adalah 0,421.Validitas items tersebut kurang meyakinkan, validitas tidak tinggi. Koefisien Korelasi Biserial



Apabila item memili skor 1 dan 0 saja, bisa menggunakan Koefisien Korelasi Biserial.



Responden No.3 memiliki skor total hanya 4, sedangkan No.2 dan No. 4 memiliki nilai yang sama yaitu 5. Rumus:



Keterangan : γpbi = koefisien korelasi biserial Mp = rerata skor dari subyek yang menjawab betul bagi item yang dicari validitasnya Mt = rerata skor total St = standar deviasi dari skor total p = proporsi siswa yang menjawab benar



Perh itung an Mp dari tiap butir soal 1 sd 10:



Menghitung korelasi rpbi



Demikian sudah dijelaskan secara singkat tentang tutorial uji validitas. Selanjutnya silahkan baca artikel kami yang berjudul Tutorial Uji Validitas Instrumen dengan SPSS, Semoga bermanfaat.



Keandalan dan Validitas Pengukuran Tujuan Pembelajaran Tentukan reliabilitas, termasuk berbagai jenis dan bagaimana penilaiannya. Tentukan validitas, termasuk tipe yang berbeda dan bagaimana penilaiannya. Jelaskan jenis-jenis bukti yang relevan untuk menilai reliabilitas dan validitas ukuran tertentu. Sekali lagi, pengukuran melibatkan penetapan skor kepada individu sehingga mereka mewakili beberapa karakteristik individu. Tapi bagaimana peneliti mengetahui bahwa skor sebenarnya mewakili karakteristik, terutama bila itu adalah konstruksi seperti kecerdasan, harga diri, depresi, atau



kapasitas memori kerja? Jawabannya adalah mereka melakukan penelitian menggunakan ukuran untuk memastikan bahwa skor masuk akal berdasarkan pemahaman mereka tentang konstruk yang diukur. Ini adalah poin yang sangat penting. Psikolog tidak hanya menganggap bahwa tindakan mereka berhasil. Sebagai gantinya, mereka mengumpulkan data untuk menunjukkan bahwa mereka bekerja. Jika penelitian mereka tidak menunjukkan bahwa sebuah tindakan berhasil, mereka berhenti menggunakannya. Sebagai contoh informal, bayangkan bahwa Anda telah berdiet selama sebulan. Pakaian Anda tampak pas lebih longgar, dan beberapa teman bertanya apakah Anda telah kehilangan berat badan. Jika pada saat ini skala kamar mandi Anda menunjukkan bahwa Anda telah kehilangan 10 pon, ini akan masuk akal dan Anda akan terus menggunakan skala. Tetapi jika itu menunjukkan bahwa Anda telah memperoleh 10 pon, Anda akan benar menyimpulkan bahwa itu rusak dan memperbaikinya atau menyingkirkannya. Dalam mengevaluasi metode pengukuran, psikolog mempertimbangkan dua dimensi umum: reliabilitas dan validitas. Keandalan Reliabilitas mengacu pada konsistensi suatu ukuran. Psikolog mempertimbangkan tiga jenis konsistensi: dari waktu ke waktu (reliabilitas test-retest), di seluruh item (konsistensi internal), dan di antara peneliti yang berbeda (keandalan antar-penilai). Test-Retest Reliability Ketika peneliti mengukur konstruk yang mereka anggap konsisten sepanjang waktu, maka skor yang mereka dapatkan juga harus konsisten sepanjang waktu. Test-retest reliability adalah sejauh mana sebenarnya ini terjadi. Misalnya, kecerdasan pada umumnya dianggap konsisten sepanjang waktu. Seseorang yang sangat cerdas saat ini akan sangat cerdas minggu depan. Ini berarti bahwa setiap ukuran kecerdasan yang baik harus menghasilkan skor yang kira-kira sama untuk individu minggu depan seperti sekarang. Jelas, ukuran yang menghasilkan nilai yang sangat tidak konsisten dari waktu ke waktu tidak bisa menjadi ukuran yang sangat baik dari sebuah konstruk yang seharusnya konsisten. Menilai reliabilitas test-retestasi memerlukan penggunaan ukuran pada sekelompok orang pada satu waktu, menggunakannya lagi pada kelompok orang yang sama di lain waktu, dan kemudian melihat korelasi uji coba ulang antara dua kelompok skor. Hal ini biasanya dilakukan dengan mengumpulkan data dalam scatterplot dan menghitung r Pearson. Gambar 5.2 menunjukkan korelasi antara dua set skor beberapa mahasiswa pada Skala Self-Esteem Rosenberg, yang diberikan dua kali, seminggu terpisah. R Pearson untuk data ini adalah +.95. Secara umum, korelasi tes-tes ulang sebesar +80 atau lebih besar dianggap menunjukkan reliabilitas yang baik. Gambar 5.2 Korelasi Tes-Retest Antara Dua Set Skor Beberapa Mahasiswa pada Skala Self-Esteem Rosenberg,



Diberikan Dua Kali Seminggu Lagi Gambar 5.2 Korelasi Tes-Retest Antara Dua Set Skor Beberapa Mahasiswa pada Skala Self-Esteem Rosenberg, Diberikan Dua Kali Seminggu Lagi Sekali lagi, korelasi tes ulang yang tinggi masuk akal saat konstruksinya diukur diasumsikan konsisten dari waktu ke waktu, yang merupakan kasus untuk kecerdasan, harga diri, dan dimensi kepribadian Lima Besar. Tapi konstruksi lainnya tidak diasumsikan stabil dari waktu ke waktu. Sifat mood, misalnya, adalah perubahannya. Jadi, ukuran mood yang menghasilkan korelasi uji coba rendah selama satu bulan tidak akan menjadi perhatian. Konsistensi internal Jenis keandalan kedua adalah konsistensi internal, yang merupakan konsistensi tanggapan orang-orang terhadap item pada ukuran beberapa item. Secara umum, semua item pada tindakan semacam itu seharusnya mencerminkan konsep dasar yang sama, sehingga nilai orang pada item tersebut harus berkorelasi satu sama lain. Pada Skala Self-Esteem Rosenberg, orang-orang yang setuju bahwa mereka adalah orang yang pantas harus cenderung setuju bahwa mereka memiliki sejumlah kualitas bagus. Jika tanggapan orang terhadap item yang berbeda tidak berkorelasi satu sama lain, maka tidak akan masuk akal lagi untuk mengklaim bahwa mereka semua mengukur konstruksi dasar yang sama. Ini sama berlaku untuk tindakan perilaku dan fisiologis seperti untuk mengukur laporan diri sendiri. Misalnya, orang mungkin membuat serangkaian taruhan dalam permainan simulasi roulette sebagai ukuran tingkat pencarian risiko mereka. Langkah ini akan konsisten secara internal sejauh taruhan para peserta secara konsisten tinggi atau rendah di seluruh percobaan.



Seperti reliabilitas uji coba, konsistensi internal hanya bisa dinilai dengan mengumpulkan dan menganalisis data. Salah satu pendekatannya adalah melihat korelasi separuh. Ini melibatkan pemisahan barang menjadi dua rangkaian, seperti bagian pertama dan kedua dari item atau item bernada genap dan ganjil. Kemudian skor dihitung untuk setiap rangkaian item, dan hubungan antara dua kelompok skor diperiksa. Sebagai contoh, Gambar 5.3 menunjukkan korelasi separuh antara beberapa nilai siswa universitas pada item genap dan skor mereka pada item bernomor ganjil dari Skala Harga Diri Rosenberg. R Pearson untuk data ini adalah +.88. Korelasi split-half sebesar +80 atau lebih umumnya dianggap konsistensi internal yang baik. Gambar 5.3 Korelasi Setengah-Setengah Antara Beberapa Nilai Siswa pada BarangBarang Bernomor Genap dan Nilai Mereka pada Item Ganjil-Nomor dari Skala Self-Esteem Rosenberg Gambar 5.3 Korelasi Setengah-Setengah Antara Beberapa Nilai Siswa pada Barang-Barang Bernomor Genap dan Nilai



Mereka pada Item Ganjil-Nomor dari Skala Self-Esteem Rosenberg Mungkin ukuran paling umum dari konsistensi internal yang digunakan oleh peneliti dalam psikologi adalah statistik yang disebut Cronbach's α (huruf Yunani alfa). Secara konseptual, α adalah mean dari semua korelasi split-half yang mungkin untuk satu set item. Sebagai contoh, ada 252 cara untuk membagi satu set dari 10 item menjadi dua set lima. Cronbach's α akan menjadi ratarata dari 252 split-half correlation. Perhatikan bahwa ini bukan bagaimana α sebenarnya dihitung, tetapi itu adalah cara yang benar untuk menafsirkan makna statistik ini. Sekali lagi, nilai +80 atau lebih besar umumnya diambil untuk menunjukkan konsistensi internal yang baik. Keandalan antar Banyak tindakan perilaku melibatkan penilaian yang signifikan dari pengamat atau penilai. Keandalan antar-penilai adalah sejauh mana pengamat yang berbeda konsisten dalam penilaian mereka. Misalnya, jika Anda tertarik untuk mengukur kemampuan sosial siswa, Anda bisa membuat rekaman video mereka saat mereka berinteraksi dengan siswa lain yang mereka temui untuk pertama kalinya. Kemudian Anda bisa memiliki dua atau lebih pengamat menonton video dan menilai tingkat keterampilan sosial setiap siswa. Sejauh mana setiap peserta sebenarnya memiliki beberapa tingkat keterampilan sosial yang dapat dideteksi oleh pengamat yang penuh perhatian, peringkat pengamat yang berbeda harus sangat berkorelasi satu sama lain. Keandalan antar-penilai juga akan diukur dalam studi boneka Bobo Bandura. Dalam hal ini, peringkat pengamat tentang berapa banyak tindakan agresi yang dilakukan seorang anak tertentu saat bermain dengan boneka Bobo seharusnya memiliki korelasi yang sangat positif. Keandalan antaratri sering dinilai menggunakan α Cronbach ketika penilaiannya bersifat kuantitatif atau statistik analog yang disebut Cohen's κ (huruf Yunani kappa) saat mereka kategoris. Keabsahan Validitas adalah sejauh mana skor dari suatu ukuran mewakili variabel yang dimaksudkannya. Tapi bagaimana peneliti membuat penilaian ini? Kami telah mempertimbangkan satu faktor yang mereka perhitungkan-keandalannya. Ketika sebuah pengukuran memiliki reliabilitas tes ulang yang baik dan konsistensi internal, peneliti harus lebih yakin bahwa skor tersebut mewakili apa yang seharusnya mereka lakukan. Harus ada lebih dari itu, karena ukuran bisa sangat diandalkan tetapi tidak memiliki validitas apa pun. Sebagai contoh yang absurd, bayangkan seseorang yang percaya bahwa panjang jari telunjuk orang mencerminkan harga diri mereka dan oleh karena itu mencoba mengukur harga diri dengan memegang penggaris hingga jari telunjuk orang-orang. Meskipun ukuran ini akan memiliki reliabilitas tes-tes ulang yang sangat baik, itu sama sekali tidak memiliki validitas. Fakta bahwa jari telunjuk satu orang lebih panjang sentimeter daripada orang lain



tidak akan menunjukkan apa-apa tentang mana yang memiliki harga diri yang lebih tinggi. Diskusi tentang validitas biasanya membaginya menjadi beberapa jenis "yang berbeda." Tetapi cara yang baik untuk menafsirkan jenis ini adalah bahwa itu adalah jenis bukti lainnya-selain reliabilitas-yang harus diperhitungkan saat menilai validitas suatu tindakan. Di sini kami mempertimbangkan tiga jenis dasar: validitas wajah, validitas isi, dan validitas kriteria. Validitas wajah Validitas wajah adalah sejauh mana metode pengukuran muncul "di wajahnya" untuk mengukur konstruk yang menarik. Kebanyakan orang akan mengharapkan kuesioner harga diri untuk memasukkan barang-barang tentang apakah mereka memandang diri mereka sebagai orang yang berharga dan apakah mereka menganggap mereka memiliki kualitas bagus. Jadi kuesioner yang menyertakan jenis barang ini akan memiliki keabsahan wajah yang baik. Metode penentuan harga selfesteem jari-jari, di sisi lain, tampaknya tidak ada kaitannya dengan harga diri dan karena itu memiliki validitas wajah yang buruk. Meskipun validitas wajah dapat dinilai secara kuantitatif - misalnya, dengan memiliki sampel orang yang besar mengukur suatu ukuran baik dalam hal apakah tampaknya mengukur apa yang dimaksudkannya - biasanya dinilai secara informal. Validitas wajah paling baik merupakan bukti yang sangat lemah bahwa metode pengukuran mengukur apa yang seharusnya dilakukan. Salah satu alasannya adalah bahwa hal itu didasarkan pada intuisi orang-orang tentang perilaku manusia, yang seringkali salah. Ini juga kasus bahwa banyak ukuran yang ditetapkan dalam psikologi bekerja cukup baik meskipun tidak memiliki validitas wajah. Inventori Kepribadian Multiphasic Minnesota-2 (MMPI-2) mengukur banyak karakteristik dan gangguan kepribadian dengan meminta orang memutuskan apakah masing-masing dari 567 pernyataan berbeda berlaku untuk mereka-di mana banyak pernyataan tidak memiliki hubungan yang jelas dengan konstruk yang mereka ukur . Misalnya, item "Saya menikmati cerita detektif atau misteri" dan "Pemandangan darah tidak membuat saya takut atau membuat saya sakit" keduanya mengukur penindasan agresi. Dalam hal ini, itu bukan jawaban literal peserta untuk pertanyaan-pertanyaan yang menarik ini, tetapi lebih kepada apakah pola tanggapan para peserta terhadap serangkaian pertanyaan sesuai dengan individu yang cenderung untuk menekan agresi mereka. Validitas konten Validitas isi adalah sejauh mana ukuran "mencakup" konstruk kepentingan. Sebagai contoh, jika seorang peneliti secara konseptual mendefinisikan kegelisahan tes sebagai melibatkan kedua aktivasi sistem saraf simpatik (yang mengarah ke perasaan gugup) dan pikiran negatif, maka ukuran



kecemasan tesnya harus mencakup item tentang perasaan gugup dan pikiran negatif. Atau pertimbangkan bahwa sikap biasanya didefinisikan sebagai melibatkan pikiran, perasaan, dan tindakan terhadap sesuatu. Dengan definisi konseptual ini, seseorang memiliki sikap positif terhadap olahraga sejauh memikirkan pemikiran positif tentang berolahraga, merasa senang berolahraga, dan benar-benar latihan. Jadi untuk memiliki validitas konten yang baik, ukuran sikap orang-orang terhadap olahraga harus mencerminkan ketiga aspek ini. Seperti keabsahan wajah, validitas isi biasanya tidak dinilai secara kuantitatif. Sebaliknya, ini dinilai dengan hati-hati memeriksa metode pengukuran terhadap definisi konseptual dari konstruk. Kriteria Validitas Validitas kriteria adalah sejauh mana skor orang pada ukuran berkorelasi dengan variabel lain (dikenal sebagai kriteria) yang diharapkan orang berkorelasi dengannya. Misalnya, skor orang pada ukuran baru kecemasan tes harus berkorelasi negatif dengan kinerja mereka dalam ujian sekolah yang penting. Jika ditemukan bahwa nilai orang ternyata berkorelasi negatif dengan kinerja ujian mereka, maka ini akan menjadi bukti bahwa skor ini benar-benar mewakili kecemasan tes orang. Tetapi jika ditemukan bahwa orang mencetak skor yang sama baiknya dalam ujian terlepas dari skor kecemasan tes mereka, maka ini akan meragukan validitas ukurannya. Kriteria dapat berupa variabel apa pun yang dipikirkan seseorang harus berkorelasi dengan konstruk yang diukur, dan biasanya akan ada banyak dari mereka. Sebagai contoh, seseorang akan memperkirakan bahwa skor kecemasan tes berkorelasi negatif dengan kinerja ujian dan nilai pelajaran dan berkorelasi positif dengan kegelisahan umum dan dengan tekanan darah selama ujian. Atau bayangkan bahwa seorang peneliti mengembangkan ukuran baru pengambilan risiko fisik. Nilai orang pada ukuran ini harus dikorelasikan dengan partisipasi mereka dalam kegiatan "ekstrem" seperti snowboarding dan panjat tebing, jumlah tiket ngebut yang mereka terima, dan bahkan jumlah tulang patah yang mereka miliki selama ini. Bila kriteria diukur pada saat yang sama dengan konstruk, validitas kriteria disebut sebagai validitas konkuren; Namun, ketika kriteria diukur pada beberapa titik di masa depan (setelah konstruk telah diukur), itu disebut sebagai validitas prediktif (karena skor pada ukuran telah "memprediksi" hasil masa depan). Kriteria juga dapat memasukkan ukuran lain dari konstruk yang sama. Misalnya, orang akan mengharapkan langkah baru untuk menguji kecemasan atau pengambilan risiko fisik berkorelasi positif dengan ukuran yang ada dari konstruksi yang sama. Ini dikenal sebagai validitas konvergen. Menilai validitas konvergen membutuhkan pengumpulan data menggunakan ukuran. Periset John Cacioppo dan Richard Petty melakukan ini saat mereka membuat laporan



mereka sendiri untuk Skala Kognisi untuk mengukur seberapa banyak orang menghargai dan terlibat dalam pemikiran (Cacioppo & Petty, 1982) [1]. Dalam serangkaian penelitian, mereka menunjukkan bahwa nilai orang berkorelasi positif dengan nilai mereka pada tes prestasi akademik standar, dan nilai mereka berkorelasi negatif dengan nilai mereka pada ukuran dogmatisme (yang merupakan kecenderungan untuk ketaatan). Pada tahun-tahun sejak diciptakan, Need for Cognition Scale telah digunakan dalam ratusan penelitian dan telah terbukti berkorelasi dengan beragam variabel lainnya, termasuk keefektifan sebuah iklan, ketertarikan pada politik, dan keputusan juri. (Petty, Briñol, Loersch, & McCaslin, 2009) [2]. Validitas Diskriminan Validitas diskriminan, di sisi lain, adalah sejauh mana skor pada ukuran tidak berkorelasi dengan ukuran variabel yang secara konseptual berbeda. Misalnya, harga diri adalah sikap umum terhadap diri sendiri yang cukup stabil dari waktu ke waktu. Ini tidak sama dengan suasana hati, yang adalah seberapa baik atau buruk yang dirasakan seseorang saat ini. Jadi, skor orang pada ukuran baru harga diri tidak boleh sangat berkorelasi dengan suasana hati mereka. Jika ukuran baru harga diri sangat berkorelasi dengan ukuran mood, dapat dikatakan bahwa ukuran baru tersebut tidak benar-benar mengukur harga diri; itu mengukur mood sebagai gantinya. Ketika mereka menciptakan Need for Cognition Scale, Cacioppo and Petty juga memberikan bukti validitas diskriminan dengan menunjukkan bahwa nilai orang tidak berkorelasi dengan variabel lain. Misalnya, mereka hanya menemukan korelasi yang lemah antara kebutuhan akan kognisi dan ukuran gaya kognitif mereka - sejauh mana mereka cenderung berpikir secara analitis dengan memecahkan gagasan menjadi bagian-bagian yang lebih kecil atau secara holistik dalam kaitannya dengan "gambaran besarnya." Mereka juga tidak menemukan korelasi antara kebutuhan orang akan kognisi dan ukuran kecemasan tes mereka dan kecenderungan mereka untuk merespons dengan cara yang diinginkan secara sosial. Semua korelasi rendah ini memberikan bukti bahwa ukuran tersebut mencerminkan konstruksi yang secara konseptual berbeda. Kunci takeaways Peneliti psikologi tidak hanya menganggap bahwa tindakan mereka berhasil. Sebaliknya, mereka melakukan penelitian untuk menunjukkan bahwa mereka bekerja. Jika mereka tidak dapat menunjukkan bahwa mereka bekerja, mereka berhenti menggunakannya. Ada dua kriteria yang berbeda dimana peneliti mengevaluasi tindakan mereka: reliabilitas dan validitas. Reliabilitas adalah konsistensi sepanjang waktu (reliabilitas test-retest), di seluruh item (konsistensi internal), dan seluruh peneliti (interrater reliability). Validitas



adalah sejauh mana skor sebenarnya mewakili variabel yang dimaksudkannya. Validitas adalah penghakiman berdasarkan berbagai jenis bukti. Bukti yang relevan mencakup reliabilitas ukur, apakah itu mencakup konstruk kepentingan, dan apakah skor yang dihasilkannya berkorelasi dengan variabel lain, mereka diharapkan berkorelasi dan tidak berkorelasi dengan variabel yang secara konseptual berbeda. Keandalan dan keabsahan suatu ukuran tidak ditetapkan oleh studi tunggal manapun, melainkan oleh pola hasil di beberapa penelitian. Penilaian reliabilitas dan validitas merupakan proses yang berkelanjutan. Latihan Berlatihlah: Minta beberapa teman untuk melengkapi Skala Harga Diri Rosenberg. Kemudian kaji konsistensi internal dengan membuat scatterplot untuk menunjukkan korelasi separuh-setengah (bahkan - item ganjil-ganjil). Hitung juga Pearson jika Anda tahu caranya. Diskusi: Pikirkan kembali ujian kuliah terakhir yang Anda ambil dan pikirkan ujian sebagai tindakan psikologis. Konstruksi apa yang menurut Anda dimaksudkan untuk mengukur? Beri komentar pada wajah dan validitas kontennya. Data apa yang bisa Anda kumpulkan untuk menilai reliabilitas dan validitas kriteria? Cacioppo, J. T., & Petty, R. E. (1982). Kebutuhan kognisi. Jurnal Kepribadian dan Psikologi Sosial, 42, 116-131. ↵ Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). Kebutuhan kognisi. Dalam M. R. Leary & R. H. Hoyle (Eds.), Buku Pegangan tentang perbedaan individu dalam perilaku sosial (hlm. 318-329). New York, NY: Guilford Press. ↵



Instrument evaluasi dapat dibagi menjadi tiga kelompok, yaitu instrumen evaluasi hasil belajar kognitif, instrumen evaluasi hasil belajar efektif, instrumen evaluasi hasil belajar psikomotor. Instrumen evaluasi untuk ketiga hasil belajar tersebut perlu dianalisis sebelum dan sesudah digunakan yang tujuannya agar dapat dihasilkan instrument evaluasi yang memiliki kualitas tinggi. Pada uraian berikut akan dibahas teknik analisis kualitas instrument secara berurutan mulai kualitas instrument evaluasi hasil belajar koknitif, instrument evaluasi hasil belajar afektif dan instrument hasil belajar psikomotor. 1.



Analisis Kualitas Instrumen Evaluasi Hasil Kognitif



Pada umumnya hasil belajar kognitif dinilai dengan tes. Tes dalam bentuk butir – butir soal sebelum digunakan hendaknya dianalisis terlebih dahulu agar memenuhi syarat sebagai alat evaluasi yang memiliki kualitas tinggi.



Cara menganalisis butir – butir tes tersebut dapat ditempuh melalui dua cara, yaitu: 1.



Analisis Tes Secara Teoritik Atau Analisis Kualitatif



Analisis secara teoritis atau analisis kualitatif dapat dilakukan sebelum maupun setelah dilaksanakan uji coba. Cara analisisnya adalah dengan cara mencermati butir – butir soal yang telah disusun dilihat dari: kesesuaian dengan kompetensi dasar dan indikator yang diukur serta pemenuhan persyaratan baik dari ranah materi, konstruksi dan bahasa. Butir – butir soal yang akan di analisis dapat berupa butir soal bentuk uraian, butir soal bentuk melengkapi,dan butir soal bentuk pilihan ganda (multiple choice). 1.



Analisis Tes Secara Kuantitatif



Analisis ter secara kuantitatif diarahkan untuk menelaah tingkat validitas soal, reliabilitas, daya pembeda, tingkat kesukaran, dan khusus untuk model atau tipe soal pilihan ganda perlu juga ditelaah efektifitas fungsi distraktor.



a)



Analisis validitas tes



Validitas (validity, kesahihan) berkaitan dengan permasalahan apakah tes yang dimaksudkan untuk mengukur sesuatu itu memang dapat mengukur secara tepat sesuatu yang akan dikur tersebut. [1]Secara singkat dapat dikatakan bahwa validitas tes mempersoalkan apakah tes itu dapat mengukur apa yang akan diukur. Misalnya, jika tes itu dimaksudkan untuk mengukur tingkat kognitif atau ingatan tentang macam – macam rukun iman, memang secara tepat dapat untuk mengukur kemampuan itu, bukan pengetahuan yang lain, misalnya penjelasan tentang pengertian iman. Jika tes itu dimaksudkan untuk menanyakan kemampuan menganalisis sebab – sebab suatu kaum diberi azab oleh Allah (kognitif tingkat analisis), tes itu memang mampu untuk mengungkapkan kemampuan itu, dan bukan kemampuan – kemampuan yang lain yang menyebabkan bias. Analisia validitas tes dapat dilakukan dari dua segi, yaitu: dari segi tes sebagai suatu totalitas dan dari segi itemnya, sebagai bagian tak terpisahkan dari tes secara totalitas. Macam – macam analisis validitas tes dapat digambarkan sebagai berikut:



Validitas Isi



(Content Validity)



Validitas Teoritis



(Rasional)



Validitas Konstruk



(Construct Validity)



Tes Totalitas



Validitas Ramalan



(Predictive Validity)



Validitas Tes



Validitas Empirik



Validitas Bandingan



Butir Soal



1)



(Concurrent Validity)



Analisis validitas tes secara totalitas



Analisis validitas tes secara totalitas maksudnya adalah analisis validitas tes secara keseluruhan. Missal tes terdiri dari 50 butir soal, sehingga yang dianalisis adalah keseluruhan dari 50 butir soal tersebut. Analisis validitas tes secara totalitas secara garis besar dapat dibedakan kadalam dua kategori, yaitu validitas teoritis (rasional) dan validitas empirik. Validitas teoritis (rasional) adalah validitas yang dalam pertimbangannya dilakukan dengan cara analisis rasional, sedangkan validitas empiric adalah validitas yang dalam pertimbangannya dilakukan dengan cara menganalisis data data empirik. Artinya untuk melakukan analisis jenis validitas empiric memerlukan data – data dari lapangan yang merupakan hasil dari uji coba yang berwujud data kuantitatif dan untuk keperluan analisis validitas itu diperlukan jasa statistik.



Jenis validitas yang termasuk kategori dalam validitas teoritis (rasional) adalah validitas isi (content validity) dan validitas konstruk (construct validity), sedangkan yang termasuk kategori dalam validitas empirik adalah validitas bandingan (concurrent validity) dan validitas ramalan (predictive validity)



1.



Validitas teoritis (rasional) 1. Validitas isi



Validitas isi adalah validitas yang mempertannyakan bagaimana kesesuaian antara butir – butir soal dalam tes dengan deskripsi bahan yang diajarkan. Jadi sebuah soal dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering juga disebut validitas kurikuler.[2] Validitas isi dapat diusahakan terciptanya sejak saat penyusunan dengan cara memerinci materi kurikulum atau materi buku pelajaran. Dalam menganalisisnya dilakukan dengan menggunakan analisis rasional. Cara yang bisa ditempuh dalam penyusunan tes adalah dengan menyusun kisi – kisi soal. Setelah kisi – kisi disusun, penulisan butir soal haruslah bardasarkan kisi – kisi yang telah disusun tersebut. Pada kisi – kisi itu paling tidak harus terdapat aspek kompetensi dasar, bahan atau diskripsi bahan, indikator, dan jumlah pertannyaan perindikator. Sebelum kisi – kisi dijadikan pedoman dalam penyusunan butir – butir soal, terlebih dahulu haruslah ditelaah dan dinyatakan baik. Setelah butir – butir pertannyaan disusun, maka butir – butir pertanyaan juga harus ditelaah dengan menggunakan kriteri tertentu disamping disesuaikan dengan kisi – kisi. Penelaahan harus dilakukan oleh orang yang berkompeten dalam bidang yang bersangkutan, atau yang dikenal dengan istilah penilaian oleh ahlinya (exoert judgement). 1.



Validitas konstruk



Validitas konstruk mempertanyakan apakah butir – butir soal dalam tes itu telah sesuai dengan tingkatan kompetensi atau ranah yang ada yang sesuai dengan tuntutan dalam kurikulum. [3] Analisis validitas konstruk, suatu tes dapat dilakukan dengan cara melakukan pencocokan antara kemampuan berfikir yang tercantum dalam setiap rumusan indikator yang akan diukur. Dengan demikian kegiatan analisis validitas konstruk ini dilakukan secara rasional, dengan berfikir kritis atau menggunakan logika. Disamping itu, sebagaimana halnya, dalam validitas isi, cara analisis dapat pula dilakukan dengan melakukan diskusi dengan orang yang ahli di bidang yang bersangkutan.dengan kata lain uji validitas konstruk dilakukan dengan cara expert judgement.



Uji validitas konstruk juga bisa dilakukan lewat program computer, yaitu dengan menggunakan analisis faktor. Jika cara ini yang dipakai, uji faliditas tersebut harus berdasarkan data – data empiric. Hal ini berarti alat tes tersebut harus diuji cobakan terlebih dahulu, dan data – data hasil uji coba itulah yang kemudian dianalisis dengan computer. 1.



Validitas empirik 1. Validitas ramalan



Meramal artinya memprediksikan mengenai suatu hal yang akan terjadi pada masa yang akan datang, yang saat ini belum terjadi. Sebuah tes dikatakan memiliki validitas ramalan atau prediksi apabila memiliki kemampuan untuk meramalkan apa yang akan terjadi dimasa yang akan datang.[4] Analisis validitas ramalan tes tersebut dilakukan dengan cara mengkorelasikan antara nilai tes tersebut dengan kriteri atau tolok ukur, misalnya, tes masuk ujian SLTA. Tes ujian masuk SLTA memiliki validitas ramalan yang baik jika memiliki kesesuaian atau kesejajaran arah antara tes yang sedang duselidiki atau di uji validitasnya, dengan criteria yang ada. Dengan kata lain terdapat hubungan searah yang sangat erat antara tes yang sedang di uji validitasnya dengan criteria yang telah ditentukan. Karena nilai – nilai tes hasil ujian seleksi itu berjalan searah atau sejajar dengan nilai – nilai tes hasil belajar di SLTA, maka hubungan antara kedua variable tersebut adalah termasuk kedalam kategori hubungan searah, yang dalam ilmu statistic dikenal dengan istilah korelasi positif.



Cara yang biasa digunakan untuk mencari dalam rangka ujian validitas ramalan ini adalah dengan menggunaka teknik analisis korelasional product moment dari Karl Pearson.[5] Prosedur untuk melakukan uji validitas tes adalah sebagai berikut:



(1)



Melakukan komputasi atau perhitungan metematis untuk mencari harga koefisien r Product



Moment dengan rumus:



Adapun langkah langkah perhitungannya adalah:



(a)



Menyiapkan table perhitungan untuk mencari nilai �Y, �Y, , , dan ��Y.



(b)



Menghitung harga r Product Moment dengan rumus:



(2)



Memberikan interprestasi terhadap harga koefisien product moment.



Ada dua cara dalam interprestasi ini, yaitu: 1.



Melihat harga r hitung den kemudian dikonsultasikan dengan patokan berikut: Nilai r



Kategori



0,80 – 1,00



Sangat Tinggi



0,60 – 0,79



Tinggi



0,40 – 0,39



Cukup



0,20 – 0,38



Rendah



0,00 – 0,19



Sangat Rendah



1. Memilih harga r hitung dan kemudian di konsultasikan dengan harga r tabel Product Moment



2.



dengan criteria apabila harga r hitung sama dengan atau lebih besar dengan harga r tabel berarti ada korelasi antara variabel X dengan variabel Y yang berarti tes yang kita analisis memiliki validitas. Untuk melihat harga r tabel perlu dicari terlebih dahulu derajat kebabasan (degree of freedom) atau singkatan df dengan rumus: df= N – nr, dimana N adalah banyaknya peserta tes (testee) dan nr adalah banyaknya variabel yang dikorelasikan. Validitas bandingan



Validitas bandingan disebut juga dengan istilah validitas sama saat, validitas ada sekarang atau validitas pengalaman. Sebuah tes dikatakan memiliki validitas pengalaman jika hasilnya sesuai dengan pengalaman. Dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu berdasarkan pada hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada (ada sekarang, concurrent).[6] Dalam rangka menguji validitas pengalaman atau bandingan, data hasil tes yang diperoleh sekarang kita bandingkan dengan data yang mencerminkan pengalaman yang diperoleh masa lampau itu. Jika hasil tes sekarang mempunyai hubungan searah dengan hasil tes berdasarkan pengalaman yang lalu, maka tes tersebut dapat dikatakan telah memiliki validitas bandingan atau pengalaman.



Cara melakukan analisis validitas bandingan atau pengamalan ini adalah sama seperti pada analisis validitas ramalan yaitu dengan mengorelasikan hasil yang sekarang dengan hasil tes yang terdahulu. Hasil tes yang sekarang menjadi variable X dan hasil tes yang dahulu menjadi variable Y. teknik hasil uji korelasinya juga menggunakan hasil korelasi product moment.



2)



Analisis Validitas Butir Soal



Yang dimaksud dengan validitas butir soal adalah ketepatan mengukur yang dimiliki oleh sebutir soal, yang merupakan bagian tak terpisahkan dari tes sebagai suatu totalitas, dalam mengukur apa yang seharusnya diukur lewat butir soal tersebut.[7] Cara untuk menganalisis adalah dengan mengkorelasikan antara skor tiap – tiap soal yang dicapai oleh masing – masing testee dengan skor total. Sebutir soal dapat dikatakan telah memiliki validitas



yang tinggi atau dapat dinyatakan valid jika skor – skor pada butir soal yang bersangkutan memiliki kesesuaian atau kesejajaran arah dengan skor total atau dengan bahasa statistik ada korelasi positif yang signifikan antara skor butir soal dengan skor totalnya. Skor total disini berkedudukan sebagai variable terikat (dependent variable) sedangkan skor butir soal berkedudukan sebagai variable bebasnya (independent variable). Jika demikian, maka untuk sampai pada kesimpulan bahwa butir – butir soal yang ingin diketahui validitasnya, yaitu valid ataukah tidak, kita dapat menggunakan teknik korelasi sebagai teknik analisisnya. Sebutir soal dapat dikatakan valid apabila skor butir soal yang bersangkutan terbukti mempunyai korelasi positif yang signifikan dengan skor totalnya.



Teknik korelasi yang dipandang tepat untuk digunakan dalam analisis validitas butir soal ini adalah dengan rumus korelasi Point Bisserial. Hal ini melihat karena jenis data yang akan dianalisis adalah data diskret murni atau data dikhotomik dan data kontinyu.



Indeks korelasi Point Bisserial dibrti lambing , rumus korelasinya adalah sebagai berikut:



Keterangan:



: koefisien korelasi point bisserial yang melambangkan kekuatan korelasi antara variabel I dengan variabel II, yang dalam hal ini dianggap sebagai koefisien validitas butir soal.



: skor rata – rata hitung yang dimiliki testee, untuk butir soal yang bersangkutan telah dijawab dengan betul.



: skor rata – rata dari skor total.



: deviasi standar dari skor total.



: proporsi testee yang menjawab betul terhadap butir soal yang di analisis validitasnya.



: proporsi testee yang menjawab salah terhadap butir soal yang di analisis validitasnya.



Langkah – langkah untuk melakukan analisis validitas butir soal adalah sebagai berikut:



(1)



Menyiapkan tabel perhitungan korelasi poin bisserial.



(2)



Mencari mean atau rata – rata hitung deri skor total ( dengan rumus:



(3)



Mencari deviasi standar total (, dengan rumus:



(4)



Mencari atau menghitung untuk butir soal yang dianalisis validitasnya.



(5)



Menghitung korelasi point bisserialnya ().



(6)



Member interprestasi. Untuk memberikan interprestasi kida dapat berkonsultasi dengan harga r



tabel Product Moment dengan terlebih dahulu mencari df (derajad kebebasan), yaitu dengan cara df = N – nr.



b)



Analisis reliabilitas tes



Salah satu syarat tes sebagai salah satu instrumen evaluasi adalah memiliki reliabilitas yang tinggi. Tes yang memiliki reliable reabilitas tes atau keajegan, ketetapan berhungan dengan masalah kepercayaan. Suatu tes akan menghasilkan kepercayaan yang tiggi apabila tes tersebut dapat memberikan hasil yang tetap. Jika hasilnya berubah – ubah, perubahan yeng terjadi dapat dikatakan tidak berarti.



Hubungan validitas dengan reliabilitas dapat dijelaskan sebagai berikut:



 



Validitas itu penting, sedangkan reliabilitas itu perlu, karena reliabilitas itu menyokong validitas. Tes yang valid umumnya reliabel, tetapi tes yang reliabel belum tentu valid.



Untuk memper oleh tes yang memiliki reliabilitas (keajegan) itu memang tidak mudah, karena unsure kejiwaan manusia sendiri yang menjadi objek pengukuran tidak ajeg. Misalnya: kemampuan hasil belajar, kecakapan, sikap dan sebagainya itu semua bisa berubah ubah dari waktu ke waktu.



Hal hal yang mempengaruhi reliabilitas hasil tes:



 



Hal – hal yang berhubungan dengan tes itu sendiri, seperti panjang tes dan kualitas butir – butir tes. Semakin panjang dan semakin baik kualitasnya maka akan semakin tinggi tingkat reliabilitasnya. Hal – hal yang berkaitan dengan testee (peserta tes). Tes yang dikenakan kepada kelompok yang tidak terpilih atau ditentukan secara acak biasanya reliabilitasnya lebih besar dibandingan yang dikenakan kepada kelompok testee yang terpilih seperti pada kelompok anak yang pandai – pandai saja.



v Jenis Analisis Reliabilitas Tes 1.



Analisis reliabilitas tes bentuk uraian (essay)



Analisis reliabilitas tes bentuk uraian umumnya menggunakan rumus Alpha dari Cronbach, karena model scoring soal bentuk uraian ini bukan model dikotomik, kalau benar bernilai satu dan jika salah bernilai 0, tetapi sekoringnya lebih bersifat kontinum (rentangan angka, misalnya 0 – 5 atau 0 – 10, dan sebagainya).



Adapun rumus Alphanya adalah:



Keterangan:



: koefisien reliabilitas tes.



: banyaknya butir soal yang dikeluarkan dalam tes.



1



: bilangan kostan (menjadi kesepakatan)



: jumlah varian skor dari tiap tiap butir soal.



: Varian total



Langkah – langkah untuk melakukan analisis:



1)



Menjumlahkan masing – masing soal yang dicapai semua testee () dan mencari skor total yang



dicapai masing – masing testee () dan mengkuadratkan skor skor total tersebut ().



2)



Menghitung jumlah kuadrat skor masing – masing butir soal (disingkat atau ).



3)



Menghitung varian dari masing – masing butir soal (item).



4)



Menghitung jumlah varian skor butir soal secara keseluruhan.



5)



Menghitung varian total () dengan rumus:



6)



Menghitung koefisien reliabilitas tes dengan menggunakan rumus Alpha di atas.



7)



Memberikan interpretasi terhadap harga koefisien reabilitas tes, dengan menggunakan patokan



sebagai berikut:



1. Apabila sama dengan atau lebih besar dari 0,70 berarti tes hasil belajar yang sedang diuji 2. 1.



reliabilitasnya dinyatakan telah memiliki reliabilitas yang tinggi (reliable). Apabila lebih kecil dari pada 0,70 berarti tes hasil belajar yang sedang diuji raliabilitasnya dinyatakan belim memiliki reliabilitas yang tinggi (unreliable). Analisis reliabilitas tes bentuk objektif



Penentuan reliabilitas tes bentuk objektif dapat dilakukan melalui salah satu dari pendekatan, yaitu pendekatan tes ulang (tes – retest), pendekatan tes sejajar (alternate – forms), dan pendekatan konsisten internal (internal consistency). 1.



Pendekatan tes ulang



Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien reliabilitas yang sering disebut sebagai koefisien stabilitas. Prinsip penentuan reliabilitas tes dengan mengenakan satu buah tes yang dilakukan dua kali dengan tenggang waktu tertentu, terhadap sekelompok subjek yang sama.[8] Pndktan ini jga disebut dengan istilah single test – double trial method. Penentuan koefisien reliabilitas pada pendekatan ini dilakukan dengan jalan mengorelasikan skor hasil pelaksanaan tes pertama dengan skor hasil pelaksanaan tes yang kedua. Teknik korelasi yang dapat digunakan adalah teknik korelasi Product Moment dari Karl Pearson.



Kelemahan pendekatan tes ulang adalah kurang praktisnya pengenaan tes dua kali dan besarnya kemungkinan terbawa efek bawaan (carry – effects) dari satu pengenaan tes ke pengenaan yang kedua. 1.



Pendekatan tes sejajar



Pendekatan tes sejajar hanya dapat dilakukan apabila tersedia dua bentuk tes yang dapat dianggap memenuhi asumsi parallel. Salah satu indikator terpenuhinya asumsi parallel adalah setaranya korelasi antara skor kedua instrumen tersebut dengan skor suatu ukuran lain.



Tentu saja untuk mendapatkan paralel kedua bentuk instrument harus disusun dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue print (pola rancangan) yang sama serta spesifikasi yang sama pula.



Penentu koefisien reliabilitas pada pendekatan ini sama seperti pada pendekatan tes ulang, yaitu dilakukan dengan cara mengkorelasikan skor hasil tes pertama dengan skor hasil tes yang kedua. Teknik korelasi yang dapat digunakan adalah teknik korelasi Product Moment dari Karl Pearson.



Kelemahan utama pada pendekatan ini terletak pada sulitnya menyusun dua alat ukur yang memenuhi persyaratan paralel atau sejajar. Di samping itu pendekatan ini juga tidak menghilangkan sama sekali kemungkinan terjadinya efek bawaan. 1.



Pendekatan konsistensi internal



Estimasi reliabilitas dengan pendekatan konsistensi internal didasarkan pada data sekali penggunaan satu bentuk tes pada sekelompok subjek (single trial administration).



Penentuan koefisiensi reliabilitas dilakukan setelah keseluruhan instrumen yang telah dikenakan pada subjek itu dibagi menjadi beberapa bagian. Suatu instrumen dapat dibagi menjadi dua, tiga, atau empat bagian dan bahkan dapat dibagi menjadi sebanyak jumlah item – itemnya. Bentuk dan sifat alat ukur serta banyaknya bagian yang dibuat akan menentukan teknik perhitungan koefisien reliabilitasnya. 1.



Analisis reliabilitas tes dengan menggunakan computer (program SPSS)



Langkah – langkah analisis dengan program SPSS adalah sebagai berikut: 1. 2. 3.



4. 5.



c)



Membuka program SPSS dengan langkah: klik start, klik program, klik SPSS 11.5 for windows. Memasukkan data (in put data) pada kolom – kolom yang tersedia dengan mengetikkannya satu persatu, atau di copy paste lewat data yang telah masuk dalam program excel. Menghitung koefisiensi reliabilitas dengan langkah: klik analyze, klik scale, dan kli reability analysis. Maka akan muncul suatu lembar kerja, lalu pindahkan variable yang akan di analisis dari kolom di sebelah kiri dan kolom sebelah kanan dengan mengklik tanda panah kecil. Selanjutnya pilih formula yang tepat sesuai dengan jenis data kita, formula Alpha dan terakhir klik ok. Maka kemudian akan muncul hasil dari koefisien relianilitas. Memberikan inspretasi dengan cara yang sama dengan menggunakan hitungan manual yaitu dikatakan telah reliabel jika hasil hitungannya sama dengan atau lebih besar dari 0,70. Hasil hitungan tersebut diperoleh dari koefisien reliabilitas Alpha sebesar 0,3405 dan berada di bawah 0,70. Maka dapat disimpulkan bahwa tes tersebut belum reliabilitas. Analisis tingkat kesukaran soal



Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini biasanya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Semakin besar indeks tingkat kesukaranyang diperoleh dari hasil perhitungan, maka semakin mudah soal itu. Perhitungan indeks



tingkat kesukaran ini dilakukan untuk setiap nomor butir soal. Pada prinsipnya skor rata – rata yang diperoleh testee pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal.



Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya dikaitkan dengan ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang. Sedangkan untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi atau sukar, dan untuk keperluan diagnosis biasanya biasanya dipergunakan butir soal yang memiliki tingkat kesukaran rendah atau mudah.



Rumus yang dipergunakan untuk menganalisis tingakat kesukaran soal objektif adalah sebagai berikut:



ITK = indeks tingkat kesukaran soal



B = banyaknya siswa yang menjawab bwnar butir soal



N = banyak siswa yang mengikuti tes



Langkah – langkah analisisnya: 1. 2.



Menjumlah skor masing – masing butir soal yang dicapai oleh semua Menghitung indeks tingkat kesukaran butir soal,dengan rumus:



1.



Memberikan interprestasi terhadap hasil perhutungan. Cara memberikan inter prestasi adalah dengan mengkonsultasikan hasil perhitungan indeks tingkat kesukaran tersebut dengan suatu oatokan atau criteria sebagai berikut:



TK



Indeks Tingkat Kesukaran



Kategori



0,00 – 0,30



Soal tergolong sukar



0,31 – 0,70



Soal tergolong sedang



0,71 – 1,00



Soal tergolong mudah



Sedangkan untuk menghitung tingkat kesukaran soal bentuk uraian dengan rumus berikut ini:



Tindak lanjut dari hasil analisis tinggkat kesukaran butir soal ini adalah sebagai berikut:



(a)



(b)



Mencatat butir soal yang sudah baik (memiliki TK= cukup) dalam buku bank soal.



Bagi soal yang terlalu sukar ada tiga kemungkinan, yaitu: didrop atau dibuang atau diteliti ulang



dimana letak yang membuat soal tersebut terlalu sukar.



(c)



Untuk butir yang terlalu mudah juga ada tiga kemungkinan seperti yang dijelaskan pada point b



diatas.



Untuk mengetahui indeks daya pembeda soal bentuk objektif adalah dengan menggunakan rumus berikut ini.



IDP =



Keterangan:



IDP



: indeks daya pembeda soal



BA



: jumlah jawaban benar pada kelompok atas



BB



: jumlah jawaban benar pada kelompok bawah



N



: banyaknya siswa yang mengikuti tes.



d)



Analisis daya pembeda soal



Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antra siswa yang mampu/pandai menguasai materi yang ditanyakan dan siswa yang tidak mampu atau kurang pandai belum menguasai materi yang ditanyakan. Daya pembeda soal dapat diketahui dengan melihat besar kecilnya angka indeks daya pembeda. Indeks daya pembeda ini juga dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal maka semakin mampu soal yang bersangkutan membedakan siswa yang pandai dan siswa yang kurang pandai. Indeks daya pembeda berkisar antara -1,00 sampai dengan 1,00. Semakin tnggi daya pembeda suatu soal maka semakin kuat atau bail soal



itu. Jika daya pembeda negative ( 0.8 maka dianggap reliabel. 2. Rulon: Menghitung dengan melihat selisih belahan satu dengan belahan yang lain, bukan dilihat dari belahannya. Bila nilai rxx-nya > 0.8 maka dianggap reliabel. 3.



Alpha Cronbach: Alpha membagi jumlah butir dengan berapapun asal sama rata, tidak seperti Spearman-Brown dan Rulon yang tidak dapat membagi dua angka ganjil menjadi sama rata seperti misalnya angka 15, Alpha bisa membagi menjadi: 5, 5 dan 5. Bila nilai Alpha-nya > 0.8 maka dianggap reliabel.



4.



Anava Hoyt: Membagi jumlah butir sebesar jumlah butirnya, jadi dapat dibagi berapapun, tidak seperti Alpha yang tidak dapat membagi jumlah butir yang nilainya imajiner, misalnya 19. Tapi Alpha akhirnya mengeluarkan rumus baru yang dapat membagi jumlah butir sebesar jumlah butirnya juga. Dan Anava Hoyt dan Alpha yang paling banyak digunakan dalam perhitungan reliabilitas sampai saat ini. Bila nilai rttnya > 0.8 maka dianggap reliabel.



5.



KR20: Kuder Richardson mengeluarkan rumus perbaikan tetapi KR20 juga jarang dipakai karena KR20 hanya dapat digunakan pada data dikotomi (pilihan ya dan tidak / 0 dan 1) tidak seperti diatas, yang bisa menghitung data dikotomi dan kontinu. Bila nilai KR20-nya > 0.8 maka dianggap reliabel. Tapi ada pendapat lain yang mengatakan bahwa suatu suatu alat tes bukan dilihat dari rtt-nya tapi dilihat dari seberapa besar penyimpangan dari alat ukur tersebut (Standart Error Measurement / SEM / SE). Semakin kecil nilai penyimpangannya maka alat ukur tersebut semakin baik. Dengan adanya kemajuan teknologi dan adanya program-program komputer yang menangani tentang statistik, kita tidak perlu lagi menghitung secara manual, kita bisa menggunakan program SPSS atau menggunakan program SPS. Reliabilitas menyangkut derajat konsistensi atau kesepakatan antara dua perangkat skor yang diturunkan secara indipenden sehingga dapat diungkap dengan istilah koefisien korelasi. Dalam uji empiric ini digunakan koefisien alfa hasil penurunan rumus yang dilakukan oleh Cronbach yakni



(Anastasi dan Urbina, 2006:110)



Dimana : rtt adalah koefisien reliabilitas seluruh tes n adalah jumlah soal dalam tes adalah varian skor-skor total pada tes adalah varian skor tes ke i



Pustaka Brenan, Robert L. 2006. Educational Measurement. Washington: American Council on Education Praeger. Djemari



Mardapi. 2003. Konstruksi Pembelajaran. Unpublished.



Tes



dan



Analisis



Butir.



Bahan



http://violetatniyamani.blogspot.com/2007/09/teori-validitas.html ᄃ



lokakarya



Metodologi



Interaksi



Kumaidi. 2008. Konstruksi Instrumen. Bahan Kuliah Pascasarjana UNY. Unpublished. Fernandes, H.J.X. 1984, Testing and Measurenment. Jakarta : National Education Planning, Evaluation and Curriculum Development Koyan, I Wayan. 2004. Konsep Dasar dan Teknik Evaluasi Hasil Belajar. Singaraja : IKIP Negeri Singaraja