Psikometri Lengkap [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

ANALISIS ITEM (analisis butir soal) Analisis



item



tes



dapat



membantu



mengevaluasi



tes



yang



digunakan,selain itu analisis butir soal amat relevan bagi penyusunan tes informal dan lokal. Butir-butir soal dapat dianalisis secara kualitaif dalam kaitan dengan isi dan bentuknya dan secara kuantitatif dalam kaitan dengan ciri-ciri statistik. Analisis kualitatif mencangkup pertimbangan isi validitas,juga evaluasi atas butir-butir soal dalam kaitan dengan prosedur penulisan soal yang efektif. Analisis kuantitatif mencakup kesulitan butir soal dan diskriminasi soal. Baik reliabilias maupun validitas yang tinggi dapat dibangun terlebih dahulu dalam tes melalui analisis butir soal. Tes dapat diperbaiki melalui seleksi,substitusi,ataupun revisi butir-butir soal.



A. KESULITAN BUTIR SOAL 1. Persentase Kelulusan Kesulitan butir soal dirumuskan dalam kaitan dengan persentase (proporsi) orang-orang yang menjawabnya dengan benar. Hal yang biasa untuk mengatur butir soal menurut tingkat kesulitannya,sehingga peserta tes mulai dengan butir soal yang relatif mudah dan maju ke butir soal yang semakin sulit. Dalam proes penyusunan tes,alasan utama untuk mengukur kesulitan butir soal adalah memilih butir soal dengan tingkat kesulitan yang sesuai. Andaikan dari 100 orang, 50 bisa mengerjakan suatu butir soal dan 50 lain gagal. Butir soal ini memungkinkan kita membuat diferensiasi antara yang bisa lulus dan yang gagal. Dengan demikian,kita memiliki perbandingan 50 x 50 atau 2500 pasang atau 2500 bit informasi diferensial. Untuk diferensiasi maksimum,kelihatan bahwa seseorang seharusnya memilih semua butir soal dengan tingkat kesulitan tes 0,50. Akan tetapi hal ini dipersulit dengan fakta bahwa butir soal dalam tes cenderug untuk punya nilai antar korelasi. Pertimbangan lain dalam pemilihan kesulitan butir soal yang sesuai berhubungan dengan probabilitas dugaan dalam butir soal pilihan ganda.



2. Skala-skala Interval Presentase orang-orang yang lulus pada suatu butir soal mengungkapkan kesulitan butir soal dalam kaitan dengan skala ordinal,dengan kata lain presentasi itu dengan benar menunjukkan urutan peringkat atau kesulitan relatif butir-butir soal. Contoh jika butir soal 1,2,3 bisa dikerjakan oleh 30%,20%,dan 10% dari masing-masing, kita bisa menyimpulkan bahwa butir soal 1 paling mudah,dan butir soal 3 paling sulit dari ketiganya. Tetapi tidak bisa disimpulkan bahwa perbedaan kesulitan butir soal 1 dan 2 sama dengan butir soal 3 dan 4.



3. Penentuan Skala Absolut Thurstone Indeks kesulitan butir soal yang diungkapkan sebagai presentase atau unit-unit kurva normal dibatasi oleh rentang kemampuan yang dicakup oleh sampel yang darimana indeks-indeks tersebut berasal. Akan tetapi untuk bermacam-macam tujuan ada kebutuhan akan pegukuran kesulitan butir soal yang bisa diterapkan pada sampel yang berbeda dalam tingkat kemampuan. Prosedur statistik yang dikenal sebagai penentuan skala absolut,oleh Thurstone telah digunakan secara luas dalam pengembangan tes.Metode ini dapat digunakan utuk mengukur kesulitan butir soal individu pada skala seragam yang diterapkan pada jumlah kelompok yang saling terkait. Prosedur ini terdiri dari 2 langkah. Pertama,kita menentukan nilai skala butir-butir soal secara terpisah di masing –masing kelompok,dengan mengonversikan presentase kelulusan masingmasing butir soal ke jarak-σ kurva normal atau nilaii-nilai z. Kedua, kita menerjemahkan semua nilai skala ini ke nilai yang bersesuaian untuk satu kelompok dari seluruh kelompok,terpilih sebagai kelompok standar atau kelompok rujukan. Nilai-nilai skala butir soal yang sama dalam dua kelompok atau lebih berfungsi untuk merumuskan hubungan antara kelompok-kelompok dan memungkinkan transmutasi semua nilai kesulitan butir soal dari satu kelompok ke kelompok lain.



4. Distribusi Skor Tes Kesulitan tes sebagai keseluruhan, secara langsung tergantung pada kesulitan butir soal yang ada dalam tes. Jika sampel standardisasi adalah crosssection representatif dari populasi tersebut, maka umumnya secara kasar skorskornya akan masuk dalm kurva distribusi normal. Ketika standardisasi menghasilkan distribusi nonnormal yang cukup mencolok pada sebuah tes, tingkat kesulitan tes ini biasanya dimodifikasi sampai dicapai sebuah kurva normal. Soal yang lebih mudah atau lebih sulit bisa ditambahkan, butir-butir soal lain disingkirkan atau dimodifikasi, posisi butir soal dalam skala diubah , atau penentuan skor dari bobot-bobot yang ditempatkan pada respon-respon tertentu direvisi.penyesuaian seperti ini berlanjut sampai distribusi setidak-tidaknya menjadi normal



5. Mengaitkan Kesulitan Butir Soal dengan Tujuan Pengetesan Dalam menyusun tes untuk bermacam-macam tujuan tujuan, pilihan atas kesulitan butir soal yang tepat, seperti halnya juga bentuk optimal distribusi. Skorskor tes, tergantung pada jenis diskriminasi yang dicari. Dengan demikian, tes-tes yang dirancang dengan tujuan penyaringan seharusnya memamfaatkan butir-butir soal yang nilai kesulitannya paling mendekati rasio seleksi yang dikehendaki. Misalnya, untuk menyeleksi 20% paling atas dari seluruh kasus, butir-butir soal terbaiknya adalah mengelompok di sekitar p 0,20 (agak lebih tinggi sehingga memungkinkan dugaan). Karena dalam tes penyaringan htidak dibutuhkan diferensiasi di dalam kelompok yang ditolak atau diterima, penggunaan waktu pengetesan paling efektif diperoleh ketika butir-butir soal mengelompok dekat skor potong kritis. Jika tujuan tes ini untuk memastikan apakah seseorang sungguh-sunguh telah menguasai hal-hal penting yang mendasar dari keterampilan atau apakah ia telah mencapai pengetahuan yang telah diprasyaratkan untuk maju ke langkah selanjutnya dalam program pelatihan, maka soal-soalnya kemungkinan besar harus ada pada tingkat p 0,80 atau 0,90. Demikian pula pretest, yang diadakan sebelumnya pada kelompok belajar untuk menetukan apakah semua siswa telah mencapai keterampilan yang diajarkan, akan menghasilkan presentase kelulusan



amat rendah atau bahkan nilai p nol seharusnya tidak dibuang, karena nilai-nilai itu mengungkapkan apa yang harus tetap dipelajari.



B. DISKRIMINASI BUTIR SOAL Pilihan Kriteria Diskriminasi butir soal merujuk pada sejauh mana butir soal melakukan diferensiasi dengan benar di antara para peserta tes dalam perilaku yang memang menjadi objek pengukuran tes.bila tes sebagai suatu keutuhan harus dievaluasi dengan sarana validasi yang terkait dengan kriteria eksternal yang sama. Dalam pengatesan penguasaan berujkan-domaiin, butir-butir soal bisa dievaluasi dengan membandingkan kinerja butir soal individu-individu yang mendapatkan berbagai instruksi berbeda dalam fungsi-fungsi yang relevan (panell & Laabs, 1979, L. A. Shepard, 1984). Dalam jenis prestasi lainnya, seperti dalam banyak tes kemampuan, diskriminasi butir soal biasanya, kriteria eksternal tersedia tidak biasanya. Untik tes prestasi, pendidikan, kriteria eksternal tersedia tidak biasanya. Untuk tes kemampuan, penekanan yang semakin besar pada validasi konstruk membuat skor total sebagai kriteria yang sesuai untuk seleksi soal. Dalam tahap-tahap awal pengembanangan tes, skor total memberikan pendekatan pertama pada pengukuran kemampuan, sifat, atau konstruk yang sedang diselediaki. Memilih



butir



soal



atas



dasar



kriteria



eksternal



cenderung



memaksimalkan validitas tes terhadap kriteria eksternal, sedangkan memilih butir soal atas dasar skor tes total memaksimalkan konsistensi internal atau homogenitas tes. Seleksi butir-butir soal untuk memaksimalkan validitas tes yang terkait dengan kriteria bisa disamakan dengan seleksi tes yang akan menghasilkan validitas tertinggi untuk kumpulan tes. Validitas eksternal



dan konsistensi internal



merupakan sasaran



penyusunan tes. Penekanan relatif yang harus ditempatkan pada masingmasingnya bervariasi dengan hakikat dan tujuan tes. Untuk banyak tujuan pengetesan, kompromi yang memuaskan adlah memilah-milah butir-butir soal yang relatif homogen ke dalam tes atau sub tes yang berbeda.



Koefisien phi, didasarkan pada proporsi kasus-kasus lulus dan gagal pada sebuah butir soal dalam kelomopok –kelompok kriteria U dan L.koefisien phi (∅) merupakan salah satu indeks diskriminasi yang melaporkan hubungan antara butir soal dan kriteria dalam bentuk koefisien korelasi.koefisien phi menghasilkan nilai antara +1,00 dan -1,00.



Koefisien phi hanya dapat digunakan pada kondisi-



kondisi dikotomi dibawah kondisi itu diperoleh dan tidak dapat digeneralisasi.



Indeks Statisrik Diskriminasi Butir Soal Butir soal umumnya direkam sebagai hal yang salah atau benar, pengukuran diskriminasi butir soal biasanya melibatkan variabel dikotomis (butir soal) dan variabel kontinu (kriteria). Sebuah kriteria kontinu bisa didikotomikan demi maksud analisis. Selama lima puluh indeks diskriminasi butir soal dikembangkan dan digunakan dalam penyusunan tes. Satu perbedaan diantara indeks-indeks berhubungan dengan bisa tidaknya indeks-indeks itu diterapkan pada ukuranukuran dikotomis atau kontinu. Diantara yang diterapkan pada variabel-variabel dikotomis, ada yang mengandaikan suatu distribusi kontinu dan normal dari sifat yang mendasarinya, tempat dikotomi ini telah diterapkan secara artifisial; yang lain mengasumsikan sebuah dikotomi yang benar. Perbedaan lainnya menyangkut hubungan kesulitan butir soal dengan diskriminasi. Indeks-indeks tertentu mengukur diskriminasi butir soal secara independen dari kesulitan soal. Yang lain menghasilkan nilai-nilai diskriminasi lebih tinggi untuk butir-butir soal yang dekat dengan tingkat kesulitan 0.50 daripada untuk yang ada pada ekstremekstrem kesulitan. Meskipun ada perbedaan dalam prosedur dan asumsi, kebanyakan indeks diskriminasi butir soal memberikan hasil yang mirip (Oosterhof,1976). Meskipun nilai-nilai



numerik



indeks-indeks



bisa



berbeda,



butir-butir



soal



yang



dipertahankan dan yang ditolak atas dasar indeks-indeks diskriminasi yang berbeda umumnya sama. Dalam kenyataannya, varasi dalam diskriminasi butir soal dari sampel ke sampel umumnya lebih besar daripada diantara berbagai metode yang berbeda.



Penggunaan Kelompok-Kelompok Ekstrem Praktik umum dalam analisis butir soal adalah untuk membandingkan proporsi kasus-kasus yang meluluskan butir soal dalam kelompok kriteria yang berbeda. Ketika kriterianya diukur sepanjang skala yang kontinu, seperti dalam kasus nilai-nilai mata kuliah, peringkat pekerjaan, catatan-catatan keluaran, atau skor total pada tes, kelompok kriteria atas (U=upper) dan bawah (L=lower) diseleksi dari ekstrem-ekstrem distribusi. Semakin ekstrem kelompok itu, semakin tajam diferensiasinya. Tetapi, penggunaan kelompok-kelompok yang amat ekstrem, misalnya 10% bagian atas dan 10% bagian bawah, akn mengurangi reliabilitas hasilnya karena jumlah kecil kasus yang dimanfaatkan. Dalam distribusi normal, titik optimum dimana dua kondisi ini berimbang dicapai pada 27% bagian atas (U) dan 27% bawah (L) (T.L.Kelly,1939). Bila distribusinya lebih rata daripada kurva normal, persentase optimumnya lebih besar daripada 27 dan mendekati 33 (Cureton,1957b). Dengan kelompok-kelompok kecil, seperti dalam ruang kelas biasa, kesalahan sampling statistik butir soal begitu besar sehingga hanya hasil-hasil kasar yang bisa diperoleh. Oleh karena itu, di bawah kondisi-kondisi ini, kita tidak perlu terlalu memikirkan persentase yang tepat dari kasus-kasus dalam dua kelompok kontras. Dengan sampel yang besar dan didistribusikan secara normal, yang digunakan dalam pengembangan tes-tes yang dilakukan, lazim untuk bekerja dengan 27% bagian atas dan 27% bagian bawah dari distribusi kriteria. Dengan fasilitas komputer, sudah bisa menganalisis hasil-hasil keseluruhan sampel dengan lebih baik; ketimbang bekerja dengan ekstrem atas dan bawah.



Analisis Sederhana dengan Kelompok-Kelompok Kecil Analisis butir soal sering dengan kelompok-kelompok kecil, seperti siswa yang mengikuti kuis, pertama-tama dipertimbangkan prosedur sederhana yang cocok untuk situasi ini. Misalnya, sebuah kelas terdiri dari 60 siswa, kita telah memilih 20 siswa (33%) dengan skor tes paling tinggi dan 20 siswa dengan skor tes paling rendah. Terdapat tiga kelompok orang yang bisa kita sebut Atas atau Upper (U), Tengah atau Middle (M) dan Bawah atau Lower (L). Pertama, kita perlu menurunkan respons-respons yang tepat pada tiap butir soal yang diberikan



oleh siswa-siswa dalam ketiga kelompok. Hal ini bisa dilakukan jika kita mendaftar angka-angka butir soal dalam satu kolom dan mempersiapkan tiga kolom lainnya untuk U, M, dan L. Lalu kita membuat turus di sebelah tiap butir soal yang dijawab tepat. Hal ini dilakukan pada masing-masing 20 kertas kelompok U, M, dan L. Lalu jumlah total jawaban benar masing-masing kelompok itu dijumlahkan.



Tabel 7-1 : Prosedur Analisis Butir-butir soal Sederhana : Jumlah Orang Yang Memberikan Respons Tepat dalam Setiap Kelompok Kriteria. Butir



U



M



L



Kesulitan



Diskriminasi



Soal



(20)



(20)



(20)



(U+M+L)



(U-L)



1



15



9



7



31



8



2



20



20



16



56aᵃ



4



3



19



18



9



46



10



4



10



11



16



37



-6ᵃ



5



11



13



11



36



0ᵃ



6



16



14



9



39



7



7



5



0



0



5ᵃ



5



.... .... .... .... 75 ᵃButir-butir soal yang dipilih untuk diskusi. Dari tabel diatas terhadap tujuh butir soal , indeks kasar nilai diskriminatif setiap butir soal bisa diperoleh dengan mengurangkan jumlah orang yang menjawab dengan benar dalam kelompok U dengan jumlah orang yang menjawab benar dalam kelompok L (U-L). Pengukuran kesulitan butir soal bisa diperoleh berdasarkan menambahkan jumlah orang yang lulus tiap butir soal pada ketiga kelompok (U+M+L).



Pemeriksaan pada Tabel diatas mengungkapkan empat butir soal yang bisa dipertanyakan, yang telah diidentifikasi untuk pertimbangan lebih jauh atau diskusi kelas. Dua butir soal, 2 dan 7, telah disingkirkan karena yang satu tampaknya terlalu mudah (berhasil dikerjakan 56 dari 60 siswa), dan yang lain terlalu sulit (berhsil dikerjakan 5 orang saja). Butir soal 4 dan 5, meskipun memuaskan dalam kaitan dengan tingkat kesulitan, masing-masing menunjukkan nilai diskriminatif yang negatif dan nol. Kita juga mempertimbangkan dalam kategori ini butir-butir soal apa saja dengan perbedaan U-L positif amat kecil, hanya tiga atau kurang, bila kelompok dengan ukuran yang hampir sama dibandingkan. Dengan kelompok-kelompok lebih besar , kita mengharapkan akan muncul perbedaan lebih besar berdasarkan peluang dalam butir soal yang bersifat tidak membeda-bedakan. Analisis butir soal dalam tes yang dibuat oleh guru adalah untuk mengidentifikasi kekurangan-kekurangan dalam tes atau pengajaran. Membahas butir-butir soal yang dapat dipertanyakan dalam kelas-kerap cukup untuk mendiagnosis masalahnya. Jika perumusan butir soal itu salah, butir soal tersebut bisa direvisi atau dibuang dalam pengetesan selanjutnya. Akan tetapi, pembahasn bisa menunjukkan bahwa butir soal ini memuaskan, namun pokok yang diujikan tidak dimengerti dengan baik. Dalam kasus ini, topiknya bisa ditinjau dan dijernihkan. Dalam rangka mempersempit sumber kesulitan, pembuatan analisis suplementer kerap membantu, sebagaimana ditunjukkan dalam Tabel dibawah ini:



Tabel 7-2: Analisis Respons atas Butir-butir Soal Individu Butir Soal Kelompok



2



4



5 7



Pilihan respons 1



2



3



4



5



Atas (U)



0



0



0



20



0



Bawah (L)



2



0



1



16



1



Atas (U)



0



10



9



0



1



Bawah (L)



2



16



2



0



0



Atas (U)



2



3



3



11



2



Bawah (L)



1



3



3



11



2



Atas (U)



5



3



5



4



3



Bawah (L)



0



5



8



3



4



Catatan : Pilihan yang benar dicetak tebal Tabulasi ini memberikan jumlah siswa dalam kelompok U dan L, yang memilih tiap pilihan dalam menjawab butir soal tertentu. Pada butir soal 2, dengan mentabulasikan frekuensi dari masing-masing kemungkinan pilihan yang salah, karena hanya 4 orang dari kelompok L yang memilih pilihan jawaban yang salah dan tidak satupun dari kelompok U yang memilih jawaban yang salah. Akan tetapi, pembahasan butir soal dengan siswa membantu menentukan apakah butir soal ini secara keseluruhan terlalu mudah dan memiliki nilai intrinsik, apakah cacat tertentu dalam penyusunannya bisa menyingkirkan jawaban yang benar, atau apakah butir soal itu butir soal yang baik, yang berhubungan dengan satu pokok bahasan yang kebetulan diajarkan secara efektif dan mudah diingat. Dalam kasus pertama, soal ini kemungkinan besar akan disingkirkan, dalam kasus kedua butir soal ini direvisi, dan dalam kasus ketiga butir soal itu dipertahankan tanpa perubahan. Pada butir soal 4, memberi kesan bahwa pilihan ketika memiliki implikasi tidak terduga yang membuat 9 siswa U menyukai pilihan respons itu (pilihan respons 3) dibanding pilihan yang benar (pilihan respons 2). Hal ini bisa mudah diseleseikan dengan meminta para siswa untuk menjelaskan alasan mereka memilih. Pada butir soal 5, kesalahan tampaknya terletak pada perumusan awal atau perumusan alternatif yang benar, karena siswa-siswa yang tidak mengerjakan butir soal itu tersebar secara merata pada empat pilihan yang salah. Butir soal 7 amat sulit karena dijawab secara tidak tepat oleh 15 orang dari kelompok U. Pengelompokkan ringan dari respons-respons pilihan 3 yang tidak beanr, menunjukkan daya tarik dangkal dari opsi ini, terutama untuk kelompok L yang mudah disesatkan. Dan tidak adanya kelompok L yang memilih pilihan yang benar (pilihan 1), menunjukkan bahwa alternatif ini dibahasakan begitu rupa sehingga, secara dangkal atau bagi yang tidak mendapat informasi cukup, kelihatannya salah. Tentu saja, segi-segi ini adalah bahan pertimbangan untuk butir-butir soal tes yang baik. Pembahasan kelas bisa menunjukkan bahwa butir soal 7 adalah butir soal yang baik berkaitan dengan pokok bahasan yang sungguhsungguh telah dipelajari oleh para anggota kelas.



Indeks Diskriminasi Jika jumlah orang yang bisa mengerjakan tiap butir soal dalam kelompok kriteria U dan L dinyatakan dalam persentase, perbedaan antara dua persentase ini memberikan sebuah indeks diskriminasi butir soal yang bisa diinterpretasikan secara independen dari ukuran sampel tertentu dimana sampel itu didapatkan. Indeks ini telah berulang kali dideskripsikan dalam literatur psikometris, dan telah dirancang secara bervariasi sebagai U-L, ULI, ULD atau D. Meskipun sederhana indeks diskriminasi terbukti cocok dengan alat ukuran lain yang lebih canggih untuk diskriminasi soal (Engelhart,1965;Osterhof,1976). Perhitungan D dapat diilustrasikan pada rujukan tabel 7-1. Pertama, jumlah orang yang lulus tiap butir soal pada kelompok U dan L diubah ke persentase. Perbedaan antara dua persentase, yakni Indeks Diskriminasi (D) ditunjukkan dalam tabel berikut :



Tabel 7-3 : Penghitungan Indeks Diskriminasi Butir soal



Persentase kelulusan Kelompok Atas (U)



Kelompok Bawah (L)



Indeks Diskriminasi (D)



1



75



35



40



2



100



80



20



3



95



45



50



4



50



80



-30



5



55



55



0



6



80



45



35



7



25



0



25



Catatan : Data dari tabel 7-1



Indeks ini bisa memiliki nilai apapun diantara +100 dan -100. Jika semua anggota kelompok U dan tak satupun anggota kelompok L lulus pada suatu butir soal, D= 100. Sebaliknya, jika semua anggota kelompok L lulus dan tak satupun U yang lulus, D= -100. Jika persentase kedua kelompok yang melewati sebuah butir soal itu sama, D menjadi nol.



Sebagaimana benar untuk beberapa indeks diskriminasi soal, nilai-nilai D tidak independen terhadap kesuliatn butir soal, namun mengalami bias yang mendukung tingkat kesulitan antara. Tabel 7-4 menunjukkan nilai maksimum yang mungkin untuk butir-butir soal dengan persentase berbeda untuk responsrespons yang tepat. Jika 100% atau 0 % dari seluruh sampel lulus dalam melewati suatu butir soal, tak bisa ada perbedaan dalam persentase kelulusan dalam kelompok U dan L; karenanya D nol. Pada ekstrem lain, jika 50% lulus dalam suatu butir soal, akan ada kemungkinan bagi semua kasus U dan tak satupun dari kasus L lulus, dengan begitu menghasilkan sebuah D 100 (100 - 0=100). Jika 70% lulus, nilai maksimum yang bisa diambil D dapat dilustrasikan sebagai berikut : (U) 50/50 = 100%; (L) 20/50= 40%; D= 100-40 = 60. Perlu diperhatikan bahwa, bagi kebanyakan maksud pengetesan, butir-butir soal yang lebih dekat dengan tingkat kesulitan 50% lebih disukai. Karenanya, indeks-indeks diskriminasi butir soal yang mendukung kesulitan kerap sesuai untuk seleksi soal. Tabel 7-4: Hubungan Nilai Maksimum D dengan Kesulitan Butir Soal Persentase yang lulus



Nilai Maksimum D



100



0



90



20



70



60



50



100



30



60



10



20



0



0



Koefisien Phi Banyak indeks diskriminasi butir soal melaporkan hubungan antara butir soal dan kriteria dalam bentuk koefisien korelasi. Salah satunya adalah koefisien phi (Ø). Dihitung dari tabel empat tingkat, Ø didasarkan pada proporsi kasuskasus lulus dan gagal pada sebuah butir soaldalam kelompok-kelompok U dan L. Seperti semua koefisien korelasi, koefisien phi menghasilkan nilai antara +100 dan -100. Kooefisien phi mengandaikan suatu dikotomi asli dalam respons butir



soal dan variabel kriteria. Akibatnya, koefisien phi hanya dapat diterapkan pada kondisi-kondisi dikotomis di bawah kondisi itu diperoleh dan tak dapat digeneralisasikan pada hubungan yang mendasari antara sifat-sifat yang diukur oleh butir soal dan kriteria. Tingkat signifikansi koefisien phi bisa dengan mudah dihitung melalui hubungan antara Ø dengan chi square dan rasio kurva normal. Dengan menerapkan rasio kurva normal, kita bisa mengidentifikasi nilai minimum Ø yang akan mencapai signifikansi statistik pada tingkat 0,05 atau 0,01 dengan rumus sebagai berikut : ∅.05 =



∅.01 =



1,96 √𝑁 2,58 √𝑁



Dalam rumus ini, N menggambarkan jumlah total kasus-kasus dalam gabungan kedua kelompok kriteria. Dengan demikian, jika ada 50 kasus dalam kelompok U dan 50 kasus dalam kelompok L, N akan menjadi 100, dan Ø minimum signifikan pada tingkat 0,05 akan menjadi 1,96 ÷ √100



= 0,196.



Dengan demikian, soal apapun yang Ø nya mencapai atau melebihi 0,196 akan berkorelasi dengan kriteria itu pada tingkat signifikansi 0,05. Korelasi Biserial Korelasi Biserial ( 𝑟𝑏𝑖𝑠 ) berbeda dari Ø dalam dua hal utama. Pertama, 𝑟𝑏𝑖𝑠 mengandaikan suatu distribusi yang kontinu dan normal dari sifat-sifat yang mendasari baik respons butir soal dikotomis maupun variabel kriteria. Kedua, korelasi ini menghasilkan sebuah pengukuran atas hubungan soal-kriteria yang independen terhadap kesulitan soal. Penghitungan korelasi biserial memanfaatkan skor kriteria rata-rata dari mereka ynag lulus dan mereka yang gagal pada butir soal tertentu, SD keseluruhan kelompok kriteria, dan proporsi kasus-kasus mereka yang lulus dan gagal pada suatu soal.



Korelasi biseral (𝑟𝑏𝑖𝑠 ),perbedaannya yang utama dengan koefisien phi adalah pertama, 𝑟𝑏𝑖𝑠 mengandaikan suatu distribusi yang kontinu dan normal dari sifat-sifat yang mendasari baik respon butir soal dikotomis maupun variabel kriteria. Kedua, korelasi ini menghasilkan sebuah pengukuran atas hubungan soal kriteria yang independen terhadap kesulitan soal.penghitungan korelasi biseral menggunakan skor kriteria rata-rata dari mereka yang lulus dan mereka yang gagal pada butir soal tertentu ,SD keseluruhan kelompok kriteria dan proporsi kasus-kasus mereka yang lulus dan gagal pada suatu soal.



C. TEORI RESPON BUTIR SOAL Regresi butir soal tes(item-test regression), grafik regresi butir soal tes dapat merepresentasikan kesulitan butir soal maupun diskriminasi butir soal.dari grafik, kekuatan diskriminasi masing-masing soal dapat diindikasikan dengan keterjalan kurva: semakin terjal kurvanya semakin tinggi korelasi kinerja butir soal dengan skor total dan semakin tinggi indeks diskriminasinya.Melalui pemeriksaan



atas



regresi



skor



butir



soal



maka



memungkinkan



kita



memvisualisasikan bagaimana suatu butir soal berfungsi secara efektif.grafik ini juga akan memberikan informasi lengkap mengenai hubungan antara kinerja butir soal dan skor total disamping memadukan informasi tentang kesulitan butir soal dan diskriminasi butir soal.



Teori respon soal (item respon theory-IRT), Disebut juga “teori sifat laten dan teori kurva karakteristik butir soal ICC .Ciri yang mendasar pada pendekatan ini adalah kinerja butir soal dihubungkan dengan jumlah “sifat laten“ responden yang diperkirakan, yang dilambangkan dengan 𝜃 (theta). Dalam hal ini sifat laten merujuk pada konstruk statistik.kurva karakteristik butir soal dibagankan dari fungsi yang diturunkan secara matematis bukan secara empiris. Model-model IRT yang berbeda menggunakan fungsi-fungsi matematis yang berbeda, didasarkan pada berbagai asumsi.sejumlah model menggunakan fungsi –fungsi lengkung normal (distribusi normal komulatif) sedangkan yang lain menggunakan



fungsi-fungsi logistik yang memanfaatkan sejumlah ciri



hubungan logaritmik yang mudah secara matematis.pada umumnya hasil yang diperoleh akan sama asalkan asumsi itu ada dalam situasi tertentu. Dalam model tiga-parameter yang lengkap masing-masing ICC di deskripsikan oleh 3 parameter yaitu diskriminasi soal ( 𝑎𝑖 ) mengindikasikan lereng kurva, parameter kesulitan soal (𝑏𝑖 ) bersesuaian dengan lokasinya pada sumbu kemampuan dimana probabilitas respon yang tepat, serta parameter dugaan (𝑐𝑖 ) yang menunjukan probabilitas respon yang tepat muncul berdasarkan peluang. Selain itu perkiraan tentang parameter butir soal dan kemampuan biasanaya dihitung dengan prosedur iteratif atau aproksimasi-suksesif.Ciri penting dari pendekatan ini adalah perlakuan atas reliabilitas dan kesalahan pengukuran melalui fungsi informasi soal dimana funggsi ini akan memberikan pertimbangan semua parameter butir soal dan menunjukan efisiensi pengukuran atas butir soal pada tingkat kemampuan yang berbeda. Kontribusi model-model IRT paling luas dipublikasikan



berhubungan



dengan sifat bebas sampel dari hasilnya yang secar teknis dideskripsikan sebahi variasi parameter suatu soal. Konsep dasar IRT adalah parameter-parameter butir soal yang harus tetap bila dihitung dalam kelompok yang berbeda-beda dalam hal kemmapuan, ini berarti skala pengukuran yang seragam bisa disiapkan untuk digunakan dalam berbagai kelompok yang berbeda. Serta individu atau kelompok bisa dites dengan berbagai rangkaian butir soal yang berbeda yang sesuai dengan tingkat kemampuan mereka dan skor mereka akan dapat dihitung secara langsung. Skor tes didasarkan pada jumlah, tingkat kesulitan yang telah ditetapkan sebelumnya dari butir soal yang dijawab dengan benar.



Model-model IRT lainnya model dua-parameter, yang menghilangkan parameter respon peluang (c). Tepat digunakan bila efek-efek dugaan tentang kinerja tesbisa dipandang sebagi hal yang bisa diabaikan. model satu-parameter, hanya didasarkan pada satu kesulitan pada perangkat soal. Didasaarkan pada pengandaian bahwwa baik dugaan maupun perbedaan butir soal dalam diskriminasi dapat diabaikan.



Model-model yang sejauh ini dibahas mengandaikan unidimensionaliitas dari tes itu yaitu respon-respon butir soal bisa dianggap disebabkan oleh satu sifat tunggal. Secara umum ini dapat dipenuhi jika kinerja tes tergantung pada sifat domain tunggal. Bahkan jika sifat –sifat lain dapat mempengaruhi kinerja dengan cara minor Selain itu, model-model yang lebih umum yang dapat diterapkan pada testes multidimensional juga telah dirancang



namun prosedur penghitungannya



lebih berat.



D. ANALISIS



BUTIR



SOAL



ATAS



TES-TES



YANG



DIPERCEPAT Apakah kecepatan itu penting atau tidak bagi fungsi yang sedang di ukur? Indeks-indeks butir soal yang dihitung dari tes yang dipercepat dapat menyesatkan.Kecuali butir soal yang hanya bisa di kerjakan oleh peserta tes jika masih punya waktu, indeks-indeks butir soal yang di dapat dari tes kecepatan akan mencerminkan posisi butir soal dalam tes berupa kesulitan intrinsik atau kekuatan diskriminatif. Butir soal dibagian belakang dalam tes akan dilewati oleh peserta karena hanya beberapa orang yang memeliki waktu untuk bisa menyelesaikan soal tersebut, seberapa mudah soal itu jika muncul dalam tes yang di percepat akan kelihatan sulit. Indeks diskriminasi soal cenderung dioverestimasi untuk soal yang tidak di capai oleh peserta tes. Karena individu yang mampu cenderung bekerja lebih cepat untuk mencapai soalnya dalam tes kecepatan. Korelasi antara butir soal dan kriteria akan diperoleh bila butir soal muncul belakangan dalam sebuah tes kecepatan. Untuk mengatasi kesulitan ini adalah dengan membatasi analisis tiap butir soal. Prosedur ini mengubah hasil pada butir soal selanjutnya menjadi tak dapat diandalkan. Butiran soal selanjutnya akan dianalisis pada sampel superior individu. Efek dari faktor selektif adalah direndahkannya tingkat kesulitan yang kelihatannya ada pada butir soal selanjutnya, karena persentase kelulusan akan lebih besar dalam kelompok superior. Hal ini berlawanan dari yang diperkenalkan ketika persentase kelulusan dihitung dalam kaitan dengan keseluruhan sampel berupa kesulitan soal yang akan naik dengan drastis.



Korelasi soal kriteria akan lebih tinggi daripada seharusnya dalam sebuah sampel yang lebih representative. Efek kecepatan yang diantisipasi pada indeks kesulitan butir soal dan diskriminasi butir soal telah diverifikasi secara empiris, ketika statistika butir soal dihitung dengan keseluruhan sampel ( Wesman, 1949) . Solusi empiris adalah menjalankan tes dengan batas waktu yang lama pada kelompok dimana analisis butir soal akan dijalankan. Solusi ini memuaskan asal kecepatan itu sendiri bukan aspek penting dari kemampuan yang akan di ukur oleh tes. Jika menggunakan tes yang di percepat hasilnya dapat di curigai dan perlu diperiksa dengan teliti.



E. VALIDASI SILANG Validasi tes dihitung berdasarkan pada sampel orang yang berbeda dari sampel dimana butir soal itu di seleksi. Determinasi independen validitas keseluruan tes ini di kenal sebagai validasi silang. Koefisien validitas yang dihitung berdasarkan sampel yang sama. Koefisien validitas yang tinggi bisa dihasilkan dala situasi tertentu, bahkan bila tes tidak memiliki validitas sama sekali dalam memprediksi kriteria tertentu.



Kondisi-kondisi yang mempengaruhi penyusutan validitas Jumlah penyusutan koefisien validitas dalam validasi-silang tergantung pada ukuran kelompok butir soal asli dan proporsi butir soal yang di pertahankan. Jumlah butir soal yang asli besar dan proporsi yang di pertahankan itu kecil, banyak kesempatan untuk menggunakan perbedaan peluang sehingga memperoleh koefisien validitas yang tinggi. Pengaruh lainnya adalah ukuran sampel. Karena validitas yang tinggi dalam sampel awal dihasilkan dari akumulasi kesalahan pencuplikan, kelompok kecil yang menhasilkan kesalahan pencuplikan lebih besar menunjukkan penyusutan validitas yang lebih besar. Jika butir soal dipilih atas dasar hipotesis yang dirumuskan sebelumnya, diturunkan dari teori psikologis atau pengalaman masa lalu dengan suatu kriteria, penyusutan validitas dalam validasi-silang akan diminimalisasi. Penyusutan akan menjadi besar bila sampelnya kecil, dan butir soal awalnya besar, proporsi butir



soal yang dipertahankan kecil, dan butir soal disusun tanpa dasar pemikiran yang dirumuskan sebelumnya.



F. PEMFUNGSIAN BUTIR SOAL DIFERENSIAL Prosedur-prosedur statistik adalah salah satu aspek dari penelitian atas bias tes untuk kelompok minoritas, analisis ”bias soal” menyangkut kesulitan relatif butir soal tes individu untuk kelompok dengan latar belakang kultural atau pengalaman yang berbeda. Dalam terminologi psikometris, bidang analisis butir soal ini di kenal sebagai DIF ( Differential Item Functioning ), yang mengidentifikasi butir soal untuk orang yang sama kemampuannya dari kelompok kultural dan memiliki probabilitas sukses yang berbeda. Masalah utamanya adalah perbedaan kelompok demografis dalam kesulitan butir soal terkait dengan perbedaan rata-rata dalam tingkat kinerja pada tes keseluruhan. Akibatnya butir soal yang memiliki nilai deskriminatif yang baik dilihat dari skor total, kemungkinan muncul sebagai butir soal yang “bias” dan di buang. Dengan semakin baiknya akses computer, salah satu metodenya didasarkan pada teori respons soal (IRT), IRT dapat digunakan untuk sampelsampel yang besar. Kurva karakteristik soal (ICC) untuk tiap butir soal mengindikasikan probabilitas respons yang tepat dalam kaitan dengan skala kemampuan untuk tes. Dengan membandingkan ICC untuk butir soal yang sama dalam dua kelompok mana pun, dapat mengidentifikasi butir soal dengan fungsi diferensial substansial yang relatif bagi keseluruhan kinerja tes kelompok, di ungkapkan dalam suatu skala yang seragam.



G. EKSPLORASI DALAM PENGEMBANGAN SOAL Penggunan komputer yang berkembang pesat dalam tahun 1980-an, dan 1990-an, berpadu dengan kemajuan dalam psikologi kognitif, merangsang riset yang ekstensif dalam hal pendekatan-pendekatan alternatif terhadap penyusunan tes. Secara tradisional, penulisan butir soal lebih merupakan seni daripada pengetahuan. Bahkan dalam kondisi terbaik, penulis-penulis butir soal diberi instruksi yang merinci sedikit lebih daripada sekedar bentuk butir soal dan cakupan isi. Masih merupakan praktik umum untuk mengandalkan prapengetesan



empiris atas butir-butir soal untuk menaksir tingkat kesulitan dan kekuatan diskriminatif testes bersangkutan. Tuntutan-tuntutan kognitif dari stimuli tes bisa dieksplorasi melalui teknik-teknik dekomposisi tugas yang dikembangkan di dalam psikologi kognitif. Dengan prosedur ini, hubungan antara segi-segi butir soal yang berbeda dengan kecepatan serta kesalahan kinerja bisa diteliti. Berbagai telaah semacam ini telah dijalankan dengan butirbutir soal spasial. Dalam jenis masalah visualisasi spasial tertentu, yang mengharuskan peserta tes memilih bagian-bagian yang bisa dirakit untuk membentuk suatu keseluruhan, bagian-bagiannya bisa dipisahpisahkan, atau dikeluarkan, atau dirotasi, atau diubah dalam suatu kombinasi dari caracara ini. Telaah lain telah memperhatikan karakteristik semantis stimulus verbal. Contoh, dalamt yang



tes-tes penalaran verbal, butir-butir soal bisa disusun



menurut prinsip-prinsip logis yang telah dikenal. Prosedur semacam ini bisa menjamin ahwa hanya satu pilihan respons yang sungguh-sungguh benar dan hubungan-hubungan logis yang berbeda disajikan kembali dalam proporsi yang telah ditentukan sebelumnya dalam sampel butir soal itu,prosedur ini juga akan memungkinkan manipulasi atas kompleksitas logis soal, yang hubungannya dengan tingkat kesulitan dapat diselidiki secara empiris. Sejumlah peneliti telah melakukan eksperimen dengan penyusunan rangkaian surat yang dirancang untuk mengetes penalaran induktif. Embretson (1994) menampilkan analisis mendalam dan upaya terbaru tentang proses pengembangan soal. Proses ini mulai dengan defenisi konstruk yang harus diukur dan terus ke rancangan model kognitif untuk tes bersangkutan. Prosedur yang lengkap ini diilustrasikan dalam pengembangan Spatial Learning Ability Test, yang tidak hanya mengukur kemampuan spasial awal, tetapi juga kemampuan berubah menurut instruksi yang dibakukan. Riset tentang prodiksi butir soal dari segi fisikal dan semantiknya stimuli tidak hanya membantu meghasilkan tes-tes efektif oleh para penulis tes, tetapi juga bisa berkembang ke arah penyusunan butir-butir soal tes oleh komputer. Tak diragukan lagi, pastilah banyak keuntungan potensial dari prosedur penyusunan tes yang berkembang ini. Akan ettapi kita harus bersikap waspada agar tak berharap terlalu banyak dari satu pendekatan saja. Ada kemungkinan, misalnya,



tes bisa sepenuhnya dan secara efektif mengukur konstruk kognitif yang diidentifikasikan dengan jelas, namun tidak memiliki validitas prediktif yang tinggi untuk penggunaan praktis yang penting. Karena alasan ini, penting untuk mempertimbangkan kedua aspek dari validasi konstruk, yang oleh Embretson (198alasan ini, penting untuk mempertimbangkan kedua aspek dari validasi konstruk, yang oleh Embretson (1983) disebut sebagai representasi konstruk dan jarak nomotetis. Dekomposisi tugas memberikan informasi tentang representasi konstruk; jarak nomotetDekomposisi tugas memberikan informasi tentang representasi konstruk; jarak nomotetis menuntut penelitian atas hubunganhubungan skor tes dengan jaringan variabel ekternal alin, termasuk pengukuran kriteria. Dapat disimpulkan, prosedur-prosedur inovatif yang dibuat dalam bagian ini, bila diterapkan dengan benar bisa memberikan sumbangan penting pada penyusunan butir-butir soal tes yang terkontrol dan sistematik. Lagipula, dengan mengidentifikasikan konstruk-konstruk yang diukur oleh sebuah tes, prosedurprosedur ini bisa amat meningkatkan pemahaman kita tentang sebab-sebab mengapa tes-tes tertentu memprediksi kinerja dalam situasi kriteria.



Terdapat perbedaan antara analisis item dengan analisis faktor yaitu : Analisis Faktor bekerja menggunakan intercorrelations dari semua item dengan satu sama lain. Analisis item bekerja dengan menghubungkan masing-masing item dengan skor total. Analisis faktor lebih halus sebagai konsekuensi karena skor total yang diperoleh dengan menambahkan bersama-sama item dalam analisis item mungkin. Analisis Faktor z memungkinkan peneliti untuk memperbaiki konseptualisasi mereka tentang apa item pada ukuran pengujian. Artinya,



faktor-faktor



yang



cukup



halus



entitas



yang



mungkin



memungkinkan wawasan psikologis ke dalam skala. Analisis item hanya menyediakan cukup kasar cara membersihkan skala item buruk yang mengukur hal-hal yang agak berbeda dari yang diukur dengan skala. Perlu disebutkan bahwa skala yang sangat halus mungkin tidak efektif mengukur hal-hal yang kompleks sebagai ukuran yang agak lebih kasar.



Referensi



Anastasi dan Urbina, Psychological Testing. Howitt dan Cramer. (2011). Introduction to Research Methods in Psychology