Terjemahan Jurnal Psychometric [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Diajukan untuk Memenuhi Tugas Mata Kuliah Penyusunan Skala Psikologi Mata Kuliah Penyusunan Skala Psikologi Dosen Pengampu: Dr. Kristiani Dewayani, M.Si., Psikolog.



Disusun Oleh:



Nama



: Syifa Salsabila Ruswanda



Kelas



: 3PA13



NPM



:16518952



FAKULTAS PSIKOLOGI UNIVERSITAS GUNADARMA DEPOK SEPTEMBER 2021



JOURNAL



Applied Psychometrics: The Steps of Scale Development and Standardization Process



Judul Jurnal



: Applied Psychometrics: The Steps of Scale Development and



Standardization



Langkah-langkah



Process



Pengembangan



(Psikometri Skala



dan



Terapan: Proses



Standardisasi) Nama Jurnal



: Scientific Research Publishing



Penulis Jurnal



: Theodoros A. Kyriazos, Nishtha Kathuriab, Anastasios Stalikas.



Volume & Halaman Jurnal



: 9 & 2531-2560



Tahun



: 2018



ABSTRAK Penelitian ini berfokus pada penyajian proses pengembangan pengukuran tentang self-reporting (pelaporan diri). Banyak prosedur pengembangan skala yang ditinjau kembali. Mereka semua diringkas ke dalam kerangka keseluruhan secara berturut-turut. Sebuah deskripsi singkat yang terkandung dalam setiap langkah. Masalah yang dibahas meliputi. Pertama, landasan teoritis dari konstruksi skala dijelaskan, bersama dengan spesifikasi respons dan format respons tersedia (yang paling populer seperti Likert dan beberapa lainnya yang lebih terperinci). Kemudian pedoman penulisan itemnya diikuti bersama dengan strategi untuk membuang item yang buruk saat menyelesaikan kumpulan item. Kriteria pemilihan item yang dijelaskan terdiri dari review panel ahli, pretesting dan analisis item. Dan terakhir, evaluasi dimensi diringkas bersama dengan penilaian tes dan standarisasi (sesuai norma).



KATA KUNCI Konstruksi Tes, Pengembangan Skala, Kuesioner, Timbangan Laporan Mandiri, Butir Penulisan, Penskalaan, Analisis Butir, Analisis Faktor, Review Panel Ahli, Standardisasi, Norma. 1. Pengenalan dan Konsep Dasar Kuesioner (juga disebut tes atau skala) didefinisikan sebagai seperangkat item yang dirancanguntuk mengukur satu atau lebih konstruksi yang mendasari, disebut juga variabel laten (Fabrigar & Ebel-Lam, 2007). Dengan kata lain, ini merupakan serangkaian pertanyaan laporan diri (self-reporting) yang objektif dan standar yang tanggapannya kemudian dirangkum untuk menghasilkan skor. Skor item didefinisikan sebagai angka yang ditetapkan untuk kinerja padaitem, tugas, atau stimulus (Dorans, 2018 hal. 578). Definisi kuesioner atau tes luas dan mencakup segala sesuatu mulai dari skala, hingga, mengukur kepuasan diri (misalnya SWLS Diener et al., 1985), untuk menyelesaikan tesbaterai (battery-test) seperti baterai Woodcock-Johnson IV oleh Schrank, Mather, danMcGrew (2014) terdiri dari tes kognitif, (Irwing & Hughes, 2018). Skala item adalah indikator dari konstruk yang diukur karena skornya juga merupakanindikator konstruk (Zumbo et al., 2002; Singh et al., 2016). Umumnya, ada skala sikap, sifat, dan kemampuan (Irwing & Hughes, 2018). Sikap, kemampuan dan ukuran penalaran intelektual atau ukuran kepribadian dianggap sebagai alat teknis, yang setara, misalnya dengan pengukur tekanan atau voltmeter (Coolican, 2014). Selama beberapa dekade terakhir, instrumen tersebut menjadi populer dipsikologi terutama karena mereka memberikan banyak informasi terkait konstruk laten yang telah dinilai (Raykov, 2012). Pengembangan Skala atau konstruksi, adalah tindakan merakit atau menulis item yang paling tepat yang merupakan pertanyaan dalam tes untuk populasi target (Chadha, 2009). Populasi target adalah sebagai kelompok untuk apa tes itu dikembangkan (Dorans, 2018). Pengembangan tes dan standardisasi (atau norma) adalah dua proses yang terkaitpengembangan tes yang didahulukan kemudian mengikuti standardisasi. Selama pengembangan tes, setelah perakitan dan analisis item, item-item yang



merupakan indikator terkuat dari konstruk laten yang diukur, dipilih dan yang terakhir muncul, sedangkan dalam standardisasi, norma standar sudah ditentukan (Chadha, 2009). Konstruksi skala yang efektif memiliki implikasi penting pada kesimpulan penelitian, yang pertama-tama mempengaruhi kualitas dan ukuran efek yang diperolehdan kedua signifikansi statistik dari efek tersebut (Furr, 2011), atau dengan kata lain akurasi dan sensitivitas instrumen (Price, 2017). Serangakain set standar untuk menilai tes standar untuk psikologi dan pendidikan telahditerbitkan bersama



oleh



American



Educational



Research



Association,



theAmerican



Psychological Association, dan Dewan Nasional Pengukuran dalam Pendidikan (AERA/APA/NCME, 1999, 2014; Streiner, Norman, &Kairo, 2015).Menurut Irwing dan Hughes(2018) umumnya, tes yang berhasil dikembangkan karena beberapa kombinasi dari tiga kondisi berikut, yaitu1) Kemajuan teoretis (misalnya NEO PI-R oleh Costa & McCrae, 1995), 2) Kemajuan empiris (Misalnya MMPI oleh Butcher, Dahlstrom, Graham, Tellegen, & Kaemmer, 1989), 3) Kebutuhan praktis atau pasar (misalnya SAT oleh Coyle & Pillow, 2008). Tujuan dari penelitian ini adalah untuk memberikan tinjauan pengembangan skala dan proses standarisasi. 2. Ikhtiar Proses Pengembangan Skala Proses pengembangan skala seperti yang dijelaskan oleh Trochim (2006) diselesaikan menggunakan lima langkah (dikutip oleh Dimitrov, 2012), yaitu :1) Tentukan sifat yang diukur, dengan asumsiunidimensional. 2) Hasilkan kumpulan item Likert potensial, (lebih disukai80-100) dinilai pada skala 5 atau 7 skala yang tidak setuju. 3) Item tersebut dinilaioleh panel ahli pada skala 1 - 5 tentang seberapa baik item-item tersebut dapat mengukurkonstruk (dari 1 = sangat tidak menguntungkan, sampai 5 = sangat mendukung). 4) Pilih item yang akan dipertahankan untuk skala akhir. 5) Mengelola skala dan untuk beberapa tanggapan dari semua item (skor mentah skala), membalikkan item yang mengukur sesuatu dari arah yang berlawanan dari sisa skala. Karena secara keseluruhanpenilaian dengan instrumen didasarkan pada skor responden pada semua item, kemudian kualitas pengukuran skor total menjadi perhatian yang khusus (Dimitrov,2012).



Dalam nada yang sama, Furr (2011) juga menggambarkannya sebagai proses yang diselesaikan dalam lima langkah: (a) Tentukan konstruk yang diukur dan konteksnya, (b) Pilih Format Respons, (c) Susun kumpulan item awal, (d) Pilih dan revisi item, (e) Mengevaluasi sifat psikometrik (lihat bagian yang relevan). Langkah (d) dan(e) adalah proses iterative (berulang) dari penyempurnaan kumpulan awal sampai sifat-sifat skalanya memadai. Skor tes kemudian dapat distandarisasi (lihat bagian yang relevan). Ada beberapa model pengembangan tes. Dalam praktiknya, langkah-langkah dalam tahapan yang berbeda sebenarnya dapat dikelompokkan dan dilakukan dalam kombinasi dan urutan yang berbeda, dan yang terpenting banyak langkah dari proses yang berulang (Irwing & Hughes, 2018). Pada Tabel 1 dijelaskan proses pengembangan skala oleh berbagai sumber berbeda yang disajikan sebagai langkahlangkah yang disarankan oleh berbagaisumber yang berbeda. Perhatikan bahwa pada Tabel



1



pendekatan



integratif



untuk



proses



pengembangan



skala



yang



menggabungkan langkah-langkah oleh semua sumber terdapat di bagian bawah. Tabel 1. Tahapan proses pengembangan skala disajikan pada bagian di bawah ini. 3. Fase A: Tujuan Instrumen dan Konstruksi Terukur Ketika



instrumen



dikembangkan



secara



efektif,



instrument



tersebut



menunjukkan reliabilitas dan validitas yang memadai sehingga mendukung penggunaan skor yang dihasilkan. Untuk mencapai tujuan ini, diperlukan pengembangan yang sistematis (Price, 2017). Namun, pengembangan skala untuk menilai atribut subjektif dianggap agak sulit dan membutuhkan sumber daya mental serta keuangannya (Streiner et al., 2015). Prasyaratnya adalah menyadari semua skala yang ada yang sesuai dengan tujuan instrumen pengukuran yang ingin dikembangkan,



menilai



penggunaannya



tanpa



kecenderungan,



untuk



memaksimalkan kekurangan sebelum memulai konstruksi pengujian jenis apa pun. Kemudian, terdapat satu pertimbangan lagi: kelayakan. Beberapa dimensi kelayakan yang perludipertimbangkan adalah waktu, biaya, penilaian, metode administrasi, gangguan, konsekuensi dari keputusan positif palsu dan negatif palsu, dan



sebagainya. (Streiner et al., 2015). Setelah itu, proses pengembangan skala dapat dimulai dengan definisi tujuan instrumen dalam domain tertentu, skor instrumen dan kendala yang melekat dalam pengembangan (Dimitrov,2012; Price, 2017). Sebagai aturan, dalam bidang penelitian psikologi, tujuan umum skala adalah untuk membedakan antara individu dengan tingkat konstruksi yang diukur dari mereka yang memiliki tingkat yang lebih rendah (Furr, 2011). Namun, tes yang dikembangkan pertama-tama harus menentukan dengan jelas konstruk yang dimaksud yang telah diukur. Mendefinisikan konstruk yang akan diukur adalah langkah yang penting dimana membutuhkan kejelasan dan spesifikasi (DeVellis, 2017; Price, 2017). Menguraikan konstruksi yang memungkinkan dengan menghubungkan ide dengan teori (misalnya kecerdasan emosional; Tabel 1. Proses pengembangan skala dijelaskan oleh berbagai sumber yang berbeda. Sumber Crocker & Algina, 1986



DeVellis, 2017 Furr, 2011: p. 6



Streiner et al., 2016: p.5



Langkah Proses Pengembangan



Price, 2017: p. 167



Irwing & Hughes, 2018



Pendekata n integratif dari semua sumber



Goleman, 1995). Namun, konstruksi dalam psikologi tidak dapat diamati secara langsung (Kline, 2009; Sawilowsky, 2007; Milfont & Fisher, 2010 di antara banyak lainnya), sehingga pengembang pertama-tama harus mendefinisikan landasan filosofis umum untuk menghubungkan konstruksi dengan serangkaian sifat atau perilaku yang dapat diamati. (Harga, 2017). Misalnya, Teori Broaden and Build emosi positif oleh Fredrickson (Fredrickson, 1998, 2001, 2003, 2013) didalilkan dalam gerakan psikologi positif, diprakarsai oleh Seligman (Seligman, 1998; Seligman & Csikszentmihalyi, 2000) yang memandang psikologi dalam perspektif yang berbeda dari "seperti biasa" (Seligman & Pawelski, 2003). Artinya, landasan filosofis suatu tes atau instrumen adalah penghubung antara konstruk yang akan diukur dan badan terkait dari suatu materi yang disebut domain (Nunnally & Bernstein, 1994: p. 295 direproduksi oleh Price, 2017). Dimitrov (2012) menawarkan contoh ilustratif: berbagai definisi "kemanjuran diri" ada dalam model seperti Teori Kognitif Sosial (Bandura, 1997), Teori Perilaku yang Direncanakan



(Ajzen, 1991), Model Transtheoretical (Prochaska, Norcross, Fowler, Follick, & Abrams, 1992), dan pendekatan Proses Tindakan Kesehatan (Schwarzer, 2001). Kemudian konstruksi dapat dioperasionalkan. Memutuskan konstruk biasanya didasarkan pada tinjauan literatur terkait, bersama dengan konsultasi dengan ahli materi pelajaran. Kemudian definisi konstruk yang ringkas, jelas dan tepat dihasilkan. Dengan menggunakan definisi ini, konten item ditentukan dengan presisi dan kejelasan (Price 2017; DeVellis, 2017). Definisi konstruk awal harus sejelas mungkin (DeVellis, 2017) tetapi seringkali agak luas. Dari titik ini, dengan tinjauan literatur sistematis, tes yang ada diidentifikasi dan sifat dari konstruk target dipelajari. Setelah tinjauan ini, pengembang tes dapat menyempurnakan definisi konstruk lebih lanjut (Irwing & Hughes, 2018). Operasionalisasi konstruk menetapkan hal-hal berikut: (a) model struktur internal; (b) model hubungan eksternal dengan konstruksi lain; (c) indikator potensial yang relevan, dan (d) proses terkait konstruk (Dimitrov, 2012). Langkah selanjutnya adalah menautkan konten domain dengan kriteria terkait domain. Maka perencanaan diperlukan (Irwing & Hughes, 2018) untuk menentukan berbagai pilihan yang tersedia berkaitan dengan spesifikasi barang yang dijelaskan selanjutnya. Metode untuk mengidentifikasi atribut yang secara akurat mewakili konstruk yang ditargetkan (terutama berguna dalam tes kemampuan dan kecerdasan) oleh Price (2017) disajikan pada Tabel 2 dan Gambar 1. 4. Fase B: Spesifikasi Skala Respon Salah satu keputusan pertama saat merancang sebuah kuesioner adalah apakah akan memasukkan pertanyaan terbuka (memungkinkan jawaban dengan kata-kata responden sendiri) atau tertutup (memaksa tanggapan dari serangkaian pilihan). Sebagian besar item tertutup, meskipun beberapa pertanyaan terbuka digunakan dalam penelitian survei atau item yang membutuhkan input numerik misalnya usia, berat badan, (Krosnick & Presser, 2010). Namun demikian, item  Tabel 2. Metode untuk mengidentifikasi atribut yang secara akurat mewakili konstruksi yang ditargetkan.



Pakar materi pelajaran memutuskan atribut yang akan diukur



Wawancara elemen kunci melalui proses berulang Tinjauan literatur terkait Analisis isi untuk melacak dimensi atau area topik Pengamatan langsung (Price, 2017: hlm. 190-191; Wolfe & Smith, 2007 ; Dimitrov, 2012



Gambar 1. Pertanyaan yang harus dijawab selama perencanaan pengembangan skala (isi oleh Irwing & Hughes, 2018: hlm. 9-10)



digunakan dalam kuesioner/tes penelitian psikologis bersifat tertutup karena ini memungkinkan data yang akan dianalisis (Coolican, 2014; Furr, 2011). Kasus ketiga adalah kombinasi format terbuka dan tertutup dengan menyertakan opsi "lain". responden cenderung mengabaikan pilihan lain (Krosnick & Presser, 2010; Lindzey & Guest, 1951; Schuman & Scott, 1987) Penskalaan pada item tertutup dapat dikategorikan sebagai 1) kategoris atau kontinu; 2) berdasarkan tingkat pengukurannya, yaitu nominal, ordinal, interval dan rasio (Streiner et al., 2015). Dalam skala kategoris skor diperoleh dengan menjumlahkan (atau rata-rata) item yang menerima jawaban dengan nilai biner (yaitu 1 = benar, 0 = salah). Dalam skala berkelanjutan, skor dijumlahkan (atau dirata-ratakan) berdasarkan item dengan nomor yang ditetapkan untuk kategori respons, yaitu dari 1 = sangat tidak setuju



hingga 5 = sangat setuju untuk item skala Likert lima poin (Dimitrov, 2012; Barker, Pistrang, & Elliott, 2016). Terlepas dari ambiguitas dan ketidaksepakatan, peneliti umumnya memperlakukan skala tipe Likert sebagai tingkat pengukuran interval (Furr, 2011). Namun, skala penilaian yang dinilai pada skala 5 poin, tidak dianggap sebagai pengukuran tingkat interval tetapi berkelanjutan (Streiner et al., 2015). Pengembang harus memutuskan apa format respons pada tahap awal, bersamaan dengan pembuatan item sehingga keduanya memiliki kompatibilitas (DeVellis, 2017). Skala respons datang dalam format yang berbeda dengan beberapa spesifikasi yang harus dipertimbangkan oleh pengembang (lihat Gambar 2). 4.1.



Format Skala Respon  Secara kasar, format skala respons menunjukkan cara item disusun dan respons diperoleh dan dievaluasi (Furr, 2011). Format skala umum



Jangka Waktu Item



Format Respon Skala



Jumlah Kategori Respon Spresifikasi item untuk dipertimbangkan terutama pada Skala Likert



Label Kategori Respon



Titik Tengah



Gambar 2. Spesifikasi item terutama yang berhubungan dengan Likert dan skala tipe Liker yang seharusnya diputuskan bersamaan dengan penulisan butir item.



(a) Penskalaan Guttman (Guttman, 1941, 1944, 1946); (b) Penskalaan Thurstone (Thurstone, 1928); (c) Penskalaan Likert (Likert, 1932, 1952). (A) dan (B) bukan timbangan item yang berbobot sama, sedangkan (c) seperti itu (timbangan item yang berbobot sama) (DeVellis, 2017). Model Pengukuran Klasik lebih cocok untuk skala dengan item yang kira-kira setara dengan sensor dari konstruksi yang diukur, seperti Likert (lihat juga Price, 2017). Umumnya, skala yang terdiri dari item yang diberi skor pada kontinum dan kemudian dijumlahkan untuk menghasilkan skor skala lebih kompatibel dengan Model Pengukuran Klasik (pengukuran variabel laten) menyebutkan bahwa item adalah indikator yang sebanding dari konstruk yang mendasarinya dibandingkan dengan Teori Respon Item yang merupakan perspektif pengukuran alternative (DeVellis, 2017; Price, 2017) dan kasus (A) dan (B) lebih cocok (DeVellis, 2017). Untuk alasan ini, kami hanya menjelaskan secara singkat Penskalaan Guttman dan Thurstone dan secara lebih rinci Penskalaan Likert atau umumnya semua (skala) estimasi langsung yang kontinu dan bobotnya sama (DeVellis, 2017; Streiner et al., 2015). Penskalaan Guttman Ini adalah metode perbandingan (Streiner et al., 2015). Penskalaan Guttman (Guttman, 1941, 1944, 1946; Aiken, 2002) yang terdiri dari item-item yang menyentuh tingkat atribut yang semakin tinggi (juga disebut analisis skalogram, penskalaan deterministik, atau penskalaan kumulatif; Dimitrov, 2012). Seorang responden harus memilih sekelompok item sampai jumlah atribut yang diukur melebihi yang dimiliki oleh responden. Pada saat itu, tidak ada item lain yang harus dipilih oleh grup. Data deskriptif murni bekerja dengan baik dengan skala Guttman, misalnya ApakahAnda minum? “Apakah Anda minum lebih dari 2 gelas sehari?” dan lain-lain. Tingkat atribut respondenditunjukkan dengan jawaban afirmatif



tertinggi. Penskalaan Guttman memiliki penerapan yang agak terbatas dengan kerugian yang sering kali lebih besar daripada keuntungannya karena asumsi hubungan sebab akibat yang sama kuatnya antara variabel laten dan masingmasingitem tidak akan berlaku untuk item skala Guttman. Nunnally dan Bernstein (1994) menyarankan model konseptual untuk skala ini (DeVellis, 2017; Streiner et al., 2015). Dalampraktiknya, pola respon yang menggambarkan skala Guttman yang sempurna jarang terjadi (Price, 2017). Lihatlah Tabel 3 untuk contoh. Penskalaan Thurstone Thurstone (1927) mengusulkan tiga metode untuk mengembangkan skala unidimensional: metode interval yang tampak sama, metode interval berurutan, dan metode perbandingan berpasangan (Dimitrov, 2012). Ide sentral dalam ketiga metodeadalah bahwa pengembang skala merancang item yang sesuai dengan tingkat yang berbeda dari atribut yang diukur (DeVellis, 2017). Kemudian sekelompok ahli menilai derajat item yang mewakili atribut pada skala 1 (paling tidak representatif) sampai 11 = paling representatif (Dimitrov, 2012). Namun, sebagai aturan, masalah praktis yang melekat dalam menggunakan metode dengan Model Pengukuran Klasik (DeVellis, 2017), proses pengembangannya yang menuntut dalam kombinasi dengan hasil yang sebanding dengan skala Likert (Streiner et al., 2015) sering meminimalkan keuntungannya. Penskalaan Likert Skala Likert—atau skala normatif Likert (Saville & MacIver, 2017)— dikembangkan oleh Likert (1932, 1952)—mungkin merupakan format respon paling umum dalam psikologi (Furr, 2011; Dimitrov, 2012; Barker et al., 2016) dan serbaguna dan efektif untuk membedakan tingkat kemampuan atau pencapaian (Haladyna, 2004; Price, 2017). Terdapat dua bagian: (1) item dan (2) skala respons yang berisiserangkaian alternatif intensitas yang meningkat yang ditunjukkan oleh nilai numerik bilangan bulat dan deskriptor verbal yang disebut jangkar (Barker et al., 2016). Setiap respon dinilai dengan nilai integer (bilangan bulat) tertentu (misalnya, 1 = Sangat Tidak Setuju; 5 = Sangat Setuju), dijumlahkan atau dirata-



ratakan di semua item dari dimensi skala (Fur, 2011). Contoh ditunjukan pada Tabel 4. Peringkat ditampilkan di Tabel 4 dipetakan ke kontinum bipolar dari titik-titik yang sama mulai dari pernyataan sangat setuju hingga sangat tidak setuju. Pilihan tanggapan harus diberi kata-kata untuk memiliki interval yang sama sehubungan dengan persetujuan/ketidaksepakatan yang membentuk sebuah kontinum (DeVellis, 2017). Titik netral pada skala menawarkan opsi respons "middle of the road"(Price, 2017). Item Likert yang efisien dapat menilai pendapat, sikap, keyakinan dalam istilah yang jelas, tetapi lebih cocok dengan pernyataan dengan kata-kata yang kuat karena item yang ringan menghasilkan kesepakatan umum. (DeVellis, 2017). Meskipun memungkinkan perbandingan langsung antara orang-orang skala Likert telah menerima beberapa kritik karena kuantifikasi abstrak dari tingkat pengukuran (Saville & MacIver, 2017). Variasi lain dari skala kategoris terurut seperti Likert adalah skala penilaian perilaku. Misalnya, perilaku siswa di kelas dengan item seperti “Siswa berperilaku tidak baik di kelas” dinilai sebagai Selalu = 5, Tidak pernah = 1 (Price, 2017, contoh diadaptasi dari Price). Tabel 3. Format Skala yang populer



Skala Guttman



Aku bisa (pilih satu): 1. Berlari sejauh 200 meter 2. Berlari sejauh 400 meter 3. Berlari sejauh 600 meter 4. Berlari sejauh 1 kilometer 1. Bagi saya sukses adalah syarat untuk bahagia 2. Mendapatkan pekerjaan yang baik itu



Skala Thurstone



penting, tapi tidak perlu 3. Kebahagiaan tidar berhubungan dengan uang atau pencapaian 4. Mencapai kesuksesan mengahalangi



Diferensial Semantik Analog Visual



Benar… Benar… Benar… Benar…



Salah… Salah… Salah… Salah…



Setuju…



Tidak Setuju…



Setuju…



Tidak Setuju…



Setuju…



Tidak Setuju…



Setuju… Tidak Setuju… kebahagiaan Video game itu: Mudah Sulit Baik Buruk Seberapa parah sakit kepala anda dalam 24 jam terakhir ini ? Sakit kepala paling parah yang Tidak terasa dialami



Skala peringkat Likert dan skala peringkat yang dijumlahkan tidak mengikuti model pengukuran (Torgerson, 1958) namun, asumsi berikut dibuat: 1) interval kategori memiliki panjang yang kira-kira sama, 2) label kategori ditetapkan secara subyektif, dan 3) fase tes awal selama pengembangan item diikuti dengan analisis item dari respon (Price, 2017). Tidak perlu merentangkan rentang pernyataanlemah hingga kuat dalam skala jenis ini karena opsi respons menawarkan kemungkinan gradasi konstruk yang terukur (DeVellis, 2017). Sama seperti bentuk pertanyaan yang dapat mempengaruhi tanggapan, demikian juga bentuk skala tanggapan (Barker et al., 2016; Saris & Gallhofer, 2007; Schwartz, 1999). Alternatif skala respons lain untuk tipe Likert secara singkat disajikan dalam Tabel 5. Diferensial Semantik Skala diferensial semantik (Osgood & Tannenbaum, 1955; Osgood, Tannenbaum, & Suci, 1957) menghasilkan peringkat pada skala bipolar dengan kata sifat yang berlawananberpasangan di setiap ujungnya (Heise, 1970; Price, 2017; DeVellis, 2017). Nilai responsdikumpulkan di semua pasangan kata sifat untuk menghitung skor peserta (Furr, 2017). LihatTabel 3untuk contoh. Tabel 4. Skala Likert dengan 5 dan 7 poin. Ada banyak yang bisa disyukuri dalam hidup ini



Tidak Pernah 2 = Jarang 3 = Terkadang 4 = Sering 5 = Sangat Sering



2 = Tidak Setuju 3 = Sedikit Tidak Setuju 4 = Netral 5 = Sedikit Setuju 6 = Setuju 7 = Sangat Setuju The Gratitude Questionnaire-Six Item (GQ-6)



oleh



Emmons, & Tsang, 2002)



(BAGIAN ARIP)



kehidupan ini



1 = Sangat Jarang atau



1 = Sangat Tidak Setuju



Form



Saya sedang mencari arti dalam



Positif



(McCullough,



Scale



of



Negative



Positive



2 = Hampir Tidak Benar 3 = Sedikit Tidak Benar 4 = Tidak Bisa Menentukan 5 = Sedikit Benar 6 = Hampir Benar 7 = Sangat Benar and



Experience



(SPANE) (Diener et al., 2009, 2010)



1 = Sangat Tidak Benar



Meaning in Life Questionnaire (MLQ) oleh Steger et al. (2006)



label, apakah yang menawarkan opsi titik tengah atau "tidak ada pendapat" dan detail lainnya seperti kerangka waktu (Dimitrov, 2012; DeVellis, 2017; Price, 2017; Barker et al., 2016; Fur, 2011). Pertimbangan ini sangat relevan dengan skala likert dimana skala ini yang paling umum digunakan (Furr, 2011; Dimitrov, 2012; Barker et al., 2016). Jumlah Opsi Respon Jumlah minimum yang diperlukan adalah dua, yaitu dalam skala biner (misalnya, Setuju/Tidak Setuju, Benar/Salah), tetapi jumlah yang lebih besar memiliki manfaat serta biaya (Furr, 2011). Likert (1932, 1952) timbangan yang paling sering menggunakan 5 poin ialah; diferensial semantik (Osgood, Suci, & Tannenbaum, 1957) 7 poin, dan Thurstone (1928) 11 poin (Krosnick & Pers, 2010). Sumber lain menyarankan 5 poin untuk unipolar dan 7 poin untuk bipolar sebagai skala optimal yang panjang (Fabrigar & Ebel-Lam, 2007). Lima hingga sembilan poin cocok untuk kesempatan yang besar dan dalam hal apa pun (Streiner at al., 2015; Krosnick & Presser, 2010) yang paling sering digunakan (Furr, 2011). Namun, sebenarnya tidak ada standar (Krosnick & Presser, 2010: p. 268). Penskoran item biner adalah sebagian besarnya digunakan dalam pengaturan di mana nonresponse bukanlah opsi yang memungkinkan, atau/dan itu diperlakukan sebagai yang tidak benar (Dorans, 2018) jika tidak, dapat mengakibatkan hilangnya informasi dan (Streiner et al., 2015) mungkin tidak menarik bagi responden (Streiner et al., 2015; juga mengutip Jones, 1968; Carp, 1989). Manfaat potensialnya adalah jumlah opsi yang relatif besar, memungkinkan opsi gradasi yang lebih baik (Furr, 2011), seperti meningkatkan akurasi mikroskop. Jika sebuah skala respons tidak dapat membedakan perbedaan dalam konstruk target, utilitasnya akan terbatas (DeVellis, 2017). Selain itu, keandalanyan lebih rendah untuk skala yang dengan hanya dua atau tiga poin dibandingkan dengan skala dengan lebih banyak poin, peningkatan keandalan ini menghilang setelah 7 poin (Krosnick & Presser, 2010 juga mengutip Lissitz & Hijau, 1975; Jenkins & Taber, 1977; Martin, 1978; Srinivasan & Basu, 1989) dan hal yang sama umumnya berlaku



untuk validitas (Krosnick & Presser, 2010; Hijau & Rao, 1970; Lehmann & Hulbert, 1972; Lissitz & Hijau, 1975; Martin, 1973, 1978; Ramsay, 1973). Biaya potensial memiliki banyak pilihan respons yaitu peningkatan kesalahan acak, daripada bagian sistematis dari peningkatan konstruk target (Furr, 2011; DeVellis, 2017). Masalah lain yang perlu dipertimbangkan adalah kemampuan responden untuk membedakan secara bermakna di antara beberapa opsi. Terkadang juga terlalu banyak pilihan yang menyebabkan responden hanya menggunakan pilihan yang kelipatan 5 atau 10 (DeVellis, 2017). Akhirnya, beberapa bukti empiris menunjukkan bahwa orang-orang di banyak negara dalam melakukan tugasnya tidak dapat membedakan dengan mudah yang bisa melampaui tujuh poin (Streiner at al., 2015 juga mengutip Miller, 1956; Hawthorne et al., 2006). Label opsi respons (penahan) Deskriptor paling sering digunakan mengetuk persetujuan (Sangat setuju hingga Sangat tidak setuju), tetapi dimungkinkan untuk membangun skala Likert yang dapat dibangun untuk mengukur hampir semua atribut, seperti persetujuan (Sangat setuju hingga Sangat tidak setuju), penerimaan (Paling setuju - Paling tidak setuju), kesamaan (Yang paling saya suka – Yang paling tidak saya suka), atau probabilitas (kemungkinan) misalnya Kemungkinan besar - Kemungkinan kecil (Streiner et al., 2015). Umumnya, penelitian empiris menganggap penggunaan opsi respons berlabel penuh lebih efektif yaitu pelabelan menghasilkan langkah-langkah dengan kualitas psikometrik yang lebih baik daripada pelabelan hanya titik akhir (Krosnick et al., 2005; Furr, 2011; Fabrigar & Ebel-Lam, 2007; Streiner dkk., 2015) atau setiap titik lain dan titik akhir (Sreiner at al., 2015). responden dapat dipengaruhi oleh kata sifat pada skala berakhir daripada yang terletak di antaranya. Mereka juga cenderung lebih puas ketika semua titik skala diberi label (Streiner et al., 2015; Dickinson & Zellinger 1980) dan cenderung lebih sering memilih label daripada poin yang tidak berlabel (Streiner et al., 2015). Namun, ketika memberi label beberapa hal praktis perlu dipertimbangkan.



1. Pertama, label harus membedakan secara bermakna tingkat pengukuran yang ditawarkan. 2. Selain itu, mereka harus mewakili perbedaan yang setara. secara psikologis di antara opsi respons (DeVellis, 2017; Furr, 2011). 3. Ketiga adalah peringkat opsi respons harus bermakna untuk semua item, logis dan konsisten (Fur, 2011). TITIK TENGAH Titik tengah netral juga dapat ditambahkan ke skala peringkat dikotomis/bipolar dengan memilih sejumlah opsi respons titik genap (Fur, 2011), misalnya, sikap positif yang kuat vs sikap negatif yang kuat. Hal ini dapat dicapai dengan menentukan jumlah poin yang ganjil, memungkinkan dalih ("tidak setuju atau tidak setuju") atau ketidakpastian ("tidak yakin"). Dalam skala unipolar, masalah jumlah poin ganjil atau genap mungkin memiliki konsekuensi yang kecil (Streiner et al., 2015). Pilihan umum untuk titik tengah termasuk "tidak setuju atau tidak setuju", "setuju dan tidak setuju sama-sama" (DeVellis, 2017), “netral” (Furr, 2011; Streiner et al., 2015), atau "belum memutuskan" (Harga, 2017). Krosnick dan Schuman (1988) dan Uskup (1990) menyarankan bahwa mereka yang memiliki sikap kurang intens atau dengan minat terbatas lebih cenderung memilih titik tengah (O'Muircheartaigh dkk., 1999; Krosnick & Presser, 2010). O'Muircheartaigh dkk. (1999) juga memperhatikan untuk menambahkan titik tengah keandalan dan validitas peringkat ditingkatkan. Juga, Pemodelan Persamaan Struktural pada struktur kesalahan menunjukkan bahwa penghilangan titik tengah menghasilkan pemilihan acak dari salah satu alternatif titik skala yang lebih dekat. untuk menunjukkan bahwa menawarkan pilihan titik tengah mungkin lebih tepat daripada mengecualikannya (Krosnick & Presser, 2010). Namun, opsi respons "Tidak tahu" telah terbukti secara empiris tidak efisien (bahkan ketika ditawarkan secara terpisah dari titik tengah) (Krosnick et al., 2005; Furr, 2011). Namun, tergantung pada konstruk target, mungkin ada alasan untuk mengecualikan dalih jika responden kemungkinan besar akan menggunakan pilihan titik tengah untuk menghindari menjawab (Fabrigar & Ebel-Lam, 2007; DeVellis,



2017). Tidak ada kriteria selain kebutuhan penelitian tertentu (Streiner et al., 2015). Analisis empiris tanggapan titik tengah menunjukkan bahwa mempertimbangkan tanggapan titik tengah sebagai setengah jalan antara dua ujung yang berlawanan dari konstruk target kompromi sifat psikometrik skala (Furr, 2011 juga mengutip O'Muircheartaigh dkk., 2000). 5. Fase C: Pembuatan Item (Kolam Item) Seiring



dengan



menentukan



format



respons,



langkah



paralel



dalam



mengembangkan kuesioner adalah mengumpulkan atau merancang item untuk kumpulan awal. (DeVellis, 2017; Furr, 2011). Spesifikasi isi instrumen mengharuskan pengembang: 1) Mengoperasionalkan konstruk dengan menentukan daftar lengkap indikator potensial (item) dari konstruk target, 2) Memilih daftar sampel representatif dari indikator (Dimitrov, 2012). Mungkin menjadi salah satu langkah terpenting dari proses (Harga, 2017), karena tidak ada operasi statistik berikutnya yang dapat mengimbangi item yang dinyatakan dengan buruk atau tidak ada (Streiner et al., 2015) Jumlah item yang disertakan Kumpulan item awal lebih besar dari set skala akhir. Sebagai aturan, bisa 3 atau 4 kali lebih besar (DeVellis, 2017; Streiner et al., 2015), atau konstruksinya agak menyempit 2 kali lebih besar (DeVellis, 2017). Menulis item yang lebih baik daripada yang diperlukan memungkinkan pemilihan item terbaik, yaitu item yang paling baik memperkirakan konstruk target dan yang bekerja dengan baik dengan item lain dalam skala berdasarkan penelitian (Saville & MacIver, 2017). Redundansi konten adalah aset kumpulan konstruksi karena meningkatnya keandalan konsistensi internal yang pada gilirannya, mendukung validitas (Devellis, 2017).



Sumber barang potensial



Sumber informasi pertama adalah memeriksa apa yang telah dilakukan orang lain (Furr, 2011; Streiner et al., 2015; Wechsler (1958), misalnya, dimasukkan ke dalam tes IQ 11 subtes (dapat dilihat pada Taylor, 1953; Hathaway & McKinley, 1951 untuk strategi serupa). Ada beberapa alasan untuk adaptasi item dari instrumen sebelumnya. 1. Pertama, menghemat pekerjaan. 2. Kedua, item yang ada biasanya terbukti secara psikometris dan 3. ketiga, sebagai aturan, tidak ada cara yang tidak terbatas untuk bertanya tentang masalah tertentu. (Streiner et al., 2015). Selain itu, saat menulis item, ada lima sumber ide potensial yang berbeda (Streiner et al., 2015) : a) populasi sasaran (kelompok fokus), b) teori, c) penelitian yang ada, d) pendapat ahli dan/atau wawancara informan kunci dan e) observasi klinis, jika ada. Sumber item ini tidak saling eksklusif dan pengembang skala dapat menggunakan item yang dihasilkan dari beberapa atau semua sumber (Streiner et al., 2015). Kelompok fokus adalah sekelompok orang yang dipilih dengan cermat (Willms & Johnson, 1993; P. 61) berbicara secara bebas dan spontan tentang konstruk target di hadapan fasilitator (Streiner et al., 2015; Willms & Johnson, 1993). Biasanya, dua atau tiga kelompok dianggap cukup. Kondisi yang membuat kelompok fokus tidak efektif adalah ketika populasi target sulit untuk berinteraksi secara publik (yaitu karena fobia tertentu) atau karena konstruknya menyadap perilaku yang memalukan atau ketidakmampuan yang dirasakan (Streiner et al., 2015). Teori di sisi lain (didefinisikan secara luas), dapat mencakup model formal atau ide-ide perilaku yang terbentuk secara samar, terutama jika konstruksinya termasuk dalam domain yang relatif sempit. Selain itu, temuan penelitian dapat menjadi sumber yang kaya untuk item dan sub skala potensial baik melalui tinjauan pustaka dari studi yang ada di area tersebut atau penelitian. Namun, ketika konstruksi menyentuh area baru, penelitian sebelumnya mungkin tidak tersedia.



Selanjutnya, praktik pendapat ahli tidak memiliki aturan tentang berapa banyak ahli yang akan digunakan, bagaimana memilih mereka, atau bagaimana perbedaan di antara pandangan mereka dapat ditentukan. Wawancara informan kunci adalah wawancara dengan sejumlah kecil orang yang dipilih karena pengetahuannya. Umumnya, semakin sedikit yang diketahui tentang area yang diteliti, semakin tidak terstruktur wawancaranya. Tidak ada jumlah pasti orang yang harus diwawancarai. Pengamatan klinis mungkin merupakan salah satu sumber item yang paling bermanfaat untuk skala yang menargetkan populasi klinis (Streiner et al., 2015). Informasi yang dikumpulkan dari prosedur di atas (misalnya tinjauan ahli) harus digunakan untuk mendukung aspek isi validitas konstruk (Dimitrov, 2012; Streiner et al., 2015; DeVellis, 2017). Kata-kata Item Kata-kata item penting sebagai cara dalam pengungkapan pertanyaan untuk dapat menentukan respons (Sudman & Bradburn, 1982; Bradburn et al., 2004; Saris & Gallhofer, 2007; Schwartz, 1999). Selama penulisan soal, isu-isu seperti kejelasan bahasa, relevansi isi, dan penggunaan skala seimbang (yaitu dengan butir-butir kata baik



positif



maupun



negatif)



biasanya



dipertimbangkan



(Fur,



2011).



Menyeimbangkan skala berarti mengatakan beberapa (Smith dkk., 2008) item secara positif dan negatif terhadap konstruk target untuk meminimalkan efek set respons, yaitu serangkaian respons yang serupa (Anastasi, 1982; Likert, 1932; Cronbach, 1950). Namun, penelitian umumnya menunjukkan bahwa tidak efisien (Streiner et al., 2015; DeVellis, 2017). Saran berikut dibuat untuk konstruksi item skala sikap (Gable & Wolfe, 1993: hlm. 40-60; direproduksi oleh Harga, 2017: hal. 178) : 1) Hindari item dalam bentuk lampau; 2) Membangun item yang mencakup satu pemikiran; 3) Hindari negatif ganda; 4) Menyukai item dengan struktur kalimat sederhana; 5) Hindari kata-kata yang menunjukkan kemutlakan seperti hanya atau hanya, selalu, tidak ada;



6) Hindari barang-barang yang kemungkinan akan didukung oleh semua orang; 7) Hindari item dengan multitafsir; 8) Gunakan bahasa yang sederhana dan jelas; 9) Simpan item di bawah 20 kata. Berarti yang mendekati kemampuan membaca anak usia 11 - 13 tahun, tingkat membaca yang digunakan oleh sebagian besar surat kabar (DeVellis, 2017; Streiner et al., 2015). Secara khusus, kemampuan membaca anak-anak kelas lima adalah 14 kata dan 18 suku kata per kalimat, yaitu satu item (berdasarkan penelitian teks berkelanjutan).(Dale & Chall, 1948; Fry, 1977; DeVellis, 2017; Streiner et al., 2015), sehingga dipertanyakan (lihat Streiner dkk., 2015). Kalimat-kalimat yang dapat dikuasai anak-anak kelas enam terdiri dari 15 - 16 kata dan sekitar 20 suku kata. Aturan umum untuk implementasi yang efisien dari aturan kemampuan membaca adalah akal sehat (DeVellis, 2017), dan hal yang sama berlaku untuk aturan penulisan item (Krosnick & Presser, 2010). Umumnya, kata-kata yang dipersonalisasi lebih melibatkan dan lebih disukai oleh sebagian besar pengembang. Namun, ini mungkin bukan aset dalam konteks yang sensitif. tense yang digunakan di semua item harus konsisten menunjuk pada kerangka waktu yang jelas (Irwing & Hughes, 2018). Selain itu, apakah item dengan kata-kata positif dan negatif keduanya termasuk dalam kumpulan harus dipertimbangkan. Bagaimanapun, aturan tata bahasa harus diikuti. Ini akan membantu menghindari beberapa ambiguitas sering muncul dari kumpulan item yang berisi item dengan kata-kata positif dan negatif (Devellis, 2017) Untuk memasukkan atau tidak item pengisi juga merupakan pertimbangan lain (lihat DeVellis, 2017 untuk rincian). Lihat ringkasan prinsip-prinsip kunci menulis item yang baik ada pada Gambar 3 dan beberapa contoh item dengan kata-kata yang tidak berhasil pada Tabel 6. 6. Fase D: Evaluasi Item Fase pembuatan item selesai ketika panel ahli meninjau kumpulan item (DeVellis, 2017). Item yang dihasilkan ditinjau kualitas dan relevansinya oleh panel ahli (Morrison & Embretson, 2018) atau dengan uji coba (Harga, 2017). Umumnya,



setelah meninjau item oleh kelompok ahli, juga merupakan praktik umum untuk menguji coba item untuk memperoleh data untuk analisis item pertama (Irwing & Hughes, 2018 mengutip dari DeMaio & Landreth, 2004; Presser & Blair, 1994; Willis, Schechter, & Whitaker, 2000). Sebagai alternatif, empat metode tambahan dapat digunakan untuk memberikan umpan balik tentang relevansi, kejelasan, dan ketidak jelasan : a. Uji coba lapangan, b. Wawancara kognitif, c. Eksperimen acak, dan d. Kelompok fokus. Item



Yang



harus Item Yang harus Item



Yang



harus Item



Yang



harus



dimiliki



dimiliki



dimilki



(Barker, et al., 2016)



(Furr, 2011)



(Fabriger & Ebel-Lam, (Saville and Maclver,



1. Kejelasan (clarity)



1. Tidak



2. Kesederhanaan



kata



(simplicity)



rumit



3. Kekhususan (Specificity)



2007) ada 1. Keringkasan yang (no



complex



sederhana



2. Ketidakjelasan



(Targeted



3. Kejelasan



4. Satu pertanyaan di



2. Tidak



setiap item (single



jargon



question at each



psikologi (no



beralas ganda (no



item)



psychology



double-barreled



jargon)



item)



5. Keringkasan (brevity)



3. Tidak



ada



(Clarity) 4. Tidak ada item



ada



ganda



2017) 1. Ditargetkan dan



(Brievity) (unambiguity)



words)



dimiliki



and



simple) 2. Singkat



dan



mudah dipahami (short



and



comprehensible) 3. Langsung tanpa



dan idiom



(Direct



and



Without idioms)



negative (no



4. Diutarakan



double-



secara langsung



negatives)



dan



4. Tidak



ada



item berlaras



mengacu



pada diri sendiri (positively



ganda (no



phrased and selfdouble-



referent)



barreled item)



5. Relevan dengan pekerjaan



dan



internasional (work-relevant and internasional) Gambar 3. Prinsip-prinsip kunci untuk penulisan item yang sukses seperti yang disarankan oleh empat sumber berbeda dalam literatur pengembangan skala



Tabel 6. Beberapa contoh kata-kata item yang tidak berhasil. Item Tidakkah anda berfikir bahwa merokok harus dilarang



Masalah (Problem) Pertanyaan utama – lebih menyukai jawaban ya



digedung-gedung umum ? Asusmsi implisit - diasumsikan responden Seberapa sering anda merujuk ke psikolog?



merujuk ke psikologi



Seberapa sering anda menangis ?



Non-netralitas – “Break down” memberikan nada negative pada tangisan



Apakah anda pernah menderita sakit punggung? Ambigu dan tidak jelas – tidak merinci maslaah Apakah anda puas dengan pekerjaan anda atau anda



dan kerangkan waktu



mengalami masalah ? Pertanyaan beralas ganda (meminta dua hal yang Apakah anda melihat gejala konversi motorik selama 4



berbeda pada saat yang sama)



minggu terakhir ini ? Rumit-menggunakan jargon yang professional Memang benar bahwa salah satu hal yang sepertinya bermasalah membuat poin ketika berdiskusi dengan



Kurangnya singkatan/ekonomi – “saya sering



orang lain



mengalami



kesulitan



dalam



menyampaikan



maksud” menyampaikan arti yang sama dengan



kata-kata yang lebih singkat Konten diadaptasi oleh Barker et al., 2016: hlm. 111-112; DeVellis, 2017: hal. 101.



(Irwing & Hughes, 2018; Streiner et al., 2015). Validitas item dilengkapi dengan analisis item untuk memperkirakan kualitas psikometrik setiap item dalam mengukur konstruk target (misalnya,Ackerman, 1992; Allen & Yen, 1979; Anastasi & Urbina, 1997; Clauser, 2000; Crocker & Algina, 1986; Haladyna, 1999; Janda, 1998; Wilson, 2005; Wright & Masters, 1982seperti dikutip oleh Dimitrov, 2012). Hasil analisis item dari validitas konstruk pendukung(Streiner dkk., 2015). ULASAN PARA AHLI UNTUK PANEL ITEM Tinjauan ahli dapat mencakup: 1) tinjauan konten, yang memberikan masukan tentang kumpulan item awal terkait relevansinya dengan domain konten, akurasi, dan kelengkapan; 2) tinjauan sensitivitas, mengevaluasi bias item potensial; dan 3) penetapan standar, sebuah proses di mana para ahli mengidentifikasi skor cutoff untuk keputusan yang direferensikan kriteria pada tingkat kinerja atau klasifikasi diagnostik (Dimitrov, 2012). Tinjauan ini memiliki berbagai tujuan terkait dengan memaksimalkan validitas konten. Proses peninjauan sangat berguna ketika mengembangkan instrumen yang terdiri dari skala terpisah untuk mengukur beberapa konstruksi. Prosedur umumnya melibatkan penilaian relevansi setiap item untuk konstruk menurut definisi yang diberikan. Definisi tersebut bisa juga bisa menegaskan atau tidak. Reviewer juga dapat menilai kejelasan dan keringkasan setiap item. Peninjau ahli juga dapat menilai kelengkapan konten. Pengembang dapat menerima atau menolak saran para ahli karena ahli konten mungkin tidak terbiasa dengan prinsipprinsip konstruksi skala (DeVellis, 2017). Kriteria untuk item yang akan dibuang dirangkum dalam Tabel 7. Panduan yang lebih canggih untuk memilih item yang paling berharga adalah dengan menggunakan rasio validitas konten (CVR) (Lawshe, 1975; Waltz & Bausell, 1981; Lynn, 1986). Setiap anggota panel ahli (mungkin terdiri dari



cendekiawan dan masyarakat umum), diberikan daftar item beserta dimensi kontennya. Tugas mereka adalah mengevaluasi setiap item pada skala 4 poin (4 = Sangat Relevan; 3 = Cukup Relevan/Sangat Relevan tetapi Perlu Penyusunan Kata Ulang; 2 = Agak Relevan; dan 1 = Tidak Relevan). Kemudian CVR dihitung menggunakan rumus berikut untuk mengevaluasi peringkat: Tabel 7. Kriteria yang Diusulkan untuk mempertahankan dan membuang barang sebelum atau/dan setelah tinjauan ahli Interpretabilitas Tertinggi Ambiguitas Terendah Tolak item berlaras ganda (memeriksa dua hal dalam satu item) seperti “Saya merasa pusing dan tangan gemetar” Tolak item menggunakan bahasa Jargon Jangan mencampur item positif dan negatif Hindari item yang panjang Konten didasarkan pada Streiner dkk., 2015. Formula 1: Rasio validitas isi (CVR) :



di mana ne adalah jumlah penilai dengan peringkat 3 atau 4 (yaitu peringkat item penting) dan n adalah jumlah total penilai. CVR dapat berkisar dari 1 hingga +1, dan nilai nol berarti bahwa setengah dari panel menilai item sebagai penting. Lawshe (1975) menyarankan nilai CVR 0,99 untuk lima atau enam penilai (jumlah minimum), 0,85 untuk delapan penilai, dan 0,62 untuk 10 penilai. Item dengan nilai lebih rendah harus ditolak(Streiner et al., 2015). Uji coba Item (Pretesting) Sejauh ini, konstruksi tes tergantung pada teori, bukti empiris sebelumnya, dan penilaian subjektif berdasarkan pengetahuan ahli. Tahap selanjutnya termasuk administrasi ke sampel yang sesuai(Irwing & Hughes, 2018). Ini dianggap mungkin intisari dari proses pengembangan skala mungkin setelah pengembangan item (DeVellis, 2017). Pengujian percontohan melibatkan pengujian skala ke sampel yang representatif dari populasi target untuk mendapatkan informasi statistik tentang



item, komentar, dan saran(Streiner et al., 2015). Statistik deskriptif kemudian akan melalui analisis item yang memberikan informasi penting untuk setiap item(Harga, 2017). Analisis item digunakan untuk memilih item terbaik. Analisis item memungkinkan deteksi item yang: 1) ambigu, 2) salah mengetik atau mencetak gol, 3) terlalu mudah atau terlalu sulit, dan 4) tidak cukup diskriminatif (Harga, 2017). Fase ini umumnya terdiri dari teknik statistik berikut: a) Periksa interkorelasi antara semua pasangan item berdasarkan penilaian ahli panel dan uji coba; b) Hapus item yang berkorelasi rendah dengan skor total; c) Lacak perbedaan antara rata-rata item dan 25% dari peringkat ahli. Item yang memiliki nilai lebih tinggi berpotensi menjadi pembeda yang lebih baik dari konstruk target; dan d) Mempertimbangkan karakteristik setiap item dan pertimbangan praktis mempertahankan item dengan korelasi item-total tinggi dan diskriminasi tinggi (Dimitrov, 2012; Trochim, 2006). Perhatikan, bagaimanapun, bahwa beberapa sarjana menyarankan sampel pengembangan besar misalnya n = 300 untuk skala 20 item setelah tinjauan ahli (DeVellis, 2017), sementara yang lain mengusulkan tinjauan item (seperti tinjauan panel) dalam 1 - 3 kelompok kecil. Saran sampel grup bervariasi darin = 100 (Singh et al., 2016) sampai 6 - 10 (lihat Streiner dkk., 2015) atau 20 - 30 (Barker et al., 2016) untuk mengevaluasi kejelasan item, keandalan, dan karakteristik item (sarana dan standar deviasi) dan memeriksa dimensi sebelum penelitian skala besar untuk merencanakan penelitian skala besar dengan lebih baik (Muthén & Muthén, 2009; Barker et al., 2016; Singh et al., 2016). Hal ini disebabkan kurangnya konsensus umum pada semua langkah proses pengembangan skala. Lihat perbandingan berbagai proses alternatif di Tabel 1 . Uji coba percontohan adalah bagian dari interproses aktif yang dapat diulang sebanyak yang diperlukan untuk memastikan properti item yang diinginkan (Furr, 2011; Harga, 2017). Masalah ukuran sampel umumnya merupakan bagian dari perdebatan sampel validasi konstruk dan itu berada di luar cakupan pekerjaan ini. Untuk detail lihatKyriazos (2018a, 2018b).



Kriteria Analisis Item



Item yang serupa sejauh mereka memiliki relevansi dengan konstruk target dan tidak berkaitan dengan aspek lain dapat menjadi item yang baik dan tidak dibuang (DeVellis, 2017). Kriteria kualitas butir soal berkorelasi tinggi dengan nilai sebenarnya dari variabel laten. Jadi, item interkorelasi tertinggi yang ditunjukkan dengan memeriksa matriks korelasi lebih disukai. Jika item dengan korelasi negatif dengan item lain terjadi, maka skor terbalik dapat dipertimbangkan. Item yang berkorelasi positif dengan beberapa dan berkorelasi negatif dengan yang lain harus dihilangkan dalam set yang homogen jika item dengan skor terbalik tidak menghilangkan korelasi negatif (DeVellis, 2017). LihatGambar 4 untuk ikhtisar kriteria pengujian percontohan yang diusulkan oleh Streiner dkk. (2015: hlm. 94). Perhatikan juga bahwa analisis Item dapat dilakukan dalam konteks SEM, namun pendekatan ini berada di luar cakupan pekerjaan ini. Mengacu padaRaykov (2012) untuk rincian.



Bias Respon Pertimbangan tambahan saat memilih item adalah apakah item menyebabkan set respons yang bias respons atau menghasilkan artefak respons. Umumnya, ini terutama dikaitkan dengan urutan item. Kumpulan respons yang paling umum adalah: mengatakan ya (bias persetujuan—responden setuju dengan pernyataan), tidak mengatakan (responden menolak pernyataan), artefak konsistensi dan ketersediaan, halo(Thorndike, 1920; Campbell & Fiske, 1959: hlm. 84), dan ITEM PRETEST Bisa dimengerti Tidak ambigu Bertanya satu persatu Buang atau tulis ulang item yang tidak bertemu dengan kriteria dan pretest ulang Evaluasi internal dengan konsistensi item korelasi Korelasi



tiap



item Eliminasi item dengan Mengurutkan urutan sisa



dengan skala total item pearson r