Kriteria Instumen Evaluasi


BAB I
PENDAHULUAN
A.    Latar Belakang
Dalam proses evaluasi pembelajaran atau penilaian proses dan hasil belajar, Anda tentu sering menggunakan alat ukur tertentu, baik tes maupun nontes. Alat ukur ini mempunyai fungsi dan peran yang sangat penting dalam rangka mengetahui keefektifan proses pembelajaran di sekolah. Mengingat begitu  pentingnya suatu alat ukur dalam kegiatan evaluasi pembelajaran, maka suatu alat ukur harus memiliki syarat-syarat tertentu sekaligus merupakan karakteristik alat ukur yang baik. Dalam praktik di madrasah, seringkali guru membuat alat ukur tanpa mengikuti aturan-aturan tertentu. Ada guru yang membuat alat ukur (seperti soal-soal ulangan atau ujian akhir semester) yang langsung mengambil dari buku sumber. Padahal kita tahu banyak buku sumber yang tidak sesuai dengan silabus yang telah ditetapkan. Apa jadinya bila soal yang digunakan tidak sesuai dengan materi yang disampaikan. Ada juga guru yang menggunakan soal-soal lama yang belum diketahui kualitasnya. Hal ini semua sebagai akibat dari kekurangpahaman guru terhadap suatu alat ukur yang baik.
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Dalam penilaian hasil belajar, tes diharapkan dapat menggambarkan sempel perilaku dan menghasilkan nilai yang objektif serta akurat. Jika tes yang digunakan guru kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak objektif dan tidak adil. Oleh sebab itu, tes yang digunakan guru harus memiliki kualitas yeng lebih baik dilihat dari berbagai segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur penyusunan tes. Setelah digunakan perlu diketahui apakah tes tersebut berkualitas baik atau kurang baik. Untuk mengetahui apakah suatu tes yang digunakan termasuk baik atau kurang baik, maka perlu dilakukan analisis kualitas tes. Yaitu dengan mengetahui Kriteria pemilihan instrument Evaluasi.


B.     Rumusan Masalah
1.      Sebutkan karakteristik instrumen evaluasi !
2.      Sebutkan Kriteria Instrumen evaluasi !
C.     Tujuan Penulisan
1.      Untuk mengetahui karakteristik instrumen evaluasi
2.      Untuk mengetahui kriteria instrumen evaluasi
D.    Sistematika Penulisan
Kata Pengantar
Daftar Isi
BAB I Pendahuluan
A.    Latar Belakang
B.     Rumusan Masalah
C.     Tujuan Penulisan
D.    Sistematika Penulisan
BAB II PEMBAHASAN
A.    Karakteristik Alat Ukur yang Baik
B.     Kriteria Instrumen Evaluasi
1.      Validasi
2.      Realibilitas
3.      Objectivitas
4.      Pratikabilitas
5.      Ekomonis
6.      Taraf  Kesukaran
7.      Daya Pembeda

C.      
BAB II
PEMBAHASAN
A.    Karakterisitik Instrumen evaluasi
Evaluasi sangat berguna untuk meningkatkan kualitas proses dan hasil pembelajaran. Pentingnya evaluasi dalam pembelajaran, dapat dilihat dari tujuan dan fungsi evaluasi maupun sistem pembelajaran itu sendiri. Evaluasi tidak dapat dipisahkan dari pembelajaran, sehingga guru mau tidak mau harus melakukan evaluasi pembelajaran. Melalui evaluasi, Anda dapat melihat tingkat kemampuan peserta didik, baik secara kelompok maupun individual. Anda juga dapat melihat berbagai perkembangan hasil belajar peserta ddik, baik yang menyangkut domain kognitif, afektif maupun psikomotor. Pada akhirnya, guru akan memperoleh gambaran tentang keefektifan proses pembelajaran. Setelah Anda memahami pentingnya evaluasi dalam kegiatan pembelajaran di Sekolah Anda juga perlu tahu apa karakteristik dari alat ukur yang baik.
Pemahaman tentang alat ukur ini menjadi penting karena dalam praktik evaluasi atau penilaian di madrasah, pada umumnya guru melakukan proses pengukuran. Dalam pengukuran tentu harus ada alat ukur (instrumen), baik yang berbentuk tes maupun nontes. Alat ukur tersebut ada yang baik, ada pula yang kurang baik. Alat ukur yang baik adalah alat ukur yang memenuhi syarat-syarat atau kaidah-kaidah tertentu, dapat memberikan data yang akurat sesuai dengan fungsinya, dan hanya mengukur sampel prilaku tertentu. Secara sederhana, Zainal Arifin dalam bukunya Evaluasi Pembelajaran (2009 : 69) mengemukakan karakteristik instrumen evaluasi yang baik adalah “valid, reliabel, relevan, representatif, praktis, deskriminatif, spesifik dan proporsional”.
1.      Valid, artinya suatu alat ukur dapat dikatakan valid jika betul-betul mengukur apa yang hendak diukur secara tepat. Misalnya, alat ukur matapelajaran Ilmu Fiqih, maka alat ukur tersebut harus betul-betul dan hanya mengukur kemampuan peserta didik dalam mempelajari Ilmu Fiqih, tidak boleh dicampuradukkan dengan materi pelajaran yang lain. Validitas suatu  alat ukur dapat ditinjau dari berbagai segi, antara lain validitas ramalan  (predictive validity), validitas bandingan (concurent validity), dan validitas isi (content validity), validitas konstruk (construct validity), dan lain-lain. Penjelasan tentang validitas ini dapat Anda baca uraian modul berikutnya.
2.      Reliabel, artinya suatu alat ukur dapat dikatakan reliabel atau handal jika ia mempunyai hasil yang taat asas (consistent). Misalnya, suatu alat ukur diberikan kepada sekelompok peserta didik saat ini, kemudian diberikan lagi kepada sekelompok peserta didik yang sama pada saat yang akan datang, dan ternyata hasilnya sama atau mendekati sama, maka dapat dikatakan alat  ukur tersebut mempunyai tingkat reliabilitas yang tinggi.
3.      Relevan, artinya alat ukur yang digunakan harus sesuai dengan standar  kompetensi, kompetensi dasar, dan indikator yang telah ditetapkan. Alat ukur juga harus sesuai dengan domain hasil belajar, seperti domain kognitif, afektif, dan psikomotor. Jangan sampai ingin mengukur domain kognitif menggunakan alat ukur non-tes. Hal ini tentu tidak relevan.
4.      Representatif, artinya materi alat ukur harus betul-betul mewakili dari seluruh materi yang disampaikan. Hal ini dapat dilakukan bila guru menggunakan silabus sebagai acuan pemilihan materi tes. Guru juga harus memperhatikan proses seleksi materi, mana materi yang bersifat aplikatif dan mana yang tidak, mana yang penting dan mana yang tidak.
5.      Praktis, artinya mudah digunakan. Jika alat ukur itu sudah memenuhi syarat tetapi sukar digunakan, berarti tidak praktis. Kepraktisan ini bukan hanya dilihat dari pembuat alat ukur (guru), tetapi juga bagi orang lain yang ingin menggunakan alat ukur tersebut.
6.      Deskriminatif, artinya adalah alat ukur itu harus disusun sedemikian rupa, sehingga dapat menunjukkan perbedaan-perbedaan yang sekecil apapun. Semakin baik suatu alat ukur, maka semakin mampu alat ukur tersebut menunjukkan perbedaan secara teliti. Untuk mengetahui apakah suatu alat ukur cukup deskriminatif atau tidak, biasanya didasarkan atas uji daya pembeda alat ukur tersebut.
7.      Spesifik, artinya suatu alat ukur disusun dan digunakan khusus untuk objek yang diukur. Jika alat ukur tersebut menggunakan tes, maka jawaban tes jangan menimbulkan ambivalensi atau spekulasi.
8.      Proporsional, artinya suatu alat ukur harus memiliki tingkat kesulitan yang proporsional antara sulit, sedang dan mudah. Begitu juga ketika menentukan jenis alat ukur, baik tes maupun non-tes.

B.     Kriteria Instrumen Evaluasi
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Dalam penilaian hasil belajar, tes diharapkan dapat menggambarkan sampel perilaku dan menghasilkan nilai yang objektif serta akurat. Jika tes yang digunakan guru kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak objektif dan tidak adil. Oleh sebab itu, tes yang digunakan guru harus memiliki kualitas yang lebih baik dilihat dari berbagai segi, Tes disusun hendaknya disusun sesuai dengan prinsip dan prosedur penyusunan tes. Setelah digunakan perlu diketahui apakah tes tersebut berkualitas baik atau kurang baik. Untuk mengetahui tes yang digunakan termasuk baik atau kurang baik, maka perlu dilakukan analisis kualitas tes.
1.      Validitas
Sebelum Anda menggunakan suatu tes, Anda hendaknya mengukur terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata lain, untuk melihat apakah tes tersebut valid (sahih), Anda harus membandingkan skor peserta didik yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin mendekati kedua skor tersebut, maka semakin soal ujian akhir tadi dapat dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun demikian, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.
Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada pula yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapal R.L. Thorndike dan H.P. Hagen (1977: 56) bahwa “validity is always in relation to a specific decision or use”. Sementara itu, Gronlund (1985 : 79-81) dalam buku Evaluasi Pembelajaran Karya Zainal Arifin mengemukan ada tiga faktor yang mempengaruhi validitas hasil tes, yaitu “faktor instrumen evaluasi, faktor administrasi evaluasi dan penskoran, dan faktor dari jawaban peserta didik”.
a.       Faktor instrumen evaluasi
Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi jika seorang evaluator tidak atau kurang memahami prosedur dan teknik evaluasi itu sendiri. Jika instrumen evaluasi kurang baik, maka dapat berakibat hasil evaluasi menjadi kurang baik. Untuk itu, dalam mengembangkan instrumen evaluasi, seorang evaluator harus memperhatikan hal-hal yang mempengaruhi validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen, seperti silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran, daya pembeda, dan sebagainya.
b.      Faktor administrasi evaluasi dan penskoran
Dalam administrasi evaluasi dan penskoran, banyak sekali terjadi  penyimpangan atau kekeliruan, seperti : alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan bantuan kepada peserta didik dengan berbagai cara, peserta didik saling menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta didik yang kurang menguntungkan.
c.       Faktor jawaban dari peserta didik
Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh daripada dua faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik untuk menjawab secara cepat tetapi tidak tepat, keinginan melakukan coba-coba, dan penggunaan gaya bahasa tertentu dalam menjawab soal bentuk uraian.
Selanjutnya, Kerlinger  dalam buku Evaluasi Pembelajaran Karya Zainal Arifin (1986) halaman 248 mengemukakan “validitas instrumen tidak cukup ditentukan oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria yang lain, yaitu appropriatness, meaningfullness, dan usefullness”. Appropriatness menunjukkan kelayakan dari tes sebagai suatu instrumen, yaitu seberapa jauh instrumen  dapat menjangkau keragaman aspek perilaku peserta didik. Meaningfullness menunjukkan kemampuan instrumen dalam memberikan keseimbangan soal-soal pengukurannya berdasar tingkat kepentingan dari setiap fenomena. Usefullness to inferences menunjukkan sensitif tidaknya instrumen dalam menangkap fenomena perilaku dan tingkat ketelitian yang ditunjukkan dalam membuat kesimpulan.
Dalam literatur modern tentang evaluasi, banyak di kemukakan tentang jenis-jenis validitas, antara lain : validitas permukaan (face validity), validitas isi (content validity), validitas empiris (empirical validity), dan validitas konstruk (construct validity), dan validitas faktor (factorial validity).
a.      Validitas permukaan
Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau tampang dari instrumen itu sendiri. Artinya, jika suatu tes secara sepintas telah dianggap baik untuk mengungkap fenomena yang akan diukur, maka tes tersebut sudah dapat dikatakan memenuhi syarat validitas permukaan, sehingga tidak perlu lagi adanya judgement yang mendalam.
b.      Validitas isi
Validitas isi sering digunakan dalam pengukuran hasil belajar. Tujuan utamanya adalah untuk mengetahui hinggamana peserta didik menguasai materi pelajaran yang telah disampaikan, dan perubahan-perubahan psikologis apa yang timbul pada diri peserta didik tersebut setelah mengalami proses pembelajaran tertentu. Jika dilihat dari segi kegunaannya dalam penilaian hasil belajar, validitas isi ini sering disebut juga validitas kurikuler dan validitas perumusan. Validitas kurikuler berkenaan dengan pertanyaan apakah materi tes relevan dengan kurikulum yang sudah ditentukan. Pertanyaan ini timbul karena sering terjadi materi tes tidak mencakup keseluruhan aspek-aspek yang akan diukur, baik aspek kognitif, afektif, maupun psikomotorik, tetapi hanya pengetahuan yang bersifat fakta-fakta pelajaran tertentu. Diharapkan dengan validitas kurikuler ini timbul ketelitian yang jelas dan totalitas dengan menjelajahi semua aspek yang tercakup dalam kisi-kisi dan Rencana Pelaksanaan Pembelajaran (RPP) yang bersangkutan. Validitas kurikuler ini dapat dilakukan dengan beberapa cara, antara lain mencocokkan materi tes dengan silabus dan kisi-kisi, melakukan diskusi dengan sesama pendidik, atau mencermati kembali substansi dari konsep yang akan diukur.
Validitas perumusan berkenaan dengan pertanyaan apakah aspek-aspek dalam soal-soal itu betul-betul tercakup dalam perumusan tentang apa yang hendak diukur. Di samping itu, validitas isi dapat juga disebut validitas rasional atau validitas logis. Sebagaimana dikemukakan oleh R.L. Thorndike dan H.P. Hagen (1977: 58) bahwa “scientific analysis is essen tially a rational and judgmental one, this is sometimes spoken of as rational or logical validity”. Pernyataan ini memang ada benarnya, karena pengujian validitas harus dilakukan secara rasional dan logis, sehingga suatu tes hasil belajar dapat memiliki validitas yang sempurna.
c.       Validitas empiris
Validitas ini biasanya menggunakan teknik statistik, yaitu analisis  korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolak ukur di luar tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan diukur. Validitas empiris disebut juga validitas yang dihubungkan dengan kriteria (criterion-related validity) atau validitas statistik (statistical validity). Ada tiga macam validitas empiris, yaitu:
1)    Validitas prediktif (predictive validity)
Validitas prediktif ialah jika kriteria standar yang digunakan adalah untuk meramalkan prestasi belajar murid di masa yang akan datang. Dengan kata lain, validitas prediktif bermaksud melihat hinggamana suatu tes dapat memprakirakan perilaku peserta didik pada masa yang akan datang.
2)    Validitas kongkuren (concurrent validity)
Validitas konkuren ialah jika kriteria standarnya berlainan.
Misalnya, skor tes dalam mata pelajaran Al-Qur’an-Hadits dikorelasikan dengan skor tes Bahasa Arab.
3)    Validitas sejenis (congruent validity)
Sebaliknya, jika kriteria standarnya sejenis, maka validitas tersebut disebut validitas sejenis. Misalnya, Bahasa Arab dengan Bahasa Arab.
Dalam mengukur validitas suatu tes hendak nya yang menjadi kriteria sudah betul-betul valid, sehingga dapat diandal kan keampuhannya dan dapat dianggap sebagai tes standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul dapat mengukur apa yang hendak diukur dari peserta didik tertentu.
Ada beberapa hal yang harus diperhatikan dalam menginterpretasikann koefisien validitas, antara lain data mengenai karakteritik sampel validitas, prosedur-prosedur dalam pengukuran validitas, dan pola kriteria khusus yang dikorelasikan dengan hasil tes itu. Sehubungan dengan kriteria khusus, Anastasi dalam Conny Semiawan Stamboel (1986 : 50), mengemukakan ada delapan kriteria sebagai bahan bandingan untuk merumuskan apa yang hendak diselidiki oleh suatu tes, yaitu “diferensiasi umur, kemajuan akademis, kriteria dalam pelaksanaan latihan khusus, kriteria dalam pelaksanaan kerja, penilaian, kelompok yang dipertentangkan, korelasi dengan tes lain, dan konsistensi internal”.
1)      Diferensiasi umur
Kriteria yang paling utama dalam validitas tes intelegensi adalah umur. Kebanyakan tes intelegensi, baik yang dipakai di madrasah maupun tes pra-madrasah, senantiasa dibandingkan dengan umur kronologis untuk menentukan apakah angka bertambah dengan bertambahnya umur. Jika suatu tes dianggap valid, maka nilai tes bagi peserta didik akan naik dengan bertambahnya umur. Namun, anggapan ini tidak berlaku bagi perkembangan semua fungsi dalam hubungannya dengan bertambahnya umur secara konsisten (ini terbukti dari beberapa tes kepribadian). Suatu hal yang juga perlu dicermati adalah corak kondisi lingkungan tempat tes itu dibakukan. Kriteria peningkatan umur tidak bersifat universal tetapi tidak dapat juga dikatakan bahwa ini berlaku bagi corak masing-masing kebudayaan.
2)      Kemajuan akademis
Pada umumnya tes intelegensi divalidkan dengan kemajuan akademis. Juga sering dikatakan bahwa makin lama seseorang belajar di sekolah, makin tinggi pendidikannya, makin tinggi pula kemajuan akademisnya. Padahal, setiap jenis dan jenjang pendidikan itu bersifat selektif. Bagi peserta didik yang tak sanggup meneruskan, biasanya termasuk dropout. Namun demikian, banyak pula faktor non-intelektual yang ikut mempengaruhi keberhasilan pendidikan seorang peserta didik. Dengan kata lain, berhasil tidaknya pendidikan seseorang tidak hanya dilihat dari faktor intelektual tetapi juga faktor non-intelektual. Untuk memperoleh gambaran yang komprehensif dan holistik tentang hal ini perlu diada kan penyelidikan yang lebih jauh.
3)      Kriteria dalam pelaksanaan latihan khusus
Corak kriteria dalam pengembangan tes bakat khusus didasarkan atas  prestasi dalam latihan tertentu secara khusus. Beberapa tes bakat profesi (profesional aptitude test) telah divalidkan dengan tes hasil belajar dalam bidang-bidang tersebut. Misalnya, tes untuk memasuki profesi kedok teran, hukum, dan sebagainya. Ada beberapa tes untuk memasuki profe si tertentu yang disebut tailor-made test, yaitu tes yang telah dibuat khusus untuk keperluan tersebut, seperti tes penerbangan.
4)      Kriteria dalam pelaksanaan kerja
Dalam validitas tes kepribadian dan validitas tes bakat khusus banyak  digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan  kerja (on the job performance). Mengingat masing-masing pekerjaan memiliki kekhasan sendiri dan berbeda-beda tingkat, bentuk, maupun coraknya, maka untuk masing-masing pekerjaan diciptakan tes yang terkenal dengan istilah tailor-made test.
5)      Penilaian
Pengertian penilaian disini adalah teknik untuk memperoleh informasi  tentang kemajuan belajar peserta didik di madrasah. Selain itu, juga mencakup pe kerjaan yang memerlukan latihan khusus ataupun sukses dalam penilaian pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis. Misalnya, kondisi-kondisi, orijinalitas, kepemimpinan, atau kejujuran. Jika kondisi-kondisi pengenalan dalam situasi tempat kemampuan yang khusus itu dinyatakan, maka perlu disertai skala penilaian yang dipersiapkan secara teliti.
6)      Kelompok yang dipertentangkan
Konsep validitas melalui kelompok yang dipertentangkan menyelidiki  pengaruh kehidupan sehari-hari yang tak disengaja. Kriteria ini didasarkan atas kelebihan suatu kelompok tertentu dihadapkan kepada kelompok yang lain dalam mejalankan suatu tes tertentu. Misalnya, suatu tes bakat musik dicobakan dalam suatu sekolah musik maupun dalam suatu madrasah. Kriteria itu didasarkan atas faktor yang menyolok, yang diperoleh dari hasil nilai kedua kelompok tersebut dalam menjalankan tes itu.
7)      Korelasi dengan tes lain
Korelasi antara tes baru dengan tes lama merupakan perbandingan kriteria dalam menyelidiki perilaku yang sama. Dalam hal ini suatu tes verbal tertulis bisa dibandingkan dengan tes individual atau tes kelompok. Untuk mengukur apakah suatu tes yang baru memiliki validitas dan bebas dari pengaruh faktor lain, maka dipergunakan tes jenis lain dalam membandingkannya. Jadi, kadang-kadang tes kepribadian dikorelasikan dengan tes internal atau tes hasil belajar.
8)      Konsistensi internal
Kriteria konsistensi internal adalah skor total yang diperoleh peserta didik  dalam suatu tes. Kriteria ini terutama digunakan dalam bidang tes kepribadian. Kadang-kadang untuk keperluan ini juga digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok berhasil dan kelompok kurang berhasil. Skor setiap soal tes dari kelompok yang berhasil di bandingkan dengan skor setiap soal tes dari kelompok yang kurang berhasil. Soal-soal yang gagal menunjukkan perbedaan antara  kelompok yang berhasil dengan kelompok yang kurang berhasil harus diperbaiki, atau di buang. Kriteria konsistensi internal ini menghasilkan indeks homoginitas soal, tetapi tidak dapat dianggap sepenuhnya sebagai pengganti validitas.
Untuk menguji validitas empiris dapat dihitung dengan korelasi product-
moment, korelasi perbedaan pering kat, dan diagram pencar.
a)      Korelasi  product-moment dengan angka simpangan


4)    Validitas  konstruk
Konstruk adalah konsep yang dapat diobservasi (observable) dan dapat diukur  (measurable). Validitas konstruk sering juga disebut validitas logis (logical validity). Validitas konstruk berkenaan dengan pertanyaan hinggamana suatu tes betul-betul dapat mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang akan diukur oleh tes tersebut. Validitas konstruk banyak dikenal dan diguna kan dalam tes-tes psikologis untuk mengukur gejala perilaku yang abstrak, seperti kesetiakawanan, kematangan emosi, sikap, motivasi, minat, dan sebagainya. Untuk menguji validitas konstruk dapat dilakukan dengan berbagai sumber,  antara lain validitas isi, validitas  prediktif, dan validitas konkuren. N.E. Gronlund (1985) mengemukakan “It is a matter of accumulating evidence from many different sources. We may use content validity, predictive validity, and concurrent validi ty as partial evidence to support construct validity, but none of them alone is sufficient”. Analisis statistika yang digunakan dalam validitas konstruk antara lain dengan analisis faktor (factor analysis), sehingga dapat diketahui :
a)      Aspek-aspek apa saja yang diukur oleh setiap butir soal.
b)      Berapa besar suatu butir soal berisi faktor-faktor tertentu.
c)      Faktor-faktor  apa yang diukur oleh suatu butir soal.
Produk analisis faktor ini dapat menganalisis dan mempertimbangkan  apakah suatu tes betul-betul dapat mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang hendak diukur oleh tes yang bersangkutan.
5)   Validitas faktor
Dalam evaluasi atau penilaian sering digunakan skala pengukuran tentang  suatu variabel yang terdiri atas beberapa faktor. Faktor-faktor tersebut diperoleh berdasarkan dimensi/indikator dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoritisnya. Meskipun variabel terdiri atas beberapa faktor, tetapi prinsip homoginitas untuk keseluruhan faktor harus tetap dipertahankan, sehingga tidak terjadi tumpang tindih antara satu faktor dengan faktor yang lain. Dengan demikian, kriterium yang digunakan dalam validitas faktor ini dapat diketahui dengan menghitung homoginitas skor setiap faktor dengan total skor.

2.      Realibilitas
Reliabilitas suatu tes adalah tingkat atau derajat konsistensi tes yang  bersangkutan. Reliabilitas berkenaan dengan pertanyaan, apakah suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yang telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu memberikan hasil yang sama bila diteskan pada kelom pok yang sama pada waktu atau kesempatan yang berbeda. Anastasi (1976 : 103) mengemukakan “reliability refers to the consistency  of scores obtained by the same persons when reexamined the same test on different occasion, or with different sets of equivalent items or under other variable examining conditions”.  Hal senada dikemukakan Gronlund (1985 : 87) bahwa “reliability refers to the results obtained with an evaluation instrument and not to the instrument it self”.
Sementara itu, Kerlinger (1986 : 443) mengemukakan “reliabilitas dapat diukur dari tiga kriteria, yaitu stability, dependability, dan predictability”. Stability menunjukkan keajegan suatu tes dalam mengukur gejala yang sama pada waktu yang berbeda. Dependability menunjukkan kemantapan suatu tes atau seberapa jauh tes dapat diandalkan. Predictability menunjukkan kemampuan tes untuk meramalkan hasil pada pengukuran gejala selanjutnya. Untuk meningkatkan reliabilitas suatu tes, antara lain dapat dilakukan dengan memperbanyak butir soal.
Selanjutnya, Gronlund (1985 : 100) mengemukakan ada empat faktor yang dapat mempengaruhi reliabilitas, yaitu “panjang tes, sebaran skor, tingkat kesukaran, dan objektifitas”.
a.       Panjang tes (length of test)
Panjang tes berarti banyaknya soal tes. Ada kecenderungan, semakin panjang suatu tes akan lebih tinggi tingkat reliabilitas suatu tes, karena semakin banyak soal, maka akan semakin banyak sampel yang diukur dan proporsi jawaban yang benar semakin banyak, sehingga faktor tebakan (guessing) akan semakin rendah.
b.      Sebaran skor (spread of scores)
Besarnya sebaran skor akan membuat tingkat reliabilitas menjadi lebih tinggi, karena koefisien reliabilitas yang lebih besar diperoleh ketika peserta didik tetap pada posisi yang relatif sama dalam satu kelompok pengujian ke pengujian berikutnya. Dengan kata lain, peluang selisih dari perubahan posisi dalam kelompok dapat memperbesar koefisien reliabilitas.
c.       Tingkat kesukaran (difficulty indeks)
Dalam penilaian yang menggunakan pendekatan penilaian acuan norma, baik untuk soal yang mudah maupun sukar, cenderung menghasilkan tingkat reliabilitas yang rendah. Hal ini disebabkan antara hasil tes yang mudah dengan hasil tes yang sukar keduanya dalam satu sebaran skor yang terbatas. Untuk tes yang mudah, skor akan berada dibagian atas dan akhir dari skala penilaian. Bagi kedua tes (mudah dan sukar), perbedaan antar peserta didik kecil sekali dan cenderung tidak dapat dipercaya. Tingkat kesukaran soal yang ideal untuk meningkatkan koefisien reliabilitas adalah soal yang menghasilkan sebaran skor berbentuk genta atau kurva normal.
d.      Objektifitas (obyektivity)
Objektifitas disini menunjukkan skor tes kemampuan yang sama antara peserta didik yang satu dengan peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama, maka akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama. Objektifitas prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi oleh prosedur penskoran.

Konsep reliabilitas mendasari kesalahan pengukuran yang mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, se hingga menimbulkan perubahan pada susunan kelompoknya (error of measurement). Misalnya, guru mengetes peserta didik dengan instrumen ter tentu dan mendapat nilai 70. Kemudian pada kesempatan yang berbeda dengan instrumen yang sama, guru melakukan tes kembali, ternyata peserta didik tersebut mendapat nilai 75. Artinya, tes tersebut tidak reliabel, karena terjadi kesalahan pengukuran. Tes yang reliabel adalah apa bila koefisien reliabilitasnya tinggi dan kesalahan baku pengukuran nya (standard error of measurement) rendah.
Menurut perhitungan product-moment dari Pearson, ada tiga macam reliabilitas, yaitu koefisien stabilitas, koefisien ekuivalent, dan koefisien konsistensi internal.
a.       Koefisien stabilitas
Koefisien stabilitas (coefficient of stability) adalah jenis reliabilitas yang menggunakan teknik test and retest, yaitu memberikan tes kepada sekelompok individu, kemudian diadakan pengulangan tes pada kelompok yang sama dengan waktu yang berbeda. Cara memperoleh koefisien stabilitas adalah dengan mengorelasikan hasil tes pertama dengan hasil tes kedua dari ke lompok yang sama, tes yang sama, pada waktu yang berbeda. Jika antara waktu tes pertama dengan tes kedua cukup lama, kemudian diadakan latihan-latihan tambahan, maka bisa jadi nilai tes kedua akan lebih besar daripada tes pertama. Sebaliknya, jika antara waktu tes pertama dengan tes kedua relatif pendek, maka nilai tes kedua bisa jadi sama atau lebih besar daripada tes pertama, karena soal dan jawaban masih dapat diingat.
Kesalahan teknis ini dapat bersumber dari berbagai faktor, sehingga menyebabkan peserta didik mempunyai skor yang berbeda pada saat dua kali mengerjakan tes yang sama. Bisa saja perubahan skor yang terjadi bukan disebabkan perubahan hal yang diukur, tetapi memang karena situasi yang berbeda atau pengalaman dari peserta didik pada saat mengikuti tes yang pertama, sehingga ketika mengerjakan tes yang kedua, peserta didik lebih berhati-hati dan lebih baik hasilnya. Keunggulan teknik ini adalah dapat memperkecil kemungkinan masuknya sumber kesalahan yang lain. Namun demikian, patut juga dipertimbangkan bahwa penggunaan kelompok yang sama dan tes yang sama dalam dua kali tes akan mempengaruhi hasil tes yang kedua, karena responden sudah memiliki pengalaman mengerjakan tes yang pertama. Hal ini sekaligus menunjukkan kelemahan teknik test  and retest.

b.      Koefisien ekuivalen
Koefisien ekuivalen (coefficient of equivalence) adalah jika mengorelasikan dua buah tes yang paralel pada kelompok dan waktu yang sama. Metode yang digunakan untuk memperoleh koefisien ekuivalen adalah metode dengan menggunakan dua buah bentuk tes yang paralel (equivalen) atau equivalence forms method atau disebut juga parallel or alternate-forms method. Syarat-syarat yang harus dipenuhi kedua tes paralel adalah kriteria yang dipakai pada kedua tes sama, masing-masing tes dikonstruksikan tersendiri, jumlah item, isi, dan corak sama, tingkat kesukaran sama, petunjuk waktu yang disediakan untuk mengerjakan tes, dan contoh contoh juga sama. Kemungkinan kesalahan pada teknik ini bersumber dari derajat keseimbangan antara dua tes tersebut, serta kondisi tempat yang mungkin berbeda pada kelompok tes pertama dengan kelompok tes kedua, meskipun dilakukan pada waktu yang sama.
c.       Koefisien konsistensi  internal
Koefisien konsistensi internal (coefficient of internal consistency) adalah reliabilitas yang didapat dengan jalan mengorelasikan dua buah tes dari kelom pok yang sama, tetapi diambil dari butir-butir yang bernomor genap un tuk tes yang pertama dan butir-butir bernomor ganjil untuk tes yang kedua. Teknik ini sering juga disebut split-half method. Split berarti membelah dan half berarti setengah atau separuh. Jadi, split-half adalah tes yang dibagi menjadi dua bagian yang sama, kemudian mengorelasikan butir soal yang bernomor ganjil dalam belahan pertama (X) dan yang bernomor genap dalam belahan kedua (Y). Untuk membagi tes menjadi dua bagian dapat juga dilakukan dengan jalan mengambil nomor soal secara acak, tetapi jumlahnya tetap harus sama untuk masing-masing kelompok. Di samping itu, pembagian tes dapat juga dilakukan dengan cara setengah bagian pertama untuk kelompok pertama dan setengah lagi untuk kelompok kedua.
Untuk menghitung koefisien stabilitas, koefisien ekuivalens, dan koefisien konsitensi internal dapat digunakan analisis korelasi seperti pada pengujian validitas. Khusus bagi perhitungan koefisien kon sistensi internal, korelasi tersebut baru sebagian dari seluruh tes. Untuk memperoleh angka koefisien korelasi secara menyeluruh dari tes tersebut harus dihitung dari nomornomor kedua tes itu dengan rumus Spearman Brown :
Contoh :
10 orang peserta didik dites dalam mata pelajaran Qur’an-Hadits dan Aqidah-Akhlak. Jumlah  soal masing-masing lima buah. Dua buah nomor genap diambil dari tes Qur’an-Hadits dan tiga buah nomor ganjil diambil dari tes Aqidah-Akhlak. Data diperoleh sebagai berikut :

Di samping itu, Anda dapat pula menggunakan teknik Kuder-Richardson (dua orang ahli psikometri yang merumuskan persamaan untuk mencari reliabilitas) yang lebih populer dengan istilah Kr20. . Salah satu rumus Kr20  adalah sebagai berikut :
Teknik Kuder-Richardson biasanya digunakan jika instrumen digunakan untuk mengukur satu gejala psikologis atau perilaku yang sama. Artinya, tes tersebut dapat dikatakan reliabel bila terbukti ada konsistensi jawaban antara soal yang satu dengan soal yang lain. Jika sifat dan tingkatan homoginitas antar soal tidak terpenuhi, maka tes tersebut dianggap mengukur lebih dari satu variabel. Jika dalam suatu tes terdapat lebih dari satu skala pengukuran atau mengukur lebih dari satu variabel dan setiap variabel memiliki beberapa aspek, maka pengecekan reliabilitas dilakukan terhadap masing-masing skala pengukuran. Teknik ini lebih cocok untuk tes yang menggunakan soal dua pilihan dengan salah satu jawaban benar.
Teknik lain yang biasa digunakan untuk menguji konsistensi internal dari suatu tes adalah Cronbach’s Alpha atau Koefisien Alpha. Perbedaannya dengan teknik Kuder-Richardson adalah teknik ini tidak hanya digunakan
untuk tes dengan dua pilihan saja, tetapi penerapannya lebih luas, seperti  menguji reliabilitas skala pengukuran sikap dengan tiga, lima atau tujuh  pilihan. Adapun rumus yang digunakan untuk menghitung Koefisien Alpha
adalah :
Untuk butir soal yang bersifat dikotomi seperti pilihan-ganda, varian butir
soal diperoleh dengan rumus :


3.      Objectivitas
Instrumen evaluasi hendaknya terhindar dari pengaruh-pengaruh subjektifitas pribadi dari si evaluator dalam menetapkan hasilnya. Dalam menekan pengaruh subjektifitas yang tidak bisa dihindari hendaknya evaluasi dilakukan mengacu kepada pedoman tertama menyangkut masalah kontinuitas dan komprehensif. Evaluasi harus dilakukan secara kontinu (terus-menerus). Dengan evaluasi yang berkali-kali dilakukan maka evaluator akan memperoleh gambaran yang lebih jelas tentang keadaan audiens yang dinilai. Evaluasi yang diadakan secara hanya satu atau dua kali, tidak akan dapat memberikan hasil yang objektif tentang keadaan audiens yang dievaluasi. Faktor kebetulan akan sangat mengganggu hasilnya.
Objektif berarti tidak adanya unsur pribadi yang mempengaruhinya. Lawan dari objektif adalah subjektif, artinya terdapat unsur pribadi yang masuk mempengaruhi. Sebuah tes dikatakan memiliki objektivitas apabila dalam melaksanakan tes tidak ada factor subjektif yang mempengaruhi, terutama dalam system skoringnya.
Ada dua factor yang mempengaruhi subjektivitas dari suatu tes, yaitu : bentuk tes dan penilai. Bentuk tes uraian akan memberi banyak kemungkinan kepada penilai untuk memberikan penilaian menurut caranya sendiri. Dengan demikian maka hasil dari seorang siswa yang mengerjakan soal dari sebuah tes, akan memperoleh skor yang berbeda apabila dinilai oleh dua orang. Itulah sebabnya pada waktu sekarang ini ada kecenderungan penggunaan tes objektif di berbagai bidang. Untuk menghindari masuknya unsur subjektivitas dari penilai, maka system skoringnya dapat dilakukan dengan sebaik-baiknya, antara lain dengan membuat pedoman scoring terlebih dahulu. Subjektivitas dari penilai akan dapat masuk secara lebih leluasa terutama pada tes bentuk uraian. Factor-faktor yang mempengaruhi subjektivitas penilai antara lain :
a.       Kesan penilai terhadap siswa (halo effect)
b.      Bentuk tulisan
c.       Gaya bahasa yang digunakan
d.      Peserta tes
e.       Waktu mengadakan penilaian
f.       Kelelahan,dsb.
Untuk menghindari atau mengurangi masuknya unsur subjektivitas dalam penilaian, maka penilaian harus dilaksanakan :
a.       Secara kontinu (terus-menerus) sehingga akan diperoleh gambaran yang lebih jelas tentang keadaan siswa. Tes yang diadakan secara on the spot dan hanya satu kali (one shot) atau dua kali, tidak akan dapat memberikan hasil yang objektif tentang keadaan siswa. Kalo misalnya ada seorang anak yang sebetulnya pandai, tetapi pada waktu guru mengadakan tes dia sedang dalam kondisi yang jelek, maka kemungkinan nilai tesnya juga jelek. Hal ini tidak menggambarkan kemampuan anak yang sebenarnya.
b.      Secara komprehensif (menyeluruh), yaitu mencakup keseluruhan materi, mencakup berbagai aspek berfikir (ingatan, pemahaman, analisis, aplikasi dan sebagainya), dan melalui berbagai cara, yaitu : tes tertulis, tes lisan, tes perbuatan, pengamatan dan sebagainya.

4.      Pratikabilitas
Dalam kenyataannya, banyak tes yang dibuat orang tidak menunjukkan kepraktisan. Padahal, kepraktisan merupakan syarat suatu tes standar. Kebanyakan orang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berpikir untuk orang lain. Akibatnya, ketika tes tersebut digunakan orang lain, maka orang tersebut akan merasa kesulitan. Kepraktisan bukan hanya dipertimbangkan ketika memilih tes yang sudah dipublikasikan, tetapi siapapun yang mengembangkan tes harus memenuhi syarat ini. Kepraktisan mengandung arti kemudahan suatu tes, baik dalam mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun mengadministrasikannya. Dimyati dan Mudjiono (1994 : 184) mengemukakan faktor-faktor yang mempengaruhi kepraktisan instrumen evaluasi meliputi : “kemudahan mengadministrasi, waktu yang disediakan untuk melancarkan evaluasi, kemudahan menskor, kemudahan interpretasi dan aplikasi, tersedianya bentuk instrumen evaluasi yang ekuivalen atau sebanding”.
a.       Kemudahan mengadministrasi.
Jika instrumen evaluasi diadministrasikan oleh guru atau orang lain dengan kemampuan yang terbatas, kemudahan pengadministrasian adalah suatu kualitas penting yang diminta dalam instrumen evaluasi. Untuk memberikan kemudahan pengadministrasian instrumen evaluasi dapat dilakukan dengan jalan memberi petunjuk yang sederhana dan jelas, subtes sebaiknya relatif sedikit, dan pengaturan tempo tes sebaiknya tidak menimbulkan kesulitan. Kesalahan-kesalahan dalam mengadministrasikan alat ukur atau instrumen evaluasi akan menurunkan kepraktisannya, sehingga dapat menyebabkan berkurangnya validitas dan reliabilitas suatu alat ukur.
b.      Waktu yang disediakan untuk melancarkan evaluasi.
Kepraktisan dipengaruhi pula oleh faktor waktu yang disediakan untuk  melancarkan evaluasi. Waktu antara 20 menit sampai 60 menit yang disediakan untuk melancarkan evaluasi merupakan waktu yang cukup memberikan kepraktisan.
c.       Kemudahan menskor.
Hal yang membosankan dan mengganggu dalam melancarkan kegiatan evaluasi adalah penskoran. Guru seringkali bekerja keras untuk melaksanakan tugas ini. Hal ini tentu mengurangi kepraktisan alat ukur. Untuk memberikan kemudahan penskoran diperlukan upaya berupa perbaikan petunjuk penskoran dan lebih memudahkan kunci penskoran, pemisahan lembar jawaban dari lembar soal, dan penskoran menggunakan mesin.
d.      Kemudahan interpretasi dan aplikasi.
Dalam analisis terakhir, keberhasilan atau kegagalan evaluasi ditentukan oleh penggunaan hasil evaluasi. Jika hasil evaluasi ditafsirkan secara tepat dan diterapkan secara efektif, maka hasil evaluasi akan mendukung terhadap keputusan-keputusan pembelajaran yang lebih tepat. Untuk  memudahkan interpretasi dan aplikasi hasil evaluasi diperlukan petunjuk yang jelas. Semakin mudah interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan kepraktisan evaluasi.
e.       Tersedianya bentuk instrumen evaluasi yang ekuivalen atau sebanding.
Untuk berbagai kegunaan pendidikan, bentuk-bentuk ekuivalen untuk tes yang sama sering kali diperlukan. Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek-aspek perilaku melalui butir-butir tes yang memiliki kesamaan dalam isi, tingkat kesulitan, dan karakteristik lainnya. Dengan demikian, satu bentuk tes dapat menggantikan yang lain. Sedangkan alat ukur atau instrumen evaluasi yang sebanding adalah instrumen evaluasi yang memiliki kemungkinan dibandingkan makna dari skala skor umum yang dimiliki, sehingga untuk tes berseri cukup menggunakan satu skala skor. Adanya bentuk-bentuk yang ekuivalen atau sebanding dari instrumen evaluasi akan mempraktiskan kegiatan evaluasi.

5.      Ekomonis
Pelaksanaan evaluasi menggunakan instrumen tersebut tidak membutuhkan biaya yang mahal, tenaga yang banyak dan waktu yang lama.

6.      Taraf  Kesukaran
Perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran  seimbang (proporsional), maka dapat dikatakan bahwa soal tersebut baik. Suatu soal tes hendaknya tidak  terlalu sukar dan tidak pula terlalu mudah.
1.      Menghitung  tingkat kesukaran soal bentuk objektif
Untuk menghitung tingkat kesukaran soal bentuk objektif dapat  digunakan  dengan dua cara, yaitu :
Cara Pertama, menggunakan rumus tingkat kesukaran (TK) :
Sebelum menggunakan rumus di atas, maka Anda harus menempuh terlebih  dahulu langkah-langkah sebagai berikut :
a.       Menyusun lembar jawaban peserta didik dari skor tertinggi sampai dengan skor terendah.
b.      Mengambil 27 % lembar jawaban dari  atas yang selanjutnya disebut kelompok atas (higher group), dan 27 % lembar jawaban dari bawah yang selanjutnya disebut kelompok bawah (lower group). Sisa seba nyak 46% disisihkan.
c.       Membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta didik, baik untuk kelompok atas maupun kelompok bawah. Jika jawaban peserta didik benar, diberi tanda + (plus), sebaliknya jika jawaban peserta didik salah, diberi tanda - (minus).


Contoh :
36 orang peserta didik Madrasah Tsanawiyah ujian akhir semester dalam mata pelajaran Aqidah-Akhlak. Berdasarkan hasil ujian tersebut kemudian disusun lembar jawaban peserta didik dari yang mendapat skor tertinggi sampai dengan skor terendah. Selanjutnya, diam bil 27% dari skor tertinggi, yaitu 27% x 36 orang = 9,72 = 10 orang (dibulatkan) dan 27% dari skor terendah, yaitu 27% x 36 orang = 9,72 = 10 orang (dibulatkan). Setelah diketahui jumlah sampel kelompok atas dan kelompok bawah, kemudian  membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta didik dalam kelompok tersebut.


a.    Untuk soal nomor 1 pada kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 4 orang.
b.    Untuk soal nomor 2 pada kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 2 orang.
c.     Untuk soal nomor 3 pada kelompok bawah yang salah 6 orang, dan pada kelompok atas  yang salah 3 orang.
d.    Untuk soal nomor 4 pada kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 1 orang.
e.    Untuk soal nomor 5 pada kelompok bawah yang salah 6 orang dan pada kelompok atas yang salah 3 orang.
f.     Untuk soal nomor 6 pada kelompok bawah yang salah 3 orang, dan pada  kelompok atas yang salah 2 orang.
g.    Untuk soal nomor 7 pada kelompok bawah yang salah 5 orang, dan pada kelompok atas yang salah 3 orang.
h.    Untuk soal nomor 8 pada kelompok bawah yang salah 4 orang, dan pada kelompok atas yang salah 4 orang.
i.     Untuk soal nomor 9 pada kelompok bawah yang salah 5 orang, dan pada
kelompok atas yang salah 4 orang.
j.      Untuk soal nomor 10 pada  kelompok bawah yang salah 5 orang, dan pada kelompok atas yang salah 3 orang.
Berdasarkan data di atas dapat dibuat tabel seperti berikut :
Jadi, tingkat kesukaran setiap soal adalah sebagai berikut :
Adapun kriteria penafsiran tingkat kesukaran soal adalah :
a)      Jika jumlah  persentase sampai dengan 27% termasuk mudah.
b)      Jika jumlah persentase 28% - 72% termasuk sedang.
c)      Jika jumlah persentase 73% ke atas termasuk sukar.
Berdasarkan kriteria di atas, maka hasil perhitungan tingkat kesukaran  soal dapat ditafsirkan seperti berikut :
Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi antara tingkat kesukaran soal tersebar secara normal. Perhitungan proporsi tersebut dapat diatur sebagai berikut :
a.       Soal sukar 25%, soal sedang 50%, soal mudah 25%, atau
b.      Soal sukar 20%, soal sedang  60%, soal mudah 20%, atau
c.       Soal sukar 15%, soal sedang  70%, soal mudah 15%.
Seharusnya, penyusunan suatu soal dilakukan dengan mem pertimbangkan tingkat kesukaran soal, sehingga hasil yang dicapai peserta didik dapat menggambarkan prestasi yang sesungguhnya.
Cara Kedua, menggunakan tabel batas tingkat kesukaran seperti berikut :
Berdasarkan batasan-batasan di atas dapat diketahui bahwa WL + WH =  15 ada di atas batas indeks tingkat kesukaran “sukar” (1,344 n). Dengan demikian, soal tersebut mempunyai tingkat kesukaran “sukar”. Jika tingkat kesukaran ini dipadukan dengan daya pembeda, maka dapat disimpulkan bahwa soal tersebut sukar dan signifikan. Sebenarnya, dalam analisis butir soal secara klasikal, tingkat kesukaran dapat diperoleh dengan beberapa cara, antara lain : skala kesukaran linier, skala bivariat, indeks davis, dan proporsi menjawab benar. Cara yang terakhir, yaitu proporsi menjawab benar (proportion correct) sangat banyak digunakan karena dianggap lebih mudah. Caranya adalah jumlah peserta didik yang menjawab benar pada soal yang dianalisis dibagi dengan jumlah peserta didik.Persamaan yang digunakan untuk menentukan proportion correct (p) adalah :
Contoh :
40 orang peserta didik Madrasah Tsanawiyah dites dalam mata pelajaran  Ilmu Fiqih. Dari seluruh peserta didik tersebut, ada 25 orang yang dapat menjawab dengan benar pada soal nomor 1. Dengan demikian, tingkat kesukaran soal nomor 1 itu adalah :
Untuk menafsirkan tingkat kesukaran tersebut, dapat digunakan kriteria sebagai berikut :
Dengan demikian, soal nomor 1 dalam contoh di atas termasuk “sedang”. Tingkat kesukaran model ini banyak mengandung kelemahan, karena  tingkat kesukaran ini sebenarnya merupakan “ukuran kemudahan” soal. Semakin tinggi indeks tingkat kesukaran (p), maka semakin mudah soalnya. Sebaliknya, semakin rendah tingkat kesukaran, maka semakin sulit soalnya. Artinya, model tingkat kesukaran seperti ini lebih tepat disebut tingkat kemudahan (easiness). Dalam praktiknya, ada soal yang dikategorikan ekstrim sukar (jika p mendekati nol) dan ada soal yang termasuk ekstrim mudah (jika p mendekati satu). Sehubungan dengan tingkat kesukaran ini, ada beberapa hal yang harus diperhatikan dalam menyusun soal di bank soal, yaitu :
a.       Soal yang termasuk ekstrim sukar atau ekstrim mudah tidak memberikan informasi yang berguna bagi sebagian besar peserta didik. Oleh sebab itu, soal seperti ini kemungkinan distribusi jawaban pada alternatif jawaban ada yang tidak memenuhi syarat.
b.      Jika ada soal ekstrim sukar atau ekstrim mudah, tetapi setiap pengecoh (distribusi jawaban) pada soal tersebut menunjukkan jawaban yang merata, logis, dan daya bedanya negatif (kecuali kunci), maka soal-soal tersebut masih memenuhi syarat untuk diterima.
c.       Jika ada soal ekstrim sukar dan ekstrim mudah, tetapi memiliki daya pembeda dan statistik pengecoh memenuhi kriteria, maka soal tersebut dapat dipilih dan diterima sebagai salah satu alternatif untuk disimpan dalam bank soal.
d.      Jika ada soal ekstrim sukar dan ekstrim mudah, daya pembeda dan statistik pengecohnya belum memenuhi kriteria, maka soal tersebut perlu direvisi dan diujicoba lagi.
2.      Menghitung tingkat kesukaran untuk soal bentuk uraianCara
menghitung tingkat kesukaran untuk soal bentuk uraian adalah   menghitung berapa persen peserta didik yang gagal menjawab benar atau ada di bawah batas lulus (passing grade) untuk tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan kriteria sebagai berikut :
a.    Jika jumlah peserta didik yang gagal mencapai 27 %, termasuk mudah.
b.    Jika jumlah peserta didik yang gagal antara 28 % sampai dengan 72 %, termasuk sedang.
c.     Jika jumlah peserta didik yang gagal 72 % ke atas, termasuk sukar.
Contoh :
33 orang peserta didik dites dengan lima soal bentuk uraian. Skor  maksimum ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang memperoleh nilai 0 – 5   = 10 orang (berarti gagal), nilai 6  = 12 orang, dan  nilai 7 – 10 = 11 orang.
Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal tersebut  termasuk sedang. Catatan : Batas lulus ideal = 6 (skala 0 - 10)
7.      Daya Pembeda
Perhitungan daya pembeda adalah pengukuran sejauhmana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koefisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik yang kurang menguasai kompetensi. Untuk menghitung daya pembeda setiap butir soal dapat digunakan rumus sebagai berikut :
Untuk menginterpretasikan koefisien daya pembeda tersebut dapat digunakan kriteria yang dikembangkan oleh Ebel sebagai berikut :
Index of discrimination      Item evaluation
0,40  and  up :   Very good items
0,30  -  0,39   :   Reasonably good, but possibly subject to improvement.
0,20 - 0,29   : Marginal items, usually needing and being subject to improvement.
Below - 0,19  :   Poor items, to be rejected or im proved by revision.
Berdasarkan kriteria di atas, nilai DP = 0,73 termasuk soal yang sangat baik. Ini berarti bahwa soal tersebut dapat membedakan antara peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi. Untuk menghitung signifikansi daya pembeda dari setiap soal dapat menggunakan langkah-langkah sebagai berikut :
1.      Menghitung signifikansi daya  pembeda soal bentuk objektif
a.    Membuat tabel persiapan.
b.    Menghitung jumlah peserta didik yang gagal pada kelompok bawah (WL) dan menghitung jumlah peserta didik  yang gagal pada kelompok atas (WH).
c.     Mengurangkan hasil WL dengan hasil WH.
d.    Menambahkan hasil WL dengan  hasil  WH.
e.    Membandingkan nilai WL - WH dengan nilai tabel signifikansi DP.
Jika WL - WH lebih besar dari harga tabel signifikansi daya pem beda, maka soal tersebut signifikan. Artinya, soal tersebut mampu membedakan antara peserta didik yang sudah menguasai kompetensi dengan peserta didik yang kurang/belum menguasai kompetensi. Salah satu model tabel signifikansi daya pembeda adalah :
TABLE FOR DETERMINING WHETER OR NOT GIVEN TEST ITEM DISCRIMINATES SIGNIFICANLY BETWEEN A “HIGH” AND “LOW” GROUP (WL = number of persons in the low group who answered the item incorrectly or omitted it; WH = number in the high group answered the item incorrectly or omitted it)
Contoh :
Jumlah peserta didik ( N ) = 40
Jumlah sampel ( n )  = 27 % x  40 = 11 (dapat juga dilihat pada tabel)
WL = 12;   WH = 3;  dan WL – WH  = 9.
Jika soal nomor 11 (misalnya)  bentuknya pilihan-ganda, dan jumlah alternatif  jawaban lima, maka akan diperoleh harga daya pembeda = 5. Ini  berarti bahwa soal nomor 11 itu signifikan. Kesimpulan : soal nomor 11 dapat membedakan peserta didik yang pandai dengan peserta didik  yang kurang pandai, dan soal nomor 11 itu bagus.
2.      Menghitung signifikansi daya pembeda soal bentuk uraian
Teknik yang digunakan untuk menghitung daya pembeda soal bentuk uraian adalah menghitung perbedaan dua rata-rata (mean), yaitu antara rata-rata dari kelompok atas dengan rata-rata dari kelom pok bawah untuk tiap-tiap soal.
Contoh :
Jumlah peserta didik (N) = 36 orang. Jumlah sampel ( n ) =  27 % x 36 = 10 orang.
Skor soal nomor 1 dari kelompok atas     : 8,  6,  8,  7,  7,  6,  9,  7,  8,  6.
Skor soal nomor 1 dari kelompok bawah : 4,  3,  3,  3,  4,  4,  5,  2,  4,  3.
Degree of freedom (df)  = (n  - 1) + (n  - 1) = (10 - 1) + (10 - l) = 9 + 9 =18. Jika ditentukan tingkat kepercayaan 0,01, maka nilai t dalam tabel menunjukkan 2,88. Ternyata nilai t hitung > nilai t tabel, yaitu 8,747 > 2,88. Hal ini berarti daya pembeda soal nomor 1 (satu) bentuk uraian itu signifikan.


BAB III
PENUTUPAN
A.    Kesimpulan
Zainal Arifin dalam bukunya Evaluasi Pembelajaran (2009 : 69) mengemukakan karakteristik instrumen evaluasi yang baik adalah “valid, reliabel, relevan, representatif, praktis, deskriminatif, spesifik dan proporsional”.
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Adapun kriteria instrumen evaluasi terdiri dari :
1.      Validasi
2.      Realibilitas
3.      Objectivitas
4.      Pratikabilitas
5.      Ekomonis
6.      Taraf  Kesukaran
7.      Daya Pembeda

B.     Saran dan kritik
Dalam membuat suatu instrumen evaluasi tentunya kita harus mempertimbangkan beberapa aspek dalam melakukannya. Adapun yang harus dipertimbangankan antara lain :
a.       Kesiapan guru
b.      Kemampuan siswa
c.       Materi Pembelajaran
d.      Kriteria instrumen evaluasi



Komentar

Postingan populer dari blog ini

MAKALAH KEMAJEMUKAN AGAMA, RAS, DAN ETNIK, PEMBANGUNAN DI INDONESIA