Kriteria Instumen Evaluasi
BAB I
PENDAHULUAN
A.
Latar Belakang
Dalam proses evaluasi pembelajaran
atau penilaian proses dan hasil belajar, Anda tentu sering menggunakan alat
ukur tertentu, baik tes maupun nontes. Alat ukur ini mempunyai fungsi dan peran
yang sangat penting dalam rangka mengetahui keefektifan proses pembelajaran di
sekolah. Mengingat begitu pentingnya
suatu alat ukur dalam kegiatan evaluasi pembelajaran, maka suatu alat ukur
harus memiliki syarat-syarat tertentu sekaligus merupakan karakteristik alat
ukur yang baik. Dalam praktik di madrasah, seringkali guru membuat alat ukur
tanpa mengikuti aturan-aturan tertentu. Ada guru yang membuat alat ukur
(seperti soal-soal ulangan atau ujian akhir semester) yang langsung mengambil
dari buku sumber. Padahal kita tahu banyak buku sumber yang tidak sesuai dengan
silabus yang telah ditetapkan. Apa jadinya bila soal yang digunakan tidak
sesuai dengan materi yang disampaikan. Ada juga guru yang menggunakan soal-soal
lama yang belum diketahui kualitasnya. Hal ini semua sebagai akibat dari
kekurangpahaman guru terhadap suatu alat ukur yang baik.
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk
mengetahui derajat kualitas suatu tes, baik secara keseluruhan maupun butir
soal yang menjadi bagian dari tes tersebut. Dalam penilaian hasil belajar, tes
diharapkan dapat menggambarkan sempel perilaku dan menghasilkan nilai yang
objektif serta akurat. Jika tes yang digunakan guru kurang baik, maka hasil
yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan peserta didik
itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak objektif
dan tidak adil. Oleh sebab itu, tes yang
digunakan guru harus memiliki kualitas yeng lebih baik dilihat dari berbagai
segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur penyusunan tes.
Setelah digunakan perlu diketahui apakah tes tersebut berkualitas baik atau
kurang baik. Untuk mengetahui apakah suatu tes yang digunakan termasuk baik
atau kurang baik, maka perlu dilakukan analisis kualitas
tes. Yaitu dengan mengetahui Kriteria
pemilihan instrument Evaluasi.
B.
Rumusan Masalah
1.
Sebutkan karakteristik
instrumen evaluasi !
2.
Sebutkan Kriteria
Instrumen evaluasi !
C.
Tujuan Penulisan
1.
Untuk mengetahui
karakteristik instrumen evaluasi
2.
Untuk mengetahui kriteria
instrumen evaluasi
D.
Sistematika Penulisan
Kata Pengantar
Daftar Isi
BAB I Pendahuluan
A.
Latar Belakang
B.
Rumusan Masalah
C.
Tujuan Penulisan
D.
Sistematika Penulisan
BAB II PEMBAHASAN
A.
Karakteristik Alat Ukur
yang Baik
B.
Kriteria Instrumen
Evaluasi
1.
Validasi
2.
Realibilitas
3. Objectivitas
4. Pratikabilitas
5. Ekomonis
6. Taraf Kesukaran
7. Daya
Pembeda
C.
BAB II
PEMBAHASAN
A.
Karakterisitik Instrumen
evaluasi
Evaluasi sangat berguna untuk
meningkatkan kualitas proses dan hasil pembelajaran. Pentingnya evaluasi dalam
pembelajaran, dapat dilihat dari tujuan dan fungsi evaluasi maupun sistem pembelajaran itu
sendiri. Evaluasi tidak dapat dipisahkan
dari pembelajaran, sehingga guru mau tidak mau harus melakukan evaluasi pembelajaran. Melalui evaluasi, Anda
dapat melihat tingkat kemampuan peserta
didik, baik secara kelompok maupun individual. Anda juga dapat melihat berbagai perkembangan hasil belajar peserta
ddik, baik yang menyangkut domain kognitif, afektif maupun psikomotor. Pada
akhirnya, guru akan memperoleh gambaran
tentang keefektifan proses pembelajaran. Setelah
Anda memahami pentingnya evaluasi dalam kegiatan pembelajaran di Sekolah Anda juga perlu tahu apa karakteristik dari alat
ukur yang baik.
Pemahaman tentang alat ukur ini
menjadi penting karena dalam praktik evaluasi atau penilaian di madrasah, pada
umumnya guru melakukan proses pengukuran. Dalam pengukuran tentu harus ada alat
ukur (instrumen), baik yang berbentuk tes maupun nontes. Alat ukur tersebut ada
yang baik, ada pula yang kurang baik. Alat ukur yang baik adalah alat ukur yang
memenuhi syarat-syarat atau kaidah-kaidah tertentu, dapat memberikan data yang
akurat sesuai dengan fungsinya, dan hanya mengukur sampel prilaku tertentu.
Secara sederhana, Zainal Arifin dalam bukunya Evaluasi Pembelajaran (2009 : 69)
mengemukakan karakteristik instrumen evaluasi yang baik adalah “valid,
reliabel, relevan, representatif, praktis, deskriminatif, spesifik dan
proporsional”.
1.
Valid, artinya suatu alat
ukur dapat dikatakan valid jika betul-betul mengukur apa yang hendak diukur
secara tepat. Misalnya, alat ukur matapelajaran Ilmu Fiqih, maka alat ukur
tersebut harus betul-betul dan hanya mengukur kemampuan peserta didik dalam
mempelajari Ilmu Fiqih, tidak boleh dicampuradukkan dengan materi pelajaran
yang lain. Validitas suatu alat ukur
dapat ditinjau dari berbagai segi, antara lain validitas ramalan (predictive validity), validitas
bandingan (concurent validity), dan validitas isi (content validity),
validitas konstruk (construct validity), dan lain-lain. Penjelasan
tentang validitas ini dapat Anda baca uraian modul berikutnya.
2.
Reliabel, artinya suatu
alat ukur dapat dikatakan reliabel atau handal jika ia mempunyai hasil yang
taat asas (consistent). Misalnya, suatu alat ukur diberikan kepada
sekelompok peserta didik saat ini, kemudian diberikan lagi kepada sekelompok
peserta didik yang sama pada saat yang akan datang, dan ternyata hasilnya sama
atau mendekati sama, maka dapat dikatakan alat ukur tersebut mempunyai tingkat reliabilitas
yang tinggi.
3. Relevan, artinya alat ukur yang digunakan harus sesuai dengan
standar kompetensi, kompetensi dasar,
dan indikator yang telah ditetapkan. Alat ukur juga harus sesuai dengan domain
hasil belajar, seperti domain kognitif, afektif, dan psikomotor. Jangan sampai
ingin mengukur domain kognitif menggunakan alat ukur non-tes. Hal ini tentu
tidak relevan.
4.
Representatif, artinya
materi alat ukur harus betul-betul mewakili dari seluruh materi yang
disampaikan. Hal ini dapat dilakukan bila guru menggunakan silabus sebagai
acuan pemilihan materi tes. Guru juga harus memperhatikan proses seleksi
materi, mana materi yang bersifat aplikatif dan mana yang tidak, mana yang
penting dan mana yang tidak.
5.
Praktis, artinya mudah
digunakan. Jika alat ukur itu sudah memenuhi syarat tetapi sukar digunakan,
berarti tidak praktis. Kepraktisan ini bukan hanya dilihat dari pembuat alat
ukur (guru), tetapi juga bagi orang lain yang ingin menggunakan alat ukur
tersebut.
6.
Deskriminatif, artinya
adalah alat ukur itu harus disusun sedemikian rupa, sehingga dapat menunjukkan
perbedaan-perbedaan yang sekecil apapun. Semakin baik suatu alat ukur, maka
semakin mampu alat ukur tersebut menunjukkan perbedaan secara teliti. Untuk
mengetahui apakah suatu alat ukur cukup deskriminatif atau tidak, biasanya
didasarkan atas uji daya pembeda alat ukur tersebut.
7.
Spesifik, artinya suatu
alat ukur disusun dan digunakan khusus untuk objek yang diukur. Jika alat ukur
tersebut menggunakan tes, maka jawaban tes jangan menimbulkan ambivalensi atau
spekulasi.
8.
Proporsional, artinya
suatu alat ukur harus memiliki tingkat kesulitan yang proporsional antara
sulit, sedang dan mudah. Begitu juga ketika menentukan jenis alat ukur, baik
tes maupun non-tes.

B.
Kriteria Instrumen
Evaluasi
Analisis kualitas tes merupakan suatu
tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik
secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut.
Dalam penilaian hasil belajar, tes diharapkan dapat menggambarkan sampel
perilaku dan menghasilkan nilai yang objektif serta akurat. Jika tes yang
digunakan guru kurang baik, maka hasil yang diperoleh pun tentunya kurang baik.
Hal ini dapat merugikan peserta didik itu sendiri. Artinya, hasil yang
diperoleh peserta didik menjadi tidak objektif dan tidak adil. Oleh sebab itu,
tes yang digunakan guru harus memiliki kualitas yang lebih baik dilihat dari
berbagai segi, Tes disusun hendaknya disusun sesuai dengan prinsip dan prosedur
penyusunan tes. Setelah digunakan perlu diketahui apakah tes tersebut
berkualitas baik atau kurang baik. Untuk mengetahui tes yang digunakan termasuk
baik atau kurang baik, maka perlu dilakukan analisis kualitas tes.
1.
Validitas
Sebelum Anda menggunakan suatu tes, Anda hendaknya mengukur
terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata
lain,
untuk melihat apakah tes tersebut valid (sahih),
Anda harus membandingkan skor peserta didik
yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta
didik dalam salah satu mata pelajaran
dibandingkan dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin mendekati kedua skor
tersebut, maka semakin soal ujian akhir tadi
dapat dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun demikian,
tidak ada validitas yang berlaku secara
umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat
digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan
tersebut.
Ada dua unsur penting dalam validitas ini. Pertama, validitas
menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada pula
yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan
atau tujuan yang spesifik. Sebagaimana pendapal R.L. Thorndike dan H.P. Hagen
(1977: 56) bahwa “validity is always in relation to a specific decision or
use”. Sementara itu, Gronlund (1985 : 79-81) dalam buku Evaluasi
Pembelajaran Karya Zainal Arifin mengemukan ada tiga faktor yang mempengaruhi
validitas hasil tes, yaitu “faktor instrumen
evaluasi, faktor administrasi evaluasi dan penskoran, dan faktor dari jawaban
peserta didik”.
a.
Faktor instrumen evaluasi
Mengembangkan
instrumen evaluasi memang tidaklah mudah, apalagi jika seorang evaluator tidak
atau kurang memahami prosedur dan teknik evaluasi itu sendiri. Jika instrumen
evaluasi kurang baik, maka dapat berakibat hasil evaluasi menjadi kurang baik.
Untuk itu, dalam mengembangkan instrumen evaluasi, seorang evaluator harus
memperhatikan hal-hal yang mempengaruhi validitas instrumen dan berkaitan
dengan prosedur penyusunan instrumen, seperti silabus, kisi-kisi soal, petunjuk
mengerjakan soal dan pengisian lembar jawaban, kunci jawaban, penggunaan
kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran, daya pembeda,
dan sebagainya.
b.
Faktor administrasi
evaluasi dan penskoran
Dalam
administrasi evaluasi dan penskoran, banyak sekali terjadi penyimpangan atau kekeliruan, seperti :
alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan bantuan
kepada peserta didik dengan berbagai cara, peserta didik saling menyontek
ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta
didik yang kurang menguntungkan.
c.
Faktor jawaban dari
peserta didik
Dalam
praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh
daripada dua faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik
untuk menjawab secara cepat tetapi tidak tepat, keinginan melakukan coba-coba,
dan penggunaan gaya bahasa tertentu dalam menjawab soal bentuk uraian.
Selanjutnya, Kerlinger dalam buku Evaluasi Pembelajaran Karya Zainal
Arifin (1986) halaman 248 mengemukakan “validitas instrumen tidak cukup ditentukan
oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur,
tetapi perlu juga dilihat dari tiga kriteria yang lain, yaitu appropriatness,
meaningfullness, dan usefullness”. Appropriatness menunjukkan
kelayakan dari tes sebagai suatu instrumen, yaitu seberapa jauh instrumen dapat menjangkau keragaman aspek perilaku
peserta didik. Meaningfullness menunjukkan kemampuan instrumen dalam
memberikan keseimbangan soal-soal pengukurannya berdasar tingkat kepentingan
dari setiap fenomena. Usefullness to inferences menunjukkan sensitif
tidaknya instrumen dalam menangkap fenomena perilaku dan tingkat ketelitian
yang ditunjukkan dalam membuat kesimpulan.
Dalam literatur modern tentang
evaluasi, banyak di kemukakan tentang jenis-jenis validitas, antara lain :
validitas permukaan (face validity), validitas isi (content validity),
validitas empiris (empirical validity), dan validitas konstruk (construct
validity), dan validitas faktor (factorial validity).
a.
Validitas permukaan
Validitas ini menggunakan
kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau
tampang dari instrumen itu sendiri. Artinya, jika suatu tes secara sepintas
telah dianggap baik untuk mengungkap fenomena yang akan diukur, maka tes tersebut
sudah dapat dikatakan memenuhi syarat validitas permukaan, sehingga tidak perlu
lagi adanya judgement yang mendalam.
b.
Validitas isi
Validitas isi sering
digunakan dalam pengukuran hasil belajar. Tujuan utamanya adalah untuk
mengetahui hinggamana peserta didik menguasai materi pelajaran yang telah
disampaikan, dan perubahan-perubahan psikologis apa yang timbul pada diri
peserta didik tersebut setelah mengalami proses pembelajaran tertentu. Jika
dilihat dari segi kegunaannya dalam penilaian hasil belajar, validitas isi ini
sering disebut juga validitas kurikuler dan validitas perumusan. Validitas
kurikuler berkenaan dengan pertanyaan apakah materi tes relevan dengan
kurikulum yang sudah ditentukan. Pertanyaan ini timbul karena sering terjadi
materi tes tidak mencakup keseluruhan aspek-aspek yang akan diukur, baik aspek
kognitif, afektif, maupun psikomotorik, tetapi hanya pengetahuan yang bersifat
fakta-fakta pelajaran tertentu. Diharapkan dengan validitas kurikuler ini
timbul ketelitian yang jelas dan totalitas dengan menjelajahi semua aspek yang
tercakup dalam kisi-kisi dan Rencana Pelaksanaan Pembelajaran (RPP) yang
bersangkutan. Validitas kurikuler ini dapat dilakukan dengan beberapa cara,
antara lain mencocokkan materi tes dengan silabus dan kisi-kisi, melakukan
diskusi dengan sesama pendidik, atau mencermati kembali substansi dari konsep
yang akan diukur.
Validitas perumusan
berkenaan dengan pertanyaan apakah aspek-aspek dalam soal-soal itu betul-betul
tercakup dalam perumusan tentang apa yang hendak diukur. Di samping itu,
validitas isi dapat juga disebut validitas rasional atau validitas logis.
Sebagaimana dikemukakan oleh R.L. Thorndike dan H.P. Hagen (1977: 58) bahwa
“scientific analysis is essen tially a rational and judgmental one, this is
sometimes spoken of as rational or logical validity”. Pernyataan ini memang
ada benarnya, karena pengujian validitas harus dilakukan secara rasional dan
logis, sehingga suatu tes hasil belajar dapat memiliki validitas yang sempurna.
c.
Validitas empiris
Validitas ini biasanya
menggunakan teknik statistik, yaitu analisis
korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara
skor tes dengan suatu kriteria tertentu yang merupakan suatu tolak ukur di luar
tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan
diukur. Validitas empiris disebut juga validitas yang dihubungkan dengan
kriteria (criterion-related validity) atau validitas statistik (statistical
validity). Ada tiga macam validitas empiris, yaitu:
1) Validitas prediktif (predictive validity)
Validitas
prediktif ialah jika kriteria standar yang digunakan adalah untuk meramalkan
prestasi belajar murid di masa yang akan datang. Dengan kata lain, validitas
prediktif bermaksud melihat hinggamana suatu tes dapat memprakirakan perilaku peserta
didik pada masa yang akan datang.
2)
Validitas kongkuren (concurrent
validity)
Validitas
konkuren ialah jika kriteria standarnya berlainan.
Misalnya, skor tes dalam
mata pelajaran Al-Qur’an-Hadits dikorelasikan dengan skor tes Bahasa Arab.
3)
Validitas sejenis (congruent
validity)
Sebaliknya,
jika kriteria standarnya sejenis, maka validitas tersebut disebut validitas
sejenis. Misalnya, Bahasa Arab dengan Bahasa Arab.
Dalam
mengukur validitas suatu tes hendak nya yang menjadi kriteria sudah betul-betul
valid, sehingga dapat diandal kan keampuhannya dan dapat dianggap sebagai tes
standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes lain yang akan
divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes akan mempunyai
koefisien validitas yang tinggi jika tes itu betul-betul dapat mengukur apa
yang hendak diukur dari peserta didik tertentu.
Ada
beberapa hal yang harus diperhatikan dalam menginterpretasikann koefisien
validitas, antara lain data mengenai karakteritik sampel validitas, prosedur-prosedur
dalam pengukuran validitas, dan pola kriteria khusus yang dikorelasikan dengan
hasil tes itu. Sehubungan dengan kriteria khusus, Anastasi dalam Conny Semiawan
Stamboel (1986 : 50), mengemukakan ada delapan kriteria sebagai bahan bandingan
untuk merumuskan apa yang hendak diselidiki oleh suatu tes, yaitu “diferensiasi
umur, kemajuan akademis, kriteria dalam pelaksanaan latihan khusus, kriteria
dalam pelaksanaan kerja, penilaian, kelompok yang dipertentangkan, korelasi
dengan tes lain, dan konsistensi internal”.
1)
Diferensiasi umur
Kriteria
yang paling utama dalam validitas tes intelegensi adalah umur. Kebanyakan tes
intelegensi, baik yang dipakai di madrasah maupun tes pra-madrasah, senantiasa
dibandingkan dengan umur kronologis untuk menentukan apakah angka bertambah
dengan bertambahnya umur. Jika suatu tes dianggap valid, maka nilai tes bagi
peserta didik akan naik dengan bertambahnya umur. Namun, anggapan ini tidak
berlaku bagi perkembangan semua fungsi dalam hubungannya dengan bertambahnya umur
secara konsisten (ini terbukti dari beberapa tes kepribadian). Suatu hal yang
juga perlu dicermati adalah corak kondisi lingkungan tempat tes itu dibakukan.
Kriteria peningkatan umur tidak bersifat universal tetapi tidak dapat juga
dikatakan bahwa ini berlaku bagi corak masing-masing kebudayaan.
2)
Kemajuan akademis
Pada
umumnya tes intelegensi divalidkan dengan kemajuan akademis. Juga sering
dikatakan bahwa makin lama seseorang belajar di sekolah, makin tinggi
pendidikannya, makin tinggi pula kemajuan akademisnya. Padahal, setiap jenis
dan jenjang pendidikan itu bersifat selektif. Bagi peserta didik yang tak
sanggup meneruskan, biasanya termasuk dropout. Namun demikian, banyak
pula faktor non-intelektual yang ikut mempengaruhi keberhasilan pendidikan
seorang peserta didik. Dengan kata lain, berhasil tidaknya pendidikan seseorang
tidak hanya dilihat dari faktor intelektual tetapi juga faktor non-intelektual.
Untuk memperoleh gambaran yang komprehensif dan holistik tentang hal ini perlu
diada kan penyelidikan yang lebih jauh.
3)
Kriteria dalam pelaksanaan
latihan khusus
Corak kriteria dalam
pengembangan tes bakat khusus didasarkan atas
prestasi dalam latihan tertentu secara khusus. Beberapa tes bakat
profesi (profesional aptitude test) telah divalidkan dengan tes hasil
belajar dalam bidang-bidang tersebut. Misalnya, tes untuk memasuki profesi
kedok teran, hukum, dan sebagainya. Ada beberapa tes untuk memasuki profe si
tertentu yang disebut tailor-made test, yaitu tes yang telah dibuat
khusus untuk keperluan tersebut, seperti tes penerbangan.
4)
Kriteria dalam pelaksanaan
kerja
Dalam validitas tes
kepribadian dan validitas tes bakat khusus banyak digunakan kriteria yang didasarkan atas
kinerja dalam pelaksanaan kerja (on
the job performance). Mengingat masing-masing pekerjaan memiliki kekhasan
sendiri dan berbeda-beda tingkat, bentuk, maupun coraknya, maka untuk
masing-masing pekerjaan diciptakan tes yang terkenal dengan istilah tailor-made
test.
5)
Penilaian
Pengertian penilaian
disini adalah teknik untuk memperoleh informasi
tentang kemajuan belajar peserta didik di madrasah. Selain itu, juga
mencakup pe kerjaan yang memerlukan latihan khusus ataupun sukses dalam
penilaian pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis.
Misalnya, kondisi-kondisi, orijinalitas, kepemimpinan, atau kejujuran. Jika
kondisi-kondisi pengenalan dalam situasi tempat kemampuan yang khusus itu
dinyatakan, maka perlu disertai skala penilaian yang dipersiapkan secara
teliti.
6)
Kelompok yang
dipertentangkan
Konsep validitas melalui kelompok
yang dipertentangkan menyelidiki
pengaruh kehidupan sehari-hari yang tak disengaja. Kriteria ini
didasarkan atas kelebihan suatu kelompok tertentu dihadapkan kepada kelompok
yang lain dalam mejalankan suatu tes tertentu. Misalnya, suatu tes bakat musik
dicobakan dalam suatu sekolah musik maupun dalam suatu madrasah. Kriteria itu
didasarkan atas faktor yang menyolok, yang diperoleh dari hasil nilai kedua
kelompok tersebut dalam menjalankan tes itu.
7)
Korelasi dengan tes lain
Korelasi antara tes baru dengan tes lama merupakan perbandingan
kriteria dalam menyelidiki perilaku yang sama. Dalam hal ini suatu tes verbal
tertulis bisa dibandingkan dengan tes individual atau tes kelompok. Untuk
mengukur apakah suatu tes yang baru memiliki validitas dan bebas dari pengaruh
faktor lain, maka dipergunakan tes jenis lain dalam membandingkannya. Jadi,
kadang-kadang tes kepribadian dikorelasikan dengan tes internal atau tes hasil
belajar.
8)
Konsistensi internal
Kriteria konsistensi
internal adalah skor total yang diperoleh peserta didik dalam suatu tes. Kriteria ini terutama
digunakan dalam bidang tes kepribadian. Kadang-kadang untuk keperluan ini juga
digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok berhasil dan
kelompok kurang berhasil. Skor setiap soal tes dari kelompok yang berhasil di
bandingkan dengan skor setiap soal tes dari kelompok yang kurang berhasil.
Soal-soal yang gagal menunjukkan perbedaan antara kelompok yang berhasil dengan kelompok yang
kurang berhasil harus diperbaiki, atau di buang. Kriteria konsistensi internal
ini menghasilkan indeks homoginitas soal, tetapi tidak dapat dianggap
sepenuhnya sebagai pengganti validitas.
Untuk menguji validitas empiris dapat dihitung dengan korelasi product-
moment, korelasi perbedaan pering kat, dan diagram pencar.
a)
Korelasi product-moment
dengan angka simpangan








4)
Validitas konstruk
Konstruk adalah konsep
yang dapat diobservasi (observable) dan dapat diukur (measurable). Validitas konstruk
sering juga disebut validitas logis (logical validity). Validitas
konstruk berkenaan dengan pertanyaan hinggamana suatu tes betul-betul dapat
mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku
peserta didik yang akan diukur oleh tes tersebut. Validitas konstruk banyak
dikenal dan diguna kan dalam tes-tes psikologis untuk mengukur gejala perilaku
yang abstrak, seperti kesetiakawanan, kematangan emosi, sikap, motivasi, minat,
dan sebagainya. Untuk menguji validitas konstruk dapat dilakukan dengan
berbagai sumber, antara lain validitas
isi, validitas prediktif, dan validitas
konkuren. N.E. Gronlund (1985) mengemukakan “It is a matter of accumulating
evidence from many different sources. We may use content validity, predictive
validity, and concurrent validi ty as partial evidence to support construct
validity, but none of them alone is sufficient”. Analisis statistika yang
digunakan dalam validitas konstruk antara lain dengan analisis faktor (factor
analysis), sehingga dapat diketahui :
a)
Aspek-aspek apa saja yang
diukur oleh setiap butir soal.
b)
Berapa besar suatu butir
soal berisi faktor-faktor tertentu.
c)
Faktor-faktor apa yang diukur oleh suatu butir soal.
Produk analisis faktor ini dapat menganalisis dan
mempertimbangkan apakah suatu tes
betul-betul dapat mengukur fungsi psikologis yang merupakan deskripsi perilaku
peserta didik yang hendak diukur oleh tes yang bersangkutan.
5)
Validitas faktor
Dalam evaluasi atau
penilaian sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas beberapa
faktor. Faktor-faktor tersebut diperoleh berdasarkan dimensi/indikator dari
variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi
teoritisnya. Meskipun variabel terdiri atas beberapa faktor, tetapi prinsip
homoginitas untuk keseluruhan faktor harus tetap dipertahankan, sehingga tidak
terjadi tumpang tindih antara satu faktor dengan faktor yang lain. Dengan
demikian, kriterium yang digunakan dalam validitas faktor ini dapat diketahui
dengan menghitung homoginitas skor setiap faktor dengan total skor.
2.
Realibilitas
Reliabilitas suatu tes
adalah tingkat atau derajat konsistensi tes yang bersangkutan. Reliabilitas berkenaan dengan
pertanyaan, apakah suatu tes teliti dan dapat dipercaya sesuai dengan kriteria
yang telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu
memberikan hasil yang sama bila diteskan pada kelom pok yang sama pada waktu
atau kesempatan yang berbeda. Anastasi (1976 : 103) mengemukakan “reliability
refers to the consistency of scores
obtained by the same persons when reexamined the same test on different
occasion, or with different sets of equivalent items or under other variable
examining conditions”. Hal senada
dikemukakan Gronlund (1985 : 87) bahwa “reliability refers to the results
obtained with an evaluation instrument and not to the instrument it self”.
Sementara itu, Kerlinger
(1986 : 443) mengemukakan “reliabilitas dapat diukur dari tiga kriteria, yaitu stability,
dependability, dan predictability”. Stability menunjukkan
keajegan suatu tes dalam mengukur gejala yang sama pada waktu yang berbeda. Dependability
menunjukkan kemantapan suatu tes atau seberapa jauh tes dapat diandalkan. Predictability
menunjukkan kemampuan tes untuk meramalkan hasil pada pengukuran gejala
selanjutnya. Untuk meningkatkan reliabilitas suatu tes, antara lain dapat
dilakukan dengan memperbanyak butir soal.
Selanjutnya, Gronlund
(1985 : 100) mengemukakan ada empat faktor yang dapat mempengaruhi
reliabilitas, yaitu “panjang tes, sebaran skor, tingkat kesukaran, dan
objektifitas”.
a.
Panjang tes (length of
test)
Panjang tes berarti
banyaknya soal tes. Ada kecenderungan, semakin panjang suatu tes akan lebih
tinggi tingkat reliabilitas suatu tes, karena semakin banyak soal, maka akan
semakin banyak sampel yang diukur dan proporsi jawaban yang benar semakin
banyak, sehingga faktor tebakan (guessing) akan semakin rendah.
b.
Sebaran skor (spread of
scores)
Besarnya sebaran skor akan
membuat tingkat reliabilitas menjadi lebih tinggi, karena koefisien
reliabilitas yang lebih besar diperoleh ketika peserta didik tetap pada posisi
yang relatif sama dalam satu kelompok pengujian ke pengujian berikutnya. Dengan
kata lain, peluang selisih dari perubahan posisi dalam kelompok dapat
memperbesar koefisien reliabilitas.
c.
Tingkat kesukaran (difficulty
indeks)
Dalam penilaian yang
menggunakan pendekatan penilaian acuan norma, baik untuk soal yang mudah maupun
sukar, cenderung menghasilkan tingkat reliabilitas yang rendah. Hal ini
disebabkan antara hasil tes yang mudah dengan hasil tes yang sukar keduanya
dalam satu sebaran skor yang terbatas. Untuk tes yang mudah, skor akan berada
dibagian atas dan akhir dari skala penilaian. Bagi kedua tes (mudah dan sukar),
perbedaan antar peserta didik kecil sekali dan cenderung tidak dapat dipercaya.
Tingkat kesukaran soal yang ideal untuk meningkatkan koefisien reliabilitas
adalah soal yang menghasilkan sebaran skor berbentuk genta atau kurva normal.
d.
Objektifitas (obyektivity)
Objektifitas disini
menunjukkan skor tes kemampuan yang sama antara peserta didik yang satu dengan
peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama,
maka akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama.
Objektifitas prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes
yang tidak dipengaruhi oleh prosedur penskoran.
Konsep reliabilitas mendasari
kesalahan pengukuran yang mungkin terjadi pada suatu proses pengukuran atau
pada nilai tunggal tertentu, se hingga menimbulkan perubahan pada susunan
kelompoknya (error of measurement). Misalnya, guru mengetes peserta
didik dengan instrumen ter tentu dan mendapat nilai 70. Kemudian pada
kesempatan yang berbeda dengan instrumen yang sama, guru melakukan tes kembali,
ternyata peserta didik tersebut mendapat nilai 75. Artinya, tes tersebut tidak
reliabel, karena terjadi kesalahan pengukuran. Tes yang reliabel adalah apa
bila koefisien reliabilitasnya tinggi dan kesalahan baku pengukuran nya (standard
error of measurement) rendah.
Menurut perhitungan product-moment
dari Pearson, ada tiga macam reliabilitas, yaitu koefisien stabilitas,
koefisien ekuivalent, dan koefisien konsistensi internal.
a.
Koefisien stabilitas
Koefisien stabilitas (coefficient
of stability) adalah jenis reliabilitas yang menggunakan teknik test and
retest, yaitu memberikan tes kepada sekelompok individu, kemudian diadakan
pengulangan tes pada kelompok yang sama dengan waktu yang berbeda. Cara
memperoleh koefisien stabilitas adalah dengan mengorelasikan hasil tes pertama
dengan hasil tes kedua dari ke lompok yang sama, tes yang sama, pada waktu yang
berbeda. Jika antara waktu tes pertama dengan tes kedua cukup lama, kemudian
diadakan latihan-latihan tambahan, maka bisa jadi nilai tes kedua akan lebih
besar daripada tes pertama. Sebaliknya, jika antara waktu tes pertama dengan
tes kedua relatif pendek, maka nilai tes kedua bisa jadi sama atau lebih besar
daripada tes pertama, karena soal dan jawaban masih dapat diingat.
Kesalahan teknis ini dapat
bersumber dari berbagai faktor, sehingga menyebabkan peserta didik mempunyai
skor yang berbeda pada saat dua kali mengerjakan tes yang sama. Bisa saja
perubahan skor yang terjadi bukan disebabkan perubahan hal yang diukur, tetapi
memang karena situasi yang berbeda atau pengalaman dari peserta didik pada saat
mengikuti tes yang pertama, sehingga ketika mengerjakan tes yang kedua, peserta
didik lebih berhati-hati dan lebih baik hasilnya. Keunggulan teknik ini adalah
dapat memperkecil kemungkinan masuknya sumber kesalahan yang lain. Namun
demikian, patut juga dipertimbangkan bahwa penggunaan kelompok yang sama dan
tes yang sama dalam dua kali tes akan mempengaruhi hasil tes yang kedua, karena
responden sudah memiliki pengalaman mengerjakan tes yang pertama. Hal ini
sekaligus menunjukkan kelemahan teknik test
and retest.
b.
Koefisien ekuivalen
Koefisien ekuivalen (coefficient
of equivalence) adalah jika mengorelasikan dua buah tes yang paralel pada
kelompok dan waktu yang sama. Metode yang digunakan untuk memperoleh koefisien
ekuivalen adalah metode dengan menggunakan dua buah bentuk tes yang paralel (equivalen)
atau equivalence forms method atau disebut juga parallel or
alternate-forms method. Syarat-syarat yang harus dipenuhi kedua tes paralel
adalah kriteria yang dipakai pada kedua tes sama, masing-masing tes
dikonstruksikan tersendiri, jumlah item, isi, dan corak sama, tingkat kesukaran
sama, petunjuk waktu yang disediakan untuk mengerjakan tes, dan contoh contoh
juga sama. Kemungkinan kesalahan pada teknik ini bersumber dari derajat
keseimbangan antara dua tes tersebut, serta kondisi tempat yang mungkin berbeda
pada kelompok tes pertama dengan kelompok tes kedua, meskipun dilakukan pada
waktu yang sama.
c.
Koefisien konsistensi internal
Koefisien konsistensi
internal (coefficient of internal consistency) adalah reliabilitas yang
didapat dengan jalan mengorelasikan dua buah tes dari kelom pok yang sama,
tetapi diambil dari butir-butir yang bernomor genap un tuk tes yang pertama dan
butir-butir bernomor ganjil untuk tes yang kedua. Teknik ini sering juga
disebut split-half method. Split berarti membelah dan half berarti
setengah atau separuh. Jadi, split-half adalah tes yang dibagi menjadi
dua bagian yang sama, kemudian mengorelasikan butir soal yang bernomor ganjil
dalam belahan pertama (X) dan yang bernomor genap dalam belahan kedua (Y).
Untuk membagi tes menjadi dua bagian dapat juga dilakukan dengan jalan
mengambil nomor soal secara acak, tetapi jumlahnya tetap harus sama untuk
masing-masing kelompok. Di samping itu, pembagian tes dapat juga dilakukan
dengan cara setengah bagian pertama untuk kelompok pertama dan setengah lagi
untuk kelompok kedua.
Untuk menghitung koefisien
stabilitas, koefisien ekuivalens, dan koefisien konsitensi internal dapat
digunakan analisis korelasi seperti pada pengujian validitas. Khusus bagi
perhitungan koefisien kon sistensi internal, korelasi tersebut baru sebagian
dari seluruh tes. Untuk memperoleh angka koefisien korelasi secara menyeluruh
dari tes tersebut harus dihitung dari nomornomor kedua tes itu dengan rumus
Spearman Brown :

Contoh :
10 orang
peserta didik dites dalam mata pelajaran Qur’an-Hadits dan Aqidah-Akhlak.
Jumlah soal masing-masing lima buah. Dua
buah nomor genap diambil dari tes Qur’an-Hadits dan tiga buah nomor ganjil
diambil dari tes Aqidah-Akhlak. Data diperoleh sebagai berikut :






Teknik Kuder-Richardson biasanya digunakan jika instrumen
digunakan untuk mengukur satu gejala psikologis atau perilaku yang sama.
Artinya, tes tersebut dapat
dikatakan reliabel bila terbukti ada konsistensi jawaban antara soal yang satu dengan soal yang lain. Jika sifat dan
tingkatan homoginitas antar soal tidak
terpenuhi, maka tes tersebut dianggap mengukur lebih dari satu variabel. Jika dalam suatu tes terdapat lebih dari
satu skala pengukuran atau mengukur lebih
dari satu variabel dan setiap variabel memiliki beberapa aspek, maka pengecekan reliabilitas dilakukan terhadap
masing-masing skala pengukuran. Teknik ini
lebih cocok untuk tes yang menggunakan soal dua
pilihan dengan salah satu jawaban benar.
Teknik lain yang biasa digunakan untuk menguji konsistensi internal
dari
suatu tes adalah Cronbach’s Alpha atau
Koefisien Alpha. Perbedaannya dengan teknik Kuder-Richardson
adalah teknik ini tidak hanya digunakan
untuk tes
dengan dua pilihan saja, tetapi penerapannya lebih luas, seperti menguji
reliabilitas skala pengukuran sikap dengan tiga, lima atau tujuh pilihan. Adapun
rumus yang digunakan untuk menghitung Koefisien Alpha
adalah :

Untuk
butir soal yang bersifat dikotomi seperti pilihan-ganda, varian butir
soal
diperoleh dengan rumus :

3. Objectivitas
Instrumen
evaluasi hendaknya terhindar dari pengaruh-pengaruh subjektifitas pribadi dari
si evaluator dalam menetapkan hasilnya. Dalam menekan pengaruh subjektifitas
yang tidak bisa dihindari hendaknya evaluasi dilakukan mengacu kepada pedoman
tertama menyangkut masalah kontinuitas dan komprehensif. Evaluasi harus
dilakukan secara kontinu (terus-menerus). Dengan evaluasi yang berkali-kali
dilakukan maka evaluator akan memperoleh gambaran yang lebih jelas tentang
keadaan audiens yang dinilai. Evaluasi yang diadakan secara hanya satu atau dua
kali, tidak akan dapat memberikan hasil yang objektif tentang keadaan audiens
yang dievaluasi. Faktor kebetulan akan sangat mengganggu hasilnya.
Objektif
berarti tidak adanya unsur pribadi yang mempengaruhinya. Lawan dari objektif
adalah subjektif, artinya terdapat unsur pribadi yang masuk mempengaruhi.
Sebuah tes dikatakan memiliki objektivitas apabila dalam melaksanakan tes tidak
ada factor subjektif yang mempengaruhi, terutama dalam system skoringnya.
Ada
dua factor yang mempengaruhi subjektivitas dari suatu tes, yaitu : bentuk tes
dan penilai. Bentuk tes uraian akan memberi banyak kemungkinan kepada penilai
untuk memberikan penilaian menurut caranya sendiri. Dengan demikian maka hasil
dari seorang siswa yang mengerjakan soal dari sebuah tes, akan memperoleh skor
yang berbeda apabila dinilai oleh dua orang. Itulah sebabnya pada waktu
sekarang ini ada kecenderungan penggunaan tes objektif di berbagai bidang.
Untuk menghindari masuknya unsur subjektivitas dari penilai, maka system
skoringnya dapat dilakukan dengan sebaik-baiknya, antara lain dengan membuat
pedoman scoring terlebih dahulu. Subjektivitas dari penilai akan dapat masuk
secara lebih leluasa terutama pada tes bentuk uraian. Factor-faktor yang
mempengaruhi subjektivitas penilai antara lain :
a. Kesan
penilai terhadap siswa (halo effect)
b. Bentuk
tulisan
c. Gaya
bahasa yang digunakan
d. Peserta
tes
e. Waktu
mengadakan penilaian
f. Kelelahan,dsb.
Untuk menghindari atau mengurangi
masuknya unsur subjektivitas dalam penilaian, maka penilaian harus dilaksanakan
:
a. Secara
kontinu (terus-menerus) sehingga akan diperoleh gambaran yang lebih jelas
tentang keadaan siswa. Tes yang diadakan secara on the spot dan hanya satu kali
(one shot) atau dua kali, tidak akan dapat memberikan hasil yang objektif
tentang keadaan siswa. Kalo misalnya ada seorang anak yang sebetulnya pandai,
tetapi pada waktu guru mengadakan tes dia sedang dalam kondisi yang jelek, maka
kemungkinan nilai tesnya juga jelek. Hal ini tidak menggambarkan kemampuan anak
yang sebenarnya.
b. Secara
komprehensif (menyeluruh), yaitu mencakup keseluruhan materi, mencakup berbagai
aspek berfikir (ingatan, pemahaman, analisis, aplikasi dan sebagainya), dan
melalui berbagai cara, yaitu : tes tertulis, tes lisan, tes perbuatan,
pengamatan dan sebagainya.
4. Pratikabilitas
Dalam kenyataannya, banyak tes yang dibuat orang tidak
menunjukkan kepraktisan. Padahal, kepraktisan merupakan syarat suatu tes
standar. Kebanyakan orang membuat tes hanya untuk kepentingan dirinya sendiri,
tidak berpikir untuk orang lain. Akibatnya, ketika tes tersebut digunakan orang
lain, maka orang tersebut akan merasa kesulitan. Kepraktisan bukan hanya
dipertimbangkan ketika memilih tes yang sudah dipublikasikan, tetapi siapapun
yang mengembangkan tes harus memenuhi syarat ini. Kepraktisan mengandung arti
kemudahan suatu tes, baik dalam mempersiapkan, menggunakan, mengolah dan
menafsirkan, maupun mengadministrasikannya. Dimyati dan Mudjiono (1994 : 184)
mengemukakan faktor-faktor yang mempengaruhi kepraktisan instrumen evaluasi
meliputi : “kemudahan mengadministrasi, waktu yang disediakan untuk melancarkan
evaluasi, kemudahan menskor, kemudahan interpretasi dan aplikasi, tersedianya
bentuk instrumen evaluasi yang ekuivalen atau sebanding”.
a.
Kemudahan
mengadministrasi.
Jika instrumen evaluasi diadministrasikan
oleh guru atau orang lain dengan kemampuan yang terbatas, kemudahan
pengadministrasian adalah suatu kualitas penting yang diminta dalam instrumen
evaluasi. Untuk memberikan kemudahan pengadministrasian instrumen evaluasi
dapat dilakukan dengan jalan memberi petunjuk yang sederhana dan jelas, subtes
sebaiknya relatif sedikit, dan pengaturan tempo tes sebaiknya tidak menimbulkan
kesulitan. Kesalahan-kesalahan dalam mengadministrasikan alat ukur atau
instrumen evaluasi akan menurunkan kepraktisannya, sehingga dapat menyebabkan
berkurangnya validitas dan reliabilitas suatu alat ukur.
b.
Waktu yang disediakan
untuk melancarkan evaluasi.
Kepraktisan dipengaruhi pula oleh
faktor waktu yang disediakan untuk
melancarkan evaluasi. Waktu antara 20 menit sampai 60 menit yang
disediakan untuk melancarkan evaluasi merupakan waktu yang cukup memberikan
kepraktisan.
c.
Kemudahan menskor.
Hal yang membosankan dan mengganggu
dalam melancarkan kegiatan evaluasi adalah penskoran. Guru seringkali bekerja
keras untuk melaksanakan tugas ini. Hal ini tentu mengurangi kepraktisan alat
ukur. Untuk memberikan kemudahan penskoran diperlukan upaya berupa perbaikan
petunjuk penskoran dan lebih memudahkan kunci penskoran, pemisahan lembar
jawaban dari lembar soal, dan penskoran menggunakan mesin.
d.
Kemudahan interpretasi dan
aplikasi.
Dalam analisis terakhir, keberhasilan
atau kegagalan evaluasi ditentukan oleh penggunaan hasil evaluasi. Jika hasil
evaluasi ditafsirkan secara tepat dan diterapkan secara efektif, maka hasil
evaluasi akan mendukung terhadap keputusan-keputusan pembelajaran yang lebih
tepat. Untuk memudahkan interpretasi dan
aplikasi hasil evaluasi diperlukan petunjuk yang jelas. Semakin mudah
interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan kepraktisan
evaluasi.
e.
Tersedianya bentuk
instrumen evaluasi yang ekuivalen atau sebanding.
Untuk berbagai kegunaan pendidikan,
bentuk-bentuk ekuivalen untuk tes yang sama sering kali diperlukan.
Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek-aspek perilaku melalui
butir-butir tes yang memiliki kesamaan dalam isi, tingkat kesulitan, dan
karakteristik lainnya. Dengan demikian, satu bentuk tes dapat menggantikan yang
lain. Sedangkan alat ukur atau instrumen evaluasi yang sebanding adalah
instrumen evaluasi yang memiliki kemungkinan dibandingkan makna dari skala skor
umum yang dimiliki, sehingga untuk tes berseri cukup menggunakan satu skala
skor. Adanya bentuk-bentuk yang ekuivalen atau sebanding dari instrumen
evaluasi akan mempraktiskan kegiatan evaluasi.
5. Ekomonis
Pelaksanaan evaluasi menggunakan instrumen tersebut
tidak membutuhkan biaya yang mahal, tenaga yang banyak dan waktu yang lama.
6. Taraf Kesukaran
Perhitungan tingkat kesukaran soal adalah pengukuran seberapa
besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat
kesukaran seimbang (proporsional), maka
dapat dikatakan bahwa soal tersebut baik. Suatu soal tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah.
1.
Menghitung tingkat kesukaran soal bentuk objektif
Untuk
menghitung tingkat kesukaran soal bentuk objektif dapat digunakan
dengan dua cara, yaitu :
Cara
Pertama, menggunakan rumus tingkat kesukaran
(TK) :

a.
Menyusun lembar jawaban
peserta didik dari skor tertinggi sampai dengan skor terendah.
b.
Mengambil 27 % lembar
jawaban dari atas yang selanjutnya
disebut kelompok atas (higher group), dan 27 % lembar jawaban dari bawah
yang selanjutnya disebut kelompok bawah (lower group). Sisa seba nyak
46% disisihkan.
c.
Membuat tabel untuk
mengetahui jawaban (benar atau salah) dari setiap peserta didik, baik untuk
kelompok atas maupun kelompok bawah. Jika jawaban peserta didik benar, diberi
tanda + (plus), sebaliknya jika jawaban peserta didik salah, diberi tanda -
(minus).

Contoh :
36 orang peserta didik Madrasah
Tsanawiyah ujian akhir semester dalam mata pelajaran Aqidah-Akhlak. Berdasarkan
hasil ujian tersebut kemudian disusun lembar jawaban peserta didik dari yang
mendapat skor tertinggi sampai dengan skor terendah. Selanjutnya, diam bil 27%
dari skor tertinggi, yaitu 27% x 36 orang = 9,72 = 10 orang (dibulatkan) dan
27% dari skor terendah, yaitu 27% x 36 orang = 9,72 = 10 orang (dibulatkan).
Setelah diketahui jumlah sampel kelompok atas dan kelompok bawah, kemudian membuat tabel untuk mengetahui jawaban (benar
atau salah) dari setiap peserta didik dalam kelompok tersebut.

a.
Untuk soal nomor 1 pada
kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 4 orang.
b.
Untuk soal nomor 2 pada
kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 2 orang.
c.
Untuk soal nomor 3 pada
kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 3 orang.
d.
Untuk soal nomor 4 pada
kelompok bawah yang salah 6 orang, dan pada kelompok atas yang salah 1 orang.
e.
Untuk soal nomor 5 pada
kelompok bawah yang salah 6 orang dan pada kelompok atas yang salah 3 orang.
f.
Untuk soal nomor 6 pada
kelompok bawah yang salah 3 orang, dan pada
kelompok atas yang salah 2 orang.
g.
Untuk soal nomor 7 pada
kelompok bawah yang salah 5 orang, dan pada kelompok atas yang salah 3 orang.
h.
Untuk soal nomor 8 pada
kelompok bawah yang salah 4 orang, dan pada kelompok atas yang salah 4 orang.
i.
Untuk soal nomor 9 pada
kelompok bawah yang salah 5 orang, dan pada
kelompok atas yang salah 4 orang.
j.
Untuk soal nomor 10
pada kelompok bawah yang salah 5 orang,
dan pada kelompok atas yang salah 3 orang.
Berdasarkan data di atas dapat dibuat tabel seperti berikut :

Jadi, tingkat kesukaran setiap soal adalah sebagai berikut :


a)
Jika jumlah persentase sampai dengan 27% termasuk mudah.
b)
Jika jumlah persentase 28%
- 72% termasuk sedang.
c)
Jika jumlah persentase 73%
ke atas termasuk sukar.
Berdasarkan kriteria di atas, maka hasil perhitungan tingkat
kesukaran soal dapat ditafsirkan seperti
berikut :


Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi
antara tingkat kesukaran soal tersebar secara normal. Perhitungan proporsi tersebut
dapat diatur sebagai berikut :
a.
Soal sukar 25%, soal
sedang 50%, soal mudah 25%, atau
b.
Soal sukar 20%, soal
sedang 60%, soal mudah 20%, atau
c.
Soal sukar 15%, soal
sedang 70%, soal mudah 15%.
Seharusnya, penyusunan suatu soal dilakukan dengan mem pertimbangkan
tingkat kesukaran soal, sehingga hasil yang dicapai peserta didik dapat
menggambarkan prestasi yang sesungguhnya.
Cara Kedua, menggunakan tabel batas tingkat kesukaran seperti berikut :


Berdasarkan batasan-batasan di atas dapat diketahui bahwa WL +
WH = 15 ada di atas
batas indeks tingkat kesukaran “sukar” (1,344 n). Dengan demikian, soal tersebut mempunyai tingkat kesukaran
“sukar”. Jika tingkat kesukaran ini
dipadukan dengan daya pembeda, maka dapat disimpulkan bahwa soal tersebut sukar dan signifikan. Sebenarnya,
dalam analisis butir soal secara klasikal, tingkat kesukaran dapat diperoleh dengan beberapa cara, antara lain : skala
kesukaran linier, skala bivariat, indeks
davis, dan proporsi menjawab benar. Cara yang terakhir,
yaitu proporsi menjawab benar (proportion correct) sangat banyak digunakan karena dianggap lebih mudah. Caranya adalah
jumlah peserta didik yang menjawab benar
pada soal yang dianalisis dibagi dengan jumlah peserta
didik.Persamaan yang digunakan untuk menentukan proportion correct (p) adalah :

Contoh :
40 orang peserta didik Madrasah Tsanawiyah dites dalam mata
pelajaran Ilmu Fiqih. Dari seluruh peserta didik tersebut, ada 25
orang yang dapat menjawab dengan benar pada
soal nomor 1. Dengan demikian, tingkat kesukaran
soal nomor 1 itu adalah :

Untuk menafsirkan tingkat kesukaran tersebut, dapat digunakan
kriteria
sebagai berikut :

Dengan demikian, soal nomor 1 dalam contoh di atas termasuk
“sedang”. Tingkat kesukaran model
ini banyak mengandung kelemahan, karena tingkat kesukaran
ini sebenarnya merupakan “ukuran kemudahan” soal. Semakin tinggi indeks tingkat kesukaran (p), maka semakin
mudah soalnya. Sebaliknya, semakin rendah
tingkat kesukaran, maka semakin sulit
soalnya. Artinya, model tingkat kesukaran seperti ini lebih tepat disebut tingkat kemudahan (easiness). Dalam praktiknya,
ada soal yang dikategorikan ekstrim sukar
(jika p mendekati nol) dan ada soal yang termasuk
ekstrim mudah (jika p mendekati satu). Sehubungan dengan tingkat kesukaran ini, ada beberapa hal yang harus
diperhatikan dalam menyusun soal di bank
soal, yaitu :
a. Soal yang termasuk ekstrim sukar atau ekstrim mudah tidak
memberikan informasi yang berguna bagi sebagian besar peserta didik. Oleh sebab
itu, soal seperti ini kemungkinan distribusi jawaban pada alternatif jawaban
ada yang tidak memenuhi syarat.
b. Jika ada soal ekstrim sukar atau ekstrim mudah, tetapi setiap
pengecoh (distribusi jawaban) pada soal tersebut menunjukkan jawaban yang
merata, logis, dan daya bedanya negatif (kecuali kunci), maka soal-soal
tersebut masih memenuhi syarat untuk diterima.
c. Jika ada soal ekstrim sukar dan ekstrim mudah, tetapi memiliki
daya pembeda dan statistik pengecoh memenuhi kriteria, maka soal tersebut dapat
dipilih dan diterima sebagai salah satu alternatif untuk disimpan dalam bank
soal.
d. Jika ada soal ekstrim sukar dan ekstrim mudah, daya pembeda dan
statistik pengecohnya belum memenuhi kriteria, maka soal tersebut perlu
direvisi dan diujicoba lagi.
2. Menghitung tingkat kesukaran untuk soal bentuk uraianCara
menghitung tingkat kesukaran untuk soal bentuk uraian
adalah menghitung berapa persen peserta
didik yang gagal menjawab benar atau ada di bawah batas lulus (passing grade)
untuk tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya dapat
digunakan kriteria sebagai berikut :
a.
Jika jumlah peserta didik
yang gagal mencapai 27 %, termasuk mudah.
b.
Jika jumlah peserta didik
yang gagal antara 28 % sampai dengan 72 %, termasuk sedang.
c.
Jika jumlah peserta didik
yang gagal 72 % ke atas, termasuk sukar.
Contoh :
33 orang peserta didik dites dengan lima soal bentuk uraian.
Skor maksimum ditentukan 10 dan skor
minimum 0. Jumlah peserta didik yang memperoleh nilai 0 – 5 = 10 orang (berarti gagal), nilai 6 = 12 orang, dan nilai 7 – 10 = 11 orang.

Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal
tersebut termasuk sedang. Catatan :
Batas lulus ideal = 6 (skala 0 - 10)
7. Daya
Pembeda
Perhitungan
daya pembeda adalah pengukuran sejauhmana suatu butir soal mampu membedakan
peserta didik yang sudah menguasai kompetensi dengan peserta didik yang
belum/kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi
koefisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan
antara peserta didik yang menguasai kompetensi dengan peserta didik yang kurang
menguasai kompetensi. Untuk menghitung daya pembeda setiap butir soal dapat
digunakan rumus sebagai berikut :

Index of discrimination
Item evaluation
0,40 and up :
Very good items
0,30 - 0,39
: Reasonably good, but
possibly subject to improvement.
0,20 - 0,29 : Marginal
items, usually needing and being subject to improvement.
Below - 0,19 : Poor items, to be rejected or im proved
by revision.
Berdasarkan kriteria di atas, nilai DP = 0,73 termasuk soal yang
sangat baik. Ini berarti bahwa soal tersebut dapat membedakan antara peserta
didik yang sudah menguasai
kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi. Untuk menghitung signifikansi daya pembeda
dari setiap soal dapat menggunakan
langkah-langkah sebagai berikut :
1. Menghitung signifikansi daya
pembeda soal bentuk objektif
a.
Membuat tabel persiapan.

b.
Menghitung jumlah peserta
didik yang gagal pada kelompok bawah (WL) dan menghitung jumlah peserta
didik yang gagal pada kelompok atas
(WH).
c.
Mengurangkan hasil WL
dengan hasil WH.
d.
Menambahkan hasil WL dengan hasil
WH.
e.
Membandingkan nilai WL -
WH dengan nilai tabel signifikansi DP.
Jika WL - WH lebih besar
dari harga tabel signifikansi daya pem beda, maka soal tersebut signifikan.
Artinya, soal tersebut mampu membedakan antara peserta didik yang sudah menguasai kompetensi dengan
peserta didik yang kurang/belum menguasai
kompetensi. Salah satu model tabel signifikansi daya pembeda adalah :
TABLE FOR DETERMINING
WHETER OR NOT GIVEN TEST ITEM DISCRIMINATES
SIGNIFICANLY BETWEEN A “HIGH” AND “LOW” GROUP (WL = number of
persons in the low group who answered the item incorrectly or omitted it;
WH = number in the high group answered the item incorrectly or
omitted it)




Contoh :
Jumlah peserta didik ( N ) = 40
Jumlah sampel ( n ) = 27
% x 40 = 11 (dapat juga dilihat pada
tabel)
WL = 12; WH = 3; dan WL – WH
= 9.
Jika soal nomor 11 (misalnya)
bentuknya pilihan-ganda, dan jumlah alternatif jawaban lima, maka akan diperoleh harga daya
pembeda = 5. Ini berarti bahwa soal
nomor 11 itu signifikan. Kesimpulan : soal nomor 11 dapat membedakan peserta
didik yang pandai dengan peserta didik
yang kurang pandai, dan soal nomor 11 itu bagus.
2.
Menghitung signifikansi
daya pembeda soal bentuk uraian
Teknik
yang digunakan untuk menghitung daya pembeda soal bentuk uraian adalah
menghitung perbedaan dua rata-rata (mean), yaitu antara rata-rata dari
kelompok atas dengan rata-rata dari kelom pok bawah untuk tiap-tiap soal.

Contoh :
Jumlah peserta didik (N) = 36 orang. Jumlah sampel ( n ) = 27 % x 36 = 10 orang.
Skor soal nomor 1 dari kelompok atas : 8,
6, 8, 7, 7, 6,
9, 7, 8, 6.
Skor soal nomor 1 dari kelompok bawah : 4, 3,
3, 3, 4, 4, 5,
2, 4, 3.

Degree of freedom (df) = (n - 1) + (n - 1) = (10 - 1) + (10 - l) = 9 + 9 =18. Jika
ditentukan tingkat kepercayaan 0,01, maka nilai t dalam tabel menunjukkan 2,88.
Ternyata nilai t hitung > nilai t tabel, yaitu 8,747 > 2,88. Hal ini
berarti daya pembeda soal nomor 1 (satu) bentuk uraian itu signifikan.
BAB III
PENUTUPAN
PENUTUPAN
A.
Kesimpulan
Zainal Arifin dalam bukunya Evaluasi
Pembelajaran (2009 : 69) mengemukakan karakteristik instrumen evaluasi yang
baik adalah “valid, reliabel, relevan, representatif, praktis, deskriminatif,
spesifik dan proporsional”.
Analisis kualitas tes merupakan suatu
tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik
secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut.
Adapun kriteria instrumen evaluasi terdiri dari :
1.
Validasi
2.
Realibilitas
3. Objectivitas
4. Pratikabilitas
5. Ekomonis
6. Taraf Kesukaran
7. Daya
Pembeda
B. Saran
dan kritik
Dalam membuat suatu instrumen
evaluasi tentunya kita harus mempertimbangkan beberapa aspek dalam
melakukannya. Adapun yang harus dipertimbangankan antara lain :
a. Kesiapan
guru
b. Kemampuan
siswa
c. Materi
Pembelajaran
d. Kriteria
instrumen evaluasi
Komentar
Posting Komentar