Skip to content
Home » Pedoman Menyusun Soal yang Bermutu Baik

Pedoman Menyusun Soal yang Bermutu Baik

  • by

Pedoman Menyusun Soal yang Bermutu
Pedoman Menyusun Soal yang Bermutu Baik


Apa dan bagaimana Pedoman Menyusun Soal yang Bermutu atau Baik?  Bahan  ujian  atau  soal  yang  bermutu  dapat  membantu  pendidik  meningkatkan  pembelajaran  dan  memberikan  informasi dengan  tepat tentang  peserta  didik  mana  yang  belum  atau  sudah  mencapai  kompetensi. Salah satu ciri soal yang bermutu adalah bahwa soal itu dapat membedakan setiap  kemampuan  peserta  didik.  Semakin  tinggi  kemampuan  peserta  didik dalam  memahami  materi  pembelajaran,  semakin  tinggi  pula  peluang menjawab  benar  soal  atau  mencapai  kompetensi  yang  ditetapkan.  Makin rendah  kemampuan  peserta  didik  dalam  memahami  materi  pembelajaran, makin kecil pula peluang menjawab benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.

Syarat soal yang bermutu adalah bahwa soal harus sahih (valid), dan handal. Sahih maksudnya bahwa setiap alat ukur hanya mengukur satu dimensi/aspek saja.  Mistar  hanya  mengukur  panjang,  timbangan  hanya  mengukur  berat, bahan ujian atau soal PKn hanya mengukur materi pembelajaran PKn bukan mengukur  keterampilan/kemampuan  materi  yang  lain.  Handal  maksudnya bahwa  setiap  alat  ukur  harus  dapat  memberikan  hasil  pengukuran  yang tepat,  cermat,  dan  ajeg.  Untuk  dapat  menghasilkan  soal  yang  sahih  dan handal, penulis soal harus merumuskan kisi-kisi dan menulis soal berdasarkan kaidah  penulisan  soal  yang  baik  (kaidah  penulisan  soal  bentuk objektif/pilihan ganda, uraian, atau praktik).
Bagaimana  Pedoman Menyusun Soal yang Bermutu ? Linn  dan  Gronlund  (1995:  47)  menyatakan  bahwa  tes  yang  baik  harus memenuhi  tiga  karakteristik,  yaitu:  validitas,  reliabilitas,  dan  usabilitas. Validitas  artinya  ketepatan  interpretasi  hasil  prosedur  pengukuran, reliabilitas artinya konsistensi hasil pengukuran, dan usabilitas artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga menyatakan bahwa tes  yang  baik  adalah  tes  yang  valid  artinya  mengukur  apa  yang  hendak diukur. Nitko (1996 : 36) menyatakan bahwa validitas berhubungan denganinterpretasi  atau  makna  dan  penggunaan  hasil  pengukuran  peserta  didik.
Messick  (1993:  13)  menjelaskan  bahwa  validitas  tes merupakan  suatu integrasi  pertimbangan  evaluatif  derajat  keterangan  empiris  yang mendasarkan pemikiran teoritis yang mendukung ketepatan dan kesimpulan berdasarkan  pada  skor  tes.  Adapun  validitas  dalam  model  Rasch  adalah sesuai atau fit dengan model (Hambleton dan Swaminathan, 1985: 73).
Messick  (1993:  16)  menyatakan  bahwa  validitas  secara  tradisional  terdiri dari:  (1)  validitas  isi,  yaitu  ketepatan  materi  yang  diukur  dalam  tes;  (2) validitas criterion-related, yaitu membandingkan tes dengan satu atau lebih  variabel  atau  kriteria,  (3)  valitidas  prediktif,  yaitu  ketepatan  hasil pengukuran dengan alat lain yang dilakukan kemudian; (4) validitas serentak (concurrent), yaitu ketepatan hasil pengukuran dengan dua alat ukur lainnya yang  dilakukan  secara  serentak;  (5)  validitas  konstruk,  yaitu  ketepatan konstruksi teoretis yang mendasari disusunnya tes. Linn dan Gronlund (1995 : 50)  menyatakan  hahwa  valilitas  terdiri  dari:  (1)  konten.  (2) test-criterion relationship,  (3)  konstruk,  dan  (4)  consequences,  yaitu  ketepatan penggunaan hasil pengukuran. Sedangkan menurut Oosterhof (190 : 23) yang mengutip berdasarkan “Standards for Educational and Psychological Testing, 1985” yang  didukung  oleh  Ebel dan Frisbie (1991 :  102-109), serta  Popham (1995 : 43) bahwa tipe validitas adalah validitas: (1) content, (2) criterion, dan (3) construction.
Di  samping  validitas,  informasi  tentang  reliabilitas  tes  sangat  diperlukan. Nitko  (1999  :  62)  dan  Popham  (1995  :  21)  menyatakan  bahwa  reliabilitas berhubungan  dengan  konsistensi hasil pengukuran.  Pernyataan  ini didukung oleh  Cohen  dkk,  yaitu  bahwa  reliabilitas  merupakan  persamaan dependabilitas  atau  konsistensi  (Cohen  dkk  :  192  : 132) karena  tes  yang memiliki  konsistensi/reliabilitas  tinggi,  maka  tesnya  adalah  akurat, reproducible; dan gereralizable terhadap kesempatan testing dan instrumen tes  yang  sama.  (Ebel  dan  Frisbie  (1991  :  76).  Faktor  yang  mempengaruhi reliabilitas  yang  berhubungan  dengan  tes  adalah:  (1)  banyak  butir,  (2) homogenitas  materi  tes,  (3)  homogenitas  karakteristik  butir,  dan  (4) variabilitas  skor.  Reliabilitas  yang  berhubungan  dengan  peserta  didik dipengaruhi oleh faktor: (1) heterogenitas kelompok, (2) pengalaman peserta didik mengikuti tes, dan (3) motivasi peserta didik. Sedangkan faktor yang mempengaruhi  reliabilitas  yang  berhubungan  dengan  administrasi  adalah batas waktu dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).
Linn  dan  Gronlund  menyatakan  bahwa  metode  estimasi dapat  dilakukan dengan  mempergunakan:  (1)  metode test-retest,  yaitu  diberikan  tes  yang sama dua kali pada kelompok yang sama dengan interval waktu; tujuannya adalah  pengukuran  stabilitas;  (2)  metode equivalent  form,  yaitu  diberikan dua tes paralel pada kelompok yang sama dan waktu yang sama; tujuannya adalah  pengukuran  menjadi  ekuivalen;  (3)  metode  test-retest  dengan equivalen  form,  yaitu  diberikan  dua  tes  paralel  pada  kelompok  yang  sama dengan  interval  waktu;  tujuannya  adalah  pengukuran  stabilitas  dan ekuivalensi; (4) metode split-half, yaitu diberikan tes sekali, kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan menggunakan rumusSpearman-Brown;  tujuannya  adalah  pengukuran  konsistensi  internal;  (5) metode Kuder-Richardson  dan  koefisien  Alfa,  yaitu  diberikan  tes  sekali kemudian skor total tes dihitung dengan rumus Kuder-Richardson, tujuannya adalah  pengukuran  konsistensi  internal;  (6)  metode  inter-rater,  yaitu diberikan satu set jawaban peserta didik untuk diskor/judgement oleh 2 atau lebih  rater;  tujuannya  adalah  pengukuran  konsistensi  rating.  Menurut Popham (1995: 22), reliabilitas terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu konsistensi  hasil  di  antara  kesempatan  testing  yang  berbeda,  (2)  format bergantian (alternate form), yaitu konsistensi hasil di antara dua atau lebih tes  yang  berbeda,  (3)  internal  konsistensi,  yaitu  konsistensi  melalui  suatu pengukuran fungsi butir instrumen.
Reliabilitas  skor  tes  dalam  teori  respon  butir  adalah  penggunaan  fungsi informasi tes. Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi  informasi  tes  lebih  akurat  bila  dibandingkan  dengan  penggunaan reliabilitas  karena: (1)  bentuknya tergantung  hanya  pada  butir-butir dalam tes, (2) mempunyai estimasi kesalahan pengukuran pada setiap level abilitas. Pernyataan  ini  didukung  oleh  Gustafson  (1981  :  41),  yaitu  bahwa  konsep reliabilitas dalam model Rasch memerankan bagian subordinate sebab model pengukuran ini diorientasikan pada estimasi kemampuan individu.
Untuk  meningkatkan  validitas  dan  reliabilitas  tes  perlu  dilakukan  analisis butir  soal.  Kegunaan  analisis  butir  soal  di  antaranya  adalah:  (1)  dapat membantu para pengguna tes dalam evaluasi atas tes yang diterbitkan, (2) sangat relevan bagi penyusunan tes informal dan lokal seperti kuis, ulangan yang disiapkan guru untuk peserta didik di kelas, (3) mendukung penulisan butir soal yang efektif, (4) secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi dan Urbina, 1997: 172).
Demikian penjelasan tentang Pedoman Menyusun Soal yang Bermutu Baik. Semoga ada manfaatnya.
Referensi:
Anastasi. Anne and Urbina, Susana. (1997). Psicoholological  Testing. (Seventh Edition). New Jersey: Prentice-Hall, Inc.
Linn, Robert L. and Gronlund, Norman E. (1995). Measurement and Assessment in Teaching. (Seventh Edition). Ohio: Prentice-Hall, Inc.
Nitko, Anthony J. (1996). Educational Assessment of Students, Second Edition. Ohio: Merrill an imprint of Prentice Hall Englewood Cliffs.
Cohen,  Louis.  (1976). Educational  Research  in  Classrooms  and  Schools:  A Manual of Materials and Methods. London: Harper & Row Publishers.
Hambleton,  Ronald  K.  and  Swaminathan,  Hariharan.  (1985). Item  Response Theory, Principles, and Aplications. Boston: Kluwer. Nijhoff Publishing.
Messick, Samuel. (1993). “Validity”, Educational Measurement, Third Edition, ed.  Robert  L.  Linn.  New  York:  American  Council  on  Education  and Macmillan Publishing Company, A Division of Macmillan, Inc.
Oosterhof,  Alberth  C  (1990).  Classroom  Applications  of  Educational Measurement. Ohio Merril Publishing Company.
Ebel,  Robert  L.  and  Frisbie,  David  A.  (1991).  Essentials  of  Education Measurement. New Jersey: Prentice Hall.
Popham,  W.James.  (1995). Classroom  Assesment:  What  Teachers  Need  to Know.  Boston: Allyn and Bac

Leave a Reply

Your email address will not be published. Required fields are marked *

You cannot copy content of this page