Senin, 04 Mei 2009

POPULASI DAN SAMPEL

Ahmad Rohani HM.

Universe, universum atau populasi adalah: (1) ukuran-ukuran mengenai suatu variabel tertentu untuk semua anggota kelompok tertentu; (2) seluruh data yang menjadi perhatian kita dalam suatu ruang lingkup dan waktu tertentu, jadi populasi berhubungan dengan data, bukan manusianya atau bendanya. Jika setiap manusia memberikan satu data maka banyaknya atau ukuran populasi akan sama dengan banyaknya manusia; (3) wilayah generalisasi (objek/sibjek) yang mempunyai kualitas dan karakteristik tertentu yang ditetapkan oleh peneliti untuk dipelajari; (4) keseluruhan objek penelitian bisa manusia, hewan, tumbuh-tumbuhan, benda, peristiwa, sebagai sumber data yang memiliki karakteristik tertentu dalam suatu penelitian; (5) jumlah keseluruhan dari unit analisis yang ciri-cirinya akan diduga (Sarbiran, 1995; I Made Putrawan, 1990; Robert G.D. Steel & James H. Torrie, 1980; Siswojo Hardjodipuro, 1988; Zamroni, 1988).

Sampel adalah bagian dari populasi, bagian yang dipilih dari suatu populasi, kadang-kadang sampel dapat mencakup seluruh populasi. Sehingga sampel yang representatif adalah sampel yang mencerminkan ciri-ciri populasinya. Untuk memperoleh sampel representatif tidaklah mudah, untuk ini kita perlu mempelajari lebih jauh teori dan teknik sampling supaya dapat melakukan penelitian dengan cara-cara tertentu yang sesuai dan benar, dengan teknik sampling yang tepat (Sarbiran, 1995; I Made Putrawan, 1990; Robert G.D. Steel & James H. Torrie, 1980). Menurut Siswojo Hardjodipuro (1988), sampel jarang merupakan perwujudan (representation) dari populasi: senantiasa mengandung sampling error (kekeliruan sampling) di dalamnya apabila sampel diambil dari suatu populasi. Proses untuk mengevaluasi sampling error ini merupakan salah satu fungsi utama dari statistik.

Sampel yang ideal memiliki sifat-sifat: (1) dapat menghasilkan gambaran yang dapat dipercaya dari sebuah populasi yang sedang diteliti (2) dapat mementukan presicion dari hasil penelitian dengan menentukan standard error dari taksiran yang diperoleh (3) sederhana (4) informatif (5) ekonomis.

Parameter dan Statistik

Populasi memiliki parameter yakni besaran yang menunjukkan karakteristik populasi itu, yang ditunjukkan oleh huruf-huruf Romawi, misal: rerata (µ), simpangan baku (s), variansi (s²). Parameter populasi tertentu nilainya tetap, fixed values, jika nilainya berubah, berubah pula populasinya. Misal: rerata IPK mahasiswa Unissula mungkin tidak diketahui namun diduga akan ditemukan harga yang sama oleh berbagai pengamat.

Statistik adalah sesuatu ukuran yang dihitung dari sampel, besaran atau wakil yang mencerminkan sampel, karakteristik sampel yang diwakili oleh simbol-simbol, misal: rerata (X bar), simpangan baku (s), variansi (s²). Harga-harga statistik dihasilkan dari data sampel. Jika sampel representatif, ia dapat menghasilkan harga-harga statistik sama dengan harga-harga parameternya. Statistik itu nilainya bervariasi dari sampel ke sampel.

Misal: 10 sampel mahasiswa yang berbeda secara acak, kita tidak mengharapkan semuanya memiliki rerata IPK yang sama. Dalam hal ini besaran statistik untuk sampel tertentu dapat diketahui dan dapat dihitung. Namun, kita tidak mengetahui seberapa jauh representativitas sampel dari populasinya, atau seberapa dekat statistik yang diperoleh dapat mendekati parameter.

Dalam penelitian survei, uji hipotesis, memilih sampel sebagai sesuatu yang tepat, tujuan praktisnya untuk membuat inferences tertang berbagai parameter populasi berdasarkan sesuatu yang telah diketahui yakni statistik sampel. Dalam uji hipotesis, kita dituntut membuat berbagai asumsi tentang parameter yang tidak diketahui, dan kemudian dicocokkan bagaimana kemungkinan statistik sampel kita jika asumsi-asumsinya benar. Oleh sebab itu kita harus membuat suatu keputusan. Uji hipotesis dapat dipandang sebagai tipe tertentu dari proses pengambilan keputusan. Variable (ubahan) adalah atribut, sifat, aspek dari orang atau objek yang memiliki variasi tertentu yang ditetapkan oleh peneliti untuk dipelajari dan ditarik kesimpulannya, atau suatu tingkah laku, karakteristik yang dapat mempunyai nilai yang berbeda-beda. Sedangkan continous variable, variabel kontinum (lawannya discrete variable, variabel diskrit, variabel yang dapat mempunyai hanya sejumlah nilai yang terbatas antara dua titik) sebagai suatu variabel yang secara teorrtik dapat mempunyai suatu jumlah nilai yang tidak terbatas antara dua titik. Melalui variabel atau sebaran kontinum disertai beberapa asumsi yang relevan, parameter populasi diduga melalui statistik sampel, hipotesis yang berhubungan dengan parameter diuji. Kegiatan yang demikian tercakup dalam statistik parametrik.

Statistik Parametrik

Statistik parametrik digunakan untuk menguji parameter populasi melalui statistik yakni data yang diperoleh dari sampel. Uji parameter tidak lain adalah uji hipotesis, ada yang menyebut uji statistik, dalam hal ini ada sejumlah persyaratan (asumsi) misal: sampel atau n 30, datanya berdistribusi normal (uji normalitas data, atau ditempuh melalui transformasi), skala atau tingkat pengukuran datanya minimal interval (khususnya pada variabel dependen), variansinya homogen (pada jenis uji tertentu, perlu uji homogenitas), untuk analisis korelasi/regresi harus memiliki hubungan linier (uji linieritas, uji multikolinieritas). Asumsi paling penting yang mendasari prosedur inferensi statistik (parametrik) adalah bahwa sampel atau sampel-sampel telah diambil secara acak dari populasi. Suatu sampel acak dimaknai sebagai sampel di mana setiap anggota dalam suatu populasi tertentu mempunyai kesempatan yang sama untuk dipilih sebagai anggota sampel, ini berarti pilihan anggota sampel tidak tergantung (bebas) dari pilihan anggota-anggota yang lain. Untuk penelitian-penelitian behavioral, proses randomisasi sampling tidaklah begitu mudah melakukannya, karena: (1) diasumsikan bahwa kita dapat mengidentifikasi setiap sampel dari suatu populasi dan memberikan setiap sampel kesempatan yang sama untuk dipilih. Jika kita memiliki populasi-populasi yang sangat besar, sukar atau tidak mungkin bagi kita untuk memenuhi persyaratan ini; (2) Jika kita berasumsi bahwa kita dapat mengidentifikasi anggota dari suatu populasi, kita harus memiliki suatu metode yang menjamin suatu pilihan acak dari anggota-anggotanya untuk berfungsi sebagai sampel yang representatif. Untuk ini bisa ditempuh dengan cara ordinal, menggunakan tabel bilangan random, atau cara undian. Ketiga cara ini sifatnya tradisional, manual. Dalam program komputer, setidaknya SPS (Seri Program Statistik) telah ditawarkan cara randomisasi sampel secara lebih sederhana, objektif, sekaligus efisien.

Sampel dan statistik berhubungan lekat, bagai dua sisi dalam sekeping mata uang. Statistik yang dipergunakan untuk menguji parameter populasi disebut statistik parametrik, yang terdapat dalam statistik induktif, atau sering disebut statistik inferensial atau statistik probabilitas, yang berguna untuk generalisasi atau inferensi yakni menganalisis data yang diambil dari data sampel atau sampel-sampel untuk membuat suatu generalisasi, inferensi mengenai suatu populasi dari mana sampel atau sampel-sampel diambil. Generalisasi bertujuan untuk menginferensi sesuatu tentang berbagai karakteristik populasi yang sedang diteliti berdasarkan fakta-fakta tentang satu sampel yang ditarik dari suatu populasi tertentu. Inferensi statistik selalu mendasarkan pada estimasi-estimasi mengenai parameter-parameter populasi dari statistik-statistik sampel yang kita peroleh. Itulah sebabnya statistik inferensial sering diberi pengertian sebagai prosedur statistik yang digunakan untuk membuat generalisasi-generalisasi mengenai karekteristik-karakteristik populasi berdasarkan data dari sampel yang diambil dari populasinya.

Statistik Nonparametrik

Statistika nonparametrik disebut statistika distribution of free (bebas sebaran), disebut demikian karena data yang akan dianalisis tidak harus (tidak menuntut) berdistribusi normal dan tidak menuntut banyak asumsi. Sementara itu, dalm beberapa penelitian, tidak semua sebaran data, variabel bersifat kontinum, yang berarti bersifat diskret, atau kalau sebaran datanya kontinum beberapa atau sebagian asumsi kurang dipenuhi. Menghadapi keadaaan yang demikian kita memerlukan statistika yang bebas sebaran, statistik nonparametrik, yang tidak bergantung pada suatu sebaran induk tertentu. Jika kita tidak menspesifikasikan sifat sebaran induksnya, umumnya, kita tidak berhubungan dengan parameter.

Statistik nonparametrik berusaha membandingkan sebaran dan bukan membandingkan parameter. Beberapa kelebihan (kapan digunakan) statistika nonparametrik antara lain: (1) jika kita memiliki asumsi sebaran data yang lemah, tak normal;

(2) measurement scale (skala pengukuran) kurang memadai, misal nominal, atau ordinal;

(3) jika Ākita dapat memangkatkan atau meranking datanya;

(4) karena statistika nonparametrik menggunakan cacahan, pangkat, bahkan tanda dari selisih pengamatan yang berpasangan, maka kita akan dengan cepat dan mudah mempelajari dan menerapkannya.

Namun, prosedur nonparametrik juga memiliki kelemahan:

(1) jika bentuk populasi induknya diketahui cukup menyerupai suatu sebaran tertentu yang sudah ada teori bakunya;

(2) jika datanya dapat ditransformasikan sehinggga memiliki ciri demikian (obert ĀG.D. Steel & James H. Torrie, 1980).

PENDIDIKAN NILAI DAN EVALUASINYA

DALAM PERSPEKTIF SISDIKNAS

Ahmad Rohani HM.[1]

I

Sejak awal kemerdekaan hingga disahkannya UURI no. 20/2003 tentang Sisdiknas pendidikan nasional kita selalu ada muatan nilai-nilai, tetapi tidak pernah jelas core values[2]nya apa. Output pendidikan kita hingga sekarang tidak memiliki jati diri yang jelas. Karena, core values kita belum disepakati. Sementara, di negara-negara maju, pendidikan berbasis pada core values, di AS yang menganut kapitalisme misalnya pendidikan melayani individu[3]. Di Jepang pendidikan menekankan pada tanggung jawab. Kerja keras, jujur, bersih, dan tanggung jawab menjadi core valuesnya. Sekarang, pendidikan kita diarahkan untuk pengembangan diri peserta didik[4] agar memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan diri peserta didik, masyarakat, bangsa, dan negara.

Pendidikan nilai menunjuk pada pembelajaran nilai-nilai sosial, politik, agama, estetik, dan jenis nilai lainnya[5]. Bentuk-bentuk pendidikan nilai dapat berupa realisasi nilai, pendidikan kewarganegaraan, dan pendidikan moral[6], pendidikan sejarah, pendidikan agama (akhlak), pendidikan budi pekerti, pendidikan bahasa, atau yang lainnya. Pendidikan nilai yang terakomodasi Sisdiknas tersebut adalah pendidikan agama (akhlak), pendidikan kewarganegaraan, dan bahasa. Ketiganya tertulis secara eksplisit dalam pasal 37 untuk semua jenjang pendidikan. Sementara bentuk pendidikan nilai lainnya seperti pendidikan sejarah, dan pendidikan budi pekerti hanya dapat dipahami secara implisit[7]. Permasalahan pokoknya adalah terkait dengan kurikulumnya, terutama mengenai penemuan dan pengembangan nilai-nilai inti maupun nilai-nilai substansialnya, termasuk bagaimana sistem pembelajarannya, dan sistem evaluasinya. Pembahasan berikut memfokuskan pada evaluasi pendidikan nilai dalam konteks pendidikan formal.

II

Tema sentral Sisdiknas kita adalah masalah mutu pendidikan. Mutu atau kualitas sebagai kemampuan dibedakan menjadi kompetensi, akredibilitas, dan akuntabilitas. Kemampuan individual untuk tampil dalam kualitas yang dituntut, dan dinilai sebagai qualified disebut kompeten atau kapabel, dan kepadanya diberikan sertifikat. Lembaga yang perangkat-perangkatnya dinilai mampu menjamin produk yang berkualitas disebut sebagai lembaga accredited. Sedangkan lembaga yang accredited pada satu sisi dinilai kemampuannya memproduk sesuatu yang kapabel, pada sisi lain dinilai validitasnya di masyarakat tentang kemampuannya menjaga dan menjamin kualitas produk lembaganya. Lembaga yang demikian disebut sebagai akuntabel.

Dalam UURI no. 20 tersebut terdapat pasal khusus mengenai Standar nasional pendidikan (SNP) dan evaluasi pendidikan. Pasal ini berorientasi dan mengantisipasi untuk mutu pendidikan. Standar nasional pendidikan (SNP) adalah kriteria minimal tentang sistem pendidikan di seluruh wilayah hukum Negara Kesatuan Republik Indonesia[8]. Evaluasi adalah kegiatan pengendalian mutu pendidikan secara nasional sebagai bentuk akuntabilitas pendidikan kepada pihak-pihak yang berkepentingan.[9] Evaluasi dilakukan terhadap peserta didik, lembaga, dan program pendidikan pada jalur formal dan nonformal untuk semua jenjang, atuan, dan jeniss pendidikan, oleh lembaga mandiri secara berkala, menyeluruh, transparan, dan sistemik untuk menilai pencapaian SNP[10]. Evaluasi dapat dilakukan oleh masyarakat atau organisasi profesi secara mandiri. Khusus evaluasi terhadap peserta didik, dilakukan untuk memantau proses, kemajuan, dan perbaikan hasil belajar peserta didik secara berkesinambungan, dengan memperhatikan prinsip-prinsip evaluasi yang seharusnya.

Kurikulum berbasis kompetensi (KBK) merupakan perangkat rencana dan pengaturan tentang kompetensi dan hasil belajar yang harus dicapai peserta didik, penilaian, KBM, dan pemberdayaan sumber daya pendidikan dalam pengembangan kurikulum sekolah. KBK berorientasi pada hasil dan dampak yang diharapkan muncul pada diri peserta didik melalui serangkaian pengalaman belajar yang bermakna, dan keberagaman yang dapat diwujudkan sesuai dengan kebutuhannya. KBK merupakan kebijakan pendidikan nasional yang telah sedang diupayakan dalam rangka memperbaiki mutu pendidikan (formal) sekaligus mengemban misi Sisdiknas yang sedang akan diundangkan.

Salah satu komponen dalam KBK adalah Penilaian Berbasis Kelas (PBK). PBK sebagai prinsip, sasaran, dan pelaksanaan penilaian berkelanjutan yang akurat dan konsisten tentang kompetensi atau hasil belajar peserta didik serta pernyataan yang jelas mengenai kemajuan peserta didik sebagai akuntabilitas publik. PBK dilaksanakan secara terpadu dengan KBM. Ia dilaksanakan dengan cara: pengumpulan kerja peserta didik (portofolio), hasil karya (produk), penugasan (proyek), kinerja (performansi, dan tes tertulis. Guru/dosen menilai kompetensi dan hasil belajar peserta didik berdasarkan level pencapaian prestasinya. Fungsi atau kegunaan hasil PBK dapat bersifat formatif, sumatif, maupun diagnosis.

III

Dalam rangka PBK kemampuan mengevaluasi diprasyarati dengan kemampuan guru/dosen merumuskan kompetensi minimal[11] atau indikator terukur, atau indikator hasil belajar. Untuk pendidikan nilai hal ini tidak bisa dipandang enteng, karena pendidikan nilai terkait dengan sistem afektif. Sementara afek itu tidak bisa diamati secara langsung, yang dapat dipotret hanya bentuk perilaku wujud yakni perkataan maupun tindakan. Kemunculan perilaku ini menunjukkan adanya 3 kecenderungan yaitu arah afek positif (approach behavior), netral (neutral behavior), atau negatif (avoidance behavior)[12]. Selain arah, afektif (nilai) memiliki karakteristik lain yaitu intensitas (tubian), pernyataan kondisi, dan pernyataan kriteria[13].

Bahwa evaluasi atau penilaian harus diarahkan pada indikator kompetensi pencapaian hasil belajar. Indikator pencapaian hasil belajar menggambarkan sebagai hal-hal khusus yang harus dapat dilakukan oleh peserta didik sebagai hasil pembelajarannya.

Contoh:

Mata Pelajaran Agama Islam (Akhlak) di Kelas 1 Cawu 3 SLTP:

Kompetensi dasar : Terbiasa menghindari sifat-sifat tercela

Materi pokok : Penyakit hati

Indikator pencapaian hasil belajar : 1. Menunjukkan sikap menghindarkan diri dan

membenci sifat-sifat dengki.

2. menunjukkan sikap menghindarkan diri dan membenci

perilaku buruk sangka.

3. Menunjukkan sikap menghindarkan diri dan membenci

sifat-sifat khianat.

4. Menunjukkan sikap menghindarkan diri dan membenci

sifat-sifat pengecut.

Penguasaan terhadap semua indikator akan menunjukkan bahwa kompetensi itu telah dikuasai penuh secara memuaskan. Selanjutnya guru/dosen dapat menilai kompetensi peserta didik dengan cara “ya” atau ”tidak” – ketika melihat unjuk kerja yang menggambarkan bahwa yang bersangkutan telah menguasai suatu aspek kompetensi atau belum. Berdasarkan penilaian tersebut dapat ditentukan apakah yang bersangkutan telah menguasai sebagian kecil atau sebagian besar kompetensi yang ditentukan. Untuk memastikan hal ini guru / dosen dapat menggunakan penilaian kompetensi dengan “skala bertingkat”.

Di atas telah disinggung, PBK dilaksanakan secara terpadu dengan KBM yang dilaksanakan dengan cara: pengumpulan kerja peserta didik (portofolio), hasil karya (produk), penugasan (proyek), kinerja (performansi, dan tes tertulis. Penjelasannya sebagai berikut:

Pengumpulan kerja peserta didik (portofolio)

Portofolio adalah koleksi karya peserta didik yang dikumpulkan dalam kurun waktu tertentu yang tujuannya beragam. Tujuannya akan menentukan apa yang harus masuk dalam portofolio itu dan siapa yang harus melakukan pemilihannya. Bukti yang terkandung dalam portofolio bisa berbentuk penilaian kertas dan pulpen, proyek, produk dan rekaman, atau catatan unjuk kerja. Karya yang dipilih bisa berbentuk karya mandiri atau karya kolaboratif. Penyekorannya menggunakan catatan perkembangan peserta didik yang dilakukan oleh guru.

Hasil karya (produk)

Penilaian produk menunjuk penilaian berdasarkan hasil yang dibuat oleh peserta didik. Penilaian produk dilakukan ketika fokus utama karya peserta didik adalah proses produksi atau kualitas produk. Fase pengembangan produk melalui persiapan, produksi, dan penilaian. Penilaian produk dapat berfokus pada salah satu atau beberapa fase tersebut.

Penugasan (proyek)

Penugasan atau proyek merupakan tugas yang harus dikerjakan peserta didik yang memerlukan waktu relatif lama.. Peserta didik melakukan investigasi yang melibatkan pengumpulan, pengorganisasian, evaluasi dan presentasi bahan atau data. Sebuah proyek memberikan peluang kepada peserta didik untuk mengembangkan dirinya sebagai pembelajar mandiri.

Kinerja (performansi)

Penilaian kinerja penilaian yang menuntut peserta didik melakukan tugas dalam bentuk perbuatan yang dapat diamati. Ini bisa dilakukan dengan perangkat audio-visual. Unjuk kerja dapat dinilai dengan angka yang menggambarkan kesan keseluruhan (holistik), atau dengan memberikan nilai kepada beberapa aspek unjuk kerja secara terpisah (analitik). Penyekorannya bisa menggunakan skala rating, atau daftar cek.

Tes tertulis

Penilaian kertas-pulpen umumnya disebut dengan tes tertulis, di mana peserta didik menanggapibeberapa pertanyaan dan jawaban tertulis mereka dijadikan bukti tingkat penguasaan atau kompetensinya. Penilaian model ini bisa berbentuk memilih jawaban atau membuat jawaban sendiri (tes uraian). Untuk PBK disarankan tes uraian banyak digunakan sehingga informasi kemampuan peserta didik dalam mengorganisasikan gagasannya secara sistematis dapat diketahui. Pedoman penyekoran tes uraian sebagimana yang telah ada.

PBK dilakukan secara terus menerus dan berkala. Terus menerus artinya selama KBM berlangsung; berkala artinya setelah peserta didik mempelajari satu kompetensi standar, tiap akhir semester, dan tiap jenjang atuan pendidikan.

Untuk kepentingan pelaporan kemajuan belajar peserta didik kepada orang tua, atau kepentingan perencanaan lembaga pendidikan yang bersangkutan, guru/dosen harus membuat laporan hasil belajar berdasarkan pencapaian hasilnya. Isi pelaporan harus jelas dan komunikatif dengan menitikberatkan pada kekuatan dan kelemahan peserta didik dalam belajar. Laporan dapat berupa angka, deskripsi, atau profil peserta didik secara utuh tentang pencapaian kompetensi-kompeteni yang telah ditentukan dalam kurikulum. Model pelaporannya berupa 2 jenis: laporan prestasi tiap mata ajaran, dan laporan kemajuan belajar secara komprehensif.

Kelima cara evaluasi hasil belajar pendidikan nilai tersebut dapat dipilih mana yang tepat digunakan. Yang lebih penting diperhatikan adalah pengukuran atau penilaian karakteristik afektif (nilai) harus dapat menjelaskan ada-tidaknya karakteristik afektif (nilai) terhadap objek tertentu, beserta arah dan intensitasnya. Untuk ini kita bisa menggunakan metode skala Likert, terutama untuk evaluasi formal. Sedangkan evaluasi yang bersifat informal, kita bisa menggunakan metode: catatan anekdotal (catatan pengamatan informal yang antara lain dapat menggambarkan perkembangan sosial peserta didik), metode interviu, partisipasi peserta didik dalam diskusi, problem solving, maupun evaluasi diri

IV

Sebagai penutup, ada 2 catatan penting:

1. Evaluasi afektif (nilai) harus terpisah dari evaluasi kognitif, tetapi hasilnya dapat dilaporkan bersama-sama dengan hasil evaluasi kognitif, dan digunakan untuk membuat keputusan hal yang meragukan berdasarkan evaluasi kognitif.

2. Dalam sistem afektif, nilai terbentang dalam rentangan: konseptualisasi nilai, komitmen, preferensi sebuah nilai, akseptensi suatu nilai, kepuasan dalam respon, dan keinginan merespon[14]. Hal ini harus diperhatikan dalam evaluasi hasil belajar pendidikan nilai.

[1] Dosen Fakultas Agama Islam Universitas Islam Sultan Agung Semarang.

[2]Nilai-nilai inti dan sentral, nilai esensial, merupakan basis nilai yang mencerminkan hasil konsensus nasional. Ia: harus dimiliki oleh siapapun; sangat sulit untuk diubah oleh siapapun (nilai yang terkait dengan hidup, sementara nilai yang terkait dengan pengetahuan mudah diubah); given; universal (setidaknya pada level bangsa); sumbernya bisa agama, bisa budaya; jenis nilainya bisa maskulin atau feminin; bisa giving values atau being values.

Nilai-nilai yang terkandung dalam pendidikan nasional kita tidak jelas, pilahan dan pilihannya, tekanan dan tuntutannya, mana yang nilai inti, mana yang nilai-nilai medium, dan mana yang nilai-nilai periferal. Sementara posisi nilai itu untuk menggerakkan perilaku (value-driven behaviors) sebagaimana definisi nilai itu sendiri yaitu sebagai segala sesuatu yang berasal dari gagasan ke tindakan-tindakan perilaku (W. Huitt, 1999), nilai itu merupakan ideales Seinsollen, keharusan nyata yang ideal, atau kenyataan tersembunyi yang sungguh benar adanya, bukan hanya kita anggap ada (fenomenolog Max Scheler, 1966). Bagi penulis, adanya yang ideal itu harus dipahami bukan sekedar argumentatif dan pembuktian empirik rasional semata, melainkan lebih dari itu ke arah pencarian hikmah dan rahmah yang transenden.

[3] Pendidikan diarahkan pada pengembangan individu. Individu yang berkembang optimal menjadi saling menghormati dan menghargai di antara sesama.

[4] Simak Pasal 1 ayat 1 UURI no 20/2003 tentang Sisdiknas. Ini berarti filsafat pendidikan kita menganut Progresivisme, dan berkiblat pada negara-negara maju (Barat) utamanya Amerika Serikat di mana pendidikan diarahkan untuk pengembangan individu, yang core value pendidikannya melayani individu. Individu yang berkembang optimal menjadi saling menghormati dan menghargai di antara sesama.

Bandingkan dengan Perenialisme dan Esensialisme yang menekankan pendidikan sebagai pelestarian budaya, atau Strukturalisme Fungsional (paradigma sosiologis) yang menyatakan bahwa pendidikan adalah pewarisan nilai-nilai budaya. Dan ini yang selama ini kita anut.

[5] Pritz K. Oser, 1986.

[6] Kirschenbaum, 1995.

[7] Simak pasal 1 ayat 1, pasal 4, pasal 37-39 RUU Sisdiknas yang telah disetujui Dewan.

[8] Pasal 1 ayat 17.

[9] Pasal 57 ayat 1.

[10] Simak pasal 57 ayat 2 dan pasal 58 ayat2.

[11] Dalam konteks PPSI: yang dituntut adalah merumuskan tujuan pembelajaran.

[12] Lihat Lee, B.N. & Merill, M.D. (1972; 16-21) dalam Writing Complete Affective Objectives.

[13] Anderson, 1981.

[14] Krathwol, et al, 1964 dalam H.J.X. Fernandes, 1984.

MODEL KONSTRUK DAN VALIDITAS KONSTRUK*

Ahmad Rohani HM.

(Dosen FAI Unissula Semarang)

Model Konstruk

Pada awal tahun 1950-an the American Psychological Association (APA) Committee on Psychological Tests memperluas pengertian current validity (validitas ada sekarang) guna mengakomodasi interpretasi dalam penilaian klinis. Dua orang anggota subkomite, Paul Meehl dan Robert Challman, telah mengidentifikasi jenis-jenis bukti (fakta) yang dibutuhkan untuk menjustifikasi interpretasi psikologis peralatan konselor dan ahli klinis (Cronbach, 1989; 148). Mereka mengenalkan pengertian (pikiran) dan terminologi construct validity, yang dimuat dalam Technical Recommendations APA (1954), selanjutnya dibembangkan oleh Cronbach dan Meehl (1955).

Cronbach dan Meehl (1955) mengadopsi model teori hypothetico-deductive (HD) yang pada tahun 1950-an begitu dominan, sebagai kerangka rerja untuk analisis konstruk teoretik. Model HD (Suppe, 1977) merupkan teori yang berkenaan dengan tafsiran sistem aksiomatik. Sejumlah aksioma berhubungan secara implisit dalam susunan term-term terdefinisikan (konstruk teoretik) yang merupakan inti teori. Aksioma-aksioma ditafsirkan oleh hubungan beberapa term ubahan teramati melalui hukum-hukum atau prinsip-prinsip korespondensi. Model HD mensyaratkan tersedianya beberapa ubahan teramati.

Interpretasi pertama, bahwa aksioma dapat digunakan untuk mebuat prediksi mengenai hubungan antar ubahan teramati, dan hukum-hukum empirik dijelaskan oleh teori (Hempel, 1965). Jaringan kerja nomologik membatasi (mendefinisikan) teori yang terdiri dari sistem aksioma yang ditafsirkan plus semua hukum empirik yang diturunkan darinya. Teori divalidasi oleh hukum-hukum empirik terhadap data.

Term sederhana atau konstruk-konstruk dalam aksioma tidak secara eksplisit terdefinisikan oleh sesuatu jenis pengamatan. Agaknya mereka secara implisit terdefinisikan dengan peranannya di dalam teori, ini diperlukan dengan menggunakan beberapa pengamatan untuk mengestimasi nilai suatu konstruk, tetapi konstruk tidak didefinisikan oleh pengamatan ini. Validitas dari interpretasi skor yang dikemukakan dalam term-term konstruk dievaluasi dengan term-term teori, validitas teori, dan dari prosedur pengukuran yang digunakan untuk mengestimasi konstruk yang terdefinisikan oleh teori, keduanya diperlukan. Jika pengamatan tak konsisten dengan teori, beberapa bagian jaringan kerja harus ditolak, tetapi umumnya ia tak jelas apakah kesalahan terjadi dalam aksioma, hukum korespondensi, atau dalam bagian-bagaian prosedur pengukuran.

Menurut Technical Recommendation (APA, 1954) dan Cronbach & Meehl (1955), validitas konstruk dihadirkan sebagai alternatif terhadap model kriteria maupun model isi, dan dalam hal-hal tertentu terdapat kesamaan di antara mereka. Cronbach & Meehl (1955; 282) mengatakan bahwa validitas konstruk kapanpun dicakup dalam suatu tes yang diinterpretasikan sebagai suatu ukuran dari beberapa atribut atau kualitas, yang adalah tidak didefinisikan secara operasional, dan pada atribut mana tidak memiliki kriteria yang cukup (1955; 299). Technical Recommendation (APA, 1954) dan Cronbach & Meehl (1955), keduanya telah membicarakan validitas konstruk sebagai satu tambahan terhadap model kriteria dan model isi dan tidak ada maksud mengesampingkan.

Cronbach & Meehl (1955; 282) mengatakan bahwa penetapan konstruk psikologik karena untuk performansi tes diperlukan sekali pada hampir setiap tes. Bahkan jika tes yang awalnya divalidasi menggunakan evidensi kriteria atau isi, perkembangan tentang pemahaman yang lebih dalam mengenai konstruk atau proses laporan untuk performansi tes memerlukan satu pertimbangan validitas konstruk. Sehingga Cronbach & Meehl (1955) menganjurkan bahwa validitas konstruk adalah pervasive, tetapi ia tidak hadir sebagai satu kerangka kerja yang mengatur secara umum untuk validitas.

Pada tahun 1966, Sandards membedakan validitas konstruk dari pendekatan validitas lainnya khususnya validitas kriteria: Validitas konstruk lazimnya dipelajari ketika tester menghendaki untuk meningkatkan pemahamannya mengenai kualitas psikologik yang sedang diukur dengan tes. Validitas konstruk adalah relevan ketika tester menerima tanpa ukuran sebagaimana kriteria definitif (APA, AERA, dan NCME, 1966; 3). Sehingga 10 tahun sesudah Cronbach dan Meehl (1955), model konstruk masih dihadirkan sebagai satu alternatif terhadap model kriteria dan bukan untuk mengesampingkannya. Tidak ada saran atau anjuran bahwa model kriteria atau model isi supaya ditinggalkan atau dimasukkan di bawah validitas konstruk. Tampaknya validitas konstruk lebih memusatkan pada eksplanatori, interpretasi teoretik.

Standards (APA, AERA, dan NCME, 1974; 26) melanjutkan terus jejak atau jalur ini, mendaftar 4 jenis validitas yang dihubungkan dengan 4 jenis interpretasi inferensial yakni validitas prediktif dan validitas konkuren, validitas isi, dan validitas konstruk. Pada tahun 1974 Standards lewat treatment validitas konstruk, ia mengakhiri kerja Cronbach dan Meehl (1955) dengan menghubungkan validitas konstruk pada konstruk teoretik. Sebuah konstruk psikologik merupakan sebuah gagasan yang dikembangkan atau terkonstruk sebagai satu kerja yang diingatkan, imajinasi ilmiah; merupakan sebuah gagasan teoretik yang dikembangkan untuk menjelaskan dan mengatur beberapa aspek pengetahuan yang ada. Term-term seperti kecemasan, bakat klerikal, atau kesiapan baca, merupakan konstruk, tetapi konstruk adalah lebih banyak dari label; ia sebagai sebuah dimensi yang dipahami atau dituntut dari jaringan kerja yang saling berhubungan (APA, AERA, dan NCME, 1974; 29).

Dengan jelas Cronbach (1971; 462-463): membedakan beberapa pendekatan terhadap validasi, termasuk validasi konstruk: Rasional terhadap validasi konstruk (Cronbach dan Meehl, 1955) dihasilkan dari tes kepribadian. Untuk sebuah ukuran , misalnya kekuatan ego, adalah bukan satu-satunya hubungan kriteria terhadap presdiksi, bukan pula sebuah domain isi sampel. Agaknya terdapat sebuah teori yang membuat rancangan kasar sifat trait. Jika skor tes adalah perwujudan valid kekuatan ego, sehingga dipahami, hubungannya dengan ubahan-ubahan yang lain sesuai dengan harapan teoretik. Selanjutnya ia mengatakan: Sebuah deskripsi yang menunjuk pada proses internal person (kecemasan, insight) tanpa kecuali memerlukan validasi konstruk (1971; 451).

Antara awal tahun 1950-an sampai pertengahan 1970-an, dalam praktiknya telah berkembang penggunaan model-model yang berbeda semacam kotak peralatan, dengan tiap model yang digunakan sesuai kebutuhan dalam validati tes pendidikan dan psikologik. Model kriteria umumnya digunakan untuk memvalidasi keputusan seleksi dan penempatan. Model isi digunakan untuk menjustifikasi validitas aneka tes prestasi. Sedangkan validasi konstruk digunakan untuk theory-based, interpretasi eksplanatori. Pada banyak kasus, lebih dari satu model dapat ditekankan ke dalam pelayanan. Sebagai contoh, sebuah tes penempatan kursus mungkin ditafsirkan sebagai ukuran konstruk bakat, tetapi dengan berat mempercayakan pada bukti validitas yang berhubungan dengan kriteria, dengan kriteria meliputi sebuah tes prestasi, yang mana ia termasuk dalam bakat, dijustifikasi dengan bukti yang berhubungan dengan isi. Pendekatan kotak peralatan untuk validasi tertanam dalam sistem melalui Equal Employment Opportunity Commision Guidelines (1979) yang dikembangkan dengan beberapa agen federal untuk implementasi penyusunan undang-undang hak-hak sipil.

Pengembangan Validitas Konstruk Tahun 1955-989

Setidaknya ada 3 aspek model berdasarkan konstruk yang secara gradual muncul sebagai prinsip umum validasi, aplikabel pada semua interpretasi yang diajukan:

Pertama, Cronbach dan Meehl (1955) telah menjelaskan bahwa validasi interpretasi dalam term-term konstruk teoretik mencakup satu upaya yang panjang, termasuk pengembangan sebuah teori, pengembangan prosedur pengukuran untuk merefleksikan (secara langsung atau tak langsung) beberapa konstruk teori, pengembangan hipotesis spesifik berdasarkan pada teori, dan uji hipotesis melalui observasi. Pada model kriteria, karakteristik prosedur pengukuran dievaluasi dalam term-term pendapat pakar mengenai bagaimana ubahan teramati harus diukur. Dalam model validitas konstruk evaluasi validitas biasanya memerlukan suatu analisis yang luas (panjang). Hasilnya, pengembangan model validitas konstruk menitikberatkan ketidak-cukupan kebanyakan usaha validasi berdasarkan satu (sering meragukan) koefisien validitas yang sederhana pada pendapat pakar (Cronbach, 1971).

Kedua, dengan memusatkan pada peranan teori yang kompleks secara potensial dalam membatasi atribut. Cronbach dan Meehl (1955; 300) meningkatkan kesadaran yang dibutuhkan untuk interpretasi khusus sebelum mengevaluasi validitasnya. Mereka mengatakan, pembatasan jaringan kerja konstruk, dan derivasi mengarah pada observasi yang terprediksikan, harus eksplisit secara rasional, dengan demikian bukti validasi mungkin diinterpretasikan dengan tepat. Ubahan minat adalah tidak keluar untuk diestimasi; ubahan minat harus dibatsi atau dieksplisitkan. Dalam model criteria, relatif mudah mengembangkan bukti validitas berdasarkan atas a preexisting criterion (misalnya, korelasi tes-kriteria) tanpa menguji rasional untuk kriteria dengan hati-hati. Kenyataan ini dapat dibantah bahwa kerja validasi berdasarkan kriteria yang paling baik jika kriteria dapat diterima pada nilai tampak muka (face value). Untuk memperluas kriteria memerlukan ujian akhir, yang membuktikan ia cenderung ambigu. Kebalikannya pengembangan bukti validitas yang berhubungan dengan konstruk memerlukan interpretasi (jaringan kerja) yang dispesifikasi dalam beberapa bagian. Penekanan perubahan dari validasi tes (seperti ukuran ubahan yang ada) untuk pengembangan dan validasi interpretasi yang diajukan. Ia bukan tes atau skor tes yang divalidasi, tetapi sebuah interpetasi skor yang diusulkan.

Ketiga, fokus validitas konstruk pada uji teori membimbing pada tumbuhnya kesadaran atas kebutuhan terhadap tantangan interpretasi yang diajukan dan pentingnya pertimbangan interpretasi pengganti. Cronbach dan Meehl (1955) tak banyak memperhatikan secara langsung terhadap evaluasi interpretasi pengganti, tetapi dugaan ini implisit dalam fokusnya pada teori dan uji teori, dan ia secara penuh eskplisit dalam subsekuen kerja validitas konstruk (Cronbach, 1971, 1980a, b; Embretson, 1983; Messick, 1989), yang mana memberi sedikit perhatian pada evaluasi interpretasi bersaing. Evaluasi interpretasi bersaing tidak menjadi issue yang besar untuk model kriteria dan model isi.

Model validitas konstruk telah mengembangkan 3 prinsip metodologi (kebutuhan untuk analisis yang luas dalam validasi, kebutuhan untuk pernyataan eksplisit interpretasi yang diajukan, dan kebutuhan untuk mempertimbangkan interpretasi pengganti) dalam konteks validasi konstruk teoterik (APA, 1954; Cronbach dan Meehl, 1955). Sesudah tahun 1955, 3 prinsip itu secara gradual diperluas ke semua upaya validasi secara serius, dan hasilnya, transcended the theory-dependent context dalam mana mereka diperkenalkan. Hasil jaringan memperluas program metodologi sebelumnya oleh Cronbach dan Meehl (1955) ke dalam metodologi umum untuk validasi.

Validitas Konstruk Sebagai Basis Bagi Validitas Yang Menyatu

Akhir tahun 1970-an, pandangan sebelumnya diartikulasikan oleh Loevinger (1957; 636) bahwa yang sejak validitas prediktif, validitas konkuren, dan validitas isi semuanya secar esensial bersifat sementara, validitas konstruk adalah keseluruhan validitas dari sudut pandang ilmiah, menjadi diterima secara luas. Model validitas konstruk dipandang bukan sebagai satu jenis bukti validitas melainkan sebagai pendekatan umum terhadap validitas yang mencakup semua cakupan metode yang luas yang berhubungan dengan uji teori (Messick, 1975, 1980; Tenopyr, 1977; Guion, 1977; Embretson, 1983; Anastasi, 1986).

Messick (1988; 35) mengatakan: Jadi dari perspektif validitas sebagai konsep yang menyatu, semua pengukuran pendidikan dan psikologi harus construct-referenced sebab interpretasi konstruk undergird semua inferensi berdasarkan skor – tak hanya berhubungan dengan interpretive meaningfulness tetapi juga the content-and rcriterion related inferences khusus untuk keputusan terapan dan aksi berdasarkan pada skor tes.

Sebagaimana telah dimengerti, sumber-sumber konsepsi validitas konstruk yang lebih luas ini sebagai sebuah kerangka kerja umum untuk validitas yang sudah dikembangkan oleh Cronbach dan Meehl (1955). Loeninger (1957) telah memperluas konsepsi eksplisit. Ia secara gradual mendukung dari tahun 1960-an sampai 1970-an, dan Messick mengadopsinya sebagai sebuah kerangka kerja umum untuk validitas (Messick, 1975, 1988, dan 1989).

Penekanan validitas konstruk sebagai kerangka kerja yang menyatu untuk validitas secara khusus bermanfaat untuk menekankan peran pervasive dari asumsi-asumsi dalam interpretasi kita. Sebagaimana penjelasan Cronbach (1988; 13): Pertanyaan validitas konstruk berkaitan dengan the moment of a finding yang terletak dalam kata-kata. Mengambil validitas konstruk sebagai prinsip menyatu bagi validitas, meletakkan validitas secara meningkat di dalam tradisi ilmiah yang panjang menyangkut interpretasi yang diajukan (teori) dengan jelas dan pada pokoknya terhadap tantangan konseptual dan empirik.

Bagaimanapun juga, manfaat validitas konstruk sebagai kerangka kerja untuk model validasi yang menyatu juga mempunyai beberapa kekurangan. Model HD teori (Suppe, 1977) yang diadopsi dari Cronbach dan Meehl (1955) utamanya berkenaan dengan kerja berdasarkan model HD yang mencakup rekonstruksi logika teori yang ada sebagai sistem aksioma yang ditafsirkan. Para pendukung model ini secara eksplisit membedakan antara psikologi discovery dan logika justifikasi, dan memusatkan perhatian mereka pada logika justifikasi. Menurut Feigl (1970), rekonstruksi rasional teori adalah operasi peninjauan hal-hal yang sudah terjadi artifisial yang tinggi yang sedikit melakukan kerja ilmuwan kreatif (p. 13), dan sedikit banyak debatable melakukan dengan kerja guru, pembuat kebijakan, dan membuat kebijakan lainnya dari hari ke hari berdasarkan pada skor tes.

Pengertian dasar batasan konstruk secara implisit dengan peranannya dalam jaringan kerja nomologik mengasumsikan bahwa jaringan kerja didasarkan pada seperangkat aksioma yang berhubungan dengan ketat. Riset pendidikan dan ilmu-ilmu sosial umumnya hanya mempunyai sedikit jaringan kerja. Cronbach dan Meehl (1955; 293-294) mengenalkan batasan ini: Gambaran yang digagas adalah satu set postulat yang teratur yang secara bersamaan memerlukan teorema yang diinginkan; beberapa teorema dikoordinasikan dengan dasar pengamatan, sistem yang membentuk definisi implisit dari teori yang sederhana dan memberinya makna empirik secara langsung. Dalam praktiknya, bahkan kebanyakan ilmu-ilmu fisika lebih maju hanya pendekatan ideal ini … Kerja psikologi dengan mentah, rumusannya setengah eksplisit.

Konflik Antara Program yang Kuat dan Program yang Lemah tentang Validitas Konstruk

Suatu kesulitan dalam menerapkan validitas konstruk ke wilayah tertentu, karena hanya ada sedikit teori yang kokoh (misalnya kebanyakan ilmu-ilmu sosial) sungguh mengarah ambigu dalam makna validitas konstruk. Secara khusus Cronbach (1988; 12-13) membedakan antara program yang kuat dan program yang lemah tentang validitas konstruk: Program yang lemah adalah sheet exploratory empiricism; sesuatu hubungan skor tes dengan ubahan lain. Program yang kuat, telah dibahas tahun 1955 (Cronbach dan Meehl) dan dibahas lagi tahun 1982, oleh Meehl dan Golden. Program yang kuat tak mungkin tanpa teori yang kuat, tetapi itu ideal. Program yang lemah dengan cukup terbuka bahwa sedikit bukti yang berhubungan dengan skor tes yang relevan dengan validitas.

Perbedaan antara program yang lemah dan program yang kuat dapat membingungkan. Ia mudah menyimpulkan, menggunakan program yang lemah, yang semua bukti validitas adalah bukti yang berhubungan dengan konstruk, dan karena itu semua interpretasi divalidasi menggunakan validitas konstruk. Program yang lemah tentu saja sesuatu tarikan di bawah satu payung yang menyatu. Kenyataannya, tarikannya juga banyak. Ketiadaan garis pedoman yang eksplisit untuk mengidentifikasi sebagian besar bukti yang relevan, program yang lemah secara esensial memberikan tanpa bimbingan terhadap validator. Pada pihak lain, ia tak begitu jelas bahwa program yang kuat perlu mencakup semua jenis usaha validasi. Sebagaimana dimengerti di atas, pada 2 dekade bentuk validitas konstruk yang kuat was reserved for theory-based, interpretasi eksplanatori (Cronbach dan Meehl, 1955; Cronbach, 1971; APA, 1966, 1974), yang berbeda dengan deskriptif interpretasi berdasarkan performansi.

Dalam peninjauan kembali, perkembangan 2 versi validitas konstruk yang bersaing mungkin tak dapat dielakkan. Formulasi yang pertama validitas konstruk memusatkan pada konstruk teoretik yang terdefinisikan secara implisit dalam term-term teori-teori formal. Formulasi yang bagus, elegant, tetapi jarang dikembangkan teori-teori formal dalam pendidikan dan ilmu-ilmu sosial, program yang kuat dari validitas konstruk yang umumnya tidak aplikabel dalam sesuatu seperti bentuk aslinya. Beberapa kemajuan telah terjadi dalam perkembangan metode untuk mengimplementasikan model yang kuat (Campbell dan Fiske, 1959; Cronbach, 1971; Embretson, 1983; Messick, 1989), tetapi kehadiran model validitas konstruk selanjutnya relatif abstrak. Sehingga definisi validitas konstruk telah lepas untuk membuatnya lebih aplikabel, sementara label validitas konstruk berhubungan kuat dengan teori formal tetap bertahan. Sebagai hasilnya, program yang lemah validitas konstruk mengambil pada banyak keabstrakan dari program yang kuat tanpa dukungan teori formal untuk memberinya gigi (menguatkannya), menghasilkan sheer exploratory empiricism (Cronbach, 1988; 12).

Adopsi implisit dari program yang lemah tidak mempunyai pengaruh yang positif pada riset validasi. Program yang kuat telah di-outline oleh Cronbach dan Meehl (1955) yang mempunyai perhatian lebih terbatas tetapi kuat. Yang adalah merencanakan asumsi teoretik dan konklusi, selanjutnya subjek ini menantang secara empirik. Pendekatan yang teradopsi dalam program yang kuat secara esensial adalah uji teori dalam ilmu. Kesulitannya adalah pendekatan ini mempunyai manfaat terbatas pada ketiadaan teori yang berkembang baik untuk tes.

* Tulisan ini mendaarkan pada sumber utama, tepatnya berupa saduran dari Construct Validity in Psychological Meaurement Proceeding of a colloquium on theory and application in education and employment yang diterbitkan oleh Princenton, New Jersey, Oktober 1979.

RELIABILITAS DAN VALIDITAS DALAM PENGUKURAN

Ahmad Rohani HM.

(Dosen FAI Unissula Semarang)

RELIABILITAS

Reliabilitas adalah konsistensi atau stabilitas indikator-indikator empirik dari pengukuran ke pengukuran. Suatu instrumen yang reliabel menghasilkan hasil yang sama dalam pengukuran berulang. Reliabilitas adalah tingkat (luasan) mana suatu prosedur pengukuran menghasilkan hasil yang sama ketika percobaan-percoban (pengukuran) berulang.

Untuk memahami koefisien reliabilitas dapat dipahami melalui persamaan berikut:

X = T + E

X adalah skor teramati,

T adalah skor tulen,

E adalah kesalahan pengukuran

Suatu instrumen dapat dinyatakan reliabel jika secara akurat dapat menghasilkan skor tulen. Dengan kata lain, instrumen yang reliabel adalah instrumen yang menghasilkan komponen kesalahan seminimal-minimalnya.

Sehingga koefesien reliabilitas adalah proporsi reliabilitas tulen terhadap variabilitas yang diperoleh secara total. Koefisien reliabilitas 0,85 maknanya bahwa 85 % variabilitas skor yang diperoleh dapat dikatakan mewakili perbedaan individual dengan benar, dan 15 % variabilitas merupakan bagian kesalahan acak.

Pengukuran reliabilitas didasarkan pada korelasi antara 2 peristiwa:

· Repeated use of the instrument (stability)

· Similarity of items (homogeneity or internal consistency)

· Equivalence of two instruments (equivalence)

Perspektif konvensional tentang reliabilitass (AERA, 1985)

Stabilitas temporal: Form tes yang sama pada 2 atau lebih kesempatan terpisah terhadap kelompok teruji (test-retest). Pendekatan ini tidak praktis. Pengukuran berulang mungkin merubah teruji. Contoh, teruji akan adaptasi format tes dan cenderung skor tesnya lebih tinggi pada tes berikutnya.
Ekuivalensi form: 2 form tes yang berbeda, dengan isi tes yang sama, dalam satu kesempatan terhadap teruji yang sama (form alterasi).
Konsistensi internal: koefisien skor-skor tes yang diperoleh dari suatu tes atau survey (Cronbach Alpha, KR20, Spilt-half).

Reliabilitas merupakan suatu kebutuhan tetapi belum tentu mendukung validitas.
Performansi, portfolio, dan evaluasi responsive, di mana bermacam tugas (pertanyaan-pertanyaan) yang substansial dari siswa ke siswa dan pertanyaan-pertanyaan ganda dievaluasi secara simultan, adalah dilakukan untuk mengurangi reliabilitas. Suatu kesulitan, lebih dari satu sumber kesalahan pengukuran dalam asesmen performansi. Misalnya, reliabilitas skor tes keterampilan menulis dipengaruhi oleh rater, mode wacana, dan beberapa faktor lain (Parkes, 2000).

Perspektif Modern tentang Reliabilitas (Moss, 1994):

· Terdapat validitas tanpa reliabilitas.

· Reliabilitas adalah satu aspek validitas konstruk. Suatu asesmen yang kurang atau tidak standar disebabkan ada perbedaan antara reliabilitas dan validitasnya kabur.

· Inkonsistensi dalam performansi siswa terjadi ketika pertanyaan-pertanyaan dalam asesmen tidak valid. Ia menjadi teka-teki empirik untuk dipecahkan untuk mencari interpretasi yang lebih komprehensif.

Macam-macam Reliabilitas:

Stability (memperoleh hasil yang sama melalui tes berulang): (a) test-retest; (b) parallel forms; (c) alternate forms.
Homogeneity or Internal Consistency ( butir-butir instrument pengukuran memiliki konsep yang sama): (a) item-total correlation; (b) split-half reliability; (c) Kuder-Richardson coefficient; (d) Chronbach’s alpha (e) Theta; (f) Omega.
Equivalence (memperoleh hasil yang sama ketika instrumen yang ekuivalen: (a) parallel items on alternate forms; (b) inter-rater reliability.
Equivalence: Interrater Reliability: reliabilitas ini untuk mengestimasi dua atau lebih pengamat terhadap kejadian (pengamatan) yang sama dan independen untuk mencatat ubahan-ubahan menurut a pre-determined coding system. Selanjutnya hasilnya dikorelasikan, dan koefisen korelasi yang dihasilkan akan menggambarkan the strength of the relationship between one observer’s rating and the other’s. Metode lain untuk mengetahui ekuivalensi inter-rater adalah dengan cara mencari proporsi, yakni jumlah kesepakatan dibagi dengan jumlah kesepakatan dan ketidaksepakatan.

Perbedaan Reliabilitas dan Validitas (Salvucci, Walter, Conley, Fink, & Saba , 1997):

Banyak pakar mengatakan bahwa the traditional view that "reliability is a neccessary but not a sufficient condition of vaidity" is incorrect. This school of thought conceptualizes reliability as invariance and validity as unbiasedness. A sample statistic may have an expected value over samples equal to the population parameter (unbiasedness), but have very high variance from a small sample size. Conversely, a sample statistic can have very low sampling variance but have an expected value far departed from the population parameter (high bias). In this view, a measure can be unreliable (high variance) but still valid (unbiased).

VALIDITAS

Validitas adalah ukuran seberapa cermat suatu instrument (tes) melakukan fungsi ukurnya. Tes hanya dapat melakukan fungsi ukurnya dengan cermat jika ada sesuatu yang diukurnya. Dengan kata lain, tes harus mengukur sesuatu dan melakukannya dengan cermat.

Perspektif konvensional tentang ragam validitas

Cronbach (1971) menjelaskan macam validitas sebagai berikut: (1) Face validity: Face validity simply means the validity at face value. As a check on face validity, test/survey items are sent to teachers to obtain suggestions for modification. (2) Content validity: Draw an inference from test scores to a large domain of items similar to those on the test. Content validity is concerned with sample-population representativeness. i.e. the knowledge and skills covered by the test items should be representative to the larger domain of knowledge and skills. Content validity is sample-oriented rather than sign-oriented. A behavior is viewed as a sample when it is a subgroup of the same kind of behaviors. On the other hand, a behavior is considered a sign when it is an indictor or a proxy of a construct. (Goodenough, 1949). (3) Construct validity and criterion validity, which will be discussed later, are sign-oriented because both of them indicate behaviors different from those of the test. (4)Criterion: Draw an inference from test scores to performance. A high score of a valid test indiciates that the tester has met the performance criteria. Criterion validity is about prediction rather than explanation. Predication is concerned with non-casual or mathematical dependence where as explanation is pertaining to causal or logical dependence. For example, one can predict the weather based on the height of mercury inside a thermometer. Thus, the height of mercury could satisfy the criterion validity as a predictor. However, one cannot explain why the weather changes by the change of mercury height. Because of this limitation of criterion validity, an evaluator has to conduct construct validation. (5) Construct: Draw an inference form test scores to a psychological construct. Because it is concerned with abtsract and theoretical construct, construct validity is also known as theoretical construct.

Pandangan konvensional di atas diikuti oleh Austin (1997) dalam Ilene Decker. Austin menjelaskan validitas sebagai berikut : (1) Face Validity: assumptions of a logical tie between the items of an instrument and its purpose. (2) Content Validity: the items in the instrument are systematically judged by a panel of experts and rated as to the extent that the item adequately represents the construct proposed. Content validity is the consensus (intersubjective, negotiated) opinion of the community of scholars as to whether the items used to measure a latent variable (henceforth called a construct) refer to the domain of the construct and to no other construct. This assessment depends entirely upon the opinion of the community of scholars; it has no empirical element to it. (3) Criterion Related Validity: what is the relationship between the subject's performance on the measurement tool and the subject's actual behavior: (a) Concurrent validity: how well is the instrument measuring for the construct right now ? (b) Predictive validity: how well is the instrument able to predict future behavior ? (4) Construct Validity (how well does the instrument test a trait or concept): (a) convergent validity: look for another instrument that is proposed to measure the same construct and look for a correlation between the results; (b) divergent validity: you use an instrument that is supposed to measure the exact opposite of the trait; (c) a multi trait analysis: look at similarities in measures that could measure the same construct.

The American Psychological Association (APA, 1954) mengidentifikasi macam-macam validitas berdasarkan tujuan testing : (a) content validity; (b) predictive validity; (c) concurrent validity; (d) construct validity. Pada tahun 1966 the APA telah mereduksi predictive validity dan concurrent validity menjadi satu kategori yakni a single category: criterion-related validity.

Sehubungan dengan klasifikasi validitas dari the APA (1954 & 1966), Crocker and Algina (1986) tampaknya juga mengikuti klasifikasi 3 macam validitas: (1) Content validity studies are used to assess whether the items on an inventory or test adequately represent the construct of specific interest. In other words: Can the researcher draw an inference from an exmainee's test score to a larger domain of items like those that are on the test itself ?; (2) Criterion-related validity, encompassing both predictive validity and concurrent validity, is studied in situations where a test user wants to draw an inference about a person's test score to performance on a real behavioral variable that has practical importance; (3) Construct validity is studied when "the test user desires to draw an inference from the test score to performances that can be grouped under the label of a particular psychological construct" (Crocker & Algina, 1986, p. 218).

Terkait dengan construct validity Hunter and Schmidt (1990) mengatakan: construct validity is a quantitative question rather than a qualitative distinction such as "valid" or "invalid"; it is a matter of degree. Construct validity can be meaured by the correlation between the intended independent variable (construct) and the proxy independent variable (indicator, sign) that is actually used.

Beberapa pakar lain (Angoff,1988; Cronbach & Quirk, 1976) berpendapat bahwa construct validity tidak dapat dijelaskan hanya dengan a single coefficient, there is no mathematical index of construct validity. Rather the nature of construct validity is qualiatative. Ada 2 macam indicator: (1) reflective indictor: the effect of the construct; (2) formative indictor: the cause of the construct. When an indictor is expressed in terms of multiple items of an instrument, factor analysis is used for construct validation.

Perspektif modern tentang validitas (Messick, 1995):

Dalam perspektif modern (baru) validitas bukanlah suatu sifat tes atau pengukuran, malainkan lebih pada makna skor tes (the meaning of the test scores) yaitu :

Content: membuktikan relevansi konten, keterwakilan, dan kualitas teknis
Substantive: rasional teoretik
Structural: kejituan (ketaatan) the scoring structure
Generalizability: generalisasi terhadap the population and across populations
External: aplikasi terhadap perbandingan multitrait-multimethod
Consequential: bias, fairness, and justice; konsekuensi social asesmen terhadap masyarakat.

Selanjutnya, sebagai pandangan baru, Pedhazur & Schmelkin (1991) mengkritisi validitas dalam 2 hal:

Content validity is not a type of validity at all because validity refers to inferences made about scores, not to an assessment of the content of an instrument.
The very definition of a construct implies a domain of content. There is no sharp distinction between test content and test construct.

ANALISIS FAKTOR & VALIDITAS KONSTRUK

Analisis Faktor (Factor Analysis)

Oleh para pakar, analisis faktor didefinisikan dengan berbagai macam.

1. Reyment and Joreskog (1993; 71): Factor analysis is a generic term that we use to describe a number of methods designed to analyze interrelationships within a set of variables or objects [resulting in] the construction of a few hypothetical variables (or objects), called factors, that are supposed to contain the essential information in a larger set of observed variables or objects .... that reduces the overall complexity of the data by taking advantage of inherent interdependencies [and so] a small number of factors will usually account for approximately the same amount of information as do the much larger set of original observations.

2. Cureton and D'Agostino (1983; 1-2): Factor analysis as "a collection of procedures for analyzing the relations among a set of random variables observed or counted or measured for each individual of a group". The purpose, they said, "is to account for the intercorrelations among n variables, by postulating a set of common factors, considerably fewer in number than the number, n, of these variables".

3. Bryman and Cramer (1990; 253): Broadly defined factor analysis as "a number of related statistical techniques which help us to determine them [the characteristics which go together]".

4. Gorsuch (1983; 2) reminded the reader that "all scientists are united in a common goal: they seek to summarize data so that the empirical relationships can be grasped by the human mind". The purpose of factor analysis, he said, "is to summarize the interrelationships among the variables in a concise but accurate manner as an aid in conceptualization".

Keempat definisi di atas lebih menekankan pada left-brained individuals yaitu pemahaman terhadap sesuatu yang kompleks secara fair dan mudah.

Kerlinger (1979; 179-180) memberikan definisi analisis faktor secara seimbang, mencakup a left-brained and a right-brained: (1) For the left-brainers: Factor analysis is an analytic method for determining the number and nature of the variables that underlie larger numbers of variables or measures"; (2) For the right-brainers he noted: "It [factor analysis] tells the researcher, in effect, what tests or measures belong together--which ones virtually measure the same thing, in other words, and how much they do so". He further commented on factor analysis in terms of curiosity and parsimony. He noted, "Scientists are curious. They want to know what's there and why. They want to know what is behind things. And they want to do this in as parsimonious a fashion as possible. They do not want an elaborate explanation when it is not needed.". He sounds like a very right-brained individual!

Berdasarkan berbagai definisi di atas, dapat dipahami bahwa setiap definisi analisis faktor memiliki unsur-unsur umum (common elements). Masing-masing mengarah ke korelasi antar ubahan. Ini dapat disimak atas penggunaan kata interrelationships, intercorrelations dan relations. Lebih dari itu, bahwa setiap definisi menjelaskan the notion of reducing the number of variables into a smaller set of factors. Pendek kata, analisis faktor itu menjelaskan sesuatu dengan menyederhanakan sejumlah besar informasi ke dalam suatu form atau size yang manageable. Jadi, jelaslah definisi analisis faktor terkait dengan a right-brained individuals maupun a left-brained.

Validitas Konstruk (Construct Validity)

Apakah Construct validity sama dengan Factorial Validity ? atau The Only Validity ? Jawabnya adalah bahwa validitas konstruk mencakup validitas isi dan validitas kriteria. Beberapa argumen berikut dapat memperkuat jawaban ini : (1) Sheperd (1993) mengatakan: … that construct validity envelopes the empirical and the logical requirements of criterion and content validity. (2) Anastasi (1986) menyepakati bahwa … construct validity subsumes both content validity and criterion-related validity requirements. (3) Nunnally (1978; 111) juga menyatakan: … that "construct validity has [even] been spoken of as ... 'factorial validity' ".

Bahkan, sebenarnya konsep tersebut jauh sebelumnya telah diakui oleh Guilford (1946; 428) : (1) Guilford (1946; 428) mengatakan: The factorial validity of a test is given by its loadings in meaningful, common, reference factors. This is the kind of validity that is really meant when the question is asked: Does this test measure what it is supposed to measure ? (2) 44 tahun kemudian (setelah Guilford, 1946) Bryman and Cramer (1990; 253) mengatakan: … factor analysis enables us to assess the factorial validity of the questions which make up our scales by telling us the extent to which they seem to be measuring the same concepts or variables.

Bahwa Validitas konstruk (dan validitas kriteria sebagai suatu kasus khusus dari validitas konstruk, di mana the explanandum merupakan a behavioral variable) menunjukkan pada 3 jenis hubungan:

Hubungan kausal antara konstruk dan variabel-variabel prediktornya (butir-butir yang merupakan skala digunakan untuk mengukur konstruk, misalnya, 10 pertanyaan dalam in Rosenberg's self-esteem scale).
Hubungan kausal antara satu konstruk dan konstruk lainnya yang secara teoretik berhubungan dengannya.
Hubungan non-kausal (korelasi) antara satu konstruk dan konstruk lainnya yang secara teoretik berhubungan dengannya.

Validitas Skor Tes

Bahwa validitas dan reliabilitas merupakan fungsi-fungsi dari skor-skor tes yang ditentukan oleh the test takers. Oleh karena itu menurut Sheperd (1992; 406) validitas harus ditetapkan pada setiap menggunakan tes. Sebelumnya, Cronbach (1971; 447) mengatakan: One validates, not a test, but an interpretation of data arising from a specified procedure. Lebih jauh Crocker and Algina (1986) menjelaskan: … a process used to provide the construct validity of an instrument. In addition, they described four procedures (one being factor analysis) frequently utilized in construct validation. Regardless of the specific technique used, the steps generally followed include (a) formulating a hypothesis about how those who differ on the proposed construct do in fact differ in relation to other constructs already validated, (b) selecting or developing a measurement instrument that consists of items specifically representing the construct, (c) gathering empirical data so the hypothesized relationships can be tested, and (d) determining if the data are consistent with the hypothesis.

Heppner, Kivlighan, and Wampold (1992) menganjurkan bahwa analisis faktor untuk kepentingan validasi konstruk dapat dilakukan dengan beberapa langkah: (a) the researcher must first carefully think about the specific research question he or she wishes to address, (b) he or she chooses to use or develop an instrument constituting the variables specified, (c) the researcher selects the sample, collects the data, and begins to factor analyze the data in order to identify the common dimensions of a set of variables and to see which items go together to make up a factor, and (d) the researcher determines if the factors are correlated. See? It's starting to come together. We're finding out: Are the test items measuring what they're supposed to be measuring? Construct validity and factor analysis constitute a natural pairing.

Menjadi jelas (dengan lebih memihak ke right brains) bahwa, analisis faktor digunakan untuk validitas konstruk. Menjadi lebih jelas dengan memahami tujuan analisis faktor adalah untuk menentukan faktor-faktor yang mendasari seperangkat variabel. Di samping itu kita dapat juga menetapkan the connection between factor analysis and its usefulness as a tool in evaluating score validity. Dengan kata lain: conducting a factor analysis of the observed scores on a given instrument, one can determine if indeed, the test is measuring the variables it purports to. This, in essence, is the definition of construct validation.

Analisis Faktor: Exploratory Versus Confirmatory

Exploratory factor analysis disingkat dengan EFA sedangkan confirmatory factor analysis CFA. Stevens (1996; 389) mengemukakan definisi yang left-brained tentang EFA dan CFA sebagai berikut: The purpose of exploratory factor analysis is to identify the factor structure or model for a set of variables. This often involves determining how many factors exist, as well as the pattern of the factor loadings ... EFA is generally considered to be more of a theory-generating than a theory-testing procedure. In contrast, confirmatory factor analysis (CFA) is generally based on a strong theoretical and/or empirical foundation that allows the researcher to specify an exact factor model in advance. This model usually specifies which variables will load on which factors, as well as such things as which factors are correlated. It is more of a theory-testing procedure than is EFA.

Stevens (1996) menjelaskan definisi tersebut (termasuk the right-brainers) melalui tabel berikut:

EXPLORATORY

THEORY GENERATING

CONFIRMATORY

THEORY TESTING

Heuristic - weak literature base

Determine the number of factors
Determine whether the factors are correlated or uncorrelated
Variables free to load on all factors

Strong theory and/or strong empirical base

Number of factors fixed a priori
Factors fixed a priori as correlated or uncorrelated
Variables fixed to load on a specific factor or factors

Terkait dengan EFA dan CFA sebagaimana dijelaskan Stevens di atas, secara khusus Cronbach (1988; 12-13) membedakan antara program yang kuat (EFA) dan program yang lemah (CFA) terhadap validitas konstruk: (1) Program yang lemah adalah sheet exploratory empiricism; sesuatu hubungan skor tes dengan ubahan lain adalah didatangkan … Program yang lemah dengan cukup terbuka memungkinkan sedikit bukti berhubungan dengan skor tes yang relevan dengan validitas; (2) Program yang kuat sebagaimana dijelaskan Cronbach dan Meehl (1955) serta Meehl dan Golden (1982), memerlukan satu gagasan teoretik seeksplisit mungkin, selanjutnya memikirkan tantangan dengan tenang dan hati-hati. Program yang kuat tak mungkin tanpa teori yang kuat, tetapi itu ideal.

Perbedaan antara program yang lemah dan program yang kuat dapat membingungkan. Ia mudah menyimpulkan, menggunakan program yang lemah, yang semua bukti validitas adalah bukti yang berhubungan dengan konstruk, dan karena itu semua interpretasi divalidasi menggunakan validitas konstruk. Program yang lemah tentu saja sesuatu tarikan di bawah satu payung yang menyatu. Kenyataannya, tarikannya juga banyak. Ketiadaan garis pedoman yang eksplisit untuk mengidentifikasi sebagian besar bukti yang relevan, program yang lemah secara esensial tanpa memberikan bimbingan terhadap validator. Pada pihak lain, ia tak begitu jelas bahwa program yang kuat perlu mencakup semua jenis usaha validasi.

Perkembangan 2 versi validitas konstruk yang bersaing mungkin tak dapat dielakkan. Formulasi yang pertama validitas konstruk memusatkan pada konstruk teoretik yang terdefinisikan secara implisit dalam term-term teori-teori formal. Formulasi yang bagus, elegant, tetapi jarang dikembangkan teori-teori formal dalam pendidikan dan ilmu-ilmu sosial, program yang kuat dari validitas konstruk yang umumnya tidak aplikabel dalam sesuatu seperti bentuk aslinya.

Beberapa kemajuan telah terjadi dalam perkembangan metode untuk mengimplementasikan model yang kuat (Campbell dan Fiske, 1959; Cronbach, 1971; Embretson, 1983; Messick, 1989), tetapi kehadiran model validitas konstruk selanjutnya relatif abstrak. Sehingga definisi validitas konstruk telah lepas untuk membuatnya lebih aplikabel, sementara label validitas konstruk berhubungan kuat dengan teori formal tetap bertahan. Sebagai hasilnya, program yang lemah validitas konstruk mengambil pada banyak keabstrakan dari program yang kuat tanpa dukungan teori formal untuk memberinya gigi (menguatkannya), menghasilkan sheer exploratory empiricism (Cronbach, 1988; 12).

Exploratory Factor Analysis (EFA)

Analisis faktor mengasumsikan bahwa variabel teramati (terukur) adalah merupakan kombinasi linear dari banyak sumber yang mendasari variabel-variabel (atau faktor-faktor). Asumsi bahwa eksistensi sistem yang mendasari faktor-faktor dan system variabel-variabel teramati. Terdapat korespondensi yang pasti antara dua sistem dan analisis. Korespondensi ini menghasilkan konklusi mengenai faktor-faktor (Kim, 1986; 8).

Bahwa EFA dapat digunakan sebagai metode untuk menentukan jumlah minimum faktor-faktor hipotetik pokok yang mewakili sejumlah besar variabel. Dalam EFA pekerjaan ini ditunjukkan oleh interkorelasi antara variabel-variabel tanpa mempunyai spesifikasi faktor-faktor sebelumnya.

Definisi faktor-faktor yang mendasarkan left-brained and right-brained individuals diberikan oleh Cureton and D'Agostino's (1983; 3): The factors are random variables that cannot be observed or counted or measured directly, but which are presumed to exist in the population and hence in the experimental sample .... they are sometimes termed latent variables.

Tinsley and Tinsley (1987; 414) menyatakan: factors are hypothetical constructs or theories that help interpret the consistency in a data set. Kim and Meuller's (1978; 12 & 77) mendefinisikan: factors are "hypothesized, unmeasured, and underlying variables which are presumed to be the sources of the observed variables ... which are smaller in number than the number of observed variables, [and] are responsible for the covariation among the observed variables.

Kemudian, Cureton and D'Agostino (1983; 3) menjelaskan sifat hipotetik faktor-faktor: The factors are actually hypothetical or explanatory constructs. Their reality in the individuals of the population or sample is always open to argument. At the conclusion of a factor analysis we can only say of the factors that if they were real, then they would account for the correlations found in the sample. Sementara, Kline (1994; 5) mendefinisikan: a factor as a dimension or construct which is a condensed statement of the relationship between a set of variables.

Dari berbagai definisi mengenai faktor (faktor-faktor) dapat dipahami bahwa, secara esensial, faktor-faktor adalah bersifat latent (unobserved), hypothetical, konsep-konsep (konstruk-konstruk) pokok yang deduktif yang berasal dari korelasi antara variabel-variabel terukur (teramati) dari instrument atau tes.

Bacaan yang bermanfaat

American Psychological Association. (1954). Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51, 201-238.

American Psychological Association. (1966). Standards for educational and psychological tests and manuals. Washington, DC: Author.

American Educational Research Asociation, American Psychological Association, & National Council on Measurement in Education. (1985). Standards for educational and psychological testing. Washington, DC: Authors.

Anastasi, A. (1986). Evolving concepts of test validation. Annual Review of Psychology, 37, 1-15.

Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. Fort Worth: Harcourt Brace Jovanovich College Publishers.

Cronbach, L.J. (1971). Test validation. In R.L. Thorndike (Ed.), Educational measurement (2nd ed., pp. 443-507). Washington, DC: American Council on Education.

Guilford, J.P. (1954). Psychometric Methods. NY. McGraw-Hill Book Company, INC.

Hunter, J. E.; & Schmidt, F. L. (1990). Methods of meta-analysis: Correcting error and bias in research findings. Newsbury park: Sage Publications.

Kane, Michael T. (2001). Current concern in validity theory. Journal of Educational Measurement (JEM), Winter 2001, Vol. 38, No. 4, pp.319-342].

Kerlinger, F.N. (1979). Behavioral research: A conceptual approach. Dallas: Holt, Rinehart and Winston.

Kim, J.O., & Mueller, C.W. (1978). Introduction to factor analysis. Beverly Hills: Sage Publications.

Nunnally, J.C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.

Pedhazur, E. J.; & Schmelkin, L. P. (1991). Measurement, design, and analysis: An integrated approach. Hillsdale, NJ: Lawrence Erlbaum Associates, Publishers.

Rohani, Ahmad. (2002) Model Konstruk dan Validitas Konstruk. [Disadur dari Michael T. Kane. (2001). Current concern in validity theory. Journal of Educational Measurement (JEM), Winter 2001, Vol. 38, No. 4, pp.319-342].

Stapleton, Connie D. (1997). Basic Concepts in Exploratory Factor Analysis (EFA) as A Tool to Evaluate Score Validity: A Right Brained Approach. Texas: A&M University. Paper presented at the annual meeting of the Southwest Educational Research Association, Austin, January, 1997

Stevens, J. (1996). Applied multivariate statistics for the social sciences (3rd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.

KUMPULAN MAKALAH

Senin, 04 Mei 2009

I

II

IV

Model Konstruk

Perspektif modern tentang validitas (Messick, 1995):

Arsip Blog

Mengenai Saya