I

Konsep generalisabilitas sebagai suatu usaha untuk meningkatkan akurasi interpretasi tes (Cronbach, Gleser, Nanada & Rajaratnam, 1972 dalam Allen & Yan 1979 & dalam Matt, 2002). Definisi teori generalisabilitas terkait dengan penggunaan proses anova atau analisis varians (Boodoo, 2001). Teori generalisabilitas atau teori G memberikan suatu kerangka kerja untuk mengkonseptualisasi, menginvestigasi, dan mendesain pengamatan yang realiabel (Matt, 2002). Menurut Allen & Yan (1979): Teori generalisabilitas secara eksplisit mempertimbangkan sumber-sumber varians sistematik yang berbeda dalam pengukuran dan menggambarkan cara-cara mengestimasi banyak varians yang disumbangkan oleh sumber-sumber ini. Teori generalisabilitas melihat teori sekor tulen klasik terlalu menyederhanakan dan ambigu, dan banyak aspek teori sekor tulen klasik yang melihat kasus-kasus khusus dari rumusan teori tes yang lebih umum (general) yang diberikan oleh teori generalisabiltas.

Dalam teori generalisabilitas, pengamatan (misalnya sekor tes teruji) dilihat sebagai sampel dari universe (populasi) pengamatan yang dapat diterima. Populasi menggambarkan kondisi, yang mana teruji dapat diamati atau dites, yang menimbulkan hasil yang ekivalen pada beberapa tingkatan spesifik. Suatu sekor populasi teruji ditetapkan oleh nilai harapan sekor amatannya melampaui semua pengamatan yang dapat diterima; sekor populasi secara langsung analog dengan sekor tulen yang digunakan dalam teori sekor klasik. Teori generalisabilitas menekankan bahwa keberadaan populasi yang berlainan dan ia menjadi tanggung jawab penerbit tes untuk menetapkan dengan hati-hati populasinya. Definisi ini tak berlaku dalam istilah-istilah segi-segi (facets or dimensions). Sebagai contoh, segi-segi yang terdapat dalam ukuran (besarnya) kelompok testing, jenis-jenis training yang diterima oleh penguji, bentuk (form)tes, kesempatan testing, dan sebagainya. Derajat segi-segi ini dispesifikasi, dan pengaruhnya-pengaruhnya diuji. Contohnya, besarnya kelompok testing dapat berbeda antar kelompok dari 1 sampai 15 siswa, 15 sampai 30 siswa, atau lebih besar dari 30 siswa. Para penguji dapat dari guru kelas atau orang khusus yang telah menerima training ekstensif dalam penyelenggaraan tes. Penerbit tes harus secara khusus menghasilkan bentuk tes A dan bentuk tes B yang ekivalen pada derajat tertentu yang spesifik jika besarnya kelompok teruji adalah 30 atau lebih sedikit, jika penguji mempunyai suatu derajat minimal tertentu dari training, dan sebagainya.

II

Kegunaan teori generalisabilitas mencakup 2 jenis studi riset yaitu: a generalizability (G) study, dan a decision (D) study: Pertama, studi G bukan merupakan bagian dari pengembangan instrumen pengukuran. Tujuan utama studi G adalah mengkhususkan derajat mana hasil-hasil tes ekivalen ketika diperoleh di bawah kondisi testing yang berbeda. Pendek kata, studi G meliputi pengumpulan data bagi teruji yang dites di bawah kondisi khusus (yang adalah pada aneka tingkatan segi-segi khusus), mengestimasi komponen-komponen varians yang seharusnya pada segi-segi ini dan interaksinya dengan menggunakan analisis varians atau anova (Hays, 1973), menghasilkan koefisien generalisabilitas. Suatu koefisien generalisabilitas adalah rasio varian sekor populasi dengan varian sekor amatan, dan merupakan teman imbangan koefisien reliabilitas yang digunakan dalam teori sekor tulen klasik. Suatu tes yang tidak mempunyai koefisien rgeneralisabilitas, tetapi banyak, menggantungkan pada segi-segi yang diujikan dalam studi G. Studi G juga memberikan informasi mengenai bagaimana mengestimasikan sekor populasi teruji yang paling akurat.

Kedua, studi D menggunakan informasi dari analisis generalisabilitas tertentu untuk menentukan jimlah kondisi optimal setiap segi aplikasi pengukuran tertentu bagi investigator yang memusatkan pehatian pada sampling kondisi segi-segi yang menyumbangkan jumlah kesalahan yang paling besar, dengan demikian meningkatkan generalisabilitas. Dalam studi D, instrumen pengukuran menghasilkan data yang digunakan untuk membuat keputusan atau menghasilkan kesimpulan, seperti orang mengenali program atau mengidentifikasi anak-anak yang mempertunjukkan keterampilan baca tertentu. Informasi dari studi G digunakan untuk menginterpretasikan hasil studi D dan menghasilkan kesimpulan.

Banyak penerbit tes dewasa ini menghadirkan data yang ekivalen dari bentuk tes alternasi, tetapi seringkali kondisi mana data yang telah terkumpulkan tak sepenuhnya spesifik dan mingkin pengaruh sistematik pada ekivalensi yang tidak diujikan. Hasilnya dapat ambigu atau keputusan yang dibuat tanpa didasarkan pada informasi yang memadai. Contohnya, menggunakan rumus Spearman-Brown, seorang peneliti dapat memprediksi bahwa menduakalikan jumlah pengamatan dapat menghasilkan derajat reliabilitas tertentu yang dikehendaki. Seandainya pengamatan dilakukan oleh beberapa pengamat, yang menilai (mengamati) perilaku anak-anak hari demi hari berturut-turut. Tanpa melakukan studi G, peneliti tidak akan dapat mengetahui apakah hal itu sesuai dengan menduakalikan jumlah pengamat dan menerima jumlah hari pengamatan yang sama, untuk menunjukkan atau menjaga jumlah pengamat yang sama dan menduakalikan jumlah hari pengamatan, atau membuat beberapa penyesuaian lanjutan. Teori generalisabilitas secara eksplisit memperhatikan masalah-masalah seperti itu, dan menjelaskannya bahwa akurasi pengukuran harus diperhatikan secara terpisah untuk setiap aplikasi alat pengukuran; koefisien generalisabilitas (yang adalah reliabilitas) dari suatu tes adalah bukan suatu sifat invarian (tak berubah) dari tes melainkan dipengaruhi oleh situasi mana tes diselenggarakan.

Studi G memberikan kemanfaatan, informasi lebih jauh mengenai karakteristik tes di bawah perbedaan kondisi testing, tetapi analisis data sebagai dalam suatu studi meliputi pengembangan statistik yang lebih filofofik (sifistikatik) daripada yang dicakup dalam teori sekor tulen klasik.

III

Teori G sebagai teori statistik untuk mengases reliabilitas pengukuran yang secara eksplisit membatasi sumber-sumber variasi dalam desain pengukuran dengan menggunakan teknik-teknik statistik untuk menghitung varians-varians yang berhubungan dengan masing-masing sumbernya, memberikan bimbingan pokok untuk memutuskan apakah sumber-sumber variasi yang teridentifikasi sebagai kesalahan pengukuran atau memberikan kontribusi untuk memahami konstruk yang diukur, dan memberikan informasi untuk mendesain prosedur pengukuran guna memaksimalkan reliabilitas (Boodoo, 2001). Secara praktis teori G sebagai perluasan dari teori tes klasik, dan sebagai aplikasi prosedur anova untuk model-model pengukuran yang meliputi sumber-sumber kesalahan ganda.

Teori G merupakan metode yang komprehensif untuk mendesain, menilai, dan memperbaiki konsistensi internal dan stabilitas pengukuran (Williams & Patterson, 1992). Teori G, menurut Matt (2002) mereinterpretasi teori reliabilitas klasik sebagai suatu teori yang memandang kecukupan dengan mana yang dapat menggeneralisasi dari suatu sampel pengamatan ke populasi pengamatan dari mana ia disampel secara acak. Karena pengamatan digeneralisasi ke banyak populasi yang berlainan, pengamatan bisa berubah-ubah dalam bagaimana secara reliabel mereka membolehkan inferensi mengenai populasi-populasi, dan karena itu dihubungkan dengan koefisien reliabilitas yang berbeda-beda. Teori G juga menunjukkan bagaimana perbedaan tradisional antara reliabilitas dan validitas dapat overcome untuk mendesain pengamatan yang dapat tergantung (dependable observations). Dalam teori G, suatu populasi, segi-seginya dan kondisi-kondisi bagi pengamatan yang dapat diterima ditegaskan melalui eksplikasi konstrak dengan hati-hati, domain tradisional teori validitas. Penggunaan istilah-istilah “dependability” dan “generalizability” daripada “reliability” memunculkan minat dalam mempersatukan reliabilitas dan validitas. Bagaimana mendesain dan menginvestigasi ukuran-ukuran atau tindakan-tindakan dependable adalah bahasan pokok teori G.

Teori G memberikan suatu kerangka kerja untuk mengkonseptualisasikan, menginvestigasi, dan mendesain pengamatan yang reliable (Cronbach, et al., 1963, 1972). Menurut Cronbach dan rekannya, teori G dimaksudkan untuk merespon keterbatasan model sekor tulen dari teori reliabilitas klasik yang masih populer (Spearman, 1904, 1910). Teori reliabilitas klasik memusatkan sekitar pengertian bahwa setiap pengamatan atau sekor tes mempunyai sekor tulen tunggal, masih sekeluarga dengan pengamatan yang parallel, dan menghasilkana koefisien reliabilitas tunggal (Nunnally & Bernstein, 1994).

Sementara model ini boleh jadi masuk akal untuk dengan hati-hati disamakan dengan bentuk-bentuk tes yang parallel, ia demikian sangat restriktif (terbatas) dan sering tak realistic dalam situasi-situasi manapun. Sebagai misal, para rater membedakan dalam tendensi sentral dan varians, pengamatan bergantung pada konteks dalam mana mereka terjadi, dan konstruk-konstruk dengan jelas heterogenous. Beberapa penulis menegaskan, pada tahun 1950-an dan 1960-an bahwa pengamatan yang sama telah dapat mempunyai lebih dari seperangkat tes yang parallel (Cronbach, Rajaratnam, & Gleser, 1963; Guttman, 1953; Tryon, 1957). Kenyataan bahwa reliabilitas konsistensi internal mengestimasi suatu ukuran multidimensional yang cenderung sedikit tetap ketika tes-retes dan bentuk-bentuk alternasi estimasi reliabilitas adalah menggambarkan tinggi kontradiksi dan limitasi dari model reliabilitas klasik.

Menurut visi Cronbach untuk menginterpretasikan kembali teori reliabilitas klasik sebagai teori yang memadai dengan mana dapat menggeneralisasikan dari sampel pengamatan ke populasi pengamatan dari mana ia disampel secara random. Teori G mengakui bahwa reliabilitas dari suatu pengamatan bergantung pada populasi mengenai mana investigator menginginkan untuk membuat inferensi. Sebab, pengukuran yang khusus mungkin dapat dipahami digeneralisasikan ke banyak populasi yang berbeda, suatu pengukuran mungkin beraneka macam dalam bagaimana secara reliable ia membolehkan inferensi mengenai populasi dan karenanya dihubungkan dengan perbedaan koefisien reliabilitas. Teori G secara eksplisit meminta investigator untuk mengkhususkan suatu popuasi kondisi-kondisi melalui mana mereka menginginkan untuk generalisasi. Selain itu, perbedaan kondisi-kondisi dihubungkan dengan perbedaan pengamatan yang mempunyai implikasi untuk mendesain pengamatan yang dapat bergantung.

Menurut Williams & Patterson (1992) Teori G memfokuskan perhatian pada isolating dan estimating besaran relatif sumber-sumber kesalahan pengukuran specifik serta memberikan informasi yang dapat digunakan untuk optimize sampling kondisi pengukuran dalam studi-studi D ke depan. Sementara, Matt (2002) menyatakan bahwa teori G tidak hanya mereinterpretasi teori reliabilitas klasik, tetapi juga menunjukkan perbedaan tradisional antara reliabilitas dan validitas untuk mendesain pengamatan yang bergantung. Secara tradisional, validitas konstruk adalah berkenaan dengan pembuatan inferensi mengenai suatu konstruk laten berdasarkan pada ukuran-ukuran yang dapat teramati, sementara reliabilitas adalah berkenaan dengan pembuatan inferensi mengenai sekor tulen dari pengamatan melalui ukuran-ukuran yang paralel. Dalam teori G, suatu populasi, segi-seginya, dan kondisi-kondisi pengamatan yang dapat diterima ditegaskan melalui eksplikasi konstruk dengan hati-hati, domain tradisional dari teori validitas.

IV

Beberapa konsep kunci yang terkait dengan teori G adalah sebagai berikut :

1. Pengambil keputusan: Pengukuran didesain dengan aplikasi yang hati-hati, dan kualitasnya harus diuji dalam konteks aplikasinya. Konteks ini disimbolkan dengan “decision maker” yang diperhatikan untuk mengukur suatu konstruk tertentu dalam populasi (orang-orang) tertentu, menurut kondisi populasi tertentu, dan dengan jenis-jenis keputusan tertentu dengan hati-hati.

2. Jenis-jenis keputusan: Jenis-jenis keputusan mengenai instrumen yang hendak digunakan untuk pengamatan sehingga dapat menghasilkan pengamatan yang dependable, harus dipahami dan didesai terlebih dahulu. Terkait dengan jenis-jenis keputusan dimaksud, mereka dapat dibedakan menjadi dua. Keputusan yang pertama, mendasarkan pada “ranking relatif individual”. Penerimaan atau penyetujuan 3 scoring atas (the three top-scoring) penerapan untuk suatu posisi, merupakan contoh penyandaran suatu keputusan pada interpretasi sekor relatif. Pengukuran yang menekankan interpretasi perbedaan relatif antara sekor-sekor adalah domain teori tes klasik dengan perhatian tradisionalnya pada perbedaan interindividual. Jenis keputusan yang kedua, mendasarkan pada interpretasi “derajat sekor-sekor mutlak”. Contoh keputusan berdasarkan pada interpretasi sekor mutlak seperti dalam tes penguasaan (mastery tests) dalam pendidikan. Contoh lainnya adalah standar tes masuk perguruan tinggi, misalnya sekor SAT minimum, atau standar keberhasilan/kegagalan dalam tes seleksi berdasarkan interpretasi derajat sekor mutlak.

3. Populasi pengamatan yang admisibel (yang dapat diterima): Suatu pengukuran terdiri dari satu sampel dari populasi pengamatan yang dapat diterima. Suatu populasi untuk pengukuran tertentu didasarkan pada apa yang diinginkan pengambil keputusan untuk memperlakukan interchangeable three-letter syllables, tanda-tanda depresi, atau pewawancara jika pengambil keputusan memang menghendaki. Atau, suatu populasi mungkin terdiri dari batas waktu yang dapat dipertukarkan untuk pengumpulan urine, pertanyaan survei mengenai perilaku voting, atau situasi untuk mengamati perilaku altruistik jika pengambil keputusan mempertimbangkan aspek-aspek pengukuran ini sebagai dapat dipertukarkan.

4. Mengestimasi sekor populasi person: Populasi tertentu pengamatan yang dapat diterima diberikan, suatu sekor populasi orang (_p) yang definisikan sebagai sekor rerata (average) berdasarkan pada semua pengamatan yang dapat diterima (X_gr) dari populasi interes. Tujuan pengukuran adalah untuk mengestimasi secara akurat sekor populasi (μ_p) berdasarkan pada sampel pengamatan. Derajat suatu pengukuran dikatakan generalizable bergantung pada bagaimana akurasi pengukuran mengijinkan kita untuk mengestimasi sekor populasi. Akurasi suatu pengamatan dipahami sebagai varians yang berhubungan dengan perbedaan yang sekiranya pengamatan dapat dipertukarkan. Selain itu, butir-butir yang berbeda atau pengamat-pengamat yang berlainan, atau kesempatan pengukuran yang menghasilkan pengamatan yang berbeda menentukan bagaimana dependable pengamatan spesifik tunggal. Dengan kata lain, jika butir-butir berbeda, pengamat-pengamat, dan sebagainya, menghasilkan pengamatan yang sama, suatu pengukuran tunggal mungkin mengikuti akurasi inferensi tentang populasi pengamatan. Jika butir-butir berbeda, pengamat-pengamat, kesempatan, dan seterusnya, menghasilkan pengamatan yang tidak sama, inferensi mengenai populasi pokok berdasarkan pada pengamatan tunggal yang mungkin dapat dipertanyakan (questionable).

5. Populasi dan segi-seginya: Populasi dapat sederhana atau kompleks, homogen atau heterogen, kecil atau besar, tergantung pada konstruk interes dan interes pengambil keputusan dalam menginvestigasi perbedaan aspek atau segi dari generalisabilitas. Istilah segi (facet) atau kondisi adalah analog dengan faktor dan level (dalam literatur rancangan percobaan). Suatu populasi pengamatan dinyatakan mencakup satu segi jika generalisabilitas pengamatan mengenali satu sumber variasi dalam populasi, contohnya pertanyaan aritmatik beragam kesulitan is at stake. Misalnya tes aritmatik tertentu meliputi suatu sampel butir-butir, covering different addition, subtraction, multiplication, and division problems of one and two-digit numbers. Pengambil keputusan berminat pada prestasi aritmatik umum, dan dibedakan untuk mengestimasi sekor populasi tiap person berdasarkan pada sampel butir-butir yang tercakup dalam tes.

6. Suatu populasi dinyatakan memiliki 2 atau lebih segi jika generalisabilitas pengamatan mengenal 2 atau lebih sumber variasi dalam populasi, katakan butir-butir dan kesempatan. Sebagai contoh, untuk memperluas prestasi aritmatik bergantung pada kesulitan butir-butir dan kesempatan tes (misalnya memulai atau mengakhiri tahun ajaran sekolah), generalisabilitas dari suatu pengukuran tertentu diambil pada tahun ajaran sekolah dalam suatu sampel butir yang mungkin sulit dikompromikan.

7. Studi-studi generalisabilitas (studi G): Studi generalisabilitas (studi G) dilakukan untuk menginvestigasi hubungan antara sekor amatan dan sekor populasi. Mereka didesain untuk memberikan informasi menyangkut sumber-sumber variabilitas (misalnya segi-segi populasi) yang mempengaruhi generalisabilitas pengamatan. Sebab dependabilitas suatu pengukuran menyandarkan pada tujuannya (dengan demikian populasi pengamatan yang dapat dierima dimaksudkan untuk mewakili), studi G lainnya mungkin memiliki kebutuhan yang berbeda bergantung pada aplikasi pengukuran yang diajukan. Alternatifnya, studi G tunggal harus mengantisipasi manfaat ganda pengukuran untuk memberikan informasi sebanyak-banyaknya mengenai sumber-sumber potensial penting dari variasi. Dalam contoh di atas, tentang butir-butir aritmatik yang memiliki aneka kesulitan merupakan pilihan jelas suatu segi yang diuji dalam suatu studi G. Lebih lanjut, pengambil keputusan mungkin berminat apakah kesempatan pengukuran yang berbeda, berdasarkan pada format responsi yang berbeda, mode-mode presentasi yang berbeda, dan seterusnya, menghasilkan pengamatan yang berbeda. Untuk menguji isu-isu ini, suatu populasi harus didefinisikan lebih luas yang mencakup butir-butir kesulitan yang berbeda, format responsi, mode presentasi, dan perbedaan kesempatan yang diambil. Dengan populasi multi-faset, suatu studi G harus didesain untuk menginvestigasi kontribusi segi-segi ini dan interaksinya pada seluruh varians dalam pengamatan.

8. Studi-studi D: Studi-studi G didesain untuk menilai (mengases) dependabilitas teknik pengukuran tertentu. Sebaliknya studi D didesain untuk meng-gather data berdasarkan pada keputusan individual yang dibuat. Studi-studi D menyandarkan pada bukti-bukti yang diturunkan oleh studi-studi G untuk mendesain pengukuran dependable bagi suatu keputusan tertentu dan satu set segi tertentu yang mana seorang pengambil keputusan melakukan generalisasi. Tujuan mendesain pengukuran adalah jumlah contoh sampel yang cukup dari segi-segi yang berbeda tentang populasi pengamatan untuk menghasilkan estimasi dependable yang cukup dari sekor populasi mana pengukuran dimaksudkan mewakili.

Bacaan yang bermanfaat

Allen, Mary J. & Yan, Wendy M. (1979). Introduction to measurement theory. Monterey, California: Brooks/Cole Publishing Company.

Cronbach, L.J., Gleser, G.C., Nanada, H., & Rajaratnam, N. (1972). The dependability of behavioral measurement: Theory of generalizability for scores and profiles. New York: Wiley.

Boodoo. (2001). Bayesian procedures and generalizability theory. Gwynpres.mislevyclass.doc.

Hays, W.L. (Ed.). (1973). Statistics for the social sciences. San Francisco: Holt, Rinehart & Winston.

Hogge, James. (…). Linking generalizability theory and social judgment theory. Lgtsjt.htm.

Matt, George E. (2002). Generalizability theory.htm. gmatt@sciences.sdsu.edu.

Nugent, William R. (…). An introduction to generalizability theory. NUGENT@swk.gw.utk.edu. Tennessee.

Williams, Daniel R. & Patterson, Michael E. (1992). The use of generalizability theory in leisure research. Virginia: Departement of Forestry, Polytechnic Institute and State University.

KUMPULAN MAKALAH

Senin, 04 Mei 2009

I

II

III

IV

Bacaan yang bermanfaat

Tidak ada komentar:

Arsip Blog

Mengenai Saya