Değerleyici güvenebilirliği

Değerleyici güvenebilirliği, değerleyiciler arasında uyuşma veya konkordans değerleyiciler arasında bulunan uyuşma derecesini ölçmek amacı ile kullanılan istatistiksel yöntemleri kapsar.^[1]

Bu yöntemlerin amacı yargı mevkiinde olan kişilerin yaptığı sayısal veya sayısala dönüştürülebilir değerlendirmelerde ne kadar hemfikir veya türdeş olduklarına bir sayısal değer bulmaktır. Özellikle aynı konuyu veya konumu değerlendiren insancıl değerleyicileri bu çeşit yargıya varma yeteneklerini geliştirmek ve değerlemelerinin daha da adilane olmasını sağlamak için bu yöntemler çok kullanışlıdır. Eğer belli bir değişkene göre yapılan değerlemelerde uyuşma yoksa ya kullanılan değişken veya seçim yapılabilecek kategoriler listesinde bazı eksiklikler veya hatalar vardır ya da değerleyicilerin yargılarında uyuşmayı iyileştirmek için yeniden veya daha fazla eğitim sağlamak gereği ortaya çıkar.

Değerleyiciler arasındaki uyuşmanın ölçülmesi için kullanılan birkaç istatistiksel yöntem bulunmaktadır. Değişik istatistiksel ölçüler değişik tipte ölçülme ölçeğindeki değiskenlerle ilişkilidir. Bazı seçilebilecek istatistiksel ölçüler şunlardır: uyuşma için ortak-olasılık, kappa katsayıları, değerleyiciler arası korelasyon katsayıları, konkordans korelasyon katsayısı ve sınıf içi korelasyon katsayısı.

Uyuşma için ortak olasılık

Uyuşma için ortak olasılık genellikle en basit ve bu nedenle güçlü ölçme sağlar. Bu ölçüyü hesaplamak için her sayısal değerleme kategorisi, yani değerleme puanı, için (örneğin 1, 2,.. 5) her değerleyicinin vermiş olduğu sayı o değerleme kategorisi için verilmiş olan toplam sayısı ile bölunüur. Bu ölçü verilerin tam olarak isimsel ölçekli olduğunu varsaymaktadır. Değerleyiciler arası uyuşmanın yalnızca rastgeleliğe bağlı olma ihtimalini de hesaba katmamaktadır.

Kappa istatistikleri

Kappa, derecelendirmelerin tesadüfen ne sıklıkta aynı fikirde olabileceğini düzelterek, anlaşmayı veya güvenilirliği ölçmenin bir yoludur.

İki değerleyici problemine için uygun olan Cohen'in kappa katsayısı^[2] ve bunun değişmiyen sabit çok sayıda değerleyici problemlerine adaptasyonu olan Fleiss'in kappa katsayısı^[3] uyuşma için ortak olasılık ölçüsünden daha uygun sonuç verdiği kabul edilir; çünkü değerleyici uyuşmasının sırf rastgelelik dolayısı ile ortaya çıkması da kappa ölçülerine içeriktir. Ancak kappa olçüleri de, yine uyuşma için ortak olasılık ölçüsü gibi verilerin isimsel ölçekli yani kategori puanlarının arasında hiç doğal olarak sırasallık bulunmadığını varsaymaktadırlar. Hâlbuki pratikte birçok değerlendirme için kabul edilen kategoriler ve verilen puanlar sırasal ölçeklidirler.

Korelasyon katsayıları

Pearson'un çarpım-moment korelasyon katsayısı $r$ veya Spearman'in sıralama korelasyon katsayısı $\rho$ veya Kendall'ın sıralama korelasyon katsayısı $\tau$ değerleyicileri ikişer ikişer alarak değerlendirme puanları arasındaki doğrusal ilişkiyi bir korelasyon katsayısı olarak bulurlar. Her üç korelasyon katsayısı da -1 ile +1 arasında değişmekte ve eğer iki değerleyici arasında uyuşma varsa +1 yakın olması gerekmektedir. Pearson'un $r$ 'si için elemanlar verilen puanların (veya seçilen kategori sayılarının) aralıklı ölçekli veya orantılı ölçekli yani niceliksel olmaları gerekmektedir.

Pearson'un $r$ bu türlü ölçekli olduğu kabul edildiği gibi, genel olarak daha fazla çıkartımsal istatistik kullanılacaksa (örneğin $r$ için bir guvenilme araligi kurulacaksa), bu verilerin bir normal dağılım gösteren bir anakütleden geldiği varsayımı olduğu da kabul edilir. Hâlbuki Spearman'ın $\rho$ 'su ve Kendall'ın $\tau$ 'sı içinse puanların (veya seçilen kategori sayılarının) sırasal ölçekli olduğu varsayılır. Bu türlü korelasyon katsayıları parametrik olmayan istatistik veya dağılım gösteremeyen istatistik olarak kabul edilmektedir.

Dikkat edilirse bu üç değişik korelasyon katsayısı ( $r$ , $\rho$ ve $\tau$ ) değerleyicileri çift çift karşılaştırmaktadır. Mümkün olan bütün çifter karşılaştırmalar hep birlikte bir korelasyon matrisi halinde ifade edilebilir. Bu korelasyon matrisi çapraza göre simetrik olduğundan yalnız bir üst üçgen veya alt üçgen şekilde gösterebilinir. Ama yine de çok sayıda değerleyici olduğu hallerde bu korelasyon matrisi tum uyuşmayı gösteremez.

Eğer ikiden daha çok sayıda değerleyici varsa ve bu çoklu sayıda değerleyici için tek bir konkordans katsayısı bulunmak istenirse bu halde Kendall'in konkordans katsayısı $W$ bulunabilir.^[4] Kendall'in $W$ katsayısı için değişme aralığı 0 (hiç uyuşma olmaması) ile 1 (tam olarak uyuşma olması) olur. Kendall'in $W$ katsayısı parametrik olmayan istatistik olduğu için, özellikle verilerin normal dağılım gösterdiği varsayılan Pearson'un çarpım-momenti korelasyon katsayısı $r$ kiyasla, daha güçlü olduğu kabul edilir.

Sınıf-içi korelasyon katsayısı

Değerleyici güvenebilirliğinin sınanması için bir diğer yöntem de sınıf-içi korelasyon katsayısı hesaplanmasıdır.^[5] Bu katsayı hesaplanması için birkaç değişik formül bulunmaktadır. Bir özel şekildeki formül

bir gözlemin varyansı ile gerçek puanlamanın gözümlenen elamanlar arasındaki değişkenliği ile orantısı

olarak tanımlanmaktadır.^[6]

Bu şekil sınıf-içi korelasyon katsayısı 0.0 ve 1.0 değerleri arasında değişebilmektedir. (Daha önce popüler olarak kullanılan bir diğer şekilde hesaplanan katsayı için değişme aralığı -1 ile +1 olur). Her gözümlenen elamana değerleyiciler tarafından verilen değerleme puanları arasında çok az değişkenlik varsa (yani bütün değerleyiciler ya aynı ya da çok yakın değerleme puanı vermişlerse, sınıf-içi korelasyon katsayısı değeri yüksek (yani '+1'e yakın) olacaktır. Sınıf-içi korelasyon katsayısı hem değerleyiciler arasındaki korelasyonu ve hem de her bir eleman tabakasının değişik değerlendirilmesi ihtimalini de göz önüne aldığı için Pearson'un $r$ , Spearman'ın $\rho$ ve Kendall'ın $\tau$ korelasyon katsayılarından daha ayrıntılı ve uygun sonuç verdiği kabul edilebilir.

Uyuşma için limit

Bland-Altman gösterimi

Sadece iki degerleyici bulunduğu hallerde bir diğer degerleyici uyusmasini analiz iki degerleyici arasında bulunan farkları bulup bu farkların ortalamasını almaktır. Bu degerleme farklarının standart sapmasi da bulunarak anakutle ortalama farkları için bir guven araligi kurmak da mumkun olur. Eger iki degerleyici genellikle uyusmakta iseler ortalama sifira yakın olacaktir. Eger bir degerleyici surekli olarak diğerinden degismeyen sekilde devamli fark gösteriyorsa, ortalama sifirdan uzak olacaktir ama guven araligi dar olacaktir. Eger iki degerleyici birbiri ile uyusamuyor ise ama bu uyusmama bir tutarli sekilde degil de gayet rastgele oluyorsa, o zaman ortalama sifir yakınında olabilir ama guven araligi genis olacaktir.

Bland ve Altman^[7] bu aciklamayi bir ozel gösterim ortaya cikarak daha da genisletmisler. Bu gösterimde her bir eleman için degerleme farkları gösterilmektedir. Yatay eksen her bir degerlenen eleman dikey eksende iki degerleyicinin arasındaki degerleme puan farki gösterilir; boylece gösterimin içinde her bir eleman için bir nokta bulkunacaktir. Farkların ortalaması bir yatay eksen paralel doğru ortaya cikartir ve bunun üstünde ust guven limiti ve altında alat guven limit cizilir.

Bland-Altman gösterimi bu grafik içinde gösterilen noktaların bu ortalama etrafında ve guven limitlerine gore nasil bir gorunum gösterdiğini incelemeye yardim eder. Anack bu arastirma cok defe subjektif goruse baglidir. Uyusma olmasi bu nokataların ortalama etrafında ve guven araligi içinde rastgele dagilmasi ile anlasilir. Aralik disina cikan dislak noktalar olup olmadığı, bir belli grup elaman için belli bir turlu fark olmamasi gibi olagandisi gorunuslerinde olup olmadığı arastirilabilir.

Kaynakça

^ Gwet,K. (2001) Handbook of Inter-Rater Reliability, (Gaithersburg : StatAxis Publishing) ISBN 0-9708062-0-5
^ Cohen, J. (1960) "A coefficient for agreement for nominal scales" in Education and Psychological Measurement. Cilt 20, say. 37-46
^ Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters" in Psychological Bulletin. Cilt 76, Sayı 5, say. 378-382
^ Kendall,M.G.; Babington Smith, B. (Sep 1939). "The Problem of m Rankings". The Annals of Mathematical Statistics Cilt 10 sayı 3) say. 275-287
^ Shrout,P. ve Fleiss,J.L. (1979) "Intraclass correlation: uses in assessing rater reliability" in Psychological Bulletin. Cilt 86, Sayı 2, say. 420-428
^ Everitt, B. (1996) Making Sense of Statistics in Psychology (Oxford : Oxford University Press) ISBN 0-19-852366-1
^ Bland,J.M. ve Altman,D.G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i, pp. 307--310.

Dışsal kaynaklar

[1] Gwet,K. (2001) Handbook of Inter-Rater Reliability, (Gaithersburg : StatAxis Publishing) ISBN 0-9708062-0-5

[2] Cohen, J. (1960) "A coefficient for agreement for nominal scales" in Education and Psychological Measurement. Cilt 20, say. 37-46

[3] Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters" in Psychological Bulletin. Cilt 76, Sayı 5, say. 378-382

[4] Kendall,M.G.; Babington Smith, B. (Sep 1939). "The Problem of m Rankings". The Annals of Mathematical Statistics Cilt 10 sayı 3) say. 275-287

[5] Shrout,P. ve Fleiss,J.L. (1979) "Intraclass correlation: uses in assessing rater reliability" in Psychological Bulletin. Cilt 86, Sayı 2, say. 420-428

[6] Everitt, B. (1996) Making Sense of Statistics in Psychology (Oxford : Oxford University Press) ISBN 0-19-852366-1

[7] Bland,J.M. ve Altman,D.G. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i, pp. 307--310.

[1]

[2]

[3]

[4]

[5]

[6]

[7]