Cohen'in kappa katsayısı

Cohen'in kappa katsayısı iki değerleyici arasındaki karşılaştırmalı uyuşmanın güvenirliğini ölçen bir istatistik yöntemidir.[1] Cohen'in kappa ölçüsü her biri N tane maddeyi C tane birbirinden karşılıklı hariç olan kategoriye ayıran iki değerleyicinin arasında bulunan uyuşmayı ölçer. Ortaya çıkan kategorik değişken olduğu için bir parametrik olmayan istatistik türüdür. Cohen'in kappa ölçüsü bu uyuşmanın bir şans eseri olabileceğini de ele aldığı için basit yüzde orantı olarak bulunan uyuşmadan daha güçlü bir sonuç verdiği kabul edilir.

Ancak Cohen'in kappa ölçüsü sadece iki tane değerleyiciyi ele alır. Eğer değerleyici sayısı ikiden çoksa Fleiss'in Kappa'ya benzer Fleiss'in kappa katsayısı kullanılmalıdır.[2]

Eğer Pr(a) iki değerleyici için gözümlenen uyuşmaların toplama orantısı ise ve Pr(e) ise bu uyuşmanin şans eseri ortaya çıkma olasılığı ise, Cohen'in kappa katsayısı bulunması için kullanılacak formül şu olur:

 

Kappa için şu değerler hemen yorumlanır:

  • κ=1 : İki değerleyici tümüyle birbirine uyuşmaktadırlar.
  • κ=0 : İki değerleyici için uyuşma sadece şansa ile belirlenmiştir ve diğer hallerde hiçbir uyuşma yoktur.

Örnek problem

değiştir

İşletmeler yatırım yapmak için proje kredisi almak için bir bankaya başvurdukları zaman işletme yetkilileri tarafından hazırlanan proje iki değerleyici tarafından incelenip değerlendirilmektedir. Her değerleyici bir proje için ya "Kabul" veya "Ret" olarak değerleme sağlamaktadır. 50 tane projenin bu iki değerleyici tarafından incelenmesi sonunda elde edilen sonuçlar değerleyici A için satırlarda ve değerleyici B için sütunlarda verilmiş olarak şu tabloda gösterilir:

Kabul Ret
Kabul 20 5
Ret 10 15

Veri olarak alinan 50 proje basvurusunun 20si hem A hem de B değerlendirici tarafından "Kabul" edilmesi tavsiye edilmiştir ve 15 proje basvurusu hem A hem de B tarafından ret edilmesi tavsiye edilmiştir. Boylece her iki dergerleyicinin uzerinde anlastiklari proje basvuru sayisi (20+15=)35 olur ve boylece gozlenen anlasma orantisi Pr(a)=(20+15)/50 = 0,70 olur.

Rastgele olarak anlaşma olasılığını, yani Pr(e) değerini, bulmak için şunlari ele alırız:

  • Değerleyici A 25 başvuru için "Kabul" ve 25 basvuru için "Ret" değerlemesi yapmıştır. Böylece değerleyici A %50 defa "'Kabul değerlemesi yapmıştır.
  • Değerleyici B 30 başvuru için "Kabul" ve 20 basvuru icin "Ret" degerlendirmesi yapmıştır. Boylece değerleyici B %60 defa "'Kabul değerlemesi yapmıştır.

Bundan dolayı her iki degerleyicinin rastgele olarak Kabul" degerlendirmesi yapma olasiligi 0,50 * 0,60 = 0,30 olur ve her iki değerleyicinin rastgele olarak Ret değerlendirmesi yapma olasılığı ise 0,50 * 0.40 = 0,20 olarak bulunur. Tümüyle rastgele anlaşma olasılığı bu nedenle Pr("e") = 0,30 + 0,20 = 0,50 olur.

Bunlar Cohen'in Kappa katsayisi formulune konulursa su sonuc elde edilir:

 

Celişkili sonuçlar

değiştir

Cohen'in Kappa katsayısının en büyük tenkiti bazen sezi ile beklenenden değişik sonuçlar vermesidir.[3] Örneğin, aşağıda verilen iki örnek veriye göre değerleyici A ile değerleyici B arasında eşit anlaşma olması beklenmektedir (çünkü her iki örnekte de 100 başvurudan 60'ında anlaşma vardır.) Cohen'in Kappa katsayısının bunu yansıtması beklenir. Hâlbuki her iki örnek için Cohen'in Kappa katsayısı hesaplanırsa şu beklenmedik sonuçlar bulunur:

Kabul Ret
Kabul 45 15
Ret 25 15

 

Kabul Ret
Kabul 25 35
Ret 5 35

 

Cohen'in kappa katsayılarına göre, birinci örneğe nazaran, ikinci örnekte A ile B daha benzer birbirleriyle anlaşır şekilde değerlendirme yapmışlardır.

Sonuç yorumlaması

değiştir

Landis ve Koch (1977)[4] elde edilen   değerlerini yorumlamak için şu tabloyu sunmuşlardır.

  Yorum
< 0 Hiç uyuşma olmamasi
0.0 — 0.20 Önemsiz uyuşma olması
0.21 — 0.40 Orta derecede uyuşma olması
0.41 — 0.60 Ekseriyetle uyuşma olması
0.61 — 0.80 Önemli derecede uyuşma olması
0.81 — 1.00 Neredeyse mükemmel uyuşma olması

Ancak bu tabloda verilen yorumlar ve hatta verilen aralıklar hakkında istatistikçiler arasında anlaşmazlık vardır. Landis ve Koch yazılarında verdikleri aralıklar ve yorumlar için teorik delil vermemişlerdir ve bu ifadeler ancak birer şahsi inanç olarak kabul edilebilir. Bazı istatistikçilere göre bu aralıklar ve yorumlar araştırmacılara zararlı olabilir.[5] .[6] Bu aralıklar ve yorumlar araştırıcılara Kappa değerinin değişken kategori sayısından da (yani Cden) etkilendiği gerçeğini unutturabilir. Bilinmektedir ki kategori sayısı ne kadar küçük olursa kappa değeri de büyük olmaktadır.

Ayrıca bakınız

değiştir

Dipnotlar

değiştir
  1. ^ Jacob Cohen (1960), A coefficient of agreement for nominal scales, Educational and Psychological Measurement Vol.20, No.1, pp.37-46
  2. ^ Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters." Psychological Bulletin, Vol. 76, No. 5 pp. 378--382
  3. ^ Gwet, K. (2010). Handbook of Inter-Rater Reliability (2.Ed.) ISBN 978-0-9708062-2-2 (İngilizce)
  4. ^ Landis, J. R. ve Koch, G. G. (1977) "The measurement of observer agreement for categorical data", Biometrics. Cilt. 33, say. 159-174
  5. ^ Gwet, K. (2001) Statistical Tables for Inter-Rater Agreement. (Gaithersburg : StatAxis Publishing)
  6. ^ Sim, J. and Wright, C. C. (2005) "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements" in Physical Therapy. Cilt. 85, say. 257--268

Dış bağlantılar

değiştir