3.4 Yorumlanabilirliğin Değerlendirilmesi

Makine öğrenmesinde yorumlanabilirliğin ne olduğuyla ilgili bir uzlaşma yok, dolayısıyla nasıl değerlendirilebileceği de kesin değil. Fakat bunlarla ilgili ilerleyen kısımda bahsedeceğimiz başlangıç çalışmaları ve değerlendirmeyi formülize etme girişimleri bulunmakta.

Doshi-Velez ve Kim (2017), yorumlanabilirliğin değerlendirilmesini üç düzeyde inceliyor:

Uygulama düzeyinde değerlendirme (gerçek görevler): Açıklamayı ürüne yerleştir ve kullanıcı tarafından test edilmesini sağla. X-ray'lerdeki kırıkları tespit eden ve bir makine öğrenmesi kısmına sahip olan bir yazılım düşünün. Uygulama sırasında radyologlar modeli değerlendirmek için direkt yazılımı test edebilirler. Bu, iyi hazırlanmış bir deney ortamını ve performansı değerlendirebilmeyi gerektirir. Bu düzey için iyi bir başlangıç noktası, bir insanın aynı tahmini açıklamadaki performansıdır.

İnsan düzeyinde değerlendirme (basit görevler): Uygulama seviyesinde değerlendirmenin basitleştirilmiş halidir. Aradaki fark, testlerin alandaki uzmanlar tarafından değil meslek dışındakiler tarafından yapılmasıdır. Bu, deneylerin daha ucuz olmasını (özellikle uzmanlar radyologlarsa) ve test yapacak daha fazla insan bulmayı sağlar. Buraya uygun bir örnek kullanıcıya farklı açıklamalar sunup ondan en iyisini seçmesini istemek olabilir.

Fonksiyon düzeyinde değerlendirme (vekil görevler): İnsanlara ihtiyaç duymayan deneylerdir. Kullanılan model türünün daha önce bir insan tarafından değerlendirildiği durumlarda daha iyi çalışırlar. Örneğin, ürünü kullanacakların karar ağaçlarına hakim olduklarını düşünelim. Bu durumda açıklama kalitesi için vekil, ağacın derinliği olabilir. Daha kısa ağaçlar daha iyi yorumlanabilir olarak değerlendirilir. Modelin performansının daha uzun ağaçlara göre çok düşük olmaması bir sınır olarak ilave edilmelidir.

Sonraki bölüm tekil tahminler için yapılan açıklamaların fonksiyon düzeyinde değerlendirilmesine odaklanacak. Açıklamaları değerlendirirken ne gibi özelliklere dikkat etmeliyiz?