Bölüm 3 Yorumlanabilirlik

Yorumlanabilirliği (matematiksel olarak) tanımlamak zordur. Miller'ın (2017)3 sevdiğim (matematiksel olmayan) bir tanımı şu şekilde: Yorumlanabilirlik, bir insanın bir kararın nedenini anlama derecesidir. Bir diğer tanım ise şu: Yorumlanabilirlik, bir insanın bir modelin sonucunu tahmin edebilme derecesidir.4 Bir makine öğrenmesi modelinin yorumlanabilirliği ne kadar yüksekse birisinin belli kararların nasıl alındığını ve belli tahminlerin nasıl yapıldığını anlaması o kadar kolaydır. Bir modelin kararları diğerinden daha kolay anlaşılıyor ise daha iyi yorumlanabiliyor demektir. Kitapta yorumlanabilir ve açıklanabilir kelimeleri birbiri yerine kullanılmıştır. Miller (2017) gibi ben de yorumlanabilirlik/açıklanabilirlik ve açıklama terimleri arasında bir ayrım yapmanın anlamlı olduğunu düşünüyorum. "Açıklama"yı tekil tahminlerin açıklamaları için kullanacağım. İyi bir açıklamanın kriterleri için açıklamalarla ilgili kısmı inceleyebilirsiniz.

Yorumlanabilir makine öğrenmesi, "veride bulunan veya model tarafından öğrenilen ilişkilerle ilgili bilgilerin bir makine öğrenmesi modelinden çıkarılması"5 anlamına gelen kullanışlı ve kapsayıcı bir terimdir.


  1. Miller, Tim. “Explanation in artificial intelligence: Insights from the social sciences.” arXiv Preprint arXiv:1706.07269. (2017).↩︎

  2. Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. “Examples are not enough, learn to criticize! Criticism for interpretability.” Advances in Neural Information Processing Systems (2016).↩︎

  3. Murdoch, W. J., Singh, C., Kumbier, K., Abbasi-Asl, R., & Yu, B. “Definitions, methods, and applications in interpretable machine learning.” Proceedings of the National Academy of Sciences, 116(44), 22071-22080. (2019).↩︎