4.3 Rahim Ağzı Kanseri (Sınıflandırma)

Rahim ağzı kanseri veriseti, bir kadının rahim ağzı kanserine yakalanma olasılığını hesaplamak için kullanacağımız bazı göstergeleri ve risk faktörlerini içeriyor. Nitelikler arasında demografik veriler (yaş gibi), yaşam tarzı, tıbbi geçmiş gibi bilgiler var. Fernandes, Cardoso, ve Fernandes (2017)16 tarafından açıklanan veriye UCI Machine Learning repository'den erişilebilir.

Kitap için kullanılan, mevcut niteliklerin bir altkümesi şu şekilde:

  • Yaş (yıl)
  • Cinsel partner sayısı
  • İlk cinsel ilişki (yaş)
  • Hamilelik sayısı
  • Sigara kullanımı (evet/hayır)
  • Sigara kullanım süresi (yıl)
  • Hormonal kontraseptifler (evet/hayır)
  • Hormonal kontraseptifler (yıl)
  • Rahim içi aygıt/IUD (evet/hayır)
  • Rahim içi aygıt/IUD kullanım süresi (yıl)
  • Hasta cinsel yoldan bulaşan hastalıklardan (STDs) birine yakalanmış mı? (evet/hayır)
  • STD teşhisi sayısı
  • İlk STD teşhisinden bugüne geçen süre
  • Son STD teşhisinden bugüne geçen süre
  • Biyopsi sonucu (sağlıklı/kanser); hedef nitelik.

Biyopsi, rahim ağzı kanserini teşhis etmede altın standarttır. Kitaptaki örneklerde biyopsi sonucu hedef nitelik olarak kullanıldı. Her sütunda kayıp değerler o sütunda en sık gözlemlenen değerle dolduruldu, ki bu büyük ihtimalle kötü bir çözüm çünkü doğru sonuç verinin kayıp olması olasılığıyla korelasyon içinde olabilir. Aynı zamandad veride bir tür bias olma ihtimali var çünkü sorular özel bilgilerle ilgili. Kitap kayıp veriyi doldurmayla ilgili olmadığından elimizdeki çözüm yeterli olacaktır.

Bu verinin kullanıldığı örnekleri oluşturmak için önişleme R-script'ini ve final RData dosyasını kitabın Github repo'sunda bulabilirsiniz.


  1. Fernandes, Kelwin, Jaime S Cardoso, and Jessica Fernandes. “Transfer learning with partial observability applied to cervical cancer screening.” In Iberian Conference on Pattern Recognition and Image Analysis, 243–50. Springer. (2017).↩︎