Makine Öğrenmesi — Model Başarı Değerlendirme Ölçütleri #3

Ufuk Çolak
5 min readMay 10, 2021

--

Herkese merhaba! Bir önceki yazımda modellemeye kısa bir giriş yapıp model doğrulama yöntemlerini incelemiştik. Bu yazıda kurulan modellerin başarılarını değerlendirirken kullandığımız yöntemlere göz atacağız.

Makine öğrenmesi modelleri için temelde Regresyon ve Sınıflandırma olarak iki tip problem olduğunu varsayabiliriz. Gelin bu modellerin başarılarını ölçmek için nasıl metrikler kullanılıyor onlara bakalım.

Regresyon Modelleri için Başarı Değerlendirme Ölçütleri

Hata Kareler Ortalaması / Mean Squared Error (MSE)

Regresyon modelleri için hata değerlendirme uygulamasından biridir. Model kurduğumuzda, bu modelin amacı bağımlı değişkenlerin değerlerini tahmin etmek olacaktır. Tahmin yaparken yaptığımız hataları tespit etmek için aşağıdaki formülü kullanırız.

Formülü incelediğimizde;

  • n gözlem sayısını
  • y gerçek değerler
  • ŷ ise tahmin edilen değerleri ifade etmektedir.

Y bağımlı değişkenimizin gerçek değerlerinden, bundan tahmin edilen ŷ değerlerini çıkarıp karesini alıyoruz. Burada amacımız yaptığımız hataları tespit etmektir.

Örneğin, bir gözlem birimi için bir evin fiyatının 600 bin TL olduğunu kabul edelim. Kurduğumuz model neticesinde biz bu evin fiyatını 610 bin TL olduğunu düşünelim. Burada bir gözlem birimi için 10 bin TL hata yapmış olacağız. Başka bir tahminde 20 bin, bir başkasında 5 bin hata gözlemleyebiliriz.

Gün sonunda ortalamada ne kadar hata yaptığımızı bulmak için hata kareler ortalaması yöntemini kullanırız.

Hata Kareler Ortalaması Kökü / Root Mean Squared Error (RMSE)

Hata kareler ortalamasının karekök değerini ifade eder.

MSE’de bir evin fiyatı 600 Bin TL iken 610 bin TL tahmin etmiş ve -10 bin TL hata yapmıştık. Burada eksi noktasından kurtulmak için kare aldık.

RMSE’de ise o kare işleminin bedelini geri getirmek için karekökünü alıyoruz.

Mutlak Hata Ortalaması / Mean Absolute Error (MAE)

Bir diğer yöntem ise ortalama mutlak hatayı ifade eder.

Gerçek değerler ile tahmin edilen değerlerin farkı alınıp bunların mutlak değeri alınarak ortalaması hesaplanmaktadır.

Hatalar (artıklar) bizim için çok değerlidir. Çünkü ne kadar başarılı olduğumuzu onlar sayesinde öğreniriz.

Elimizdeki eğitim setinde zaten gerçek değerler var. Biz kurduğumuz model aracılığı ile gerçek değerler üzerinden ev fiyatını tahmin ediyoruz. Gerçek değerler ile tahmin edilen değerleri kıyasladığımızda sapma miktarımızı yani tahmin hatamızın ortalamalarını alarak ortalama hatayı hesaplamış oluruz. Bu şekilde modelin başarısını değerlendirme imkanı buluyoruz.

Sınıflandırma Modelleri için Başarı Değerlendirme Ölçütleri

Sınıflandırma modellerinde başarı ölçütlerini anlamak için yaygın olarak kullanılan bir örnek üzerinden ilerleyelim. Bir mailin spam olup olmama durumunu düşünelim.

Makine öğrenmesi modeli kullandık ve sonuç olarak mailin Spam olup olmaması ile ilgili bir tahmin modelimiz oluştu. Şimdi bu modele soruyoruz; bağımsız değişkenlerin bu değerlerini verdiğimizde sence mail spam mi?

Bu noktada modelin tahmin ettiği ve gerçekleşen değerleri karşılaştırıyoruz.

  • Mail gerçekte spam iken tahmin ettiğimizde de spam dersek buna True Positive (TP) denir
  • Mail gerçekte spam iken tahmin ettiğimizde de spam değil dersek buna False Negative (FN) denir
  • Mail gerçekte spam değil iken tahmin ettiğimizde de spam dersek buna False Positive (FP) denir
  • Mail gerçekte spam değil iken tahmin ettiğimizde de spam değil dersek buna True Negative (TN) denir

Genellikle sınıflandırma problemlerinde modelin başarısını değerlendirmek için Doğruluk Oranını kullanırız. Yani bir diğer deyişle doğru sınıflandırma oranıdır.

Doğruluk (Accuracy): (TP+TN) / Tüm Gözlemler

Örneğimiz için doğruluk oranı: (100+700) /1000 = 80%

Bunun tam tersi hata oranıdır. 1- Doğruluk Oranı bize hata oranını verir.

Hata Oranı (Error Rate): (FN + FP) / Tüm Gözlemler

Kesinlik (Precision): TP / (TP+FP)

Anma (Sensitivity): TP / (TP + FN)

ROC Eğrisi

Sınıflandırma modelleri başarı değerlendirme ölçütlerinden bir diğeri olan ROC Eğrisi ile devam ediyoruz. Doğruluk oranının grafik olarak yorumlanması diye de tanımlayabiliriz.

Şekil incelenecek olursa X ekseninde False Positive Rate ve Y ekseninde True Positive Rate yer almaktadır. False Positive Rate, Confusion Matrix’te yer alan False Positive (FP) gözlemlerin tüm Negative gözlemlere oranını göstermektedir. Aynı şekilde True Positive Rate’i de True Positive (TP) gözlemlerin tüm Positive gözlemlere oranı olarak düşünebiliriz.

False Positive ve True Positive oranı göz önünde bulundurarak, X ve Y ekseninde 0'dan 1e kadar olan değerlerin üzerinde bir eğri oluşturulur. Bu eğrinin altında kalan alana Area Under Curve (AUC) adı verilir. Bu alanın büyük olması modelin başarılı olduğu, küçük olması ise modelin başarısız olduğu anlamına gelir.

Yani diğer bir ifadeyle buradaki sürekli çizgi ne kadar geniş bir alan kaplıyorsa modelin tahmin başarısı o kadar yüksek demektir.

Bu sürekli çizgi ortadaki kesikli çizgiye ne kadar yaklaşıyorsa tahmin başarısı o kadar düşüyor demektir.

Ortadaki kesikli çizgi ise; hiçbir model kurmasaydık ve bütün sınıflara 1 veya 0 deseydik, yani rastgele bu işlemi yapsaydık %50 şansımız, bir diğer deyişle %50 başarımız olacaktı. Mümkün olduğu kadar bu çizgiden mavi eğrinin altındaki alan büyük olacak şekilde modeller oluşturulmaya çalışılır. Daha doğrusu, oluşturulmuş olan modellerin ROC eğrisi grafiği oluşturulduğunda böyle bir şekil ortaya çıkar ve modelimizin başarı ile ilgili bir bilgi verir.

Bir sonraki yazıda Bias-Variance çelişkisini ve Model Performansları arttırmak için neler yapılabileceğini inceleyeceğiz.

--

--