Hello to everyone! In my previous article, we examined the data preprocessing of machine learning models. In this article, we will examine missing data analysis and data transformation methods.

Missing Data Analysis

It refers to the lack of observations in the examined data set. Data may have missing values for many reasons, such as observations that were not recorded and data corruption. Real-world data also often have missing values. Since many machine learning algorithms do not support data with missing values, it is critical to process the missing data before the modeling step. Lines with missing data in the processing steps can be…


Herkese merhaba! Bir önceki yazımda makine öğrenmesi modellerinde veri ön işleme adımlarını incelemeye başlamıştık. Bu yazıda eksik veri ve veri dönüşüm metotlarını inceleyeceğiz.

Eksik Veri Analizi (Missing Data Analysis)

İncelenen veri setindeki gözlemlerde eksiklik olması durumunu ifade etmektedir. Veriler, kaydedilmemiş gözlemler ve veri bozulması gibi çeşitli nedenlerle eksik değerlere sahip olabilir. Gerçek dünya verileri de genellikle eksik değerlere sahiptir. Bu noktada birçok makine öğrenmesi algoritması eksik değerlere sahip verileri desteklemediğinden, modelleme adımından önce eksik verilerin işlenmesi oldukça önemlidir. İşleme adımlarında eksik veri içeren satırlar komple silinebilir veya doldurulabilir. Tabi bu çözümlerin yol açtığı bazı durumlar ortaya çıkabilir.


Hello to everyone! In my previous article, we examined the bias and variance relationship of machine learning models. In this article, we will examine data preprocessing.

Data Preprocessing

It is one of the most crucial steps in machine learning models. Data cleaning, transformation, and modeling steps are a large part of our work. Data collected from multiple sources exist in unorganized form. This situation affects the prediction performance of models. Therefore, raw data must be modified before training, evaluating, and using machine learning models.

In this article, we will be reviewing the following items.

  • Importance of Data Cleaning Processes
  • Scattered Data
  • Outlier…


Herkese merhaba! Bir önceki yazımda makine öğrenmesi modellerinde yanlılık ve varyans ilişkisini incelemiştik. Bu yazıda veri ön işleme adımlarını inceleyeceğiz.

Veri Ön İşleme (Data Preprocessing)

Makine öğrenmesi modellerini kurma aşamasında olmazsa olmaz en önemli adımlardan biridir. Veriyi temizleme, dönüştürme ve modele uygun hale getirme adımları yapacağımız işin büyük bir bölümünü oluşturmaktadır. Birden çok kaynaktan toplanan veriler genellikle organize edilmemiş biçimde bulunurlar. Bu modellerin tahmin performansını etkileyen bir durumdur. Bu nedenle, makine öğrenimi modellerini eğitmeden, değerlendirmeden ve kullanmadan önce ham veriler değiştirilmelidir.

Bu yazıda aşağıdaki maddeleri inceliyor olacağız.

  • Veri Temizleme Süreçlerinin Önemi
  • Dağınık Veriler
  • Aykırı Gözlem Analizi

Önem açısından baktığımızda Veri mi yoksa Model mi sorusuna…


Hello to everyone! In my previous article, I examined the methods we use to evaluate the success of machine learning models. In this article, we will examine the bias and variance relationship.

Bias-Variance Tradeoff

While creating models, we aim to evaluate the prediction success of the model more accurately. We try to achieve this by balancing variance and bias. At the point where we achieve this balance, we fit a good-fit model.

We talked about Overfitting in the previous article. What is overfitting? We fitted our model with the training data of our data set, which we separated as training and testing…


Herkese merhaba! Bir önceki yazımda makine öğrenmesi modellerinin başarılarını değerlendirirken kullandığımız yöntemleri incelemiştik. Bu yazıda yanlılık ve varyans ilişkisini inceleyeceğiz.

Yanlılık ve Varyans İlişkisi (Bias-Variance Tradeoff)

Modelleri oluştururken amacımız modelin tahmin başarısını daha doğru değerlendirmektir. Bunu varyans ve yanlılık (bias) arasında denge kurarak sağlamaya çalışıyoruz. Bu dengeyi sağladığımız noktada iyi uyum (good-fit) yakalamış model kurmuş oluruz.

Daha önceki yazıda Overfitting’den bahsetmiştik. Overfitting ne demekti? Eğitim ve test olarak ayırmış olduğumuz veri setimizin eğitim bölümüyle modelimizi kuruyorduk. Eğer kurmuş olduğumuz modeli fazla optimize edersek, model eğitim setimizi çok iyi öğrenmiş, bir başka deyişle ezberlemiş oluyordu. Daha sonra verinin hiç görmediği yeni bir veri üzerinden tahmin yapmasını istediğimizde…


In my previous article, I made a short introduction to modeling and examined the model validation method. In this article, I am taking a look at the metrics we use when evaluating the success of the established models.

There are two types of problems for machine learning models as Regression and Classification. Let’s look at how metrics are in use to measure the success of these models.

It is one of the error evaluation applications for regression models. When we construct a model, the purpose of this model will be to predict the values of dependent variables. …


Herkese merhaba! Bir önceki yazımda modellemeye kısa bir giriş yapıp model doğrulama yöntemlerini incelemiştik. Bu yazıda kurulan modellerin başarılarını değerlendirirken kullandığımız yöntemlere göz atacağız.

Makine öğrenmesi modelleri için temelde Regresyon ve Sınıflandırma olarak iki tip problem olduğunu varsayabiliriz. Gelin bu modellerin başarılarını ölçmek için nasıl metrikler kullanılıyor onlara bakalım.

Regresyon modelleri için hata değerlendirme uygulamasından biridir. Model kurduğumuzda, bu modelin amacı bağımlı değişkenlerin değerlerini tahmin etmek olacaktır. Tahmin yaparken yaptığımız hataları tespit etmek için aşağıdaki formülü kullanırız.


Herkese merhaba! Bir önceki yazıda Makine Öğrenmesine genel bir giriş yapmıştık. Veriye dair bilgiler, kullanım alanları ve sık kullanılan kavramları incelemiştik. Bu yazıda da sık kullanılan kavramlara devam edeceğiz. Daha sonra model doğrulama yöntemlerini inceleyeceğiz.

Makine Öğrenmesi modellerinin geliştirilmesinde eğitilen modelin yeni veya daha önce karşılaşmadığı veriler üzerinde iyi performans göstermesi arzu edilir. Yeni/karşılaşılmayan verileri simüle etmek için mevcut verilerimizi eğitim ve test veri seti olarak 2’ye ayırıyoruz. …


In the previous article, I had a general introduction to Machine Learning. I examined information about data, usage areas, and frequently used concepts. In this article, I will continue with the frequently used concepts. Then, I will examine the model validation methods.

In the development of machine learning models, the trained model should perform well on new or unseen data. We divide our existing data into 2 as training and test data sets to simulate new/unseen data. …

Ufuk Çolak

Yapi Kredi Bank — Credit Risk Management

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store