Makine Öğrenmesi — Genel Bakış #1

Ufuk Çolak
5 min readApr 24, 2021

--

Merhaba! Bu yazı dizisini, veriye ilgi duyan, öğrenmeye meraklı ve konuyla ilgili bilgisi olan veya olmayan herkes için yayınlıyorum.

Uzun zamandır zor bir dönemden geçiyoruz ve umarım bu yazıyı okurken kendinizi çok iyi hissediyorsunuzdur.

Makine öğrenmesi serisi giriş yazısında veriye dair bilgiler, makine öğrenmesi kullanım alanı ve sık kullanılan kavramlar yer almaktadır.

Günümüz dünyasında herkesin kulak aşinalığının olduğu “VERİ” neden önemli? Veri ile 3 önemli soru cevaplayabiliyoruz. Geçmişte ne oldu, gelecekte ne olacağını tahmin ediyorum ve her şeyi daha iyi hale nasıl getirebilirim.

What Happened? — Descriptive Analytics

What will happen? — Predictive Analytics

How do we make it happen? — Prescriptive Analytics

Veri yeni bir şey değil aslında. Verinin işlenmesi M.Ö 20000 — M.Ö 18000 yıllarına dayanmaktadır. Yapılan araştırmalarda verinin işlendiğine kanıt olarak öne sürülen İşango Kemiğinin üzerindeki her bir çentik sayıları gösteriyor. Ölçümler yapılarak bu kemik üzerine işleniyor ve veri toplanıyor.

Çentikli kemikler ticari aktiviteleri izlemek için, topluluktaki gıda düzeyini ölçmek için, basit hesaplamalar yapmak için kullanılmış olabileceği tahmin edilmektedir (Morris, 2016).

İşango Kemiği

İnsanoğlu hemen hemen düşünmeye başladığı andan itibaren veri toplamaya başlıyor. Verinin büyük veri olmaya başlaması da son 10–15 yıla denk geliyor.

Eminim hepiniz aşağıdaki gibi bir görsele denk gelmişsinizdir.

1 dakika içinde internette neler oluyor?

- Whatsapp’ta 42 milyona yakın mesaj paylaşılıyor, Instagram’da 350 bine yakın post paylaşılıyor, son zamanlarda eminim herkesin kullandığı Netflix’te yaklaşık 400 bin saat video izleniyor.

Günümüzde verinin büyümesini

  • Hacim
  • Hız
  • Çeşitlilik

gibi 3 parametrede düşünebiliriz.

Eskiden veri dediğimizde akla sadece sayılar geliyordu ancak şimdi ses ve görüntüler de geldi.

Örneğin, artık bazı çağrı merkezi sistemlerinde müşterilerin sesleri analiz edilerek sinirlilik endeksi hesaplanmaktadır. Bu endeks kullanılarak müşterilerin konuşmadan memnun mu yoksa memnun olmadan mı ayrıldığı ölçülmektedir.

Veya çeşitli yerlerde kameralar aracılığı ile görüntülerimiz alınıyor. Örnek olarak Çin’de yüz tanıma yapılarak vatandaşlar puanlama sistemine tabi tutuluyorlar.

Veya metin verisi var, örneğin çoğumuzun sahip olduğu ve ücretsiz olarak bildiği Gmail hesabı var. Ancak hepimiz bu ücretsiz hizmetin karşılığında verilerimizi paylaşıyoruz. Herhangi bir yazışma yaptığımızda verimiz taranıyor ve birkaç gün hatta saat içinde karşımıza reklam olarak çıkıyor.

Giderek sayısı artan bu verilerin de hem matematiksel hem de istatistiksel olarak bir şekilde anlamlandırılması lazım. Bizler bu işi elimize kalem kağıt alıp veriyi derinlemesine inceleyerek yapabilir miyiz? Elbette. Fakat bu iş sizin de tahmin edeceğiniz gibi saatler, günler hatta verinin büyüklüğüne göre aylar bile alabilir. İşte bu noktada bütün bu işleri bizim yerimize saniyeler içerisinde gerçekleştiren makineler devreye giriyor.

Peki bunu nasıl gerçekleştiriyorlar?

Aslında bu durumu çok basit bir şekilde ele alabiliriz.

Makine öğrenmesini de tıpkı bir insan hayatı gibi düşünebiliriz. Nasıl ki doğduğumuz andan itibaren hiçbir şeyi bilmiyor ve tanımıyorken zamanla yeni bilgiler öğrenip daha sonraki bilgileri bu öğrendiklerimiz sayesinde türetebiliyorsak işte makine öğrenmesi de aynen bunu yapıyor. Matematiksel ve istatistiksel yöntemler kullanarak mevcut bilgilerinden -ki biz buna veri diyoruz- çıkarım yaparak yeni bilgiler türetir, tahminler.

Zamanla bunu nasıl yaptığını, hangi algoritmaları kullandığını ele alıyor olacağım. Gelin şimdi makine öğrenmesinin gerçek hayatta nerede karşımıza çıktığına bakalım.

  • Chatbotlar ve kişisel asistanlar (doğal dil işleme vs.)
  • Facebook’a fotoğraf eklediğinde Facebook’un etiketleme önerisi (Arka tarafta bulunan fotoğrafları kullanarak Derin Öğrenme uygulaması)
  • Netflix, Amazon ve E-ticaret tavsiyeleri
  • Spam Engelleme çalışmaları (Sınıflandırmaya göre algoritma karar veriyor)
  • Cümle tamamlama ve Smile tamamlama
  • Sahtekarlık Önleme çalışmaları (Fraud Prevention)
  • Kredi Başvurusu Değerlendirme (Karar Destek Sistemleri)

Artık hayatımızın hemen hemen her alanında olan makine öğrenmesi konusunda gerçek bir örnek verelim. Pazarlama dünyası geçtiğimiz yıl bu alana 120 milyar dolarlık yatırım yaptı. Burada iz bırakılan her şey analiz edildi. Yüz tanımadan ses dosyalarına.. İnsanların özgür olduğunu düşündüğü sosyal medyadaki en ufak iz bile bu algoritmalar kullanılarak analiz edildi.

Gelelim Makine Öğrenmesinde sık kullanılan kavramlara..

Bağımlı Değişkenler: Makine öğrenmesi probleminde tahmin etmek için hedeflediğimiz ana değişkenimizdir.

Örneğin; müşterinin kredi ödeyip ödeyemeyeceğini tahmin etmek

Bağımsız Değişkenler: Bağımlı değişkeni oluşturduğunu varsaydığımız, bağımlı değişkenler dışında kalan diğer değişkenlerdir.

Öğrenme Türleri

Denetimli (Gözetimli) Öğrenme: Bağımlı değişken ve bağımlı değişkeni meydana getiren bağımsız değişkenler bir arada ise bu duruma denir.

Örneğin; “son 100 yıla göre şehirlerin nüfuslarını içeren bir küme sağlayıp dört yıl sonra belirli bir şehrin nüfusunun ne olacağını öğrenmek istediğinizi varsayalım. Sonuç, veri kümelerinde mevcut olan etiketleri kullanır: nüfus, şehir ve yıl.”

Denetimsiz (Gözetimsiz) Öğrenme: Bağımlı değişkenin çalışma içinde olmadığı öğrenme türüdür. Sadece gözlem birimlerinden oluşur. Amaç, gözlem birimlerini birbirine benzer özelliklerine göre bir araya getirmektir.

Örneğin; “müşteri verilerini sağlayıp benzer ürünlerden hoşlanan müşterilerin segmentlerini oluşturmak istediğinizi varsayalım. Sağladığınız veriler etiketlenmez ve sonuçtaki etiketler, veri noktalarında keşfedilen benzerlikler temel alınarak oluşturulur.”

Problem Türleri

Regresyon: Bağımlı değişken sayısal / sürekli bir değişken ise bu bir regresyon problemidir. Doğrusal ilişkiyi ifade etmektedir. Fonksiyonel bir ifadedir.

Sınıflandırma: Bağımlı değişken kategorik bir değişken ise bu bir sınıflandırma problemidir (Binary dediğimiz ikili bir sınıflandırma ile ifade edilir). Bir ortalaması, standart sapması hesaplanamaz.

Bir sonraki yazıda modelleme yaklaşımlarınında görüşmek üzere…

--

--

Ufuk Çolak
Ufuk Çolak

Written by Ufuk Çolak

Yapi Kredi Bank — Credit Risk Management

Responses (1)