Tarih: 10 Mart 2025 | Hafta 2 | Eğitmen: Enes Fehmi Manan
Veri Bilimi Yaşam Döngüsü & Problem Tanımı
- Business probleminden ML problemine geçiş: ne zaman ML gerekir, ne zaman basit kurallar yeterlidir?
- Target tanımı ve oluşturulması, train-test periyot belirlenmesi
- Veritabanından feature seçimi: domain bilgisi ve regülasyonların rolü
Python Proje Yapısı
- Virtual environment,
requirements.txt, klasör organizasyonu - Production-ready proje iskeletinin kurulması
EDA — Exploratory Data Analysis
- Veriye ilk bakış: shape, veri tipleri, missing value oranları
- Descriptive statistics ve varyasyon katsayısı
- Sürekli ve kategorik değişken dağılımları (Matplotlib & Seaborn)
- Aykırı değer tespiti
- Korelasyon analizi
Veri Hazırlama
- Null değer yönetimi, tip dönüşümleri
- Feature selection
Baseline Model
- Lojistik regresyon ile ilk model kurulumu
- Performans metrikleri (AUC-ROC vb.)
-
data_prp_baseline.ipynb — Oturum eğitim notebook'u. Home Credit Default Risk veri seti üzerinden problem tanımı, EDA, veri hazırlama ve lojistik regresyon baseline modeli adım adım işlenmektedir.
-
credit-risk-model — Oturumda işlenen proje yapısı, data cleaning ve EDA adımlarının uygulandığı ana eğitim reposu. ML tabanlı kredi risk tahmin sistemi üzerinden gerçek bir data science workflow'u incelenmektedir.
-
GitArch — Herhangi bir GitHub reposundan otomatik olarak özet, mimari diyagram ve kod analizi içeren interaktif raporlar üreten araç. Proje yapısını anlamlandırmak için kullanılabilir.
-
Machine Learning Engineering — Andriy Burkov (PDF) — The Hundred-Page Machine Learning Book yazarından kapsamlı bir ML engineering kitabı. Data pipeline'ları, model geliştirme ve production deployment süreçlerini ele almaktadır.





