Rica ederim,
Benim tavsiyem su sekilde olacak, online kaynaklarda daha detayli aciklamalar vardir diye dusunuyorum;
1. Ingilizce
2. Lineer, istatistik ve probability.
3. Scripting dillerinden birisi, R ya da Python.
Bu noktadan sonra Data islemeye baslanabilir. Bunu da "inceleme" , "temizleme" , "isleme" ve "kaydetme" seklinde 4 ana baslikta inceleyebiliriz.
Inceleme icin ( formal adi Data exploration ->
Data exploration - Wikipedia ) Visualization ve data karakteristigi ogrenimini gerekiyor. Patern ve trend yakalama gibi alt dallari var. Ornegin basit bir python pandas data frame .corr() fonksiyonu bile korelasyon analizi icin cok kymetli.
O sebeple devam:
4. Data Inceleme
4.1 Korelasyon ve trend analizi
4.2 Visualization
4.3 Patern incelemesi
5. Data Temizleme
5.1 SQL -> artik bu noktada datayi cekip process icin hazirlayacaksin. RDBMS kullanmasan bile SQL bilmelisin, hatta epey iyi bilmelisin, en iyi data optimize etme yontemlerinden birisi direkt sorgu sirasinda dogru seyi yapmaktir.
5.2 Feature elimination & enumeration.
5.3 Normalizasyon teknikleri. ( Pek cok regresyon icin daha iyi sonuc almani saglayacak )
6. Processing
6.1 Data Wrangling (
Data wrangling - Wikipedia )
6.2 Lambda transformation
6.3 Cloud cozumler -> Bu noktada cloud sistemleri ogrenmen yerinde olur. Kimse tum datayi tekil cihazda transform etmez, lambda fonksiyonunu Azure, AWS, Airflow vs kullanarak transform edersin.
6.4 Feature Selection | Reduction -> Seni ilgilendirmedigini dusundugun feature azaltilmasi ya da tek baslikta toparlanmasi.
6.5 Dimension Reduction
6.6 Modelleme -> Process ettigin datayi hangi model ile reprezente edip tahminleyecegini bilmen gerekiyor. Amaca ve dataya gore degiskenlik gosterecek.
7. Post-processing
7.1 Model performansi, hem dogruluk hem execution
7.2 Model validasyonu; modellemeler sistemin ihtiyacina cevap veriyor mu vs analizi
8. ETL cycle'i. Artik Extract edebiliyor, amaca gore transform edebiliyor ve sonuclari gereksinime gore Load edebiliyor olman gerekiyor. Bunu da Airflow DAG yapisi gibi scheduled islerle otomatize edersin.
9. Devops, Deployment. Artik modeli deploy edip gelistirmeye devam edecek audit'lere gore.
Pek cok teknolojinin ismini soylemedim, PowerBI ya da Tableau gibi. Bunlarla calisirken karsilasacaksin. Zaten ayni isi yapan farkli teknolojileri ogrenmek birini ogrenince epey kolaylasacak.
Benim roadmap'im bir data'nin yolculugu ile ayni sey cunku bence yapacagin sira ile ogrenip yaptikca ogrenmeye devam etmek en mantiklisi 1-2 ve 3'ten sonra.