Anladim. Dedigim gibi kisinin cinsiyeti olmesi uzerinde etken ise ( ornegin Titanic Data-setinde cok onemli bir etken, once kadinlar
) o halde bunun bilinmemesi dogru tahmin edememene yol acar.
Bu durumda ya random dolduracaksin orayi, ya datasetin cogunluguna gore dolduracaksin ( %70 erkekse cinsiyeti bilinmeyen kisinin de %70 ihtimalle erkek oldugu varsayimi ) ya da korelasyon kurarak dolduracaksin. Ornegin boy uzunlugu ile cinsiyet arasindaki korelasyon uzerinden boyu 1.90 uzerinde olanlari erkek yapmak gibi. Elimizdeki verilere bakarak bilmedigimizi en mantikli sekilde doldurmaya calisiyoruz gunun sonunda.
Pandas'ta yanlis hatirlamiyorsam "DataSet.corr()" fonksiyonu ile basit bir korelasyon kurabiliyorsun feature-set matrisi uzerinde. Yoksa kendin de yazabilirsin square-error mantigiyla.