Çözüldü Numpy ve Pandas kayıp veri ne yapılır?

Bu konu çözüldü olarak işaretlenmiştir. Çözülmediğini düşünüyorsanız konuyu rapor edebilirsiniz.

phan metal

Centipat
Katılım
10 Temmuz 2022
Mesajlar
1.199
Çözümler
5
Python:
for i in range(toplam):

    if gender[i] == 'female':
        continue 
    else:
        if gender[i] == 'male':
            continue
        else:
            print(gender[i]);


Merhaba. Yukarıdaki koda için ben bir iki adet tabloda 'nan' değeri gözüken değer ayarladım. Yani Excel'den belirli satırdaki 'gender' bilgilerini boş bıraktım.

Yani cinsiyet ile ilgili veri eksikliği, kayıp bilgi veya tanımsız bilgi diyebilir.

Böyle bir durumda bu 'nan' olarak tanımlı değerleri ne yapmalıyız?

@bitwise, @The Anorak, @Kelebek_1034
 
Çözüm
Regression yapacaksan null olmasi sorun degil.
Datasetin genel dagilimina gore assign edebilirsin zorunluysa. Ya da yuzde 50 random atabilirsin. Null degeri avg a gore populate ederiz bazen gerekiyorsa.
Biraz dataset ve amaca bakiyor ne yapilmasi gerektigi.
Regression yapacaksan null olmasi sorun degil.
Datasetin genel dagilimina gore assign edebilirsin zorunluysa. Ya da yuzde 50 random atabilirsin. Null degeri avg a gore populate ederiz bazen gerekiyorsa.
Biraz dataset ve amaca bakiyor ne yapilmasi gerektigi.
 
Çözüm
Konu cinsiyet gibi az seçenekli ve sözel olunca pek anlamlı işler yapılamayabilir. Random olarak doldurmak, dataset içerisinde oranı daha fazla olan ile aynı yapmak, dataset üzerindeki yoğunluklarına göre direkt olarak satırları silmek gibi seçenekler mevcut.
 
Regression yapacaksan null olmasi sorun degil.
Datasetin genel dagilimina gore assign edebilirsin zorunluysa. Ya da yuzde 50 random atabilirsin. Null degeri avg a gore populate ederiz bazen gerekiyorsa.
Biraz dataset ve amaca bakiyor ne yapilmasi gerektigi.
Regression, train test ise evet onu yapacağım hocam.
Hani yeni veri girdiğin bu kişi ölür mü yaşar mı şeklinde bir şey değil mi dediğiniz?
 
Regression, train test ise evet onu yapacağım hocam.
Hani yeni veri girdiğin bu kişi ölür mü yaşar mı şeklinde bir şey değil mi dediğiniz?

Anladim. Dedigim gibi kisinin cinsiyeti olmesi uzerinde etken ise ( ornegin Titanic Data-setinde cok onemli bir etken, once kadinlar :) ) o halde bunun bilinmemesi dogru tahmin edememene yol acar.

Bu durumda ya random dolduracaksin orayi, ya datasetin cogunluguna gore dolduracaksin ( %70 erkekse cinsiyeti bilinmeyen kisinin de %70 ihtimalle erkek oldugu varsayimi ) ya da korelasyon kurarak dolduracaksin. Ornegin boy uzunlugu ile cinsiyet arasindaki korelasyon uzerinden boyu 1.90 uzerinde olanlari erkek yapmak gibi. Elimizdeki verilere bakarak bilmedigimizi en mantikli sekilde doldurmaya calisiyoruz gunun sonunda.

Pandas'ta yanlis hatirlamiyorsam "DataSet.corr()" fonksiyonu ile basit bir korelasyon kurabiliyorsun feature-set matrisi uzerinde. Yoksa kendin de yazabilirsin square-error mantigiyla.
 
Anladim. Dedigim gibi kisinin cinsiyeti olmesi uzerinde etken ise ( ornegin Titanic Data-setinde cok onemli bir etken, once kadinlar :) ) o halde bunun bilinmemesi dogru tahmin edememene yol acar.

Bu durumda ya random dolduracaksin orayi, ya datasetin cogunluguna gore dolduracaksin ( %70 erkekse cinsiyeti bilinmeyen kisinin de %70 ihtimalle erkek oldugu varsayimi ) ya da korelasyon kurarak dolduracaksin. Ornegin boy uzunlugu ile cinsiyet arasindaki korelasyon uzerinden boyu 1.90 uzerinde olanlari erkek yapmak gibi. Elimizdeki verilere bakarak bilmedigimizi en mantikli sekilde doldurmaya calisiyoruz gunun sonunda.

Pandas'ta yanlis hatirlamiyorsam "DataSet.corr()" fonksiyonu ile basit bir korelasyon kurabiliyorsun feature-set matrisi uzerinde. Yoksa kendin de yazabilirsin square-error mantigiyla.
Ben de Titanic veri setinden çalışıyorum hocam :D. Sağ olun yardımlarınız için.
 

Yeni konular

Geri
Yukarı