AI ile ses eğitmek için kaç saatlik dataset gerekli?

Presca

Kilopat
Katılım
20 Ekim 2018
Mesajlar
79
Çözümler
3
Daha fazla  
Cinsiyet
Erkek
Meslek
3D Artist
Arkadaşlar iyi akşamlar. Yapay zeka ile ses eğitimi yapacağım. Daha önce hazır ses modellerini indiriyordum. Açıklamalarında 15-20-30 dakikalık ses kayıtları ile eğitildiğini gördüm. Bende 5 saatlik bir ses dosyası var. Aralarında fark olur mu? Yani neden herkes en fazla 20-30 dakikalık ses dosyası kullanıyor. Ondan sonrası fark yaratmadığı için mi, yoksa çok zaman aldığı için mi? Son olarak Epoch nedir, ne işe yarar diye de sormak istiyorum. Bilen arkadaşlar yardımcı olurlarsa sevinirim.
 
Arkadaşlar iyi akşamlar. Yapay zeka ile ses eğitimi yapacağım. Daha önce hazır ses modellerini indiriyordum. Açıklamalarında 15-20-30 dakikalık ses kayıtları ile eğitildiğini gördüm. Bende 5 saatlik bir ses dosyası var. Aralarında fark olur mu? Yani neden herkes en fazla 20-30 dakikalık ses dosyası kullanıyor. Ondan sonrası fark yaratmadığı için mi, yoksa çok zaman aldığı için mi? Son olarak Epoch nedir, ne işe yarar diye de sormak istiyorum. Bilen arkadaşlar yardımcı olurlarsa sevinirim.
Ondan sonrası woaw diyceğin değişiklik yapmadığı için. Şöyle düşün her dakika başı bir öncekinin yarısı kadar yüzde değişiyor gibi. Örn %100, %50, %25, %12,5, %6,25,%3,125 gibi tabiki bu örnek
 
Yok o is oyle degil, yuzdelik bir durum teoride var ama gercekte konu farkli, duz bir conversation ile oktav genisligi yoksa evet standart training yapilir fakat muzikal bir derinlim ve melodik bir vokal ise o dipsiz kuyu, ayrica train ettirecegin Vokal'de kesinlikle eko ve delay gibi FX'ler olmamali, ham kuru ses olmali ki yankilari da egitil icine etmesin. Ben barry white vokalini yaklasik 20 saatte egittim ama hala eksikleri var.
 
Yok o is oyle degil, yuzdelik bir durum teoride var ama gercekte konu farkli, duz bir conversation ile oktav genisligi yoksa evet standart training yapilir fakat muzikal bir derinlim ve melodik bir vokal ise o dipsiz kuyu, ayrica train ettirecegin Vokal'de kesinlikle eko ve delay gibi FX'ler olmamali, ham kuru ses olmali ki yankilari da egitil icine etmesin. Ben barry white vokalini yaklasik 20 saatte egittim ama hala eksikleri var.
Müzikal bir ses eğitimi yapmayacağım. Kendi konuşmamın 5 saatlik temiz ses kaydını aldım. Bunu robotik ses olmadan nasıl eğitirim tek amacım o aslında. Arkadan glitch'li bir ses gelsin istemiyorum konuşurken. Bir de tabi ş,ç,ö,ü,ğ,r gibi harflerin temiz okunması lazım.
 
Müzikal bir ses eğitimi yapmayacağım. Kendi konuşmamın 5 saatlik temiz ses kaydını aldım. Bunu robotik ses olmadan nasıl eğitirim tek amacım o aslında. Arkadan Glitch'li bir ses gelsin istemiyorum konuşurken. Bir de tabii Ş, Ç, Ö, Ü, Ğ, r gibi harflerin temiz okunması lazım.

Kaydini sessiz ve yalitimli bir ortamda guzel bir mikfrofon ile -15 dB civari yap, sonra vocal gelistirme pluginleri ile cok az isle, uzerine iyi bir de-esser plugini ekle ama sakin abartili olmasin, istersen son haline biraz saturation FX ekleyebilirsin sana kalmis, sesin bozmadan temizleyip ortaya cikaracak islemler bunlar, okuma esnasinda cok bosluk verme ya da editle kaydi, ondan sonra train ettir, yani hum hum nefes seslerini minimum sekilde yok et ya da duzgun oku. Bu halde ki train ile istedigin şey yaparsin. 1500 epoch benim ortalama egitimlerim. Ama ben sarkici seslerini train ettiriyorum o yuzden bu derece yuksek gerekli bana.

Müzikal bir ses eğitimi yapmayacağım. Kendi konuşmamın 5 saatlik temiz ses kaydını aldım. Bunu robotik ses olmadan nasıl eğitirim tek amacım o aslında. Arkadan Glitch'li bir ses gelsin istemiyorum konuşurken. Bir de tabii Ş, Ç, Ö, Ü, Ğ, r gibi harflerin temiz okunması lazım.

Ş,

Müzikal bir ses eğitimi yapmayacağım. Kendi konuşmamın 5 saatlik temiz ses kaydını aldım. Bunu robotik ses olmadan nasıl eğitirim tek amacım o aslında. Arkadan Glitch'li bir ses gelsin istemiyorum konuşurken. Bir de tabii Ş, Ç, Ö, Ü, Ğ, r gibi harflerin temiz okunması lazım.

Ç gibi harflerin sorunu de-esser ile gideriliyor zaten, amacı o. Bu islemleri en iyi ızotope RX ya da acon acoustica gibi vocal yazilimlari ile yapabilirsin.
 
Kaydini sessiz ve yalitimli bir ortamda guzel bir mikfrofon ile -15 dB civari yap, sonra vocal gelistirme pluginleri ile cok az isle, uzerine iyi bir de-esser plugini ekle ama sakin abartili olmasin, istersen son haline biraz saturation FX ekleyebilirsin sana kalmis, sesin bozmadan temizleyip ortaya cikaracak islemler bunlar, okuma esnasinda cok bosluk verme ya da editle kaydi, ondan sonra train ettir, yani hum hum nefes seslerini minimum sekilde yok et ya da duzgun oku. Bu halde ki train ile istedigin şey yaparsin. 1500 epoch benim ortalama egitimlerim. Ama ben sarkici seslerini train ettiriyorum o yuzden bu derece yuksek gerekli bana.



Ş,



Ç gibi harflerin sorunu de-esser ile gideriliyor zaten, amacı o. Bu islemleri en iyi ızotope RX ya da acon acoustica gibi vocal yazilimlari ile yapabilirsin.
Çok teşekkür ederim söylediğiniz ayarlamaları yaparak eğitime başladım ancak ufak bir sorum daha olacak. Denemek için öncelikle tek parça 40 dakikalık bir ses dosyası yükledim Google Colab'e. Epoch sayısını ve batch sayısını neye göre seçeceğimi henüz çözemedim. Bir bilginiz var mı? 500 Epoch 8 batch mi, yoksa 1000 Epoch 6 batch mi? Neye göre seçiliyor bunlar?
 
Çok teşekkür ederim söylediğiniz ayarlamaları yaparak eğitime başladım ancak ufak bir sorum daha olacak. Denemek için öncelikle tek parça 40 dakikalık bir ses dosyası yükledim Google Colab'e. Epoch sayısını ve batch sayısını neye göre seçeceğimi henüz çözemedim. Bir bilginiz var mı? 500 epoch 8 batch mi, yoksa 1000 epoch 6 batch mi? Neye göre seçiliyor bunlar?

Hocam bunu direk GPT'den buraya yapistiriyorum, cok guzel anlatmis zaten.

Ses eğitimi sırasında kullanılan “epoch” ve “batch” kavramları, makine öğrenimi ve derin öğrenme modellerinin eğitimi sürecinde oldukça önemlidir. Bu terimler, genelde veri setini nasıl işlediğimizi ve modelin nasıl öğrenme yaptığını ifade eder.

1. epoch nedir?

• Epoch, modelin tüm eğitim veri setini bir kez baştan sona işlediği süreçtir.

• Eğitim veri seti, genelde çok büyük olduğu için tüm veri setini aynı anda modele vermek yerine, parçalar halinde işlem yapılır. Bu parçalar, batch (küme) olarak adlandırılır.

• Bir epoch, tüm veri setinin model tarafından tüm Batch'ler aracılığıyla tamamlanması anlamına gelir.

Örnek:

• Diyelim ki veri setinizde 10.000 ses dosyası var ve bunları 100'lük parçalar (batch) halinde işliyorsunuz.

• Her epoch, tüm bu 10.000 verinin bir kez modele verilmesi anlamına gelir.

• Bu durumda, bir epoch için model 100 batch işleyecektir.

2. batch nedir?

• Batch, eğitim veri setinden modele aynı anda verilen veri alt kümesidir.

• Büyük veri setlerinde, tüm veriyi aynı anda modele yüklemek bellek yetersizliğine ve işlem süresinin artmasına neden olur? Bu nedenle veri, küçük kümelere bölünerek işlenir.

• Her bir batch, belirli sayıda örnek içerir ve model bu örnekler üzerinde ağırlıklarını günceller.

Örnek:

• Eğer batch boyutunuz 32 olarak belirlenmişse, model her bir adımda 32 ses dosyasını aynı anda işler.

• Batch boyutunun küçük olması, daha sık güncellemeler yapmanızı sağlar, ancak işlem süresini uzatabilir.

Epoch ve batch arasındaki ilişki.

Veri seti boyutu (data size): Tüm veri setinde bulunan örnek sayısı.

Batch boyutu (batch size): Bir seferde modele verilen veri sayısı.

Toplam batch sayısı (steps per epoch): Bir epoch sırasında işlenecek batch sayısı.

Bu ilişki şu şekilde özetlenebilir:

3. örnekle açıklama.

• Veri setinizde 10.000 ses dosyası var.

• Batch boyutunu 50 olarak belirlediniz.

• Model bir epoch sırasında 10.000 / 50 = 200 batch işleyerek tüm veri setini kullanır.

Eğitim süresince genelde birden fazla epoch kullanılır. Örneğin, 10 epoch kullanırsanız model veri setinizi 10 kez tekrar tekrar öğrenecektir.

4. neden önemlidir?

Epoch seçimi:

• Çok az epoch seçerseniz, modeliniz yeterince öğrenmeden eğitimi tamamlar (eksik öğrenme - underfitting).

• Çok fazla epoch seçerseniz, modeliniz eğitim verisine aşırı uyum sağlayabilir (aşırı öğrenme - overfitting).

Batch boyutu seçimi:

• Küçük batch boyutları, daha sık güncelleme yaparak modelin daha hızlı öğrenmesini sağlar, ancak işlem süresi uzayabilir.

• Büyük batch boyutları, her bir güncellemede daha fazla veri kullanarak daha dengeli bir öğrenme sağlar, ancak daha fazla belleğe ihtiyaç duyar.

5. ses eğitiminde uygulama.

Ses verileri genellikle büyük boyutlu olduğundan, batch boyutu ve epoch sayısını dikkatlice seçmek önemlidir:

1. batch boyutu:

• Genelde 16, 32 veya 64 gibi 2'nin katları seçilir.

• Bellek sınırlarınıza ve işlem gücünüze bağlı olarak ayarlanır.

2. epoch sayısı:

• Deneysel olarak belirlenir.

• Tipik olarak 10-100 arasında epoch kullanılır, ancak erken durdurma (early stopping) teknikleriyle en uygun epoch sayısını bulabilirsiniz.

Sonuç.

• Epoch: Tüm veri setinin modelden bir kez geçirilmesi.

• Batch: Eğitim sırasında bir seferde modele verilen veri alt kümesi.

• Amaç: Epoch ve batch boyutunu uygun şekilde seçerek modelin daha iyi öğrenmesini sağlamak.
 

Technopat Haberler

Geri
Yukarı