Rehber RVC AI ses modeli nasıl oluşturulur?

Arkadaşlar herkes hazır model kullanmayı göstermiş çok zormuş gibi. Bir babayiğit çıksın da işin zor kısmını öğretsin dedim :)

Bu rehberde anlatacağım şey; fakeyou, AI cover gibi kaynaklardan yaptığınız sesten sese, ses uyarlaması yapan modellerden birini nasıl oluşturacağınız.

Yazıdan sese uyarlama yapan modelleri hazırlamak sesten sese uyarlayanları yapmaktan iki kat daha zor, eğer çok istek gelirse anlatırım.

Öncelikle ses modelini hazırlayacağınız kişinin minimum 3-4 dakika boyunca konuştuğu bir ses dosyası bulmalısınız (daha uzun ses dosyası = daha yüksek kalite).

Bu ses dosyasının tamamen saf, sadece istenilen kişinin sesini içeriyor olması lazım. O yüzden eğer bir şarkıdan ya da röportaj benzeri bir içerikten ses alıyorsanız, birazdan vereceğim arka plan müziği ayırıcı sitenin ayıramayacağını düşündüğünüz seslerin olduğu kısımları manuel olarak CapCut benzeri basit bir edit programıyla ses dosyasından kırpın.

Arka plan müziği ayırıcı site: vocalremover.org (tamamen güvenilir)
Bu siteyi ses dosyasını en temiz haline getirdikten sonra arka plandaki gereksiz sesleri kaldırmak için kullanın (aynı zamanda arka plandaki müzikleri de kaldırıyor, bir şarkı parçası üzerinden çalışıyorsanız ideal bir site). Eğer kullandığınız ses dosyası 10 dakikadan uzunsa ses dosyasını 10 dakikadan uzun olmayacak parçalara ayırın. İlk parçayı yükledikten sonra, VPN açıp siteye tekrar girin ve diğer ses parçalarını yükleyin. Eğer ses dosyanız 20 dakikadan uzunsa, kalan parçaları VPN'in farklı serverlarına geçerek yükleyin. Site normalde kullanıcı başına 10 dk sınır koyuyor fakat VPN açtığınızda IP adresiniz değiştiği için farklı bir kullanıcı olarak algılanıyorsunuz ve 10 dk hakkınızı geri kazanıyorsunuz.
(Eğer 10 dakikadan uzun bir ses dosyası yaptıysanız ve arkadaki sesleri ayıklamak için sesi parçalar haline getirmek zorunda kaldıysanız, daha sonra geri birleştirmeyi unutmayın)

Şimdi elinizde tertemiz bir ses dosyası olduğunu varsayalım. Süresi istediğiniz kaliteye göre değişir fakat benim tavsiyem 15 dakikadır.

Şimdi yapmanız gereken şey sesi 10 saniyelik parçalara ayırmak. Bunu manuel olarak da yapabilirsiniz ama çok uğraştırır. Bu yüzden vereceğim video linkinden faydalanarak ffmpeg kurun.
Bu içeriği görüntülemek için üçüncü taraf çerezlerini yerleştirmek için izninize ihtiyacımız olacak.
Daha detaylı bilgi için, çerezler sayfamıza bakınız.

Ffmpeg kurduğunuzu var sayıyorum, aşağıdaki kodu komut istemine yapıştırın;

Ffmpeg -i "?:\""\""\""\ses dosyasının uzantısıyla beraber adı" -f segment -segment_time 10 -c copy "?:\""\""\parcalar\ses_parca_%03d.wav"

"?:\""\""\""\Ses dosyasının uzantısıyla beraber adı" yazan kısma yazacağınız şey, ses dosyasına sağ tıklayıp özellikler kısmına girdikten sonra "konum:" yazısının sağında belirtilen yazıya sonuna bir "\" daha koyup ses dosyasının kısaltmasıyla beraber adıdır.

Ardından seslerin çıkacağı yeri belirleyen "?:\""\""\parcalar\ses_parca_%03d.wav" kısmına attığım tırnaklara yazacağımız şeyler ise sadece ses motorunun konumu, parcalar ve ses_parca_%03D.WAV yazan kısımları değiştirmeyin.

Mesela benim ses dosyamın konumuna göre kullandığım komut şuydu:

Ffmpeg -i "C:\Users\halil\Desktop\sesmotoru\messi.WAV" -f segment -segment_time 10 -c copy "C:\Users\halil\Desktop\sesmotoru\parcalar\ses_parca_%03d.wav"

Benim yazdığım komutu, tırnak içinde belirtilen konumları ve ilk tırnaktaki ses dosyası adını kendi ses dosyanızın konumuna ve ismine uyarlayıp kullanabilirsiniz.

Bunu yaptıktan sonra, Windows ses dosyanızın olduğu konuma "parcalar" adında bir klasör oluşturup içine 10 saniyelik parçaları ayıklayacaktır. Eğer parçaları gördüyseniz gerisi kolay.

Şimdi adresine gidin, burası sesi eğiteceğimiz yer.

"Open the public URL that will appear below" başlıklı yerdeki "gdrive" ve "tensorboard" seçeneklerine tik atın ve kodu soldaki oynatma butonundan çalıştırın. Uyarı falan verirse sadece onay verin, "bu kod Google tarafından oluşturulmadı" falan diyebilir.

Biraz bekledikten sonra "success" yazısını göreceksiniz ve biraz daha bekledikten sonra altta "running on public URL" yazısı çıkacak, solundaki linke tıklayın.
Çıkan sayfada üstteki seçeneklerden "train" sekmesine geçiş yapın ve dosyayı buraya sürükle yazan yere Windows'un "parcalar" klasörüne ayıkladığı 10 saniyelik ses dosyalarını sürükleyin (klasör halinde sürüklerseniz ve algılamaz ise, klasörün içine girip bir dosyaya tıklayın ve CTRL+a yapıp sürükleyin). "path to your dataset" kısmına "/content/-EVC-" yazın.

Yüklediğiniz 10 saniyelik dosyaların yanında mavi "download" linki çıktığı zaman bütün dosyalarınız yüklenmiş demektir, aşağısındaki process the dataset butonuna tıklayın.

Colab sayfasına gelin ve oradan çıktıları takip edin, end preprocess çıktısını gördüğünüz zaman gradio sayfasına geri dönün ve ortadaki "pitch extraction" butonunun üzerindeki harvest, crepe ve mangio-crepe seçeneklerinden Crepe'i seçin (harvest te olur), "pitch extraction" butonuna tıklayın.

Tekrar colab sayfasına dönün ve çıktıları takip edin, all-feature-done yazısını gördüğünüz zaman tekrar gradio sayfasına dönün. Bu sefer en sağdaki train model butonuna tıklayın, tıklamadan önce üstündeki "Total # of training epochs" kısmını ne kadar arttırırsanız kalite o kadar yüksek olur ama Google colab Pro üyeliğiniz yoksa 350'den fazla yükseltmeyin.

Bu işlemden sonra bekliyorsunuz arkadaşlar, colab ekranında işlenen Epoch'ları gösteriyor, ayarladığınız epoch sayısına ulaştıktan sonra successful yazısını göreceksiniz. Bunu gördükten sonra tekrar gradio sayfasına gelin ve en sağdaki "train index" butonuna tıklayın.

Butonun altında Çince yazılar çıktıktan sonra işiniz bitti demektir, hemen altındaki "download model" butonuna tıklayın ve aşağısında çıkan linklerden model dosyasını ve index dosyasını indirin.

Başarılar, bir ses modeli oluşturdunuz!

Klavyem bozuk, yazarken çok uğraştım. Umarım faydalı olmuştur okuyanlar için :)
 

Dosya Ekleri

  • Ekran Görüntüsü (9).png
    Ekran Görüntüsü (9).png
    86,2 KB · Görüntüleme: 240
Son düzenleme:
Arkadaşlar herkes hazır model kullanmayı göstermiş çok zormuş gibi. Bir babayiğit çıksın da işin zor kısmını öğretsin dedim :)

Bu rehberde anlatacağım şey; fakeyou, AI cover gibi kaynaklardan yaptığınız sesten sese, ses uyarlaması yapan modellerden birini nasıl oluşturacağınız.

yazıdan sese uyarlama yapan modelleri hazırlamak sesten sese uyarlayanları yapmaktan iki kat daha zor, eğer çok istek gelirse anlatırım.

Öncelikle ses modelini hazırlayacağınız kişinin minimum 3-4 dakika boyunca konuştuğu bir ses dosyası bulmalısınız (daha uzun ses dosyası = daha yüksek kalite).

Bu ses dosyasının tamamen saf, sadece istenilen kişinin sesini içeriyor olması lazım. O yüzden eğer bir şarkıdan ya da röportaj benzeri bir içerikten ses alıyorsanız, birazdan vereceğim arka plan müziği ayırıcı sitenin ayıramayacağını düşündüğünüz seslerin olduğu kısımları manuel olarak CapCut benzeri basit bir edit programıyla ses dosyasından kırpın.

Arka plan müziği ayırıcı site: vocalremover.org (tamamen güvenilir)
Bu siteyi ses dosyasını en temiz haline getirdikten sonra arka plandaki gereksiz sesleri kaldırmak için kullanın (aynı zamanda arka plandaki müzikleri de kaldırıyor, bir şarkı parçası üzerinden çalışıyorsanız ideal bir site). Eğer kullandığınız ses dosyası 10 dakikadan uzunsa ses dosyasını 10 dakikadan uzun olmayacak parçalara ayırın. İlk parçayı yükledikten sonra, VPN açıp siteye tekrar girin ve diğer ses parçalarını yükleyin. Eğer ses dosyanız 20 dakikadan uzunsa, kalan parçaları VPN'in farklı serverlarına geçerek yükleyin. Site normalde kullanıcı başına 10 dk sınır koyuyor fakat VPN açtığınızda IP adresiniz değiştiği için farklı bir kullanıcı olarak algılanıyorsunuz ve 10 dk hakkınızı geri kazanıyorsunuz.
(Eğer 10 dakikadan uzun bir ses dosyası yaptıysanız ve arkadaki sesleri ayıklamak için sesi parçalar haline getirmek zorunda kaldıysanız, daha sonra geri birleştirmeyi unutmayın)

Şimdi elinizde tertemiz bir ses dosyası olduğunu varsayalım. Süresi istediğiniz kaliteye göre değişir fakat benim tavsiyem 15 dakikadır.

Şimdi yapmanız gereken şey sesi 10 saniyelik parçalara ayırmak. Bunu manuel olarak da yapabilirsiniz ama çok uğraştırır. Bu yüzden vereceğim video linkinden faydalanarak ffmpeg kurun.
Bu içeriği görüntülemek için üçüncü taraf çerezlerini yerleştirmek için izninize ihtiyacımız olacak.
Daha detaylı bilgi için, çerezler sayfamıza bakınız.

Ffmpeg kurduğunuzu var sayıyorum, aşağıdaki kodu komut istemine yapıştırın;

Ffmpeg -i "?:\""\""\""\ses dosyasının uzantısıyla beraber adı" -f segment -segment_time 10 -c copy "?:\""\""\parcalar\ses_parca_%03d.wav"

"?:\""\""\""\Ses dosyasının uzantısıyla beraber adı" yazan kısma yazacağınız şey, ses dosyasına sağ tıklayıp özellikler kısmına girdikten sonra "konum:" yazısının sağında belirtilen yazıya sonuna bir "\" daha koyup ses dosyasının kısaltmasıyla beraber adıdır.

Ardından seslerin çıkacağı yeri belirleyen "?:\""\""\parcalar\ses_parca_%03d.wav" kısmına attığım tırnaklara yazacağımız şeyler ise sadece ses motorunun konumu, parcalar ve ses_parca_%03D.WAV yazan kısımları değiştirmeyin.

Mesela benim ses dosyamın konumuna göre kullandığım komut şuydu:

Ffmpeg -i "C:\Users\halil\Desktop\sesmotoru\messi.WAV" -f segment -segment_time 10 -c copy "C:\Users\halil\Desktop\sesmotoru\parcalar\ses_parca_%03d.wav"

Benim yazdığım komutu, tırnak içinde belirtilen konumları ve ilk tırnaktaki ses dosyası adını kendi ses dosyanızın konumuna ve ismine uyarlayıp kullanabilirsiniz.

Bunu yaptıktan sonra, Windows ses dosyanızın olduğu konuma "parcalar" adında bir klasör oluşturup içine 10 saniyelik parçaları ayıklayacaktır. Eğer parçaları gördüyseniz gerisi kolay.

Şimdi adresine gidin, burası sesi eğiteceğimiz yer.

"open the public URL that will appear below" başlıklı yerdeki "gdrive" ve "tensorboard" seçeneklerine tik atın ve kodu soldaki oynatma butonundan çalıştırın. Uyarı falan verirse sadece onay verin, "bu kod Google tarafından oluşturulmadı" falan diyebilir.

Biraz bekledikten sonra "success" yazısını göreceksiniz ve biraz daha bekledikten sonra altta "running on public URL" yazısı çıkacak, solundaki linke tıklayın.
Çıkan sayfada üstteki seçeneklerden "train" sekmesine geçiş yapın ve dosyayı buraya sürükle yazan yere Windows'un "parcalar" klasörüne ayıkladığı 10 saniyelik ses dosyalarını sürükleyin (klasör halinde sürüklerseniz ve algılamaz ise, klasörün içine girip bir dosyaya tıklayın ve CTRL+a yapıp sürükleyin). "path to your dataset" kısmına "/content/-EVC-" yazın.

Yüklediğiniz 10 saniyelik dosyaların yanında mavi "download" linki çıktığı zaman bütün dosyalarınız yüklenmiş demektir, aşağısındaki process the dataset butonuna tıklayın.

Colab sayfasına gelin ve oradan çıktıları takip edin, end preprocess çıktısını gördüğünüz zaman gradio sayfasına geri dönün ve ortadaki "pitch extraction" butonunun üzerindeki harvest, crepe ve mangio-crepe seçeneklerinden Crepe'i seçin (harvest te olur), "pitch extraction" butonuna tıklayın.

Tekrar colab sayfasına dönün ve çıktıları takip edin, all-feature-done yazısını gördüğünüz zaman tekrar gradio sayfasına dönün. Bu sefer en sağdaki train model butonuna tıklayın, tıklamadan önce üstündeki "Total # of training epochs" kısmını ne kadar arttırırsanız kalite o kadar yüksek olur ama Google colab Pro üyeliğiniz yoksa 350'den fazla yükseltmeyin.

Bu işlemden sonra bekliyorsunuz arkadaşlar, colab ekranında işlenen Epoch'ları gösteriyor, ayarladığınız epoch sayısına ulaştıktan sonra successful yazısını göreceksiniz. Bunu gördükten sonra tekrar gradio sayfasına gelin ve en sağdaki "train index" butonuna tıklayın.

butonun altında Çince yazılar çıktıktan sonra işiniz bitti demektir, hemen altındaki "download model" butonuna tıklayın ve aşağısında çıkan linklerden model dosyasını ve index dosyasını indirin.

başarılar, bir ses modeli oluşturdunuz!

Klavyem bozuk, yazarken çok uğraştım. Umarım faydalı olmuştur okuyanlar için :)

Fotoğraflarla desteklenmeliydi.
 
merhaba, böyle bir hata veriyor. üstte ki tiki kapattığımda çalışıyor sonra başka bir hata veriyor.

1712345985020.png


[Errno 2] No such file or directory: '/content/RVC'
/content

---------------------------------------------------------------------------

NameError Traceback (most recent call last)

<ipython-input-7-3e2603f9704c> in <cell line: 7>()
6 py = "demo.py"
7 if load_models_from_drive:
----> 8 if os.path.exists('/content/drive/MyDrive/project-main'):
9 for file in os.listdir('/content/drive/MyDrive/project-main/assets/weights'):
10 try: shutil.copy2(f'/content/drive/MyDrive/project-main/assets/weights/{file}','/content/RVC/assets/weights/')


NameError: name 'os' is not defined
 
Merhaba, böyle bir hata veriyor. Üstte ki tiki kapattığımda çalışıyor sonra başka bir hata veriyor.

Eki Görüntüle 2160106

[Errno 2] no such file or directory: '/content/RVC'
/Content

---------------------------------------------------------------------------

Nameerror traceback (most recent call last)

<ipython-input-7-3e2603f9704c> in <cell line: 7>()
6 py = "demo.py"
7 if load_models_from_drive:
----> 8 if os.path.exists('/content/drive/MyDrive/project-main'):
9 for file in os.listdir('/content/drive/MyDrive/project-main/assets/weights'):
10 try: shutil.copy2(f'/content/drive/MyDrive/project-main/assets/weights/{file}','/content/RVC/assets/weights/')

Nameerror: Name 'OS' is not defined.

"Load models from Drive" seçeneğinin tikini kaldırıp deneyin.
 

Yeni konular

Geri
Yukarı