Rehber RVC AI ses modeli nasıl oluşturulur?

K.Makise · 18 Şubat 2024

DirectX9 dedi:
Arkadaşlar herkes hazır model kullanmayı göstermiş çok zormuş gibi. Bir babayiğit çıksın da işin zor kısmını öğretsin dedim

Bu rehberde anlatacağım şey; fakeyou, AI cover gibi kaynaklardan yaptığınız sesten sese, ses uyarlaması yapan modellerden birini nasıl oluşturacağınız.

yazıdan sese uyarlama yapan modelleri hazırlamak sesten sese uyarlayanları yapmaktan iki kat daha zor, eğer çok istek gelirse anlatırım.

Öncelikle ses modelini hazırlayacağınız kişinin minimum 3-4 dakika boyunca konuştuğu bir ses dosyası bulmalısınız (daha uzun ses dosyası = daha yüksek kalite).

Bu ses dosyasının tamamen saf, sadece istenilen kişinin sesini içeriyor olması lazım. O yüzden eğer bir şarkıdan ya da röportaj benzeri bir içerikten ses alıyorsanız, birazdan vereceğim arka plan müziği ayırıcı sitenin ayıramayacağını düşündüğünüz seslerin olduğu kısımları manuel olarak CapCut benzeri basit bir edit programıyla ses dosyasından kırpın.

Arka plan müziği ayırıcı site: vocalremover.org (tamamen güvenilir)
Bu siteyi ses dosyasını en temiz haline getirdikten sonra arka plandaki gereksiz sesleri kaldırmak için kullanın (aynı zamanda arka plandaki müzikleri de kaldırıyor, bir şarkı parçası üzerinden çalışıyorsanız ideal bir site). Eğer kullandığınız ses dosyası 10 dakikadan uzunsa ses dosyasını 10 dakikadan uzun olmayacak parçalara ayırın. İlk parçayı yükledikten sonra, VPN açıp siteye tekrar girin ve diğer ses parçalarını yükleyin. Eğer ses dosyanız 20 dakikadan uzunsa, kalan parçaları VPN'in farklı serverlarına geçerek yükleyin. Site normalde kullanıcı başına 10 dk sınır koyuyor fakat VPN açtığınızda IP adresiniz değiştiği için farklı bir kullanıcı olarak algılanıyorsunuz ve 10 dk hakkınızı geri kazanıyorsunuz.
(Eğer 10 dakikadan uzun bir ses dosyası yaptıysanız ve arkadaki sesleri ayıklamak için sesi parçalar haline getirmek zorunda kaldıysanız, daha sonra geri birleştirmeyi unutmayın)

Şimdi elinizde tertemiz bir ses dosyası olduğunu varsayalım. Süresi istediğiniz kaliteye göre değişir fakat benim tavsiyem 15 dakikadır.

Şimdi yapmanız gereken şey sesi 10 saniyelik parçalara ayırmak. Bunu manuel olarak da yapabilirsiniz ama çok uğraştırır. Bu yüzden vereceğim video linkinden faydalanarak ffmpeg kurun.

Bu içeriği görüntülemek için üçüncü taraf çerezlerini yerleştirmek için izninize ihtiyacımız olacak.
Daha detaylı bilgi için, çerezler sayfamıza bakınız.

Ffmpeg kurduğunuzu var sayıyorum, aşağıdaki kodu komut istemine yapıştırın;

Ffmpeg -i "?:\""\""\""\ses dosyasının uzantısıyla beraber adı" -f segment -segment_time 10 -c copy "?:\""\""\parcalar\ses_parca_%03d.wav"

"?:\""\""\""\Ses dosyasının uzantısıyla beraber adı" yazan kısma yazacağınız şey, ses dosyasına sağ tıklayıp özellikler kısmına girdikten sonra "konum:" yazısının sağında belirtilen yazıya sonuna bir "\" daha koyup ses dosyasının kısaltmasıyla beraber adıdır.

Ardından seslerin çıkacağı yeri belirleyen "?:\""\""\parcalar\ses_parca_%03d.wav" kısmına attığım tırnaklara yazacağımız şeyler ise sadece ses motorunun konumu, parcalar ve ses_parca_%03D.WAV yazan kısımları değiştirmeyin.

Mesela benim ses dosyamın konumuna göre kullandığım komut şuydu:

Ffmpeg -i "C:\Users\halil\Desktop\sesmotoru\messi.WAV" -f segment -segment_time 10 -c copy "C:\Users\halil\Desktop\sesmotoru\parcalar\ses_parca_%03d.wav"

Benim yazdığım komutu, tırnak içinde belirtilen konumları ve ilk tırnaktaki ses dosyası adını kendi ses dosyanızın konumuna ve ismine uyarlayıp kullanabilirsiniz.

Bunu yaptıktan sonra, Windows ses dosyanızın olduğu konuma "parcalar" adında bir klasör oluşturup içine 10 saniyelik parçaları ayıklayacaktır. Eğer parçaları gördüyseniz gerisi kolay.

Şimdi

Google Colab

colab.research.google.com

adresine gidin, burası sesi eğiteceğimiz yer.

"open the public URL that will appear below" başlıklı yerdeki "gdrive" ve "tensorboard" seçeneklerine tik atın ve kodu soldaki oynatma butonundan çalıştırın. Uyarı falan verirse sadece onay verin, "bu kod Google tarafından oluşturulmadı" falan diyebilir.

Biraz bekledikten sonra "success" yazısını göreceksiniz ve biraz daha bekledikten sonra altta "running on public URL" yazısı çıkacak, solundaki linke tıklayın.
Çıkan sayfada üstteki seçeneklerden "train" sekmesine geçiş yapın ve dosyayı buraya sürükle yazan yere Windows'un "parcalar" klasörüne ayıkladığı 10 saniyelik ses dosyalarını sürükleyin (klasör halinde sürüklerseniz ve algılamaz ise, klasörün içine girip bir dosyaya tıklayın ve CTRL+a yapıp sürükleyin). "path to your dataset" kısmına "/content/-EVC-" yazın.

Yüklediğiniz 10 saniyelik dosyaların yanında mavi "download" linki çıktığı zaman bütün dosyalarınız yüklenmiş demektir, aşağısındaki process the dataset butonuna tıklayın.

Colab sayfasına gelin ve oradan çıktıları takip edin, end preprocess çıktısını gördüğünüz zaman gradio sayfasına geri dönün ve ortadaki "pitch extraction" butonunun üzerindeki harvest, crepe ve mangio-crepe seçeneklerinden Crepe'i seçin (harvest te olur), "pitch extraction" butonuna tıklayın.

Tekrar colab sayfasına dönün ve çıktıları takip edin, all-feature-done yazısını gördüğünüz zaman tekrar gradio sayfasına dönün. Bu sefer en sağdaki train model butonuna tıklayın, tıklamadan önce üstündeki "Total # of training epochs" kısmını ne kadar arttırırsanız kalite o kadar yüksek olur ama Google colab Pro üyeliğiniz yoksa 350'den fazla yükseltmeyin.

Bu işlemden sonra bekliyorsunuz arkadaşlar, colab ekranında işlenen Epoch'ları gösteriyor, ayarladığınız epoch sayısına ulaştıktan sonra successful yazısını göreceksiniz. Bunu gördükten sonra tekrar gradio sayfasına gelin ve en sağdaki "train index" butonuna tıklayın.

butonun altında Çince yazılar çıktıktan sonra işiniz bitti demektir, hemen altındaki "download model" butonuna tıklayın ve aşağısında çıkan linklerden model dosyasını ve index dosyasını indirin.

başarılar, bir ses modeli oluşturdunuz!

Klavyem bozuk, yazarken çok uğraştım. Umarım faydalı olmuştur okuyanlar için

Fotoğraflarla desteklenmeliydi.

DirectX9 · 18 Şubat 2024

K.Makise dedi:
Fotoğraflarla desteklenmeliydi.

Hocam afedersiniz mala anlatır gibi anlattım şu yazıyı anlamayan zaten ses motoru ile falan uğraşmasın gitsin kitap okusun

deezwend · 29 Şubat 2024

"Open the public URL that will appear below"

Bu kısım yok.

FaruQ_Q · 5 Nisan 2024

merhaba, böyle bir hata veriyor. üstte ki tiki kapattığımda çalışıyor sonra başka bir hata veriyor.

[Errno 2] No such file or directory: '/content/RVC'
/content

---------------------------------------------------------------------------

NameError Traceback (most recent call last)

<ipython-input-7-3e2603f9704c> in <cell line: 7>()
6 py = "demo.py"
7 if load_models_from_drive:
----> 8 if os.path.exists('/content/drive/MyDrive/project-main'):
9 for file in os.listdir('/content/drive/MyDrive/project-main/assets/weights'):
10 try: shutil.copy2(f'/content/drive/MyDrive/project-main/assets/weights/{file}','/content/RVC/assets/weights/')

NameError: name 'os' is not defined

DirectX9 · 5 Nisan 2024

FaruQ_Q dedi:
Merhaba, böyle bir hata veriyor. Üstte ki tiki kapattığımda çalışıyor sonra başka bir hata veriyor.

Eki Görüntüle 2160106

[Errno 2] no such file or directory: '/content/RVC'
/Content

---------------------------------------------------------------------------

Nameerror traceback (most recent call last)

<ipython-input-7-3e2603f9704c> in <cell line: 7>()
6 py = "demo.py"
7 if load_models_from_drive:
----> 8 if os.path.exists('/content/drive/MyDrive/project-main'):
9 for file in os.listdir('/content/drive/MyDrive/project-main/assets/weights'):
10 try: shutil.copy2(f'/content/drive/MyDrive/project-main/assets/weights/{file}','/content/RVC/assets/weights/')

Nameerror: Name 'OS' is not defined.

"Load models from Drive" seçeneğinin tikini kaldırıp deneyin.

FaruQ_Q · 6 Nisan 2024

başka bir colab ile yapıyorum gerek kalmadı teşekkürler.
merak edenler için link
Nasıl kullanıldığına dair video

Thoravengers · 28 Mayıs 2024

şimdi benim merak ettiğim bir şey var. 10 dakika 20 dakika 30 dakikalık veri veriyoruz sesimizi klonluyor ya ,şöyle 3-4 saatlik bir veri versek ne olur ? daha mı iyi olur daha mı kötü olur ? biliyorum uzun sürecektir belki bir kaç gün . kusursuz yada kusursuza yakın olması için ne yapmalı ? şöyle düşünüyorum ücretsiz sürümlerde sanki bir miktar kasıtlı bozulmalar veriyorlar ki satın alınsın? bilemedim .

DirectX9 · 31 Mayıs 2024

Thoravengers dedi:
Şimdi benim merak ettiğim bir şey var. 10 dakika 20 dakika 30 dakikalık veri veriyoruz sesimizi klonluyor ya, şöyle 3-4 saatlik bir veri versek ne olur? Daha mı iyi olur daha mı kötü olur? Biliyorum uzun sürecektir belki birkaç gün. Kusursuz ya da kusursuza yakın olması için ne yapmalı? Şöyle düşünüyorum ücretsiz sürümlerde sanki bir miktar kasıtlı bozulmalar veriyorlar ki satın alınsın? Bilemedim.

Daha iyi olur, sadece Epoch'u fazla yükseltmemenizi öneririm, bir yerden sonra bozulmalar oluyor.

Trninenbuyukdbzfani · 9 Haziran 2024

Merhaba, öncelikle bu önemli paylaşım için çok teşekkürler. Denedim ama sadece 50 tane dosya oluşturdu 10 saniyelik, ama ses dosyası 9dakika idi ne önerirsiniz?

Rehber RVC AI ses modeli nasıl oluşturulur?

Ayrıntılı düzenleme

Google Colab

Dosya Ekleri

K.Makise

Kilopat

Google Colab

DirectX9

Kilopat

deezwend

Hectopat

FaruQ_Q

Centipat

DirectX9

Kilopat

FaruQ_Q

Centipat

Thoravengers

Femtopat

DirectX9

Kilopat

Trninenbuyukdbzfani

Decapat

Benzer konular

Bu konuyu görüntüleyen kullanıcılar

Technopat Haberler

Yeni konular

Yeni mesajlar

Gizliliğinize önem veriyoruz