Yapay zeka ile video seslendirme mümkün mü?

tempZ

Kilopat
Katılım
26 Aralık 2020
Mesajlar
5.115
Çözümler
25
Daha fazla  
Cinsiyet
Erkek
Merhaba, elimde bir video ve bu videonun zaman damgalı alt yazı metni var. Bu alt yazılı metni hangi apileri ve platformları kullanarak seslendirebilirim?

"Buildship" üzerinden OpenAI'ın text-to-speech API'sini kullanarak basit bir örnek yaptım fakat video ses uyumsuz oluyor. Timelapse'e uygun şekilde seslendirmek için ne yapmam lazım, prompt ayarlama şansım var mı, varsa nasıl yapabilirim?

(N8n üzerinden text to speech API'si gözükmüyor, Custom API olarak eklesem düzgün çalışır mı?)

@count @RaSGooL API konusunda her türlü kaynak önerisine açığım hocalarım.
 

Dosya Ekleri

  • 1726598672252.png
    49,5 KB · Görüntüleme: 39
N8n üzerinden httpRequest integration mevcutmuş.

Yada kendi integration oluşturup(nodejs ile) oradan istek atmak lazım sanırım. (this.helpers.httpRequest methodu ile)
Biraz araştırmak lazım. Ben ilk defa n8n duydum. jenkins e benzer gibi.
Aklıma 2 farklı çözüm geliyor fakat gerçekten çözüm olur mu emin değilim.
1. Gelen sesi, video süresine göre hızlandırmak veya yavaşlatmak.
2. Gelen sese göre, video süresini kısaltmak veya uzatmak.

1. yöntem daha mantıklı gibi.
 

Araştırmanız ve yorumunuz için öncelikle çok teşekkür ederim. Bence kesinlikle mantıklı bir çözüm önerisi, sizce bunu nasıl otomasyonlaştırabiliriz?

OpenAI API'si ile hiç uğraşmamış sadece ChatGPT kullanmış bir yazılımcıyım, en çok merak ettiğim şey API'yi kullanırken prompt yollayabilmek.

Mesela 20 saniye de oluşturmasını istediğim bir metni "text to speech" AP'sine verdim, zaman damgası belli fakat bunu 25 saniye de oluşturdu. Bu adımda API'ye input yollarken "bu metni 20 saniye de üretmen lazım ona göre bekleme sürelerini azalt" gibi ek prompt girebiliyor muyum?
 
Araştırmanız ve yorumunuz için öncelikle çok teşekkür ederim. Bence kesinlikle mantıklı bir çözüm önerisi, sizce bunu nasıl otomasyonlaştırabiliriz?
N8n otomasyon için iyimiş. Burada custom integration node oluşturup node.js ve ffmpeg ile kolayca sesi hızlandırabilirsin.


Kendi API dökümanlarında sadece konuşma hızı ayarlanabiliyor. Prompt desteği yok. Konuşma hızı, senin ihtiyacını gidermez. Yine kaç saniyede oluşacağını bilemezsin.
 
N8n otomasyon için iyimiş. Burada custom integration node oluşturup node.js ve ffmpeg ile kolayca sesi hızlandırabilirsin.

Burada da şöyle bir sorun var hocam,

Text-to-Speech Api'sine bu 4 cümleyi verdim diyelim, konuşma çıktısı 1. cümleyi 8. saniyede başlatıp 11. saniyede bitiriyor, 2. cümleyi 16. saniyede başlayıp 25 de bitiriyor (geç bitiriyor) 3. cümleyi 28. saniyede başlayıp 32'de bitiriyor. Yani zaman damgasına uymaya çalışıyor ama herhangi birisinde zaman aşarsa diğer cümleyi bir sonraki süreye göre başlatıyor (3. cümleyi 4. cümle süresinde).


Bu yüzden tüm metni atıp, hızlandırıp geçmem mümkün değil. Galiba tek çözüm her cümle için ayrı ses dosyası oluşturup zaman damgasına göre etiketleyip en son label'a göre hızlandırmak. Fakat bu seferde aradaki fark çok olursa (5 saniyelik yeri 12 saniyede konuşmuş ise) çok hızlandırmış olacaz.


Kendi API dökümanlarında sadece konuşma hızı ayarlanabiliyor. Prompt desteği yok. Konuşma hızı, senin ihtiyacını gidermez. Yine kaç saniyede oluşacağını bilemezsin.
En azından prompt desteği olsa bir kaç kontrol adımını bypass etmek çok işe yarardı.
 
Bu siteyi kullanmak için çerezler gereklidir. Siteyi kullanmaya devam etmek için çerezleri kabul etmelisiniz. Daha Fazlasını Öğren.…