Yapay zeka ile video seslendirme mümkün mü?

tempZ · 17 Eylül 2024

Merhaba, elimde bir video ve bu videonun zaman damgalı alt yazı metni var. Bu alt yazılı metni hangi apileri ve platformları kullanarak seslendirebilirim?

"Buildship" üzerinden OpenAI'ın text-to-speech API'sini kullanarak basit bir örnek yaptım fakat video ses uyumsuz oluyor. Timelapse'e uygun şekilde seslendirmek için ne yapmam lazım, prompt ayarlama şansım var mı, varsa nasıl yapabilirim?

(N8n üzerinden text to speech API'si gözükmüyor, Custom API olarak eklesem düzgün çalışır mı?)

@count @RaSGooL API konusunda her türlü kaynak önerisine açığım hocalarım.

count · 17 Eylül 2024

Bilgi sahibi değilim kusura bakmayın.

RaSGooL · 19 Eylül 2024

N8n üzerinden httpRequest integration mevcutmuş.

HTTP Request node documentation | n8n Docs

Learn how to use the HTTP Request node in n8n. Follow technical documentation to integrate HTTP Request node into your workflows.

docs.n8n.io

Yada kendi integration oluşturup(nodejs ile) oradan istek atmak lazım sanırım. (this.helpers.httpRequest methodu ile)
Biraz araştırmak lazım. Ben ilk defa n8n duydum. jenkins e benzer gibi.

tempZ dedi:
"Buildship" üzerinden OpenAI'ın text-to-speech API'sini kullanarak basit bir örnek yaptım fakat video ses uyumsuz oluyor. Timelapse'e uygun şekilde seslendirmek için ne yapmam lazım, prompt ayarlama şansım var mı, varsa nasıl yapabilirim?

Aklıma 2 farklı çözüm geliyor fakat gerçekten çözüm olur mu emin değilim.
1. Gelen sesi, video süresine göre hızlandırmak veya yavaşlatmak.
2. Gelen sese göre, video süresini kısaltmak veya uzatmak.

1. yöntem daha mantıklı gibi.

tempZ · 19 Eylül 2024

RaSGooL dedi:
N8n üzerinden httpRequest integration mevcutmuş.

HTTP Request node documentation | n8n Docs

Learn how to use the HTTP Request node in n8n. Follow technical documentation to integrate HTTP Request node into your workflows.

docs.n8n.io

Ya da kendi integration oluşturup(Node.js ile) oradan istek atmak lazım sanırım. (this. Helpers. HttpRequest methodu ile)
Biraz araştırmak lazım. Ben ilk defa n8n duydum. Jenkins e benzer gibi.

Aklıma 2 farklı çözüm geliyor fakat gerçekten çözüm olur mu emin değilim.
1. Gelen sesi, video süresine göre hızlandırmak veya yavaşlatmak.
2. Gelen sese göre, video süresini kısaltmak veya uzatmak.

1. yöntem daha mantıklı gibi.

Araştırmanız ve yorumunuz için öncelikle çok teşekkür ederim. Bence kesinlikle mantıklı bir çözüm önerisi, sizce bunu nasıl otomasyonlaştırabiliriz?

OpenAI API'si ile hiç uğraşmamış sadece ChatGPT kullanmış bir yazılımcıyım, en çok merak ettiğim şey API'yi kullanırken prompt yollayabilmek.

Mesela 20 saniye de oluşturmasını istediğim bir metni "text to speech" AP'sine verdim, zaman damgası belli fakat bunu 25 saniye de oluşturdu. Bu adımda API'ye input yollarken "bu metni 20 saniye de üretmen lazım ona göre bekleme sürelerini azalt" gibi ek prompt girebiliyor muyum?

RaSGooL · 19 Eylül 2024

tempZ dedi:
Araştırmanız ve yorumunuz için öncelikle çok teşekkür ederim. Bence kesinlikle mantıklı bir çözüm önerisi, sizce bunu nasıl otomasyonlaştırabiliriz?

N8n otomasyon için iyimiş. Burada custom integration node oluşturup node.js ve ffmpeg ile kolayca sesi hızlandırabilirsin.

tempZ dedi:
Mesela 20 saniye de oluşturmasını istediğim bir metni "text to speech" AP'sine verdim, zaman damgası belli fakat bunu 25 saniye de oluşturdu. Bu adımda API'ye input yollarken "bu metni 20 saniye de üretmen lazım ona göre bekleme sürelerini azalt" gibi ek prompt girebiliyor muyum?

Kendi API dökümanlarında sadece konuşma hızı ayarlanabiliyor. Prompt desteği yok. Konuşma hızı, senin ihtiyacını gidermez. Yine kaç saniyede oluşacağını bilemezsin.

tempZ · 19 Eylül 2024

RaSGooL dedi:
N8n otomasyon için iyimiş. Burada custom integration node oluşturup node.js ve ffmpeg ile kolayca sesi hızlandırabilirsin.

Burada da şöyle bir sorun var hocam,

[00:08,000 --> 00:16,000] Hello dear friends.
[00:16,000 --> 00:21,000] In today's video, we will talk about time management in everyday life.
[00:21,000 --> 00:28,000] Using time efficiently is very important to ensure a balance between work and private life.
[00:28,000 --> 00:33,000] Let's take a look at time management strategies together.

Text-to-Speech Api'sine bu 4 cümleyi verdim diyelim, konuşma çıktısı 1. cümleyi 8. saniyede başlatıp 11. saniyede bitiriyor, 2. cümleyi 16. saniyede başlayıp 25 de bitiriyor (geç bitiriyor) 3. cümleyi 28. saniyede başlayıp 32'de bitiriyor. Yani zaman damgasına uymaya çalışıyor ama herhangi birisinde zaman aşarsa diğer cümleyi bir sonraki süreye göre başlatıyor (3. cümleyi 4. cümle süresinde).

Bu yüzden tüm metni atıp, hızlandırıp geçmem mümkün değil. Galiba tek çözüm her cümle için ayrı ses dosyası oluşturup zaman damgasına göre etiketleyip en son label'a göre hızlandırmak. Fakat bu seferde aradaki fark çok olursa (5 saniyelik yeri 12 saniyede konuşmuş ise) çok hızlandırmış olacaz.

RaSGooL dedi:
Kendi API dökümanlarında sadece konuşma hızı ayarlanabiliyor. Prompt desteği yok. Konuşma hızı, senin ihtiyacını gidermez. Yine kaç saniyede oluşacağını bilemezsin.

En azından prompt desteği olsa bir kaç kontrol adımını bypass etmek çok işe yarardı.

Yapay zeka ile video seslendirme mümkün mü?

tempZ

Kilopat

Dosya Ekleri

count

Decapat

RaSGooL

Kilopat

HTTP Request node documentation | n8n Docs

tempZ

Kilopat

HTTP Request node documentation | n8n Docs

RaSGooL

Kilopat

tempZ

Kilopat