Anasayfa Haber Google’ın Yeni Metin Okuma Yazılımını İnsan Sesinden Ayırmak Zor

Google’ın Yeni Metin Okuma Yazılımını İnsan Sesinden Ayırmak Zor

Google’ın Tacotron 2 isimli yeni yapay zekası, metni sese çevirme konusunda çok başarılı.

Yapay zeka teknolojilerinde büyük gelişmeler yaşanırken, davranışların harekete yansıtılması ve sese dönüşmesi üzerine de çeşitli çalışmalar yapılıyor. Yapay zekanın ürettiği sonuçlar genelde yazı olarak ortaya çıkarken, standart metin okuma yazılımları ile sese dönüştürülüyor. Her ne kadar Microsoft Sam’den bugüne metin okuma teknolojileri ilerlemiş olsa da, hala insan sesi kalitesine ulaşılamadı.

Google’ın Tacotron 2 yazılımı ise bunu başaracak gibi görünüyor. Google’ın iki ayrı sinir ağı kullanarak çalıştırdığı Tacotron 2 yazılımı, ilk aşamada metni spektrograma çeviriyor. Spektogram verisi WaveNet isimli ikinci sinir ağına aktarılıyor. WaveNet de görsel veriyi doğru ses bileşenlerine dönüştürüyor ve seslendirme bu şekilde gerçekleştiriliyor.

Tacotron 2, seslendirilmesi zor kelimeleri telaffuz edebiliyor. Yanlış yazılmış kelimeleri düzeltirken, cümlelerdeki vurguları doğru bir şekilde yapabiliyor. Hatta tamamen büyük harflerle yazılmış kelimelerin “sinirlenme” veya özel bir vurgulama anlamına geldiğini anlayıp, seslendirmesini buna göre yapabiliyor. Aşağıdaki bağlantıyı ziyaret ederek ses örneklerine ulaşabilirsiniz.

Tacotron 2’nin ses örneklerini dinlemek için tıklayın.