OpenAI yeni nesil konuşmadan metne ses modelleri gpt-4o-transcribe, gpt-4o-mini-transcribe ve gpt-4o-mini-tts ile kendi mevcut Whisper modellerine kıyasla kelime hata oranı, dil tanıma ve doğrulukta önemli iyileştirmeler sunuyor. Şirket, bu gelişmelerin çeşitli ve yüksek kaliteli ses veri kümeleri kullanılarak takviyeli öğrenme ve kapsamlı orta eğitim yoluyla elde edildiğini ifade ediyor.
OpenAI, bu yeni ses modellerinin konuşma nüanslarını daha iyi anlayabileceğini, yanlış tanımaları azaltabileceğini ve giriş sesinde aksanlar, gürültülü ortamlar ve değişen konuşma hızları olsa bile transkripsiyon güvenilirliğini artırabileceğini iddia ediyor.
gpt-4o-mini-tts, geliştirilmiş yönlendirilebilirlik sunan en son metinden sese modeli. Geliştiriciler artık modele metin içeriğini nasıl ifade edeceğini öğretebiliyor. Öte yandan, şu an için bu metinden sese modeli yapay, önceden ayarlanmış seslerle sınırlı.
gpt-4o-transcribe modeli, milyon Ses Girişi Jetonu başına 6 dolar, milyon Metin Girişi Jetonu başına 2,50 dolar ve milyon Metin Çıkış Jetonu başına 10 dolar maliyete sahip. gpt-4o-mini-transcribe ise milyon Ses Girişi Jetonu başına 3 dolar, milyon Metin Girişi Jetonu başına 1,25 dolar ve milyon Metin Çıkış Jetonu başına 5 dolar maliyet sunuyor. Son olarak, gpt-4o-mini-tts, milyon metin giriş jetonu başına 0,60 dolar ve milyon ses çıkış jetonu başına 12 dolar maliyet ortaya koyuyor. Bunların dakika başına maliyetlere ise şu şekilde:
- gpt-4o-transcribe: ~0,6 sent / dakika
- gpt-4o-mini-transcribe: ~0,3 sent / dakika
- gpt-4o-mini-tts: ~1,5 sent / dakika
Bu yeni ses modelleri artık tüm geliştiriciler için API’ler aracılığıyla kullanılabilir durumda. OpenAI ayrıca, geliştiricilerin ses ajanlarını kolayca oluşturmasına olanak tanıyan Agents SDK ile bir entegrasyon duyurdu. Düşük gecikmeli konuşmadan konuşmaya deneyimleri için OpenAI, Realtime API’nin kullanılmasını öneriyor.