OpenAI, en gelişmiş konuşma modeli olan gpt-realtime’ı ve üretim ortamına hazır hale getirilen Realtime API’yi duyurdu. Yeni model daha doğal ses üretimi, karmaşık talimatlara daha yüksek doğrulukla uyum ve geliştirilmiş araç çağırma kabiliyetleri ile bizleri karşılıyor.
gpt-realtime ve Realtime API tanıtıldı
OpenAI, Realtime API’yi ilk kez Ekim 2024’te kamuya açık beta sürümüyle duyurmuştu. O günden bu yana binlerce geliştirici bu API ile düşük gecikmeli ve çok modlu konuşma deneyimleri geliştirdi. Şimdi ise yeni model ve ek özelliklerle sistem daha güçlü ve esnek hale geldi.
The Realtime API is officially out of beta and ready for your production voice agents!
We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:
🔌 Remote MCPs
🖼️ Image input
📞 SIP phone calling
♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD— OpenAI Developers (@OpenAIDevs) August 28, 2025
Yeni gpt-realtime modeli daha doğal ve ifade dolu ses üretimi sağlıyor. Ses tonunu, aksanı veya konuşma hızını kullanıcı talimatlarına göre değiştirebiliyor. Ayrıca kahkaha gibi sözel olmayan ipuçlarını algılayabiliyor ve cümle ortasında farklı dillere geçiş yapabiliyor. OpenAI, modele iki yeni ses seçeneği olan Marin ve Cedar’ı eklediğini, mevcut sekiz sesin de daha doğal bir deneyim sunacak şekilde güncellendiğini açıkladı.
Performans testlerinde de dikkat çekici sonuçlar elde edildi. Big Bench Audio değerlendirmesinde model, %82,8 doğruluk oranına ulaştı. Aralık 2024’teki önceki model ise %65,6’lık bir skor alabilmişti.
MultiChallenge Audio Benchmark testinde ise %30,5 doğruluk oranıyla önceki modelin %20,6’lık performansını geride bıraktı. Ayrıca karmaşık işlev çağrılarında doğruluk oranı %66,5’e çıkarıldı.
Realtime API de önemli güncellemeler aldı. Artık uzaktan MCP sunucu desteği, görsel giriş desteği (eklenen fotoğraf veya ekran görüntüsü üzerinden içerik analizi) ve Session Initiation Protocol (SIP) üzerinden telefon aramaları API kapsamında kullanılabiliyor. Bunun yanı sıra geliştiriciler, hazırladıkları talimatları kaydedip yeniden kullanabilecek.
OpenAI, yeni modelin duyurusuyla birlikte fiyatlandırmada da indirim yaptı. gpt-realtime, önceki sürüme kıyasla %20 daha ucuz hale geldi. 1 milyon ses girdi tokeni 32 dolar, 1 milyon ses çıktı tokeni ise 64 dolar olarak belirlendi.



