Mayıs ayında OpenAI, GPT-4o modelini duyurduğunda ses anlama yetenekleri belirgin bir şekilde vurgulanmıştı. GPT-4o, ses girişlerine ortalama 320 milisaniyede yanıt verebilme yeteneğine sahip. Bu da tipik bir konuşmadaki insan tepki süresine yakın. OpenAI ayrıca ChatGPT Ses Modu yeteneğinin, kullanıcılar için kusursuz bir sesli konuşma deneyimi sunmak üzere GPT-4o modelinin ses yeteneklerinden yararlanacağını duyurmuştu.
Haziran ayında OpenAI, Haziran ayı sonlarında küçük bir ChatGPT Plus kullanıcı grubuna alfa sürümü için planlanan gelişmiş Ses Modu’nun bir ay erteleneceğini duyurdu. OpenAI, modelin belirli içerikleri algılama ve reddetme yeteneğini geliştirmek için daha fazla zamana ihtiyaç olduğunu belirtti. Ek olarak, altyapının milyonlarca kullanıcıya ölçeklendirilmesi için hazırlık yapıldı.
Son olarak, OpenAI CEO’su Sam Altman, X aracılığıyla Ses Modu alfa sürümünün önümüzdeki hafta ChatGPT Plus aboneleri için başlayacağını doğruladı.
ChatGPT’deki mevcut Ses Modu, ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikmeler nedeniyle sezgisel değil. GPT-4o tabanlı yaklaşan gelişmiş Ses Modu, ChatGPT abonelerinin herhangi bir gecikme olmadan sorunsuz görüşmelere katılmasına olanak tanıyacak.



