12 Gün OpenAI etkinliğinin son gününde OpenAI tarafından o3 akıl yürütme modelleri ailesi duyuruldu. Mevcut o1 ailesine benzer şekilde, o3 ailesi o3 ve o3 mini modellerini içerecek.
OpenAI o3 ve o3 Mini Akıl Yürütme Modelleri Neler Sunuyor?
OpenAI, o3 modelleri için bazı kıyaslama sayılarını da paylaşmayı ihmal etmedi.
- o3, ARC-AGI Yarı Özel Değerlendirme’de %75,7’lik bir atılım puanı aldı. Yüksek hesaplamalı o3 yapılandırmasıyla Yarı Özel Değerlendirme’de %87,5 puan aldı.
- EpochAI Frontier Math kıyaslamasında o3, sorunların %25,2’sini çözerken, mevcut modeller yalnızca %2’sini çözdü.
- SWE-Bench Verified’da o3, o1’den 22,8 puan daha yüksek olan 71,7 puan aldı.
- Codeforces’ta o3, 2727’lik bir Elo derecesi elde etti.
- AIME 2024’te o3, %96,7 puan aldı. Karşılaştırma için o1, 83,3 puan aldı.
- GPQA Diamond’da o3, %87,7 puan aldı. Karşılaştırma için o1, %78 puan aldı.
ARC ödül ekibi, OpenAI’nin yeni o3 modelleri hakkında şunları yazdı: ”OpenAI’nin yeni o3 modeli, yapay zekanın yeni görevlere uyum sağlama yeteneğinde önemli bir atılımı temsil ediyor. Bu yalnızca kademeli bir iyileştirme değil, aynı zamanda büyük dil modellerinin (LLM) önceki sınırlamalarına kıyasla yapay zeka yeteneklerinde niteliksel bir değişimi işaret eden gerçek bir atılımdır. o3, daha önce hiç karşılaşmadığı görevlere uyum sağlayabilen, ARC-AGI alanında insan düzeyinde performansa yaklaşan bir sistemdir.”
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI) December 20, 2024
o3 mini modeli, kullanıcılara Yüksek, Orta ve Düşük olmak üzere üç akıl yürütme seviyesi arasında seçim yapma seçeneği sunacak. Düşük seviye en hızlı ancak daha az doğru olacakken Yüksek seviye en yavaş ancak daha doğru olacak.
o3 modelleri henüz yayınlanmadı ancak bugün itibarıyla o3 modellerini güvenlik ve emniyet testleri için paylaşılmaya başlandı. İlgilenen güvenlik ve emniyet araştırmacıları, o3 modellerine halka açık lansmandan önce erişim sağlamak için başvuruda bulunabiliyor. o3 modellerinin 2025 yılında genel kullanıma sunulması planlanıyor.