Son dönemde DeepSeek adını sorgulara verilen yanıtları iyileştiren yeni akıl yürütme modeli R1 sayesinde sıkça duyar olduk. DeepSeek’in ana akıl yürütme dışı modeli DeepSeek-V3 ise Aralık ayında kendi etkileyici karşılaştırma puanlarıyla geldi. Öte yandan, bir diğer Çinli şirket olan Alibaba, DeepSeek-V3’ü ve bazı testlerde GPT-4o-0806 ile Claude-3.5-Sonnet-1022’yi geride bırakan Qwen2.5-Max modelini yayınladı.
Qwen2.5-Max mi DeepSeek-V3 mü?
DeepSeek gibi Qwen2.5-Max de Çin siyasi sorunları konusunda hassas, bu soruları bile yanıtlamıyor, Qwen Chat’te bu sorguları denediğinizde sadece kota sınırınızı aştığınızı söylüyor ancak konuyu değiştirdiğinizde iyi yanıtlıyor.
Alibaba’nın modelini rekabete karşı test etmek için kullandığı bazı ölçütler arasında üniversite düzeyindeki problemler aracılığıyla bilgiyi test eden MMLU-Pro, kodlama yeteneklerini değerlendiren LiveCodeBench, genel yetenekleri kapsamlı bir şekilde test eden LiveBench ve insan tercihlerini tahmin eden Arena-Hard yer alıyor.
Qwen2.5-Max, Arena-Hard’da 89,4 puanla birinci oldu ve en yakın rakibi 85,5 puanla DeepSeek-V3 oldu. MMLU-Pro’da Claude Sonnet, Qwen2.5-Max’in 76,1 puanına kıyasla 78,0 puanla kazandı. GPQA-Diamond ölçütünde Claude’un 65,0 puanına kıyasla 60,1 puanla Claude Sonnet’in ardından ikinci oldu.
LiveCodeBench’te Claude’un 38,9 puanına kıyasla 38,7 puan aldı. Son olarak, LiveBench’te Qwen, DeepSeek’in 60.5 puanına kıyasla 62.2 puanla kazandı.
Şirketin yaptığı diğer bazı karşılaştırmalar ise şunlar:
Yeni Qwen2.5-Max, geliştiricilerin platformlarına entegre etmeleri için bir API aracılığıyla ve son kullanıcılar için Qwen Chat aracılığıyla erişilebilir. İkinci seçenek, Artifacts’ı kullanmanıza ve görüntü veya video oluşturmanıza olanak tanıyor. Ek olarak, web aramasını etkinleştirmek için bir düğme de var ancak bunun yakında geleceğini belirtiliyor.