Alibaba Qwen2.5-Max Karşılaştırmalarda DeepSeek-V3 Modelini Geride Bıraktı

Son dönemde DeepSeek adını sorgulara verilen yanıtları iyileştiren yeni akıl yürütme modeli R1 sayesinde sıkça duyar olduk. DeepSeek’in ana akıl yürütme dışı modeli DeepSeek-V3 ise Aralık ayında kendi etkileyici karşılaştırma puanlarıyla geldi. Öte yandan, bir diğer Çinli şirket olan Alibaba, DeepSeek-V3’ü ve bazı testlerde GPT-4o-0806 ile Claude-3.5-Sonnet-1022’yi geride bırakan Qwen2.5-Max modelini yayınladı.

Qwen2.5-Max mi DeepSeek-V3 mü?

DeepSeek gibi Qwen2.5-Max de Çin siyasi sorunları konusunda hassas, bu soruları bile yanıtlamıyor, Qwen Chat’te bu sorguları denediğinizde sadece kota sınırınızı aştığınızı söylüyor ancak konuyu değiştirdiğinizde iyi yanıtlıyor.

Alibaba’nın modelini rekabete karşı test etmek için kullandığı bazı ölçütler arasında üniversite düzeyindeki problemler aracılığıyla bilgiyi test eden MMLU-Pro, kodlama yeteneklerini değerlendiren LiveCodeBench, genel yetenekleri kapsamlı bir şekilde test eden LiveBench ve insan tercihlerini tahmin eden Arena-Hard yer alıyor.

Qwen2.5-Max, Arena-Hard’da 89,4 puanla birinci oldu ve en yakın rakibi 85,5 puanla DeepSeek-V3 oldu. MMLU-Pro’da Claude Sonnet, Qwen2.5-Max’in 76,1 puanına kıyasla 78,0 puanla kazandı. GPQA-Diamond ölçütünde Claude’un 65,0 puanına kıyasla 60,1 puanla Claude Sonnet’in ardından ikinci oldu.

LiveCodeBench’te Claude’un 38,9 puanına kıyasla 38,7 puan aldı. Son olarak, LiveBench’te Qwen, DeepSeek’in 60.5 puanına kıyasla 62.2 puanla kazandı.

Şirketin yaptığı diğer bazı karşılaştırmalar ise şunlar:

Yeni Qwen2.5-Max, geliştiricilerin platformlarına entegre etmeleri için bir API aracılığıyla ve son kullanıcılar için Qwen Chat aracılığıyla erişilebilir. İkinci seçenek, Artifacts’ı kullanmanıza ve görüntü veya video oluşturmanıza olanak tanıyor. Ek olarak, web aramasını etkinleştirmek için bir düğme de var ancak bunun yakında geleceğini belirtiliyor.

Etiketler: ai alibaba DeepSeek DeepSeek-V3 karşılaştırma Qwen2.5-Max yapay zeka YZ

Alibaba Qwen2.5-Max Karşılaştırmalarda DeepSeek-V3 Modelini Geride Bıraktı

İlker Şekercioğlu

Yorum Yap Yanıtı iptal et

Technopat Sosyal

Technopat Video

4K 160Hz ve FHD 320Hz arası geçiş yapabilen monitör: Philips Evnia 27M2N3800A inceleme

4K 160Hz ve FHD 320Hz arası geçiş yapabilen monitör: Philips Evnia 27M2N3800A inceleme

En iyisi olabilir! ASUS ROG Ally X inceleme

Oyunculara özel 34 inç kavisli monitör: AOC GAMING CU34G4Z inceleme

Kategoriler

Sosyal Medya