Açık kaynak büyük dil modelleri ile kapalı sistemler arasındaki performans farkı uzun süredir tartışma konusuydu. Paylaşılan son benchmark sonuçlarıyla birlikte bu tablo önemli ölçüde değişti. GLM-4.7 çok sayıda akademik ve pratik testte hem önceki sürümlerini hem de Claude Sonnet, Gemini ve GPT-5 sınıfındaki modelleri geride bırakarak açık kaynak cephesinde yeni bir eşiğe ulaştı.
GLM-4.7 benchmark sonuçları ne gösteriyor?
Paylaşılan veriler GLM-4.7’nin özellikle muhakeme, matematik, kod üretimi ve ajan tabanlı görevlerde istikrarlı biçimde üst sıralarda yer aldığını ortaya koyuyor. MMLU-Pro testinde 84,3 puan alan model önceki sürüm GLM-4.6’nın üzerine çıkarken birçok modelle aynı seviyede konumlandı. GPQA-Diamond ve IMOAnswerBench gibi bilgi ve akıl yürütme ağırlıklı testlerde de benzer bir tablo ortaya çıktı.

Matematik odaklı AIME 2025 ve HMMT testlerinde GLM-4.7’nin 95 puan bandını aşması dikkat çekiyor. Bu skorlar modelin yalnızca dil üretiminde değil ileri seviye problem çözme tarafında da güçlü bir yapı sunduğunu gösteriyor. Özellikle HMMT Şubat 2025 testinde elde edilen 97,1 puan açık kaynak bir model için bugüne kadar görülen en yüksek sonuçlardan.
Kod ve yazılım ajanı tarafında da benzer bir tablo söz konusu. SWE-bench Verified ve SWE-bench Multilingual testlerinde GLM-4.7 hem çok dilli kod üretiminde hem de gerçek hata çözüm senaryolarında önceki açık kaynak modelleri geride bıraktı. LiveCodeBench-v6 sonuçları modelin canlı kod üretimi ve hata ayıklama performansının tüm rakip sistemlerle aynı ligde yer aldığını ortaya koyuyor.
Terminal Bench ve BrowseComp testleri ise GLM-4.7’nin yalnızca metin üretmekle sınırlı kalmadığını, araç kullanımı, komut satırı görevleri ve bağlam yönetimi gibi ajan yeteneklerinde de ciddi bir ilerleme kaydettiğini gösteriyor. BrowseComp bağlam yönetimi testinde elde edilen 67,5 puanla model çok adımlı görevlerde de tutarlı bir performans sunuyor.
Açık kaynak modeller ilk kez bu kadar geniş bir benchmark setinde rakipleriyle yakın, hatta bazı başlıklarda daha iyi performans sergiliyor. GLM-4.7’nin Hugging Face üzerinde açık şekilde erişilebilir olması ve geliştiriciler tarafından doğrudan kullanılabilmesi de bu başarıyı daha da kritik hale getiriyor.
| Benchmark | GLM-4.7 | GLM-4.6 | Kimi K2 Thinking | DeepSeek-V3.2 | Gemini 3.0 Pro | Claude Sonnet 4.5 | GPT-5-High | GPT-5.1-High |
|---|---|---|---|---|---|---|---|---|
| MMLU-Pro | 84.3 | 83.2 | 84.6 | 85.0 | 90.1 | 88.2 | 87.5 | 87.0 |
| GPQA-Diamond | 85.7 | 81.0 | 84.5 | 82.4 | 91.9 | 83.4 | 85.7 | 88.1 |
| HLE | 24.8 | 17.2 | 23.9 | 25.1 | 37.5 | 13.7 | 26.3 | 25.7 |
| HLE (w/ Tools) | 42.8 | 30.4 | 44.9 | 40.8 | 45.8 | 32.0 | 35.2 | 42.7 |
| AIME 2025 | 95.7 | 93.9 | 94.5 | 93.1 | 95.0 | 87.0 | 94.6 | 94.0 |
| HMMT Feb. 2025 | 97.1 | 89.2 | 89.4 | 92.5 | 97.5 | 79.2 | 88.3 | 96.3 |
| HMMT Nov. 2025 | 93.5 | 87.7 | 89.2 | 90.2 | 93.3 | 81.7 | 89.2 | – |
| IMOAnswerBench | 82.0 | 73.5 | 78.6 | 78.3 | 83.3 | 65.8 | 76.0 | – |
| LiveCodeBench-v6 | 84.9 | 82.8 | 83.1 | 83.3 | 90.7 | 64.0 | 87.0 | 87.0 |
| SWE-bench Verified | 73.8 | 68.0 | 71.3 | 73.1 | 76.2 | 77.2 | 74.9 | 76.3 |
| SWE-bench Multilingual | 66.7 | 53.8 | 61.1 | 70.2 | – | 68.0 | 55.3 | – |
| Terminal Bench Hard | 33.3 | 23.6 | 30.6 | 35.4 | 39.0 | 33.3 | 30.5 | 43.0 |
| Terminal Bench 2.0 | 41.0 | 24.5 | 35.7 | 46.4 | 54.2 | 42.8 | 35.2 | 47.6 |
| BrowseComp | 52.0 | 45.1 | – | 51.4 | – | 24.1 | 54.9 | 50.8 |
| BrowseComp (w/ Context Manage) | 67.5 | 57.5 | 60.2 | 67.6 | 59.2 | – | – | – |
| BrowseComp-Zh | 66.6 | 49.5 | 62.3 | 65.0 | – | 42.4 | 63.0 | – |
| τ²-Bench | 87.4 | 75.2 | 74.3 | 85.3 | 90.7 | 87.2 | 82.4 | 82.7 |



