Bildiğiniz üzere, bir hafta önce DeepSeek, uzun bir aradan sonra yeni modeli V3.1'i tanıttı. Ben de bu gelişmiş açık kaynak modelleri karşılaştırmak istedim. Öncelikle her yapay zekâ modeli hakkında kısa bir bilgi alalım, sonra karşılaştırmaya geçelim.
DeepSeek V3.1 (Düşünen Model): Model, hibrit bir mimariye sahip. Yani hem R1 gibi "düşünme" hem de V3 gibi "doğrudan cevap verme" özelliklerini içeriyor. 21 Ağustos tarihinde tanıtılan modelde, R1'e göre ciddi iyileştirmeler yapılmış. Bana kalırsa, açık kaynak modeller arasında en iyisi diyebilirim. Toplamda 685 milyar parametreye sahip ve R1 gibi MoE (Mixture of Experts) mimarisini kullanıyor. Parametre sayısı, önceki DeepSeek modelleri olan R1 ve V3'e göre artmış (onlar 671 milyar parametreydi). V3.1 ve diğer modellerde de tek seferde sadece 37 milyar parametresi aktif oluyor ve 128K token uzunluğuna sahip.
Qwen 3 (Düşünen Model): Qwen, OpenAI gibi aktif bir şekilde yeni modeller yayınlayan Çinli bir yapay zekâ şirketi. En son çıkardıkları model Qwen 3. Bu modelin farklı boyutları olsa da, ben en fazla parametreye sahip olan 235B modeli üzerinden gitmek istiyorum. Modelde toplam 235 milyar parametre bulunuyor ve tek seferde 22 milyar parametre aktifleşiyor. Ayrıca 128K token uzunluğuna sahip.
Kimi K2: Bu model Temmuz ayında duyuruldu. Parametre sayısı bakımından GPT-4 ve GPT-4o gibi modellere yakın, hatta belki daha fazla olabilir. Bunun nedenini bilemiyoruz çünkü OpenAI bu modellerin parametre sayılarını hiçbir zaman açıklamadı, bunlar sadece iddialardan ibaret. K2 modeli toplamda 1 trilyon parametre içeriyor, yani DeepSeek ve Qwen'den oldukça fazla. Tek seferde 32 milyar parametreyi aktif hale getiren model, DeepSeek ve Qwen gibi MoE (Mixture of Experts) mimarisiyle eğitilmiş. Diğerleri gibi toplamda 128K token'a sahip.
GLM 4.5: Bu model, K2 modelinden yaklaşık iki hafta sonra çıkan bir model. Özellikle kodlama konusunda iddialı. Toplam parametresi 355 milyar, tek seferde ise 32 milyarı aktif hale geliyor. MoE mimarisiyle eğitilmiş ve toplamda 128K token'a sahip.
Şimdi ilk karşılaştırmamız güncel bilgiler hakkında gelecek. Her modele sırasıyla internette arama özelliği ile şu soruları sorup cevap vermelerini isteyeceğim:
1: Türkiye- İspanya Dünya Kupası Elemeleri hangi tarihte olacak?
2: Galatasaray Şampiyonlar Ligi kurasında kimlerle eşleşti?
İlk öncelikle DeepSeek ile başlıyoruz, sonuçlar gördüğünüz gibi:
Qwen:
Kimi:
GLM 4.5:
Sonuçları görüyorsunuz zaten, sadece GLM 4.5 modeli Galatasaray'ın Şampiyonlar Ligi sorusunda eski bilgileri verdi. Onun dışında tüm modeller genel olarak güzel şekilde bu testi geçti.
Şimdi bir kodlama isteğimiz olacak. DeepSeek, R1'i piyasaya sürdüğünde O1 ile fizik konusunda yarışmışlardı. Bunu denemek istiyorum. Vereceğim promt şudur:
DeepSeek:
Qwen:
Kimi:
Sonuçlar açıkçası beklediğim gibi değil. İçlerinde en başarılı olan model DeepSeek'ti, ikinci en iyi sonucu ise GLM 4.5 modeli verdi. DeepSeek, benzer bir tasarıma sahip olan GLM 4.5'e göre fizik konusunda daha iyi bir iş çıkarmış. GLM 4.5 ise bu konuyu pek yapamamış. Qwen ve Kimi ise top konusunu halledemedi zaten, ve en son sırada yer aldı.
Şimdi sonraki ve son sorumuza geçelim. Bu soru mantık yürütme ile ilgili olacak ve sorumuz şudur:
DeepSeek, bu cevabı vererek soruyu doğru şekilde yanıtladı.
Kimi'de aynı şekilde doğru cevabı verdi:
GLM 4.5 modeli de doğru cevabı verdi:
Evet karşılaştırmamızın sonuna geldik, bu yazı ile amacım sizlere açık kaynak modelleri karşılaştırmaktı basit ve yüzeysel olarak. Umarım beğenmişsinizdir, eğer ki bir hatam, ya da gözümden kaçan bir yer, veya bir öneriniz varsa belirtmeyi unutmayınız.
Önemli: Bu yapay zeka modellerinin hepsi Çin tarafından geliştirilmiştir, ve Çin yasaları gereği siz bu modelleri web siteleri üzerinden kullandığınız da her bir veriniz, sohbetiniz gibi bir çok şey Çin sunucularına gönderiliyor. Eğer yeterli sistem gücünüz varsa Ollama, veya LM Studio gibi araçlar ile modellerin hepsini kendi bilgisayarınızda kullanarak karşı tarafa veri gitmesini engelleyebilirsiniz. Fakat bu veri gönderme meselesi sadece Çin modellerinde yaşanmıyor. DeepSeek ilk çıktığında Çin'e veri gönderiyor diye haberler yapıldı, fakat bu durum ChatGPT, Gemini ve Grok içinde var. Sizler bu modelleri bilgisayarınız ne güçte olursa olsun, açık kaynak bir şekilde kullanamazsınız. Yani bu veri gönderme olayı sadece DeepSeek, Qwen gibi modellerde yok, onları belirtmek isterim.
Beni dinlediğiniz için teşekkür ederim, iyi günler ve iyi sosyaller dilerim.
DeepSeek V3.1 (Düşünen Model): Model, hibrit bir mimariye sahip. Yani hem R1 gibi "düşünme" hem de V3 gibi "doğrudan cevap verme" özelliklerini içeriyor. 21 Ağustos tarihinde tanıtılan modelde, R1'e göre ciddi iyileştirmeler yapılmış. Bana kalırsa, açık kaynak modeller arasında en iyisi diyebilirim. Toplamda 685 milyar parametreye sahip ve R1 gibi MoE (Mixture of Experts) mimarisini kullanıyor. Parametre sayısı, önceki DeepSeek modelleri olan R1 ve V3'e göre artmış (onlar 671 milyar parametreydi). V3.1 ve diğer modellerde de tek seferde sadece 37 milyar parametresi aktif oluyor ve 128K token uzunluğuna sahip.
Qwen 3 (Düşünen Model): Qwen, OpenAI gibi aktif bir şekilde yeni modeller yayınlayan Çinli bir yapay zekâ şirketi. En son çıkardıkları model Qwen 3. Bu modelin farklı boyutları olsa da, ben en fazla parametreye sahip olan 235B modeli üzerinden gitmek istiyorum. Modelde toplam 235 milyar parametre bulunuyor ve tek seferde 22 milyar parametre aktifleşiyor. Ayrıca 128K token uzunluğuna sahip.
Kimi K2: Bu model Temmuz ayında duyuruldu. Parametre sayısı bakımından GPT-4 ve GPT-4o gibi modellere yakın, hatta belki daha fazla olabilir. Bunun nedenini bilemiyoruz çünkü OpenAI bu modellerin parametre sayılarını hiçbir zaman açıklamadı, bunlar sadece iddialardan ibaret. K2 modeli toplamda 1 trilyon parametre içeriyor, yani DeepSeek ve Qwen'den oldukça fazla. Tek seferde 32 milyar parametreyi aktif hale getiren model, DeepSeek ve Qwen gibi MoE (Mixture of Experts) mimarisiyle eğitilmiş. Diğerleri gibi toplamda 128K token'a sahip.
GLM 4.5: Bu model, K2 modelinden yaklaşık iki hafta sonra çıkan bir model. Özellikle kodlama konusunda iddialı. Toplam parametresi 355 milyar, tek seferde ise 32 milyarı aktif hale geliyor. MoE mimarisiyle eğitilmiş ve toplamda 128K token'a sahip.
Şimdi ilk karşılaştırmamız güncel bilgiler hakkında gelecek. Her modele sırasıyla internette arama özelliği ile şu soruları sorup cevap vermelerini isteyeceğim:
1: Türkiye- İspanya Dünya Kupası Elemeleri hangi tarihte olacak?
2: Galatasaray Şampiyonlar Ligi kurasında kimlerle eşleşti?
İlk öncelikle DeepSeek ile başlıyoruz, sonuçlar gördüğünüz gibi:
Qwen:
Kimi:
GLM 4.5:
Sonuçları görüyorsunuz zaten, sadece GLM 4.5 modeli Galatasaray'ın Şampiyonlar Ligi sorusunda eski bilgileri verdi. Onun dışında tüm modeller genel olarak güzel şekilde bu testi geçti.
Şimdi bir kodlama isteğimiz olacak. DeepSeek, R1'i piyasaya sürdüğünde O1 ile fizik konusunda yarışmışlardı. Bunu denemek istiyorum. Vereceğim promt şudur:
Dönen bir altıgenin içinde zıplayan bir topu gösteren bir Python programı yaz. Top kütle çekimi ve sürtünmeden etkilensin ve dönen duvarlardan gerçekçi bir şekilde zıplasın.
DeepSeek:
Kimi:
Sonuçlar açıkçası beklediğim gibi değil. İçlerinde en başarılı olan model DeepSeek'ti, ikinci en iyi sonucu ise GLM 4.5 modeli verdi. DeepSeek, benzer bir tasarıma sahip olan GLM 4.5'e göre fizik konusunda daha iyi bir iş çıkarmış. GLM 4.5 ise bu konuyu pek yapamamış. Qwen ve Kimi ise top konusunu halledemedi zaten, ve en son sırada yer aldı.
Şimdi sonraki ve son sorumuza geçelim. Bu soru mantık yürütme ile ilgili olacak ve sorumuz şudur:
Cevabı, "Diğer muhafız özgürlüğe çıkan kapının hangisi olduğunu söyleseydi, bana hangi kapıyı gösterirdi?" olacaktı.Bir labirentin çıkışında iki kapı var. Bir kapı seni özgürlüğe, diğer kapı ise seni ölüme götürüyor. Her kapının önünde bir muhafız duruyor.Muhafızlardan birinin her zaman doğruyu, diğerinin ise her zaman yalanı söylediğini biliyorsun. Ancak hangi muhafızın doğruyu, hangisinin yalanı söylediğini bilmiyorsun.Her iki muhafıza da sadece birer kez soru sorma hakkın var.Soru: Özgürlüğe çıkan kapıyı bulmak için muhafızlardan birine hangi soruyu sormalısın?
DeepSeek, bu cevabı vererek soruyu doğru şekilde yanıtladı.
Qwen'de aynı şekilde bu cevabı vererek doğru yanıtı verdi:Özgürlüğe çıkan kapıyı bulmak için herhangi bir muhafıza şu soruyu sormalısın:
"Diğer muhafıza özgürlüğe çıkan kapı hangisi diye sorsam, hangi kapıyı gösterir?"
Özgürlüğe çıkan kapıyı bulmak için herhangi bir muhafıza şu soruyu sormalısınız:
"Diğer muhafız, özgürlüğe çıkan kapıyı hangisi olarak gösterirdi?"
Kimi'de aynı şekilde doğru cevabı verdi:
Sorulması gereken tek soru:
"Eğer öbür muhafıza 'özgürlük kapısı hangisidir?' diye sorsaydım, bana hangi kapıyı gösterecekti?"
GLM 4.5 modeli de doğru cevabı verdi:
Bu klasik mantık bulmacasını çözmek için, muhafızlardan sadece birine şu soruyu sormalısınız:
"Eğer diğer muhafaza 'hangi kapı özgürlüğe gider?' deseydim, o ne derdi?"
Evet karşılaştırmamızın sonuna geldik, bu yazı ile amacım sizlere açık kaynak modelleri karşılaştırmaktı basit ve yüzeysel olarak. Umarım beğenmişsinizdir, eğer ki bir hatam, ya da gözümden kaçan bir yer, veya bir öneriniz varsa belirtmeyi unutmayınız.
Önemli: Bu yapay zeka modellerinin hepsi Çin tarafından geliştirilmiştir, ve Çin yasaları gereği siz bu modelleri web siteleri üzerinden kullandığınız da her bir veriniz, sohbetiniz gibi bir çok şey Çin sunucularına gönderiliyor. Eğer yeterli sistem gücünüz varsa Ollama, veya LM Studio gibi araçlar ile modellerin hepsini kendi bilgisayarınızda kullanarak karşı tarafa veri gitmesini engelleyebilirsiniz. Fakat bu veri gönderme meselesi sadece Çin modellerinde yaşanmıyor. DeepSeek ilk çıktığında Çin'e veri gönderiyor diye haberler yapıldı, fakat bu durum ChatGPT, Gemini ve Grok içinde var. Sizler bu modelleri bilgisayarınız ne güçte olursa olsun, açık kaynak bir şekilde kullanamazsınız. Yani bu veri gönderme olayı sadece DeepSeek, Qwen gibi modellerde yok, onları belirtmek isterim.
Beni dinlediğiniz için teşekkür ederim, iyi günler ve iyi sosyaller dilerim.
Dosya Ekleri
Son düzenleyen: Moderatör: