14 yaşında, sıfırdan Türkçe yapay zeka modeli geliştirme adımları

Merhaba Technopat ailesi,
Ben Ömer Efe, 14 yaşındayım.

Bu konuyu açmamdaki amaç; yalnızca bir yapay zeka geliştirmek değil, aynı zamanda Türkiye'de bir gencin sıfırdan neler yapabileceğini göstermek. Türkiye'nin kendi dilinde, kendi altyapısıyla, yerli ve bağımsız bir yapay zeka modeli olabilir mi sorusuna cevap aramak istedim. Ve bu soruya kendi imkânlarımla bir cevap üretmeye çalıştım.

Neden bu projeye başladım?​


Bugün kullandığımız GPT, claude, Gemini gibi yapay zekâların hepsi yabancı şirketlere ait. Ben de “neden biz de kendi Türkçe yapay zekâmızı yapmayalım?” dedim. Hazır modelleri alıp kullanmak yerine, sıfırdan kendi verimi toplayıp işledim ve modelimi eğittim. Ne bir laboratuvarım vardı ne de güçlü sunucularım. Sadece 400GB boş alanı olan bir dizüstü bilgisayarım ve çok büyük bir hayalim vardı.

Neler yaptım?​


  • Huggingface gibi kaynaklardan 110GB'tan fazla Türkçe veri indirdim.
  • Bu verileri temizledim, doğruladım ve parçalara ayırdım.
  • Python ile script hazırlayarak tüm süreci otomatikleştirdim.
  • Verileri işlerken log tuttum, zaman damgaları, kaynak URL'leri gibi detaylara kadar her şeyi belgeledim.
  • Daha sonra elimdeki verinin bir kısmı ile küçük bir model eğittim
  • Eğitim sırasında, veriyi indirme, veriyi işleme kısımları için kendi bilgisayarımı günlerce açık tutmak zorunda kaldım. Sıcaklıklar, donmalar, hatalar yaşadım ama devam ettim.

Zorluklar​


  • Güçlü donanımım yoktu. Eğitim çok yavaş oldu.
  • Model saçma cevaplar verdi bunun sebebi ise küçük bir model oluşturmamdı çok büyük veriler ile eğitemedim.
  • Sunucu bulamadım, ücretsiz platformlarla uğraştım ama çoğu ya sınır koydu ya da destek vermedi.

Elimde ne var?​


  • Kendi ellerimle indirdiğim ve işlediğim temiz Türkçe veri seti.
  • Eğitim logları, ekran görüntüleri ve Python scripti.
  • Tamamen sıfırdan eğitilmiş küçük ama yerli bir Türkçe dil modeli.

Neden bu konuyu açtım?​


Ben bu modeli “süper cevaplar versin” diye değil, bir hayal gerçekleşebilsin diye geliştirdim. Belki şu an GPT-4 kadar değil ama bu yolun başı. Eğer sesimi duyurabilirsem, belki bu alanla ilgilenen diğer gençler için de bir umut olur.
Destek almak, öneri duymak, yol gösterecek insanlar bulmak ve en önemlisi “bu ülkede teknoloji üretilebilir” demek için buradayım.

Log dosyaları veri indirmek için Python dosyası ve Türkçe model için:

 

Dosya Ekleri

  • Ekran görüntüsü 2025-05-03 095734.png
    158,3 KB · Görüntüleme: 113
  • Ekran görüntüsü 2025-04-27 100735.png
    26,4 KB · Görüntüleme: 114
  • Ekran görüntüsü 2025-05-01 231155.png
    163,3 KB · Görüntüleme: 111
Son düzenleyen: Moderatör:
Süpersin dostum.
 
İşine karışmak gibi olmasın ama ollama veya Lmstudio'dan bir yapay zeka indirip fine tune denilen bir işlemde yapabilirdin, oraya diğer dillerin verilerini kısıp Türkçe yükleyerek mesela, ama hala yabancı ülkenin kodunu içeriyor, illaki elimle ben yapacağım diyorsan bence mükemmel olmuş. Bana o yaşımda kodlama bile öğretmemişlerdi, bence ileride çok iyi bir fırsatın olacak.
 
Ollama veya LM Studio gibi hazır çözümlerle fine-tune yapmak mümkün ama ben her şeyi sıfırdan, kendi ellerimle yaparak öğrenmek istedim. Kodun içinde başka ülkelere ait parçalar kalmasın, gerçekten bize ait bir şey olsun istiyorum. Zaten bu projeyi sadece bir model eğitmek değil, aynı zamanda her adımını anlayarak kendimi geliştirmek için yaptım. İleride faydasını göreceğimi düşünmek çok motive ediyor.
 

Bilmiyorum bu dönemde olur mu fakat, bazı savunma sanayi sistemlerinde veya hassas verileri işleyecek bir yapay zekanın olması Türkiye için gerekli olabilir.

Local ve elle düzenlenebilir bir şey, daha ne olsun.
 
Öncelikle azminden dolayı tebrik ediyorum.

Bazı yerli kendi yapay zekanı eğit isimli videoları seyretmiş olsam da, pek de anlatılanlardan emin olamadım.
Maalesef model eğitimi veya model dosyası içerisindeki bağlantılar nasıl oluşturulur bilmiyorum. Farklı metot veya eğitim modelleri hakkında bilgim yok.

yerli ve mesleki branşlara göre eğitilmiş modellerimizin olmasını bende çok istiyorum.
A) her ilin mevcut tüm coğrafik alt üst yapısının, kültürel geçmişin olduğu (aydın ilimiz olsun) bir özel model oluşturup, sosyolojik - modern - büyümeye uygun vb şartları ek patern vererek mevcudu inceletip; önerilerini işinde uzmanlar ile kıyaslayıp şehir planlaması.
B) tıbbi dataların girilerek, her türlü salgın durumunda mevcut biyolojik direncin durumunu belirlemek,
C) tüm matematiksel kuramları verip, var olanlar için hata payı - yok ise daha basit/hızlı metodların incelenmesi.
D) belediyeler için şehir planlaması ve tüm alt birimlerin takibi.
E) branşlarına göre tüm kamu bilgilerinin girilerek, yeterlilik ölçümü.
F) Osmanlı ve cumhuriyet tarihi belgelerin işlenmesi.
G) emniyetdeki tüm dosyaların işlenerek, suç oranını azaltmak için metotlar.
H) eğitim metotları için kıyas ölçer.
İ) akademisyenlerin uzmanlık çalışmalarının dünya literatörleri ile kıyaslanması.
G) yazılı tüm meteorolojik verilerin girilerek, anlık değerler ile bölgesel iletişim altyapısı.

Kısacası insan sayısından fazla farklı görevler ve ihtiyaçlar için alt modellere ihtiyacımız var.

Sana maddi destek olacak gücüm yok ama seni yoracak bir talebim olabilir.

Kişisel kullanım amaçlı yaptığın çalışmanın, tüm adımlarını paylaşacak olursan, senin yaş grubundaki veya farklı mesleklerdeki birçok kişi kendi modellerini oluşturmaya ve mesleki - erişebildiği veriler ile minik modeller oluşturulmaya başlanabilir. Zaman içinde bu modeller bir noktada birleştirilerek, daha büyük ve içindeki tüm verilerin (bahsettiğim kaynaklar meteorolojiden tut, sağlık verilerine, akademisyenler kendi çalışmalarının olduğu) birleştirilmesi ile de daha büyük ve kontrol edilmiş modeller oluşturabiliriz.

Benim hardware bilgim aşağıda yazılı.
Ama tüm aşamaları paylaşacak olur, hatta program bilgin ile işi daha da otomatik hale getirebilirsen bende bazı özel ilgime giren konularda minik data modelleri oluşturmak isterim.

Konuyu okuyan arkadaşla;
Mümkün ise arkadaşın GitHub repo linkini paylaşalım ve erişim imkanlarınız var ise uzman veya maddi destek sağlayabileceklere gönderelim.

Selamlar.
 
Merhaba ben bu projeyi sadece bir model eğitimi olarak değil, bir hareketin başlangıcı olarak görüyorum. Sizinki gibi öneriler ve destekler sayesinde belki de gelecekte gerçekten yerli güvenli ve topluma faydalı modeller oluşturabiliriz. Tüm süreci belgeledim, Python scriptinden veri temizliğine, eğitim loglarına kadar. Şu anda bu süreci Github'ta paylaştığım tek dosya veri indirme scripti onun içinde ise kaliteli metin verilerinden Wikipedia eğitim okul gibi Oscar ve mc4 verileri vardır onun dışında diğer Python dosyalarını paylaşıp paylaşmamam gerektiginden emin değilim. Ancak dediğiniz gibi eğer paylaşım olursa farklı mesleklerden insanlar da kendi mikro modellerini geliştirebilir.
 

Ben veri modelleri ve model oluşturulması konusunda bilgim yok. Ayrıca bir model script i yazılımcısının düşünce ve hedifine göre tanımlanmıştır. Bir eğitimci için model dosya mantığı ile sağlık için veya uçak mühendisi için aynı olmaz sanırım.
Bir başka topic de tıp fakültesi 5. sınıf arkadaşın konusuna cevap yazdım. O da kendi yapay zeka ve model dosyasını geliştirmek istiyordu.
Ona önerim ise yapay zeka geliştirmek yerine, herhangi bir yapay zeka için model bilgi dosyası için mesleki tecrübelerini kullan demek oldu.

Yani olan bir kişi - bir cepheli bakış açısı değil.
Tüm kodları paylaşsan bile mutlaka kişisel olarak o kodları değiştirmek isteyecekler. Çünkü kendi modelleri için gerekli data uygun olmayacaktır.

Selamlar.

Örnek bir veri model yapısı aklıma geldi.
Tamamen örnektir.
Ben cin Ali ilköğretim okulunda (kars olsun okulumuzun yeri) 20 yıldır müdürüm ve 20 yıl içinde 1000 öğrenci mezun oldu. Hepsinin TCKN'ları var elimde. Nufus müdürlüğünden rica ettim; 1000 mezun öğrencinin 20 yıl içindeki yaşadığı yerler ve eğitim durumları - son mesleki verilerini birleştirdim.
Al sana mükemmel bir örnek veri.

Bundan ne sonuç alabilirim?
1) yaşam kalitesi - göç durumu - eğitimde kültürel gelişim.
2) 20 yıl içindeki okulun ve benim mesleki başarı seviyem.
3) coğrafik - kültürel geçmiş ve gelecek analizi.

Aynı okulun eğitim verilerine bir başkası coğrafik bilgileri - diğeri hava durum bilgilerini - bir başkası ailelerin eğitim - gelir durumu vs gibi diğer bilgileri girmiş olsa.
Devlet de o verileri alıp, o 1000 öğrenciye ait şecere - banka harcaması - seyahat bilgisi - mevcut sağlık ve medeni durumu... Verilerini eklese.

Sayısız veri analizi düşünebilirsin.

Bu tür bir analiz dosyasını oluşturabilecek kamu bütçesi ve kadrosu çok zor. Ama gönüllü çalışanlar ile kısa sürede büyürsün.
 
Son düzenleme:
evet abi çok haklısın, tam da dediğin gibi. daha önce de söylemiştim, elimde güçlü bir bilgisayar yok ama eğer bir sunucum olsaydı bu işi çok daha hızlandırabilir ve gerçekten milyarlarca parametreye sahip bir yapay zeka yapabilirdim. ekran kartlı bilgisayarlar ya da sunucular bu işi çok kolaylaştırıyor. ayrıca dediğin gibi sağlık, eğitim gibi veri tabanlarını birleştirip daha anlamlı sonuçlar çıkarabilirdim. belki de sunucu sayesinde herkesin kullanabileceği bir model haline bile gelebilirdi.

gerçekten iyi eğitilmiş bir yerli yapay zekanın, bu ülkenin sorunlarını ve insanlarını en iyi şekilde anlayabileceğine inanıyorum. çünkü bizim halimizden, derdimizden ancak bizim yetiştirdiğimiz bir yapay zeka anlayabilir.
 
Bu siteyi kullanmak için çerezler gereklidir. Siteyi kullanmaya devam etmek için çerezleri kabul etmelisiniz. Daha Fazlasını Öğren.…