Merhaba Technopat ailesi,
Ben Ömer Efe, 14 yaşındayım.
Bu konuyu açmamdaki amaç; yalnızca bir yapay zeka geliştirmek değil, aynı zamanda Türkiye'de bir gencin sıfırdan neler yapabileceğini göstermek. Türkiye'nin kendi dilinde, kendi altyapısıyla, yerli ve bağımsız bir yapay zeka modeli olabilir mi sorusuna cevap aramak istedim. Ve bu soruya kendi imkânlarımla bir cevap üretmeye çalıştım.
Bugün kullandığımız GPT, claude, Gemini gibi yapay zekâların hepsi yabancı şirketlere ait. Ben de “neden biz de kendi Türkçe yapay zekâmızı yapmayalım?” dedim. Hazır modelleri alıp kullanmak yerine, sıfırdan kendi verimi toplayıp işledim ve modelimi eğittim. Ne bir laboratuvarım vardı ne de güçlü sunucularım. Sadece 400GB boş alanı olan bir dizüstü bilgisayarım ve çok büyük bir hayalim vardı.
Ben bu modeli “süper cevaplar versin” diye değil, bir hayal gerçekleşebilsin diye geliştirdim. Belki şu an GPT-4 kadar değil ama bu yolun başı. Eğer sesimi duyurabilirsem, belki bu alanla ilgilenen diğer gençler için de bir umut olur.
Destek almak, öneri duymak, yol gösterecek insanlar bulmak ve en önemlisi “bu ülkede teknoloji üretilebilir” demek için buradayım.
Log dosyaları veri indirmek için Python dosyası ve Türkçe model için:
github.com
Ben Ömer Efe, 14 yaşındayım.
Bu konuyu açmamdaki amaç; yalnızca bir yapay zeka geliştirmek değil, aynı zamanda Türkiye'de bir gencin sıfırdan neler yapabileceğini göstermek. Türkiye'nin kendi dilinde, kendi altyapısıyla, yerli ve bağımsız bir yapay zeka modeli olabilir mi sorusuna cevap aramak istedim. Ve bu soruya kendi imkânlarımla bir cevap üretmeye çalıştım.
Neden bu projeye başladım?
Bugün kullandığımız GPT, claude, Gemini gibi yapay zekâların hepsi yabancı şirketlere ait. Ben de “neden biz de kendi Türkçe yapay zekâmızı yapmayalım?” dedim. Hazır modelleri alıp kullanmak yerine, sıfırdan kendi verimi toplayıp işledim ve modelimi eğittim. Ne bir laboratuvarım vardı ne de güçlü sunucularım. Sadece 400GB boş alanı olan bir dizüstü bilgisayarım ve çok büyük bir hayalim vardı.
Neler yaptım?
- Huggingface gibi kaynaklardan 110GB'tan fazla Türkçe veri indirdim.
- Bu verileri temizledim, doğruladım ve parçalara ayırdım.
- Python ile script hazırlayarak tüm süreci otomatikleştirdim.
- Verileri işlerken log tuttum, zaman damgaları, kaynak URL'leri gibi detaylara kadar her şeyi belgeledim.
- Daha sonra elimdeki verinin bir kısmı ile küçük bir model eğittim
- Eğitim sırasında, veriyi indirme, veriyi işleme kısımları için kendi bilgisayarımı günlerce açık tutmak zorunda kaldım. Sıcaklıklar, donmalar, hatalar yaşadım ama devam ettim.
Zorluklar
- Güçlü donanımım yoktu. Eğitim çok yavaş oldu.
- Model saçma cevaplar verdi bunun sebebi ise küçük bir model oluşturmamdı çok büyük veriler ile eğitemedim.
- Sunucu bulamadım, ücretsiz platformlarla uğraştım ama çoğu ya sınır koydu ya da destek vermedi.
Elimde ne var?
- Kendi ellerimle indirdiğim ve işlediğim temiz Türkçe veri seti.
- Eğitim logları, ekran görüntüleri ve Python scripti.
- Tamamen sıfırdan eğitilmiş küçük ama yerli bir Türkçe dil modeli.
Neden bu konuyu açtım?
Ben bu modeli “süper cevaplar versin” diye değil, bir hayal gerçekleşebilsin diye geliştirdim. Belki şu an GPT-4 kadar değil ama bu yolun başı. Eğer sesimi duyurabilirsem, belki bu alanla ilgilenen diğer gençler için de bir umut olur.
Destek almak, öneri duymak, yol gösterecek insanlar bulmak ve en önemlisi “bu ülkede teknoloji üretilebilir” demek için buradayım.
Log dosyaları veri indirmek için Python dosyası ve Türkçe model için:
GitHub - TaklaXBR/Turkish-AI: türk yapay zeka modeli
türk yapay zeka modeli. Contribute to TaklaXBR/Turkish-AI development by creating an account on GitHub.
Dosya Ekleri
Son düzenleyen: Moderatör: