Foxconn, FoxBrain adını verdiği ilk büyük dil modelini (LLM) duyurdu. Şirket bu modeli üretim ve tedarik zinciri yönetimini iyileştirmek için kullanmayı planladığını açıkladı.
Foxconn FoxBrain Neler Sunuyor?
Şirket açıklamasında, FoxBrain’in sadece 120 adet NVIDIA H100 GPU kullanılarak eğitildiğini söyledi. LLM, damıtma kullanılarak 70B parametreli Meta Llama 3.1 mimarisine dayanıyor. Bir modelin damıtılması, bir ana modelin kullanılmasını ve “alt” modelin yanıtlarına göre eğitilmesini içeriyor. Foxconn ayrıca LLM’sinin Çin’in DeepSeek damıtma modeli kadar iyi olmadığını kabul etti ancak genel performansın dünya standartlarında standartlara çok yakın olduğunu belirtti.
Hon Hai Araştırma Enstitüsü Yapay Zeka Araştırma Merkezi Müdürü Dr. Yung-Hui Li şunları söyledi: “Son aylarda, akıl yürütme yeteneklerinin derinleşmesi ve GPU’ların verimli kullanımı, yapay zeka alanında giderek ana akım gelişme haline geldi. FoxBrain modelimiz, körü körüne hesaplama gücü biriktirmek yerine eğitim sürecini optimize etmeye odaklanan çok verimli bir eğitim stratejisi benimsedi.
Dikkatlice tasarlanmış eğitim yöntemleri ve kaynak optimizasyonu sayesinde, güçlü akıl yürütme yeteneklerine sahip yerel bir yapay zeka modelini başarıyla oluşturduk.”
120 adet H100 GPU ile birlikte FoxBrain, NVIDIA’nın Quantum-2 InfiniBand ağıyla ölçeklendirildi ve eğitim yaklaşık dört haftada tamamlandı (toplam hesaplama maliyeti 2.688 GPU günü). Foxconn, 128 K token’lık bir bağlam penceresi uzunluğuyla geleneksel Çince’de 98 milyar token yüksek kaliteli ön eğitim verisi üretebildi.
NVIDIA ayrıca Foxconn’a modelin ön eğitimini tamamlamak için Taipei-1 Süper Bilgisayarını sağladı. Foxconn, FoxBrain’in Akıllı Üretim, Akıllı EV ve Akıllı Şehir olmak üzere üç büyük platformunu yükseltmek için “önemli bir motor” olacağını söyledi.