İşin iki boyutu var. Birincisi, sıfırdan dil modeli eğitmeyi geçtim, hazır bir modeli finetune etmek bile maalesef birkaç PDF ile çok etki edebilecek bir sonuç vermez. Finetune da olsa yine de güzel miktarda dataya ihtiyacınız var.Merhaba arkadaşlar,
Telifli PDF'lerimle kişisel amaçlı bir LLM eğitmenin yasal riskleri hakkında bilgisi olan var mı?
Planım şu: Colab'da kendi dokümanlarımla modeli eğitip, özel (private) bir repo olarak Hugging Face'e kaydetmek ve GGUF formatında indirip LM Studio'da yerel olarak kullanmak.
Bu süreçte, verileri sadece eğitim için kullanmam veya modeli özel bile olsa Hugging Face'e yüklemem telif hakkı ihlali sayılır mı? Kısacası, bu işin kırmızı çizgileri nerede başlıyor?
Tavsiyelerinizi bekliyorum, teşekkürler.
Elimdeki veriyi JSON formatında tek tek hazırlayacağım. Anything LLM gibi PDF'leri içine atıp RAG yapmaktan bahsetmiyorum; Colab ile yapacağım ve bunun uzun bir süreç olduğunun farkındayım. Peki, elimdeki verileri PDF veya diğer dosyalar olarak değiştirip yapsam yine olmaz mı? Sonuçta zaten verileri revize edip ortaya güzel bir ürün koymanın peşindeyim. Modelin net cevaplar vermesini ve mantığı iyice kavramasını istiyorum. Gerekirse Hub tarafına yüklerim; oradan isteyen telif alır, isteyen siler. Bunu denemeden göremeyeceğim. Kurallara biraz baktım, gerçekten çok çetrefilli kurallar var. Ancak ne kadarına nasıl dikkat ettiklerini, karşılaştığım hatalardan öğrenmem gerekiyor. Sonuçta bu bir çeşit "prompt engineering" (terim mühendisliği) gibi bir işlem; neleri kabul edip etmediklerini, hangi sınırlar içinde hareket ettiğini deneyerek görmek lazım.İşin iki boyutu var. Birincisi, sıfırdan dil modeli eğitmeyi geçtim, hazır bir modeli finetune etmek bile maalesef birkaç PDF ile çok etki edebilecek bir sonuç vermez. Finetune da olsa yine de güzel miktarda dataya ihtiyacınız var.
İşin yasal boyutunda ise, eserin sahibi size bunu modelde eğitmeye uygun bir şekilde lisanslamadıysa yasal da değildir, etik de değildir. Büyük firmalara kurallar işlemiyor. Antropic ve Meta'nın o yediği büyük davaları yenmiş olmaları bireysel olarak ilgilenen bir geliştiriciye çok etkili olmaz. Ama şu da doğru ki, siz yaptığınız bir işi lokalde veya gizli bıraktığınızda kimse göremez, dolayısı ile hem göze batmaz hem de kimsenin haberi olmaz. Ama sonuç olarak size önerim etik olanı yapmanız.
Hala nispeten yeni sayıldığı için bu konularda öyle o kadar belirgin bir kırmızı çizgi yok. Üzerine çok yorum yapılan dinamik bir konu bu hala. Yasal bir tabana dayandırmak o kadar mümkün değil henüz.
Datasetleri indirdiğinizde apaçık görülmüyor mu?Modeli eğitip yayınladıklarımdan sonra eğitim verilerini paylaşmadığınız sürece kim nasıl erişebilecek ki?
300 GB bir arşiv güzel bir başlangıç noktası olur. Eğitim konusunda farklı yerlerde paralel olarak parça parça eğitim yerine kolektif bir şekilde aynı modeller üzerine checkpoint alarak ilerlemeniz gerekiyor. Merge yapabileceğiniz yöntemler belki vardır, o kısma çok hakim değilim ama düz mantık olan bu şekilde. Yani bir kısmı ile şu eğitimi yapayım, başka bir kısımla da şu model üzerinde eğiteyim gibi bir seçeneğiniz yok. Daha doğrusu, öyle yaparak distill gibi bir yöntem deneyebilirsiniz ama dediğim gibi sizin finetune ile başlamanız lazım. 300GB PDF dosyaları sıfırdan bir model için kesinlikle yeterli miktar değil ama finetune sonucunda bir sonuç verir.Elimdeki veriyi JSON formatında tek tek hazırlayacağım. Anything LLM gibi PDF'leri içine atıp RAG yapmaktan bahsetmiyorum; Colab ile yapacağım ve bunun uzun bir süreç olduğunun farkındayım. Peki, elimdeki verileri PDF veya diğer dosyalar olarak değiştirip yapsam yine olmaz mı? Sonuçta zaten verileri revize edip ortaya güzel bir ürün koymanın peşindeyim. Modelin net cevaplar vermesini ve mantığı iyice kavramasını istiyorum. Gerekirse Hub tarafına yüklerim; oradan isteyen telif alır, isteyen siler. Bunu denemeden göremeyeceğim. Kurallara biraz baktım, gerçekten çok çetrefilli kurallar var. Ancak ne kadarına nasıl dikkat ettiklerini, karşılaştığım hatalardan öğrenmem gerekiyor. Sonuçta bu bir çeşit "prompt engineering" (terim mühendisliği) gibi bir işlem; neleri kabul edip etmediklerini, hangi sınırlar içinde hareket ettiğini deneyerek görmek lazım.
Bu arada 300 GB PDF var.
Bilginiz varsa söyler misiniz?
Acaba, parça parça Colab ile derleyeceğimden dolayı nasıl bütün parçaları birleştireceğim biliyor musunuz?
300 GB bir arşiv güzel bir başlangıç noktası olur. Eğitim konusunda farklı yerlerde paralel olarak parça parça eğitim yerine kolektif bir şekilde aynı modeller üzerine checkpoint alarak ilerlemeniz gerekiyor. Merge yapabileceğiniz yöntemler belki vardır, o kısma çok hakim değilim ama düz mantık olan bu şekilde. Yani bir kısmı ile şu eğitimi yapayım, başka bir kısımla da şu model üzerinde eğiteyim gibi bir seçeneğiniz yok. Daha doğrusu, öyle yaparak distill gibi bir yöntem deneyebilirsiniz ama dediğim gibi sizin finetune ile başlamanız lazım. 300GB PDF dosyaları sıfırdan bir model için kesinlikle yeterli miktar değil ama finetune sonucunda bir sonuç verir.
Eğitim konusu da biraz uğraş gerektirecek, onu şimdiden söyleyeyim. PDF dosyası zaten LLM'in native olarak alabildiği bir dosya değil ki o yüzden RAG kullanıyor. Sizin bu aşamada yapabileceğiniz ise şu: Bu PDF'lerin datalarından yola çıkarak RAG veya Microsoft'un adını hatırlayamadığım markdown aracı ile başka bir LLM'i devreye sokarak büyük bir soru cevap tablosu hazırlatın. Aynı o attığınız ekran görüntüsündeki benzer bir format olacak. Sonra bunu baz aldığınız modelin cevap şemasına göre üstüne eğittirmeniz gerekiyor. Böyle olma sebebi, hazır conversational ya da interactive (model isimlerinde IT eki ile geçer) model baz alacak olmanız. Eğer base modelleri kullanırsanı bu sefer conversational bir çıktı alamazsınız. Onun üzerine yine bir finetune eklemeniz gerekiyor.
Datasetin görünmesi kısmında ise, eğer repo'yu gizli yaparsanız kimse göremez. Ekran görüntüsünde attığınız sınıflandırma modeli için hazırlanmış csv formatında olan, temelde düz metin belgesi olan bir tablo. Siz elinizdeki PDF'leri o şekilde paylaşmak zorunda değilsiniz.
Ayrıca ekleyeyim, GGUF formatı modelin en son kullanıma hazır halinde genellikle quantization görmüş, tek dosyaya toplanmış hali oluyor. Yani datasetlerin GGUF dosya formatı ile pek alakası yok. GGUF elde etme aşamasına gelene kadar floating point vektörleri üzerinden eğitilir, sonrasında integera indirgenir. Tabi BitNet gibi istisnaları da yok değil.
Merhaba arkadaşlar,
Telifli PDF'lerimle kişisel amaçlı bir llm eğitmenin yasal riskleri hakkında bilgisi olan var mı?
Planım şu: Colab'da kendi dokümanlarımla modeli eğitip, özel (private) bir repo olarak hugging Face'e kaydetmek ve gguf formatında indirip lm Studio'da yerel olarak kullanmak.
Bu süreçte, verileri sadece eğitim için kullanmam veya modeli özel bile olsa hugging Face'e yüklemem telif hakkı ihlali sayılır mı? Kısacası, bu işin kırmızı çizgileri nerede başlıyor?
Tavsiyelerinizi bekliyorum, teşekkürler.
Şöyle cevaplayayım:Konuyu Google AI Studio'ya detaylı anlat.
Sana adım adım Google'ın kendi serverlarında derleme aşamalarını anlatacak.
Burada en büyük sorun şu; Türkçe konuşma konusunda başarılı bir yapı pek nadir. Birçok dosya içinde robotik Türkçe var. Bana önerdiği 3GB civarında idi. Ama çok başarılı olmuyorlar. Online GPT-lerdeki Türkçe model dosyalarının 200GB'dan büyük olduğunu düşünüyorum. Son dönemde argo anlama özellikleri oldukça başarılı çünkü. Yazan kişinin kurduğu cümleye göre de bir cevap tipi hazırlıyor.
AI Studio'ya konuyu anlatmadan önce, bazı kuralları açıklayın;
- Ben söylemeden kod yazma - işlem aşamaları oluşturma.
- İsteklerim haricinde öneriler sunma.
- Aşırı teknik detaylı cümle kurma.
Gibi temel kuralları konuşma öncesinde belirtin. Aksi halde sizi okyanusun en kuytu yerine atacak cümleler ile hallaç eder.
Sonucunuzu merakla bekliyorum.