Dataset nasıl oluşturulur?

NyxFury

Picopat
Katılım
10 Ocak 2025
Mesajlar
69
Merhaba arkadaşlar,

Telifli PDF'lerimle kişisel amaçlı bir LLM eğitmenin yasal riskleri hakkında bilgisi olan var mı?

Planım şu: Colab'da kendi dokümanlarımla modeli eğitip, özel (private) bir repo olarak Hugging Face'e kaydetmek ve GGUF formatında indirip LM Studio'da yerel olarak kullanmak.

Bu süreçte, verileri sadece eğitim için kullanmam veya modeli özel bile olsa Hugging Face'e yüklemem telif hakkı ihlali sayılır mı? Kısacası, bu işin kırmızı çizgileri nerede başlıyor?

Tavsiyelerinizi bekliyorum, teşekkürler.
 
Son düzenleme:
Merhaba arkadaşlar,

Telifli PDF'lerimle kişisel amaçlı bir LLM eğitmenin yasal riskleri hakkında bilgisi olan var mı?

Planım şu: Colab'da kendi dokümanlarımla modeli eğitip, özel (private) bir repo olarak Hugging Face'e kaydetmek ve GGUF formatında indirip LM Studio'da yerel olarak kullanmak.

Bu süreçte, verileri sadece eğitim için kullanmam veya modeli özel bile olsa Hugging Face'e yüklemem telif hakkı ihlali sayılır mı? Kısacası, bu işin kırmızı çizgileri nerede başlıyor?

Tavsiyelerinizi bekliyorum, teşekkürler.
İşin iki boyutu var. Birincisi, sıfırdan dil modeli eğitmeyi geçtim, hazır bir modeli finetune etmek bile maalesef birkaç PDF ile çok etki edebilecek bir sonuç vermez. Finetune da olsa yine de güzel miktarda dataya ihtiyacınız var.

İşin yasal boyutunda ise, eserin sahibi size bunu modelde eğitmeye uygun bir şekilde lisanslamadıysa yasal da değildir, etik de değildir. Büyük firmalara kurallar işlemiyor. Antropic ve Meta'nın o yediği büyük davaları yenmiş olmaları bireysel olarak ilgilenen bir geliştiriciye çok etkili olmaz. Ama şu da doğru ki, siz yaptığınız bir işi lokalde veya gizli bıraktığınızda kimse göremez, dolayısı ile hem göze batmaz hem de kimsenin haberi olmaz. Ama sonuç olarak size önerim etik olanı yapmanız.

Hala nispeten yeni sayıldığı için bu konularda öyle o kadar belirgin bir kırmızı çizgi yok. Üzerine çok yorum yapılan dinamik bir konu bu hala. Yasal bir tabana dayandırmak o kadar mümkün değil henüz.
 
İşin iki boyutu var. Birincisi, sıfırdan dil modeli eğitmeyi geçtim, hazır bir modeli finetune etmek bile maalesef birkaç PDF ile çok etki edebilecek bir sonuç vermez. Finetune da olsa yine de güzel miktarda dataya ihtiyacınız var.

İşin yasal boyutunda ise, eserin sahibi size bunu modelde eğitmeye uygun bir şekilde lisanslamadıysa yasal da değildir, etik de değildir. Büyük firmalara kurallar işlemiyor. Antropic ve Meta'nın o yediği büyük davaları yenmiş olmaları bireysel olarak ilgilenen bir geliştiriciye çok etkili olmaz. Ama şu da doğru ki, siz yaptığınız bir işi lokalde veya gizli bıraktığınızda kimse göremez, dolayısı ile hem göze batmaz hem de kimsenin haberi olmaz. Ama sonuç olarak size önerim etik olanı yapmanız.

Hala nispeten yeni sayıldığı için bu konularda öyle o kadar belirgin bir kırmızı çizgi yok. Üzerine çok yorum yapılan dinamik bir konu bu hala. Yasal bir tabana dayandırmak o kadar mümkün değil henüz.
Elimdeki veriyi JSON formatında tek tek hazırlayacağım. Anything LLM gibi PDF'leri içine atıp RAG yapmaktan bahsetmiyorum; Colab ile yapacağım ve bunun uzun bir süreç olduğunun farkındayım. Peki, elimdeki verileri PDF veya diğer dosyalar olarak değiştirip yapsam yine olmaz mı? Sonuçta zaten verileri revize edip ortaya güzel bir ürün koymanın peşindeyim. Modelin net cevaplar vermesini ve mantığı iyice kavramasını istiyorum. Gerekirse Hub tarafına yüklerim; oradan isteyen telif alır, isteyen siler. Bunu denemeden göremeyeceğim. Kurallara biraz baktım, gerçekten çok çetrefilli kurallar var. Ancak ne kadarına nasıl dikkat ettiklerini, karşılaştığım hatalardan öğrenmem gerekiyor. Sonuçta bu bir çeşit "prompt engineering" (terim mühendisliği) gibi bir işlem; neleri kabul edip etmediklerini, hangi sınırlar içinde hareket ettiğini deneyerek görmek lazım.

Bu arada 300 GB PDF var.

Bilginiz varsa söyler misiniz?

Acaba, parça parça Colab ile derleyeceğimden dolayı nasıl bütün parçaları birleştireceğim biliyor musunuz?
 
Son düzenleme:
Modeli eğitip yayınladıklarımdan sonra eğitim verilerini paylaşmadığınız sürece kim nasıl erişebilecek ki?
 
Modeli eğitip yayınladıklarımdan sonra eğitim verilerini paylaşmadığınız sürece kim nasıl erişebilecek ki?
Datasetleri indirdiğinizde apaçık görülmüyor mu?
Sıkıştırılmış mı oluyor? Gguf formatında indiriliyor ve Colab ile geliştirdiğim aşamada sorun olamz mı?

Süreç bu şekilde :

* Öncelikle ücretsiz Hugging Face hesabı açılıp, Ayarlar > Erişim Tokenları bölümünden tam yetkili bir token oluşturulur.

* Ardından, hazırlanmış Google Colab not defteri açılır ve işlemciye bağlanır. İlk kod blokları çalıştırılarak Colab, Hugging Face hesabına bağlanır ve token yapıştırılır.

* Hazırlanan CSV dosyası Colab’a yüklenir, dosya yolu alınır; dosya ismi boşluk ve Türkçe karakter içermemelidir.

* Hugging Face üzerinde yeni bir veri seti oluşturulur ve bu set public yapılır ki Colab erişebilsin; işlem tamamlandıktan sonra istenirse private’a çevrilebilir.

* Sonrasında, Colab’daki ilgili kod bloğuna hem Hugging Face veri set adresi hem de CSV dosya yolu eklenir.

* instruction, input ve response gibi alanların doğru olduğuna emin olunmalı. Kodu çalıştırarak CSV verileri Hugging Face’e yüklenir ve kısa süre içinde veri seti üzerinde görünür hale gelir.

* Böylece veriler Hugging Face’e başarılı şekilde aktarılmış olur.

---

Resme bak mesela; kabak gibi görülüyor:

AriOcmbdNU.png
 
Elimdeki veriyi JSON formatında tek tek hazırlayacağım. Anything LLM gibi PDF'leri içine atıp RAG yapmaktan bahsetmiyorum; Colab ile yapacağım ve bunun uzun bir süreç olduğunun farkındayım. Peki, elimdeki verileri PDF veya diğer dosyalar olarak değiştirip yapsam yine olmaz mı? Sonuçta zaten verileri revize edip ortaya güzel bir ürün koymanın peşindeyim. Modelin net cevaplar vermesini ve mantığı iyice kavramasını istiyorum. Gerekirse Hub tarafına yüklerim; oradan isteyen telif alır, isteyen siler. Bunu denemeden göremeyeceğim. Kurallara biraz baktım, gerçekten çok çetrefilli kurallar var. Ancak ne kadarına nasıl dikkat ettiklerini, karşılaştığım hatalardan öğrenmem gerekiyor. Sonuçta bu bir çeşit "prompt engineering" (terim mühendisliği) gibi bir işlem; neleri kabul edip etmediklerini, hangi sınırlar içinde hareket ettiğini deneyerek görmek lazım.

Bu arada 300 GB PDF var.

Bilginiz varsa söyler misiniz?

Acaba, parça parça Colab ile derleyeceğimden dolayı nasıl bütün parçaları birleştireceğim biliyor musunuz?
300 GB bir arşiv güzel bir başlangıç noktası olur. Eğitim konusunda farklı yerlerde paralel olarak parça parça eğitim yerine kolektif bir şekilde aynı modeller üzerine checkpoint alarak ilerlemeniz gerekiyor. Merge yapabileceğiniz yöntemler belki vardır, o kısma çok hakim değilim ama düz mantık olan bu şekilde. Yani bir kısmı ile şu eğitimi yapayım, başka bir kısımla da şu model üzerinde eğiteyim gibi bir seçeneğiniz yok. Daha doğrusu, öyle yaparak distill gibi bir yöntem deneyebilirsiniz ama dediğim gibi sizin finetune ile başlamanız lazım. 300GB PDF dosyaları sıfırdan bir model için kesinlikle yeterli miktar değil ama finetune sonucunda bir sonuç verir.

Eğitim konusu da biraz uğraş gerektirecek, onu şimdiden söyleyeyim. PDF dosyası zaten LLM'in native olarak alabildiği bir dosya değil ki o yüzden RAG kullanıyor. Sizin bu aşamada yapabileceğiniz ise şu: Bu PDF'lerin datalarından yola çıkarak RAG veya Microsoft'un adını hatırlayamadığım markdown aracı ile başka bir LLM'i devreye sokarak büyük bir soru cevap tablosu hazırlatın. Aynı o attığınız ekran görüntüsündeki benzer bir format olacak. Sonra bunu baz aldığınız modelin cevap şemasına göre üstüne eğittirmeniz gerekiyor. Böyle olma sebebi, hazır conversational ya da interactive (model isimlerinde IT eki ile geçer) model baz alacak olmanız. Eğer base modelleri kullanırsanı bu sefer conversational bir çıktı alamazsınız. Onun üzerine yine bir finetune eklemeniz gerekiyor.

Datasetin görünmesi kısmında ise, eğer repo'yu gizli yaparsanız kimse göremez. Ekran görüntüsünde attığınız sınıflandırma modeli için hazırlanmış csv formatında olan, temelde düz metin belgesi olan bir tablo. Siz elinizdeki PDF'leri o şekilde paylaşmak zorunda değilsiniz.

Ayrıca ekleyeyim, GGUF formatı modelin en son kullanıma hazır halinde genellikle quantization görmüş, tek dosyaya toplanmış hali oluyor. Yani datasetlerin GGUF dosya formatı ile pek alakası yok. GGUF elde etme aşamasına gelene kadar floating point vektörleri üzerinden eğitilir, sonrasında integera indirgenir. Tabi BitNet gibi istisnaları da yok değil.
 
300 GB bir arşiv güzel bir başlangıç noktası olur. Eğitim konusunda farklı yerlerde paralel olarak parça parça eğitim yerine kolektif bir şekilde aynı modeller üzerine checkpoint alarak ilerlemeniz gerekiyor. Merge yapabileceğiniz yöntemler belki vardır, o kısma çok hakim değilim ama düz mantık olan bu şekilde. Yani bir kısmı ile şu eğitimi yapayım, başka bir kısımla da şu model üzerinde eğiteyim gibi bir seçeneğiniz yok. Daha doğrusu, öyle yaparak distill gibi bir yöntem deneyebilirsiniz ama dediğim gibi sizin finetune ile başlamanız lazım. 300GB PDF dosyaları sıfırdan bir model için kesinlikle yeterli miktar değil ama finetune sonucunda bir sonuç verir.

Eğitim konusu da biraz uğraş gerektirecek, onu şimdiden söyleyeyim. PDF dosyası zaten LLM'in native olarak alabildiği bir dosya değil ki o yüzden RAG kullanıyor. Sizin bu aşamada yapabileceğiniz ise şu: Bu PDF'lerin datalarından yola çıkarak RAG veya Microsoft'un adını hatırlayamadığım markdown aracı ile başka bir LLM'i devreye sokarak büyük bir soru cevap tablosu hazırlatın. Aynı o attığınız ekran görüntüsündeki benzer bir format olacak. Sonra bunu baz aldığınız modelin cevap şemasına göre üstüne eğittirmeniz gerekiyor. Böyle olma sebebi, hazır conversational ya da interactive (model isimlerinde IT eki ile geçer) model baz alacak olmanız. Eğer base modelleri kullanırsanı bu sefer conversational bir çıktı alamazsınız. Onun üzerine yine bir finetune eklemeniz gerekiyor.

Datasetin görünmesi kısmında ise, eğer repo'yu gizli yaparsanız kimse göremez. Ekran görüntüsünde attığınız sınıflandırma modeli için hazırlanmış csv formatında olan, temelde düz metin belgesi olan bir tablo. Siz elinizdeki PDF'leri o şekilde paylaşmak zorunda değilsiniz.

Ayrıca ekleyeyim, GGUF formatı modelin en son kullanıma hazır halinde genellikle quantization görmüş, tek dosyaya toplanmış hali oluyor. Yani datasetlerin GGUF dosya formatı ile pek alakası yok. GGUF elde etme aşamasına gelene kadar floating point vektörleri üzerinden eğitilir, sonrasında integera indirgenir. Tabi BitNet gibi istisnaları da yok değil.
Bu içeriği görüntülemek için üçüncü taraf çerezlerini yerleştirmek için izninize ihtiyacımız olacak.
Daha detaylı bilgi için, çerezler sayfamıza bakınız.


Buradaki adımları baz alacağım. Nasıl json üreteceğimizi basit gösterse de ben extra bir araştırmaya da girmem gerekebilir. Çünkü birleştirme olayı önemli. Taslak olarak bir yerlerde saklanıyor olması gerekir. Bu mümkün mü bilmiyorum.
 
Merhaba arkadaşlar,

Telifli PDF'lerimle kişisel amaçlı bir llm eğitmenin yasal riskleri hakkında bilgisi olan var mı?

Planım şu: Colab'da kendi dokümanlarımla modeli eğitip, özel (private) bir repo olarak hugging Face'e kaydetmek ve gguf formatında indirip lm Studio'da yerel olarak kullanmak.

Bu süreçte, verileri sadece eğitim için kullanmam veya modeli özel bile olsa hugging Face'e yüklemem telif hakkı ihlali sayılır mı? Kısacası, bu işin kırmızı çizgileri nerede başlıyor?

Tavsiyelerinizi bekliyorum, teşekkürler.

Konuyu Google AI Studio'ya detaylı anlat.
Sana adım adım Google'ın kendi serverlarında derleme aşamalarını anlatacak.

Burada en büyük sorun şu; Türkçe konuşma konusunda başarılı bir yapı pek nadir. Birçok dosya içinde robotik Türkçe var. Bana önerdiği 3GB civarında idi. Ama çok başarılı olmuyorlar. Online GPT-lerdeki Türkçe model dosyalarının 200GB'dan büyük olduğunu düşünüyorum. Son dönemde argo anlama özellikleri oldukça başarılı çünkü. Yazan kişinin kurduğu cümleye göre de bir cevap tipi hazırlıyor.

AI Studio'ya konuyu anlatmadan önce, bazı kuralları açıklayın;
  • Ben söylemeden kod yazma - işlem aşamaları oluşturma.
  • İsteklerim haricinde öneriler sunma.
  • Aşırı teknik detaylı cümle kurma.

Gibi temel kuralları konuşma öncesinde belirtin. Aksi halde sizi okyanusun en kuytu yerine atacak cümleler ile hallaç eder.

Sonucunuzu merakla bekliyorum.
 
Konuyu Google AI Studio'ya detaylı anlat.
Sana adım adım Google'ın kendi serverlarında derleme aşamalarını anlatacak.

Burada en büyük sorun şu; Türkçe konuşma konusunda başarılı bir yapı pek nadir. Birçok dosya içinde robotik Türkçe var. Bana önerdiği 3GB civarında idi. Ama çok başarılı olmuyorlar. Online GPT-lerdeki Türkçe model dosyalarının 200GB'dan büyük olduğunu düşünüyorum. Son dönemde argo anlama özellikleri oldukça başarılı çünkü. Yazan kişinin kurduğu cümleye göre de bir cevap tipi hazırlıyor.

AI Studio'ya konuyu anlatmadan önce, bazı kuralları açıklayın;
  • Ben söylemeden kod yazma - işlem aşamaları oluşturma.
  • İsteklerim haricinde öneriler sunma.
  • Aşırı teknik detaylı cümle kurma.

Gibi temel kuralları konuşma öncesinde belirtin. Aksi halde sizi okyanusun en kuytu yerine atacak cümleler ile hallaç eder.

Sonucunuzu merakla bekliyorum.
Şöyle cevaplayayım:

Videoda Meta'nın Llama 3.1 modelinin 8 milyar parametreli versiyonu ince ayar için tercih edilen bir model olarak belirtilmiş.

Ben de bu modeli Transcript VE altyazılama anlamında Whisper XXl için kullanmıştım.

Çok başarılıydı ki hala kullanıyorum:

qwen2.5:3b 357c53fb659c 1.9 GB

Bu model Türkçe konusunda çok güzel çalışıyor. Ne derece mantıklıdır bilmiyorum.

Amacım zaten belli konuları geliştirmektir.
Aslında tek bir önem verdiğim, (psikoloji, travmalar, ilişkiler) alanı da diyebilirim.

Hayat boyu güncellemek üzere ayrı ayrı kategorilerden bahsediyorum.

Ek Not:


Bu şekilde bir arşiv buldum ve ne derece önemli olabilecek model seçebilirim.
Bu işin sonu yok sanırım.
 
Son düzenleme:

Technopat Haberler

Yeni konular

Geri
Yukarı