Data for LLMs: Büyük Dil Modellerinde Veri Mühendisliği ve Kürasyonu

Yayınlayan: Vebende Akademi | Okuma süresi: ~120–200 dk

1. GİRİŞ: YAPAY ZEKANIN YAKITI OLARAK VERİ

Yapay zeka dünyasında "Model is the king, but data is the kingdom" (Model kraldır, ancak veri krallıktır) sözü hiç bu kadar anlamlı olmamıştı. Büyük Dil Modelleri (LLM - Large Language Models), milyarlarca parametreye sahip devasa matematiksel yapılar olsalar da, bu yapıların "zekası" tamamen beslendikleri verinin kalitesine, çeşitliliğine ve kürasyonuna (düzenlenmesine) bağlıdır. Bugün GPT-4, Claude 3.5 veya Gemini gibi modellerin gösterdiği etkileyici performans, aslında perde arkasındaki devasa veri mühendisliği operasyonlarının bir sonucudur.

Peki, "Data for LLMs" (LLM'ler için Veri) konusu neden bugün teknoloji dünyasının en sıcak gündemi haline geldi? Çünkü artık ham veri miktarından ziyade, verinin "nitelikli" olması modellerin başarısını belirleyen ana unsur. İnternet üzerindeki yüksek kaliteli insan yapımı verinin tükendiği tartışılırken, modelleri daha akıllı hale getirmek için sentetik veri üretimi, Retrieval-Augmented Generation (RAG) mimarileri ve yüksek hassasiyetli veri temizleme teknikleri hayati önem kazandı.

Bu Teknoloji Neden Konuşuluyor?

LLM'lerin eğitimi artık bir veri toplama yarışından bir "veri kürasyonu" yarışına dönüştü. Şirketler, binlerce GPU kullanarak model eğitmenin maliyetini göze alabiliyor; ancak eğitim setindeki tek bir "zehirli" (toxic) veya hatalı veri grubu, milyonlarca dolarlık eğitimi çöp edebilir. Ayrıca, veri gizliliği yasaları (GDPR, KVKK) ve telif hakları, veri toplama süreçlerini teknik olduğu kadar hukuki bir zorluk haline getirdi.

Kimler İçin Önemli?

Bu içerik; kendi modellerini eğitmek isteyen Makine Öğrenmesi Mühendisleri, kurumsal verilerini LLM'lerle konuşturmak isteyen Çözüm Mimarları ve veri boru hatlarını optimize eden Veri Mühendisleri için teknik bir referanstır.

Hangi Problemleri Çözüyor?

Halüsinasyon (Uydurma): RAG ve doğru veri temelli ince ayar (fine-tuning) ile modellerin yanlış bilgi üretmesini engeller.
Veri Kıtlığı: Yüksek kaliteli verinin tükendiği alanlarda sentetik veri (synthetic data) ile eğitim setlerini genişletir.
Önyargı (Bias) ve Güvenlik: Veri temizleme aşamasında istenmeyen içeriklerin ayıklanmasıyla daha etik modeller üretilmesini sağlar.
Kurumsal Bilgi Entegrasyonu: Şirketlerin özel ve gizli verilerini modellerin anlayabileceği "vektör" formuna dönüştürerek modele dâhil eder.

2. KAVRAMSAL TEMELLER: VERİDEN ZEKAYA GİDEN YOL

LLM dünyasında veri, sadece metin yığınlarından ibaret değildir; o metinlerin temsil ettiği matematiksel uzaydaki ilişkilerdir.

2.1 Temel Kavramlar

Tokenization (Tokenlaştırma): Metnin modelin anlayacağı en küçük parçalara (kelime, hece veya karakter grupları) ayrılması.
Pre-training Data (Ön Eğitim Verisi): Modelin dünyayı öğrendiği devasa, ham veri kümesi (Trilyonlarca token).
Fine-tuning Data (İnce Ayar Verisi): Modeli belirli bir göreve (kod yazma, tıbbi analiz vb.) odaklayan etiketli ve yapılandırılmış veri.
Embeddings (Gömülmeler): Kelimelerin veya cümlelerin çok boyutlu bir uzaydaki sayısal koordinatları (Vektörler).

2.2 Veri Türleri ve Mimari Roller

LLM projelerinde veri üç ana aşamada farklı rollere bürünür:

Ham Veri (Raw Data): Web siteleri, kitaplar, GitHub repoları.
Küratize Edilmiş Veri (Curation): Deduplication (tekilleştirme), PII maskeleme ve toksisite filtrelerinden geçmiş veri.
Ground Truth (Doğruluk Kaynağı): Modelin başarısını ölçmek için kullanılan yüksek kaliteli, insan onaylı referans veri.

2.3 Terminoloji

- Deduplication: Eğitim setindeki benzer veya aynı cümlelerin modelin ezberlemesini önlemek için silinmesi. - JSONL: LLM training dosyalarında standart hale gelen "JSON Lines" formatı. - Context Window: Modelin tek seferde işleyebileceği (okuyabileceği) maksimum veri miktarı.

3. NASIL ÇALIŞIR? TEKNİK VERİ BORU HATTI

Bir LLM için veri hazırlamak, bir petrol rafinerisi işletmeye benzer. Ham veri aşama aşama işlenir ve "süper kaliteli" hale getirilir.

3.1 Sistem Mimarisi: Veri İşleme Akışı

Modern bir LLM veri hattı şu teknik bileşenlerden oluşur:

Scraper & Connector: Veriyi kaynaktan (Web, PDF, Database) çeken modüller.
Pre-processor: HTML etiketlerini silen, karakter hatalarını düzelten ve dilleri tespit eden katman.
Deduplication Engine: MinHash veya LSH gibi algoritmalarla birbirine benzeyen trilyonlarca dokümanı ayıklayan motor.
Quality Scorer: Bir metnin "eğitici" olup olmadığını anlayan (genelde daha küçük modellerle yapılan) sınıflandırma.

3.2 Veri Akışı ve Transformasyon

Extraction: Ham verinin toplanması. Bu aşamada "Common Crawl" gibi devasa veri setleri temel alınır.
Cleaning (Rafinasyon): Gürültülü verilerin silinmesi. Örn: "Reklam metinleri", "JavaScript kod parçacıkları" metinden atılır.
Tokenization: Metin sayısal ID'lere dönüştürülür.
Augmentation (Zenginleştirme): Sentetik veri üretimi veya farklı dillerden çeviri ile veri kümesi çeşitlendirilir.

3.3 RAG Mimarisi: Canlı Veri ile Besleme

Modeli eğitmek yerine, veriyi bir Vector Database (Vektör Veritabanı) içinde tutup sorgu gelince ilgili "parçayı" modele gönderme sürecidir. Burada veri, "Chunking" (parçalama) işleminden geçer. Her parça bir embedding modelinden geçirilerek vektörleştirilir.

4. GERÇEK DÜNYA KULLANIMLARI: VERİ DEVLERİNİN SIRLARI

Dünya genelinde LLM alanında otorite olan şirketler, veriyi nasıl yönetiyor?

4.1 OpenAI (GPT-4 ve Ötesi)

OpenAI, veri kürasyonunda RLHF (Reinforcement Learning from Human Feedback) yöntemini zirveye taşıdı. Modeli devasa veriyle eğittikten sonra, insanların "bu veri doğru/güvenli" demesini sağlayarak veriyi "insan beklentisine" göre rafine ettiler. OpenAI için en değerli veri, internetten çekilen ham veri değil, insanların modelle girdiği etkileşimlerden (ve geri bildirimlerden) gelen veridir.

4.2 Anthropic (Claude)

Anthropic, "Constitutional AI" (Anayasal Yapay Zeka) yaklaşımıyla, verinin güvenliğini bir " kurallar bütünü" ile sağlar. Veri hazırlama aşamasında, modelin bir anayasası vardır ve bu anayasaya uymayan veriler (veya modellerin bu verilere dayalı çıktıları) otomatik olarak ayıklanır.

4.3 Meta (Llama Serisi)

Meta, Llama 2 ve 3 modellerini eğitirken veri kürasyonunu tamamen şeffaf olmasa da paylaştığı teknik raporlarla açıkladı. Özellikle kod yazma yeteneğini artırmak için devasa miktarda GitHub verisini dâhil ettiler ve "deduplication" işlemini çok ekstrem düzeyde uygulayarak modelin "ezberleme" yapmasını engellediler.

4.4 BloombergGPT: Finansal Veri Kürasyonu

Genel amaçlı bir model yerine, Bloomberg kendi özel terminolojisini ve verilerini (onlarca yıllık finansal haberler, raporlar) kullanarak eğim yaptı. Bu, "Domain-Specific Data" kürasyonunun en başarılı örneklerinden biridir.

5. AVANTAJLAR VE SINIRLAMALAR: KRİTİK ANALİZ

Yüksek kaliteli veriye yatırım yapmanın getirileri devasadır, ancak zorlukları da bir o kadar derindir.

Avantajlar

Daha Az Parametreyle Daha Çok Zeka: Llama 3 örneğinde olduğu gibi, doğru veri kürasyonu ile daha küçük modeller devasa modelleri geçebilir.
Düşük Maliyet: Veri ne kadar iyiyse, modeli o kadar az "epoch" (tekrar) eğitmek gerekir.
Güvenilirlik: RAG ve temiz veri kullanımı, kurumsal çözümlerde modelin "uydurma" yapma riskini minimize eder.

Sınırlamalar / Zorluklar

Veri Duvarı (Data Wall): İnternetteki kaliteli verinin tükenmesi. Bu durum sentetik veriye olan ihtiyacı körüklüyor.
Gizlilik Riskleri: Eğitim setine yanlışlıkla sızan bir kredi kartı numarası veya şifre, modelin bu veriyi daha sonra sızdırmasına sebep olabilir.
Labeling (Etiketleme) Maliyeti: Yüksek kaliteli ince ayar için uzaman insanların veriyi doğrulaması çok pahalıdır.

6. ALTERNATİFLER VE KARŞILAŞTIRMA: STRATEJİK SEÇİMLER

Modelleri kurumsal verilerle buluşturmak için üç ana yol vardır:

Yöntem	Veri Gereksinimi	Zorluk Seviyesi	Kullanım Durumu
Fine-tuning	Az ama süper kaliteli (Etiketli)	Yüksek (Eğitim bilgisi ister)	Domain özelleştirme, stil kazandırma
RAG (Retrieval)	Geniş ama ham (Eğitim istemez)	Orta (Veri boru hattı)	Güncel ve özel şirket içi bilgi
Prompt Engineering	Minimum (Bağlam içine sığan)	Düşük	Hızlı prototipleme ve basit görevler
Synthetic Data Gen.	Model tarafından üretilen	Kritik (Kalite kontrol zor)	Veri kıtlığı ve gizlilik senaryoları

7. EN İYİ PRATİKLER: MASTER VERİ STRATEJİSİ

Geleceğin LLM projelerinde başarıyı belirleyecek teknik tavsiyeler:

Production Kullanımı ve Kürasyon

Deduplication Zorunludur: Veri setinizi MinHash veya LSH gibi tekniklerle mutlaka tekilleştirin. Yinelenen veri, modelin kapasitesini boşa harcar.
Diversity (Çeşitlilik) Önemlidir: Modelin sadece bir dille veya bir konuyla sınırlı kalmaması için eğitim setine farklı disiplinlerden (Bilim, Edebiyat, Forumlar) veri ekleyin.
Data Governance: Verinin nereden geldiğini, lisans durumunu ve hangi işlemlerden geçtiğini dökümante edin (Data Lineage).

Performans Optimizasyonu

Bit-level Tokenization: Farklı diller için (özellikle Türkçe gibi eklemeli diller) tokenleştirme modelinizin verimliliğini kontrol edin. Yanlış tokenleştirme modelin anlama kapasitesini düşürür.
Curated Synthetic Data: Sentetik veriyi modelleri eğitmek için kullanırken mutlaka bir "Quality Filter" (Kalite Filtresi) katmanından geçirin. Kendi ürettiği hatayı öğrenen model aptallaşır (Model Collapse).

Güvenlik

PII Masking: Eğitim setindeki isim, adres, telefon gibi kişisel verileri otomatik olarak maskeleyin.
Toxic Filter: Zararlı içerikleri tespit etmek için Perspective API gibi araçları veya güvenlik modellerini veri boru hattınıza entegre edin.

8. SIK YAPILAN HATALAR: VERİ TUZAKLARI

"Daha Çok Veri Her Zaman İyidir" Yanılgısı: Milyonlarca düşük kaliteli veri yerine, binlerce yüksek kaliteli veri modeli daha akıllı yapar.
Validation Set Unutmak: Modeli değerlendirmek için kullanılan "Golden Dataset" hazırlamamak, karanlıkta uçmaya benzer.
Veri Sızıntısı (Contamination): Test verilerinin yanlışlıkla eğitim setinin içine karışması. Bu, modelin test puanlarını şişirir ama gerçek dünyada model çuvallar.
Kültürel Önyargıyı Yok Saymak: Sadece İngilizce veriyle eğitilmiş modeller, yerel dillerde veya kültürel bağlamlarda yanlış tepkiler verebilir.
Chunking Hataları (RAG): Veriyi RAG için parçalarken (chunking) bağlamı (context) kaybetmek. (Örn: Bir cümlenin ortasından bölmek).

9. GELECEK TRENDLER: 2026 VE SONRASI

LLM'ler ve veri dünyası nereye evriliyor?

9.1 Sentetik Veri Ekonomisi

2026'da yüksek kaliteli insan verisi yetmeyecek. Modellerin birbiriyle konuştuğu ve hata düzeltmesi yaptığı "Multi-Agent Data Generation" süreçleri standart hale gelecek.

9.2 Sovereign AI (Egemen YZ)

Ülkeler ve şirketler, verilerinin kendi sınırları dışına çıkmasını istemiyor. Bu, "küçük ama süper verimli" yerel veri uzmanı modellerin (Local SLMs) yükselişini getirecek.

9.3 Multimodal Veri Kürasyonu

Sadece metin değil; video, ses ve kodun bir saniyelik bir dilim gibi birbirine bağlandığı "Unified Data Pipelines" (Birleşik Veri Hatları) önem kazanacak. Artık veriyi sadece okumayan, görseli ve sesi aynı uzayda anlayan sistemler devri başlıyor.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

Modelleri eğitmek için internetteki tüm veriyi kullanabilir miyim?
Hukuki olarak lisans ve telif hakları (Copyright) büyük bir engeldir. Teknik olarak ise sadece "nitelikli" veriyi kullanmalısınız.
Tokenization neden önemli?
Çünkü model kelimeleri değil, token'ları işler. Verimli bir tokenization, aynı bellekle daha fazla metin işlenmesini sağlar.
Sentetik veri modeli aptallaştırır mı?
Evet, eğer sadece sentetik veriyle eğitilirse "Model Collapse" yaşanır. Gerçek veriyle doğru oranda karıştırılmalıdır.
Türkçe LLM eğitimi için veri kıtlığı nasıl aşılır?
Türkçe web verisi, kitaplar, yerel forumlar ve yüksek kaliteli çeviri verileri (back-translation) ile aşılabilir.
PII maskeleme nedir?
Veri içindeki "Personally Identifiable Information" (Kişisel Tanımlanabilir Bilgi) kısımlarının ayıklanması işlemidir.
RAG için en uygun vektör veritabanı hangisidir?
Pinecone, Milvus ve Chroma şu an en popüler olanlardır; ancak Postgres (pgvector) de kurumsal olarak yükseliştedir.
Veri kürasyonu için ne kadar zaman ayırmalıyım?
Genellikle bir LLM projesinin toplam vaktinin %70-80'i veri hazırlama, temizleme ve kürasyona gider.
Domain-specific data nedir?
Sadece belirli bir alan (Tıp, Hukuk, Bankacılık) ile ilgili olan, o alanın jargonuyla ve bilgisiyle donatılmış veridir.

Anahtar Kavramlar

Ground Truth: Modelin tahminlerinin doğruluğunu ölçmek için kullanılan mutlak doğru kabul edilen veri kümesi.
Low-Resource Languages: İnternet üzerinde eğitimi yetecek kadar veri bulunmayan (Örn: Bazı yerel Afrika dilleri) diller.
In-context Learning: Modelin eğitim almadan, kendisine verilen bağlamdan (prompt içindeki veri) anlık öğrenme yeteneği.
Hallucination: Modelin veri eksikliği veya yanlış veri nedeniyle uydurma bilgiler üretmesi.
Recursive Data Cleaning: Veriyi temizlemek için başka bir yapay zeka modeli kullanma süreci.

Öğrenme Yol Haritası (Data for LLMs Expert)

Aşama 1: Temel NLP. Tokenization, Stemming ve Lemmatization kavramlarını öğrenin.
Aşama 2: Veri İşleme Araçları. Python (Pandas), Apache Spark ve büyük veri işleme kütüphanelerine hakim olun.
Aşama 3: Vektör Dünyası. Embeddings, Cosine Similarity ve Vektör veritabanları (Chroma, Pinecone) ile pratik yapın.
Aşama 4: RAG ve Fine-tuning. LangChain veya LlamaIndex ile ilk RAG projenizi kurun, ardından HuggingFace kütüphaneleriyle model rafine etmeyi öğrenin.
Aşama 5: Veri Güvenliği ve Kürasyon. Anomali tespiti, PII maskeleme ve sentetik veri üretimi (GANs, Diffusion) konularında derinleşin.