AI Model Compression — Büyük Modelleri Verimli, Ucuz ve Güvenli Hale Getirme

Yayınlayan: Vebende Akademi | Okuma süresi: ~45–70 dk

1. GİRİŞ

Model compression (model sıkıştırma), modern yapay zekâ uygulamalarında performans, maliyet ve ölçeklenebilirlik sorunlarını çözmek için kritik bir teknolojidir. Büyük dil modelleri (LLM'ler), derin görsel modeller ve kompleks öneri sistemleri bulut maliyetlerini, gecikmeyi ve enerji tüketimini artırırken; mobil veya edge cihazlarda ise çalışma imkânını sınırlayan bellek ve hesaplama kısıtları vardır. Bu bağlamda model compression, aynı doğruluk veya kabul edilebilir bir doğruluk kaybı ile model boyutunu, bellek kullanımını ve işlem maliyetini azaltmayı amaçlar.

Bu teknoloji neden konuşuluyor?

Büyük modellerin bulut maliyetleri ve inference gecikmeleri işletmeler için belirgin baskı oluşturuyor.
Edge ve on‑device inference ile gizlilik ve bağlantısız çalışma gereksinimleri artıyor.
Yeşil AI ve enerji verimliliği gündemde; daha küçük modeller daha düşük karbon ayak izi demek.

Kimler için önemli?

ML mühendisleri ve MLOps ekipleri
Mobil/edge uygulama geliştiricileri
Altyapı ve bulut mühendisleri
Ürün yöneticileri ve CTO'lar — maliyet/performans kararları için

Hangi problemleri çözüyor?

Inference latency ve throughput sorunlarını azaltma
Bellek kısıtlı cihazlarda model dağıtımı
Bulut maliyetlerini düşürme (GPU/TPU saatleri, depolama)
Model yükleme ve güncelleme sürelerini kısaltma

2. KAVRAMSAL TEMELLER

2.1 Temel Tanımlar

Quantization: Model ağırlıklarını ve/veya aktivasyonları daha düşük bit genişliğine (ör. FP32 → FP16, FP16 → INT8, INT8 → INT4) indirme süreci.
Pruning: Modelin bazı ağırlıklarını veya filtrelerini sıfırlama veya kaldırma işlemi ile yapının seyrekleştirilmesi.
Knowledge Distillation: Büyük (teacher) modelin davranışını küçük (student) modele öğretme yöntemi.
Low‑Rank Approximation: Büyük ağırlık matrislerini daha düşük dereceli (rank) faktörlere ayırma.
Weight Sharing & Codebooks: Benzer ağırlıkları gruplayarak ortak kodlar kullanma yöntemi.
Sparsity: Ağırlıkların çoğunun sıfır olduğu yapı; hem unstructured hem structured sparsity türleri vardır.

2.2 Terminoloji

FP32, FP16, INT8, INT4: Farklı sayı temsili formatları — floating point veya integer.
PTQ (Post‑Training Quantization): Eğitimi tamamlanmış model üzerinde sonradan quantization uygulama.
QAT (Quantization Aware Training): Eğitimin quantization etkilerine göre yapılması — daha yüksek doğruluk korunur.
Structured vs Unstructured Pruning: Yapılandırılmış pruning (filtre/sütun/kanal silme) donanım hızlandırmaya uygun, unstructured pruning rastgele ağırlıkları sıfırlayabilir ama yoğunluk azaltımı zor olabilir.

2.3 Bileşenler

Model compression bir proje bağlamında şu bileşenleri içerir:

Model ve veri seti: Eğitim ve değerlendirme için temsil kabiliyeti yüksek veri setleri gerekir.
Compression pipeline: Quantize, prune, distill gibi adımları içeren ardışık iş akışı.
Evaluasyon ve benchmark: Doğruluk, latency, throughput, enerji tüketimi ve bellek footprint metrikleri.
Deployment runtime: ONNX Runtime, TensorRT, OpenVINO, QNNPACK gibi donanım‑optimize çalışma zamanları.

3. NASIL ÇALIŞIR?

3.1 Sistem Mimarisi

Model compression genellikle aşağıdaki adımları sunan bir mimariyle uygulanır:

Profiling: Modelin hangi katmanlarının en fazla kaynak tükettiğini (MACs, FLOPs, parametreler) belirleme.
Compression Strategy Selection: Hangi tekniklerin (quantization, pruning, distillation vs.) kullanılacağını belirleme.
Training / Fine‑tuning: QAT, distillation veya pruning sonrası fine‑tune adımları.
Evaluation: Accuracy drop, latency, memory ve enerji testleri.
Packaging & Deployment: Optimized model format (ONNX, TorchScript), runtime seçimi ve Canary rollout.

3.2 Bileşenler ve Veri Akışı

Örnek pipeline (BERT‑like bir LLM için):

Orijinal model (FP32) → layer profiling
Layer bazlı quantization planı (ör. attention matrisleri INT8, embedding FP16)
PTQ ile hızlı quantize → doğruluk kontrolü
QAT veya distillation ile kayıp doğruluk telafisi
Pruning (structured) ile bazı head/MLP bloklarını kaldırma
Modelı TorchScript/ONNX'e çevirme → runtime optimizasyonu (TensorRT/ORT)

3.3 Teknik Detaylar

Quantization

Quantization ağırlıkları ve aktivasyonları daha küçük bit genişliğine dönüştürür. İki ortak yol vardır:

Symmetric vs Asymmetric: Sembolik olarak sıfır çevresinde simetrik ölçekleme veya öteki uçlarda shift içeren asimetrik ölçekleme.
Per‑channel vs Per‑tensor: Kanal başına ayrı ölçekler veya tüm tensör için tek ölçek. Per‑channel daha hassas ancak runtime karmaşık olabilir.

Pruning

Pruning, ağırlıkları sıfırlayarak veya filtreleri kaldırarak modelin hesaplama maliyetini azaltır. İki ana yaklaşım vardır:

Unstructured Pruning: Rastgele ağırlıkların sıfırlanması — yüksek sparsity sağlar ama donanımda hızlanma garantisi yoktur.
Structured Pruning: Tam filtre, kanal veya blok bazında silme — gerçek donanım hızlanması sağlar ama etkinliği sınırlı olabilir.

Knowledge Distillation

Distillation, teacher modelin soft‑label çıktıları kullanılarak student modelin eğitilmesidir. Önemli nüanslar:

Temperature ve loss ağırlıkları doğru seçilmeli.
Representation distillation (feature map matching) sıklıkla logit distillation'dan daha etkili olur.

Low‑Rank Approximation

Özellikle büyük matris çarpımlarında SVD veya benzeri faktörizasyon teknikleriyle matrisi düşük rank parçalara ayırmak parametre sayısını düşürür.

4. GERÇEK DÜNYA KULLANIMLARI

Netflix

Öneri modellerinde düşük latency kritik. Model compression uygulayarak model boyutu azaltılır ve kişiselleştirme hesaplamaları daha yakın kenarda (edge cache) tutulur. Distillation ile büyük ensemble modeller küçük, hızlı modeller haline getirilebilir.

Uber

Gerçek zamanlı tahminler için latency düşük olmalı. Quantization ve structured pruning ile modellere daha hızlı cevap verme yeteneği kazandırılır; on‑device veya edge inference için distillation tercih edilebilir.

Amazon

Shopper‑özgü öneri motorları ve görsel arama gibi görevlerde model compression, depolama maliyetlerini ve inference üzerindeki altyapı yükünü azaltır. Ayrıca A/B testleri daha hızlı ve düşük maliyetle yürütülebilir.

OpenAI ve LLM Sağlayıcıları

LLM'ler için quantization (INT8/INT4) ve distillation büyük önem taşıyor. Örneğin, kullanıcıları gerçek zamanlı cevap beklentisi içindeyse INT8 quantized modeller ile aynı dağıtım maliyeti içinde daha yüksek throughput sağlanabilir.

Stripe

Fraud detection modelleri için hem gecikme hem de doğruluk kritik. Low‑rank approximations ve model ensemble compression ile hızlı ve güvenilir kararlar alınabilir.

5. AVANTAJLAR VE SINIRLAMALAR

Avantajlar

Performans: Daha düşük latency, daha yüksek throughput
Ölçeklenebilirlik: Daha düşük altyapı maliyeti ile daha fazla inference
Geliştirici Deneyimi: Hızlı prototip ve daha sık güncelleme
Gizlilik: On‑device inference ile veri bulutta kalmaz

Sınırlamalar

Karmaşıklık: Compression pipeline ve tuning uzmanlık gerektirir
Doğruluk Kaybı: Yanlış stratejiyle model performansı düşebilir
Donanım Bağımlılığı: Bazı optimizasyonlar spesifik runtime/accelerator'a bağlıdır
Test Maliyeti: A/B testleri ve regresyon testleri daha kapsamlı yapılmalıdır

6. ALTERNATİFLER VE KARŞILAŞTIRMA

Teknoloji	Avantaj	Dezavantaj
Quantization (INT8 / FP16)	Düşük bellek, daha hızlı matris çarpımları	Hassasiyet kaybı; bazı katmanlar için sorunlu olabilir
Pruning (Structured)	Donanım hızlanması sağlar; model küçülür	Mimari tasarım değişikliği gerekebilir
Distillation	Küçük modelde yüksek doğruluk korunur	Teacher modeli gerektirir; eğitim maliyeti artar
Low‑Rank Approx	Parametre ve hesap azalışı	Bazı görevlerde rank düşürme doğruluk kaybına neden olabilir

7. EN İYİ PRATİKLER

Production Kullanımı

Profiling ile başlayın: Sıkıştırmanın en etkili olduğu katmanları belirleyin.
Aşamalı yaklaşım kullanın: PTQ → QAT/Distillation → Structured Pruning
Canary dağıtım: Optimizasyonları önce küçük trafik üzerinde test edin.

Performans Optimizasyonu

Per‑channel quantization ile kritik matrisleri ayrı ölçekleyin.
Runtime optimizasyonlarına yatırım yapın: ONNX Runtime, TensorRT, OpenVINO ve vendor SDK'ları.
Sparsity destekli donanımlar varsa unstructured pruning'den faydalanın.

Güvenlik

Sıkıştırma sonrası model davranışını adversarial testlere tabi tutun; compression bazlı yeni zafiyetler doğabilir.
Model fingerprinting ve watermarking kullanarak dağıtılmış modelleri izleyin.

Ölçeklenebilirlik

Compression adımlarını otomatikleştirin ve CI/CD hattına entegre edin.
Model varyantlarını (FP32, FP16, INT8) sürümler halinde tutun ve trafik bazlı yönlendirme kullanın.

8. SIK YAPILAN HATALAR

Doğruluk metrikleri yerine yalnızca boyut/latency hedeflerine odaklanmak.
Test kapsamını dar tutmak; sadece doğruluk değil, edge kullanım senaryolarını da test etmeli.
Runtime uyumsuzluklarını göz ardı etmek — quantized modelin hedef runtime'da farklı davranması.
Tek bir yöntemle yetinmek — genellikle kombinasyon (distill + quantize + prune) en iyi sonucu verir.

9. GELECEK TRENDLER

Automated Compression Toolchains: AutoML tarzı otomatik sıkıştırma araçları, model‑özgü stratejiler üretecek.
Mixed Precision ve INT4/2: Daha düşük bit genişlikleri ve karma precision yaklaşımları yaygınlaşacak.
Hardware‑Software Co‑Design: Donanım üreticileri compression‑friendly instruction set ve accelerator tasarımları sunacak.
Compression for Privacy: Model distillation ve on‑device modeller gizliliği artıracak çözümler olarak öne çıkacak.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

Model compression doğruluk kaybına neden olur mu?
Genellikle bazı tekniklerde küçük doğruluk kayıpları olabilir. Ancak distillation ve QAT gibi yaklaşımlarla bu kayıp minimize edilebilir; doğru strateji ile kayıp ihmal edilebilir seviyelere çekilebilir.
Quantization her model için uygun mu?
Çoğu model için uygun olsa da bazı hassas katmanlar (embedding, layernorm) özel dikkat gerektirir. Per‑channel quantization ve mixed precision çözümleriyle uyumluluk artırılabilir.
Pruning ile gerçek hız kazanılır mı?
Structured pruning donanımda gerçek hız sağlar. Unstructured pruning yüksek sparsity verse de hız kazanımı donanım desteğine bağlıdır.
Distillation ne zaman tercih edilmeli?
Model küçültme ve doğruluk korunması gerektiğinde distillation en etkili yöntemlerden biridir; özellikle ensemble modelleri tek bir student modele indirmek için uygundur.
ONNX veya TorchScript hangisini seçmeliyim?
Hedef runtime ve donanıma göre değişir. ONNX Runtime geniş platform desteği sunar, TensorRT ise NVIDIA GPU'larda en yüksek performansı sağlar.
PTQ mi QAT mi daha iyi?
PTQ hızlı ve maliyetsizdir ama bazı durumlarda doğruluk kaybı olur. QAT başlangıçta daha maliyetlidir fakat genellikle daha iyi sonuç verir.
Edge cihazlar için en iyi yaklaşım nedir?
Distillation + structured pruning + mixed precision (FP16/INT8) kombinasyonu genellikle iyi sonuç verir. Ayrıca runtime seçimi (TensorFlow Lite, ONNX, vendor SDK) kritiktir.
Compression güvenlik riskleri yaratır mı?
Evet; compression sonrası model davranışında farklılıklar olabilir ve adversarial dayanıklılık değişebilir. Bu yüzden sıkıştırılmış modelleri adversarial testlere tabi tutun.

Anahtar Kavramlar

Quantization: Ağırlık ve aktivasyonların daha düşük bit genişliğine dönüştürülmesi.
Pruning: Model ağırlıklarının veya yapı bloklarının kaldırılması ile seyrekleştirme.
Knowledge Distillation: Teacher‑student yaklaşımı ile büyük model bilgisinin küçük modele aktarılması.
Low‑Rank Approximation: Büyük matrislerin daha düşük rank parçalarına ayrılması.
Sparsity: Ağırlıkların çoğunun sıfır olduğu durum; depolama ve hesapta azalma sağlar.

Öğrenme Yol Haritası

Matematiksel Temel: Lineer cebir, matris faktörizasyonları ve optimizasyon temellerini öğrenin.
ML ve Derin Öğrenme: Modern model mimarilerini (transformer, CNN, RNN) ve eğitim tekniklerini öğrenin.
Compression Teknikleri: Quantization, pruning, distillation ve low‑rank approximation çalışmaları yapın.
Runtime ve Tooling: ONNX, TensorRT, OpenVINO, TensorFlow Lite ve vendor SDK'larını deneyin.
Adversarial ve Robustness: Sıkıştırılmış modellerin güvenliğini test edin.
Projeler: Küçük projelerle FP32 model→INT8/FP16/Distilled model pipeline'ı kurun ve benchmark yapın.