Dağıtık AI Eğitimi — Mühendis Perspektifiyle Rehber

Yayınlayan: Vebende Akademi | Okuma süresi: ~40-60 dk

1. Giriş

Derin öğrenme modellerindeki parametre sayıları, veri hacimleri ve eğitim maliyetleri son yıllarda katlanarak büyüdü. Tek bir sunucuda eğitim, hem bellek hem de hesaplama açısından yetersiz kaldığında "dağıtık eğitim" (distributed training) kaçınılmaz hale geliyor. Bu nedenle dağıtık AI eğitimi, araştırma laboratuvarlarından üretim sistemlerine kadar her yerde kritik bir yetenek olarak ön plana çıktı.

Bu rehber, mühendis, MLOps uzmanı ve yazılım mimarlarına yöneliktir. Amaç, dağıtık eğitim stratejilerini, mimarilerini, veri akışlarını, pratik optimizasyonları ve üretime geçiş aşamasında karşılaşılan operasyonel zorlukları detaylandırmaktır. Okuduktan sonra şu sorulara cevap bulacaksınız:

Hangi dağıtık eğitim paradigması hangi senaryoda uygundur?
Network, donanım ve yazılım katmanlarında hangi optimizasyonlar gerekir?
Fault‑tolerance, checkpointing ve elastic training nasıl uygulanır?

2. Kavramsal Temeller

Temel Tanımlar

Dağıtık eğitim (Distributed Training): Model parametreleri veya eğitim verisinin birden fazla hesap birimine (örn. GPU, host) yayılarak paralel şekilde eğitilmesi.
Data Parallelism (Veri Paralelliği): Aynı modelin kopyaları farklı veri partisyonları üzerinde eğitilir; ardışık olarak gradienler toplanır ve model güncellenir.
Model Parallelism (Model Paralelliği): Model parametreleri birden fazla cihaz arasında bölünür; özellikle model parametreleri tek bir cihazın belleğini aştığında kullanılır.
Pipeline Parallelism: Modelin katmanları segmentlere ayrılır; farklı mikro‑batch'ler pipeline içinde ardışık şekilde akıtılır.
All‑Reduce: Gradientlerin tüm düğümler arasında toplanması ve dağıtılması için yaygın kullanılan kolektif iletişim işlemi.
Parameter Server: Parametrelerin merkezi bir veya birden çok sunucuda tutulduğu eski ama hâlâ kullanılan bir dağıtık mimari.

Yazılım ve Donanım Bileşenleri

Distributed runtimes: PyTorch Distributed (DDP), Horovod, TensorFlow MirroredStrategy, DeepSpeed, FairScale.
Kommunikasyon kütüphaneleri: NCCL (NVIDIA), Gloo ve MPI.
Network: RDMA destekli ağlar, 100GbE/200GbE switch'ler, düşük latency topolojiler.
Orkestrasyon: Kubernetes, Kubeflow, Ray, SLURM, AWS Batch/GKE‑AI gibi hizmetler.

3. Nasıl Çalışır?

Sistem Mimarisi — Ana Yaklaşımlar

Data Parallelism

Data parallelism en yaygın kullanılan yöntemdir. Her worker (GPU) modelin tam bir kopyasını tutar ve farklı bir mini‑batch üzerinde forward/backward geçirir. Ardından gradienler toplanır (all‑reduce) ve tüm worker'lardaki model kopyaları senkronize edilir. İki ana varyant bulunur:

Senkron (Synchronous) Data Parallel: Tüm worker'lar her adımda birbirini bekler; deterministik ve stabil ama straggler problemi olabilir.
Asenkron (Asynchronous) Data Parallel: Worker'lar model güncellemesi için merkezi parametre sunucuyu (parameter server) kullanabilir; daha hataya dayanıklı ama eğitim dinamikleri farklıdır.

Model Parallelism

Model paralelliği, çok büyük modellerin parametrelerini cihazlar arasında bölmek için kullanılır. İki ana kategori vardır:

Tensor‑level parallelism: Büyük tensörlerin parçalanıp farklı cihazlarda hesaplanması.
Layer‑level parallelism: Model katmanlarının farklı cihazlara dağıtılması (örn. bir katman GPU0'da, diğer katman GPU1'de).

Pipeline Parallelism

Pipeline parallelism, modelin segmentlere ayrıldığı ve arka arkaya gelen mikro‑batch'lerin bu segmentlerde pipeline olarak işlendiği yaklaşımdır. Pipeline hem model paralelliği sağlar hem de cihazların iş yükünü dengeler. Ancak daha karmaşık koordinasyon ve memory scheduling gerektirir.

Hibrit Teknikler — ZeRO, DeepSpeed

Büyük modeller için modern çözümler ZeRO (Zero Redundancy Optimizer) gibi teknikleri kullanır. ZeRO katmanlı olarak optimizasyon state'lerini (optimizer states, gradients, parameters) shard'lar ve bellek verimliliği sağlar. DeepSpeed, ZeRO ile birlikte pipeline ve model paralelliğini birleştirerek multi‑billion parametreli modellerin eğitimini mümkün kılar.

İletişim ve Senkronizasyon

İletişim overhead'i dağıtık eğitimde sık karşılaşılan darboğazdır. All‑Reduce işlemlerinin performansı NCCL veya MPI üzerinden optimize edilir. Ayrıca gradient compression (sıkıştırma), quantization, gradient accumulation gibi teknikler iletişim maliyetini azaltmak için kullanılır.

4. Gerçek Dünya Kullanımları

Büyük Dil Modelleri (LLM)

OpenAI, Google, Meta gibi kuruluşlar LLM'leri eğitim ve fine‑tuning aşamalarında dağıtık stratejiler kullanır: model paralelliği, pipeline ve ZeRO benzeri optimizasyonlar bir arada. Bu yaklaşımlar, multi‑GPU ve multi‑node cluster'larda saatler/ günler süren eğitimleri mümkün kılar.

Görüntü ve Video Modelleri

Görüntü segmentleri, büyük batch'ler ve data parallelism ile çalışır. Video modelleri için hem veri paralelliği hem de zaman ekseni üzerinde özel paralellik stratejileri geliştirilir.

Öneri Sistemleri

Recommendation sistemleri, devasa embedding tabanlı modeller ve terabaytlık verilerle çalışır. Burada veri paralelliği ve embedding table sharding önemli rol oynar. Parameter server yaklaşımları veya embedding store'ları (e.g. Redis, ANN tabanlı çözümler) kullanılır.

Araştırma ve Üniversite Laboratuvarları

Akademik ortamda dağıtık eğitim genelde SLURM veya benzeri batch scheduler'larda, Horovod veya native distributed runtimes ile gerçekleştirilir. Buradaki öncelik esneklik ve deney tekrarlanabilirliğidir.

5. Avantajlar ve Sınırlamalar

Avantajlar

Çok büyük modellerin eğitilebilmesi (bellek ve compute sınırının ötesine taşınması).
Eğitim sürelerinin dramatik kısalması (doğru orkestra ile).
Kayıpların ve güncellemelerin paralel hesaplanması ile ölçeklenebilirlik.

Sınırlamalar

Network ve iletişim gecikmeleri: kötü ağ topolojisi performansı hızla sınırlar.
Operasyonel karmaşıklık: checkpointing, fault tolerance ve sürüm yönetimi zorlaşır.
Karmaşık debugging: dağıtık hatalar izlenmesi ve çözülmesi zordur.
Maliyet: Çoklu node ve GPU kullanımı doğrudan maliyeti artırır; FinOps uygulamaları gerekir.

6. Alternatifler ve Karşılaştırma

Yaklaşım	Avantaj	Dezavantaj
Data Parallel	Basit uygulanır, iyi batch verimi	All‑Reduce iletişim maliyeti, bellek kopyası gereksinimi
Model Parallel	Büyük modeller için tek çözüm	Daha karmaşık koordinasyon, pipeline gecikmeleri
Pipeline Parallel	GPU utilization artışı	Micro‑batching ve katman senkronizasyonu zorlukları
Parameter Server	Eski GPU olmayan altyapılarla uyum sağlayabilir	Merkezi darboğaz, tutarlılık problemleri
Federated Learning	Veri gizliliği odaklı, merkezi veri gerektirmez	Heterojen cihazlar, düşük bandwidth, güvenlik karmaşıklığı

7. En İyi Pratikler

Production Kullanımı

Donanım ve network topolojisini eğitim profilinize göre planlayın: RDMA, yüksek bant genişliği ve düşük latency kritik olabilir.
Checkpointing stratejisi: per‑epoch veya zaman bazlı checkpoint, incremental ve atomik yazma kullanın.
Experiment tracking: her eğitim koşusunun konfigürasyonunu, seed'leri ve metadata'yı saklayın.

Performans Optimizasyonu

Mixed precision training (FP16/AMP) ile bellek ve throughput kazanın ama numerik stabiliteyi test edin.
Gradient accumulation ile efektif batch büyüklüğünü artırın ve communication frequency'yi azaltın.
ZeRO / sharding teknikleri ile optimizer state ve gradient bellek kullanımını düşürün.
Profiling yapın: NVProf, Nsight, PyTorch profiler veya TensorFlow profiler kullanarak CPU/GPU ve network darboğazlarını tespit edin.

Güvenlik ve Stabilite

Erişim kontrolü ve IAM: eğitim verisi ve model artefact'lerine erişimi sınırlayın.
Veri encrypt, secure storage ve KMS tabanlı anahtar yönetimi uygulayın.

Ölçeklenebilirlik ve Cost Management

Spot/preemptible instance'ları checkpointing ile kullanın; maliyet tasarrufu sağlar fakat tasarımda resilience gerekir.
Elastic training: yeni node'ları ekleyip çıkararak kaynak kullanımını optimize edin.

8. Sık Yapılan Hatalar

Yetersiz ağ planlaması: Networking gereksinimleri planlanmadan ölçeklenmek iletişim darboğazı yaratır.
Checkpoint eksikliği: Ara sıra checkpoint almamak uzun eğitimlerde veri kaybına yol açar.
Over‑fitting hardware: Bir altyapıya çok bağımlı konfigürasyonlar, farklı ortamlara taşınmayı zorlaştırır.
Doğrulama atlanması: Dağıtık ortamda reproducibility ve doğrulama testlerinin atlanması beklenmedik kalite kayıplarına neden olur.

9. Gelecek Trendler

Automated Distributed Scheduling: Heterojen kaynakları otomatik değerlendiren ve en iyi paralellik stratejisini seçen orkestrasyon çözümleri (AI için özel Kubernetes scheduler'ları).
Sparsity & Mixture‑of‑Experts: Parametre etkinliği sağlayan yöntemler, model paralelliği ihtiyacını azaltarak eğitim maliyetlerini düşürecek.
Hardware‑Software Co‑Design: Accelerator'ların ve runtime'ların model yapısına göre optimize edildiği daha sıkı entegrasyon.
Privacy‑preserving distributed training: Secure aggregation, MPC ve federated learning'in üretim olgunluğu kazanması.

Ek Bölümler

Sık Sorulan Sorular (FAQ)

Dağıtık eğitim her zaman daha mı hızlıdır?
Hayır. Küçük modeller veya düşük veri hacimleri için dağıtık eğitim overhead (communication, orchestration) nedeniyle daha yavaş olabilir. Dağıtık strateji ancak compute veya bellek sınırına ulaşıldığında avantaj sağlar.
Hangi kütüphane veya framework tercih edilmeli?
PyTorch DDP, Horovod, DeepSpeed ve TensorFlow MirroredStrategy yaygın seçeneklerdir. Seçim iş yükü, ekip yetkinliği ve hedef donanımına bağlıdır.
All‑Reduce nasıl optimize edilir?
NCCL kullanımı, uygun network topolojisi ve ring/all‑reduce algoritması seçimi ile performans artar. Gradient compression da communication maliyetini düşürür.
Checkpointing en iyi nasıl yapılır?
Atomik yazma, incremental checkpoint ve metadata ile birlikte saklama önemlidir. Bulut obje depoları veya dağıtık dosya sistemleri kullanılabilir.
Elastic training nedir?
Elastic training, node sayısının eğitim sırasında değişmesine izin veren yöntemdir. Kaynak kullanımı optimize edilir, fakat state yönetimi karmaşıklaşır.
Federated learning dağıtık eğitim midir?
Federated learning dağıtık ancak farklı bir paradigma: veri merkezi olmadan cihazlar üzerinde yerel eğitim ve merkezi agregasyon ile çalışır; gizlilik önceliklidir.
Mixed precision güvenli midir?
Çoğu uygulamada AMP ve loss scaling ile mixed precision güvenlidir, ancak numerik stabilite testleri şarttır.
Dağıtık eğitim maliyetini nasıl kontrol ederim?
Spot instance kullanımı, doğru batch/optimizer seçimleri, ZeRO/quantization ve iş yüküne uygun paralellik stratejileri maliyeti azaltır.

Anahtar Kavramlar

All‑Reduce: Gradientlerin tüm worker'lar arasında toplanması ve paylaşılması işlemi.
ZeRO: Optimizer state'lerini shard ederek bellek kullanımını düşüren teknik.
RDMA: Remote Direct Memory Access — yüksek performanslı, düşük gecikmeli veri transferi sağlar.
Elastic Training: Node sayısının dinamik olarak değiştirildiği eğitim yöntemi.

Öğrenme Yol Haritası

Temel: Linear algebra, dağıtık sistemler temelleri, Python.
ML: PyTorch/TensorFlow temelleri, optimizer ve loss fonksiyonları.
Dağıtık: MPI, NCCL, Horovod, torch.distributed, DeepSpeed ve ZeRO öğrenin.
Orkestrasyon: Kubernetes, Kubeflow, Ray, SLURM deneyimi kazanın.
Profiling & Optimization: NVidia profiling araçları, PyTorch profiler, network monitoring öğrenin.
Pratik projeler: multi‑GPU multi‑node eğitim, ZeRO ile büyük model eğitimi, pipeline parallel örnekleri.