AI Altyapı Maliyetleri — Tasarruf, Ölçek ve Maliyet Yönetimi için Pratik Rehber

Yayınlayan: Vebende Akademi | Okuma süresi: ~60–120 dk

1. GİRİŞ

Yapay zekâ projeleri artık sadece araştırma laboratuvarlarının değil, ürün mühendisliği ve iş stratejisinin de merkezinde yer alıyor. Ancak AI uygulamalarının maliyeti, birçok organizasyon için beklenenden yüksek çıkabiliyor. Eğitim (training), çıkarım (inference), veri depolama, veri hazırlama, izleme ve altyapı yönetimi kalemleri hızla toplam maliyete etki eder. Özellikle büyük dil modelleri (LLM'ler), görüntü modelleri ve gerçek zamanlı servisler, bütçe planlamasında kritik noktalar oluşturur.

Bu makale, AI altyapı maliyetlerini anlamak, izlemek ve optimize etmek isteyen mühendisler, teknik yöneticiler ve CTO'lar için hazırlanmıştır. Amaç: maliyet kaynaklarını net bir şekilde ortaya koymak, tasarruf stratejileri sunmak, mimari kararların ekonomik etkisini değerlendirmek ve gerçek dünya örnekleriyle pratik yol haritaları sağlamaktır.

Kısaca cevaplar:

Bu neden konuşuluyor? AI modellerinin ölçeği ve bulut kullanımının yaygınlaşması işletme maliyetlerini artırdı.
Kimler için önemli? CTO, MLOps mühendisleri, finans birimleri ve ürün yöneticileri.
Hangi problemleri çözüyor? Beklenmeyen bulut faturaları, yanlış kaynak tahsisi, verimsiz model seçimi ve operasyonel maliyetleri yönetme.

2. KAVRAMSAL TEMELLER

2.1 Temel Tanımlar

Training cost (Eğitim maliyeti): Modelin eğitilmesi için gerekli GPU/TPU CPU, network ve storage kaynaklarının maliyeti.
Inference cost (Çıkarım maliyeti): Modelin üretimde tahmin üretmesi için gereken işlem maliyeti — real‑time ve batch olmak üzere farklı profillerde değerlendirilir.
Storage & Data egress: Veri saklama maliyeti ve verinin buluttan çıkışında oluşan ücretler.
Operational costs: İzleme, logging, orchestration, CI/CD, engineering time ve destek maliyetleri.
Amortizasyon: Modellerin yeniden kullanılabilirliği ve donanım yatırımlarının zaman içinde dağıtılma şekli.

2.2 Maliyeti Etkileyen Bileşenler

Model boyutu ve mimarisi (parametre sayısı)
Training süreleri ve eğitim tekrarı sıklığı
Inference çağrı hacmi ve latency SLO'ları
Veri depolama, transfer ve hazırlama maliyetleri
Engineering ve operasyonel emek maliyeti
Bulut vs on‑prem altyapı seçimleri

3. NASIL ÇALIŞIR? — MİMARİ VE MALİYET AKIŞI

3.1 Yüksek Seviyeli Maliyet Akışı

Bir AI projesinin maliyet akışı genellikle şu kategorilere bölünür:

Ar-Ge ve prototip: Küçük ölçekli deneyler, POC'ler, araştırma kaynakları.
Eğitim (training): Büyük veri setleri ve tekrarlı deneyler, hyperparameter tuning, distributed training.
Dağıtım (deployment): Model packaging, canary/blue‑green deploy, containerization.
Çıkarım (inference): Online real‑time endpoints veya batch scoring job'ların çalıştırılması.
Operasyon: Monitoring, logging, pipeline orchestration, veri yönetimi.

3.2 Eğitim Maliyetleri Detayı

Eğitim maliyetleri parametre sayısı, GPU türü, dağıtım paralelliği ve eğitim süresi ile doğrudan ilişkilidir. Örnek olarak bir transformer modelinin eğitimi şu faktörleri içerir:

GPU tipi: V100, A100, H100 gibi GPU'lar saat başı farklı fiyatlandırılır. H100 en hızlıdır ancak en maliyetli olabilir.
Spot/Preemptible kullanımı: Spot instance'lar ucuzdur fakat kesintiye açıktır; checkpoint mekanizmaları gerektirir.
Distributed training overhead: Network I/O ve parameter server maliyetleri.
Experimentation overhead: Çok sayıda deneme (hyperparameter tuning) toplam maliyeti katlayabilir.

3.3 Çıkarım (Inference) Maliyetleri

Inference maliyeti, çağrı başına kullanılan compute süresinden hesaplanır. Bu maliyetler aşağıdaki faktörlere bağlıdır:

Model boyutu ve latency hedefleri (daha büyük modeller daha uzun sürede çalışır)
Batching uygulaması: dynamic batching ile throughput artırılırken latency etkilenebilir
Cache stratejileri: Aynı sorgular için cache kullanımı maliyeti düşürür
Serving mimarisi: CPU‑based vs GPU‑based, serverless vs long‑running instances

3.4 Data Storage ve Transfer

Büyük veri setleri ve embedding store'ları disk ve I/O maliyetlerini artırır. Ayrıca veri egress ücretleri (buluttan veri çekme) beklenmedik faturalar oluşturabilir. Maliyet yönetimi açısından dikkat edilmesi gerekenler:

Veri sıkıştırma ve partitioning
Cold vs warm storage stratejileri
Edge preprocessing ile veri transferini azaltma

4. GERÇEK DÜNYA KULLANIMLARI — ÖRNEKLER

4.1 Netflix — Rekommendasyon ve Batch Eğitim

Netflix benzeri şirketler büyük batch eğitim işlerini gece saatlerinde spot instance'larda çalıştırarak maliyeti optimize eder. Öneri modelleri için offline feature store ve embedding hesaplamaları pahalıdır, bu yüzden amortizasyon ve yeniden kullanım stratejileri kritik önem taşır.

4.2 Uber — Gerçek Zamanlı Scoring

Uber gibi düşük latency gerektiren uygulamalarda inference maliyetleri yüksek olur. Bu firmalar genelde küçük, optimized modelleri kenarda (edge) veya regional olarak konuşlandırır; kritik pipeline'larda model distillation ve quantization kullanarak maliyeti düşürür.

4.3 Amazon — Ölçek ve Egress Maliyetleri

Amazon gibi geniş veri hareketi yapan platformlarda veri egress ve transfer maliyetleri dikkat gerektirir. İç veri transferlerini optimize etmek (aynı region içinde işlemek), ve CDN kullanımı ile maliyet azaltılabilir.

4.4 OpenAI — Büyük Model Maliyeti

OpenAI tipi LLM sağlayıcıları hem eğitim hem de inference tarafında yüksek maliyetlerle karşılaşır. Bu firmalar için model seçim, distillation, maliyet‑temelli routing (küçük modelleri önceliklendirip gerekirse büyük modele yönlendirme) ve token‑bazlı faturalama gibi stratejiler kritik.

4.5 Stripe — Fraud Detection ve Cost/Value Trade‑off

Stripe benzeri risk sistemleri doğru tahminin yüksek iş değeri olduğu durumlarda yüksek maliyeti kabul edebilir. Fakat gereksiz yüksek throughput için optimize etme, sadece kritik olayları scoring'e göndermek gibi önlemler maliyeti dengelemeye yardımcı olur.

5. AVANTAJLAR VE SINIRLAMALAR

Avantajlar

Veri odaklı kararlar: Doğru maliyet yönetimi ile AI sürdürülebilir hale gelir.
Ölçeklendirme: Maliyet optimizasyonu sayesinde geniş kullanıcı tabanına hizmet verme kapasitesi artar.
Rekabet avantajı: Maliyet etkinliği, fiyatlandırma ve margin üzerinde doğrudan etkili olur.

Sınırlamalar

Teknik borç: Kötü planlanmış optimizasyonlar uzun vadede karmaşık teknik borç oluşturabilir.
Kalite kaybı riski: Aşırı optimizasyon (çok fazla distillation veya quantization) model doğruluğunu olumsuz etkileyebilir.
Operasyonel karmaşıklık: Spot instance yönetimi, checkpoint ve rollback politikaları ek iş yükü getirir.

6. ALTERNATİFLER VE KARŞILAŞTIRMA

Yaklaşım	Avantaj	Dezavantaj
Fully managed cloud (Serverless)	Kolay yönetim, hızlı başlangıç	Uzun vadede yüksek operasyonel maliyet
Spot/on‑prem hybrid	Düşük eğitim maliyeti, kontrol	Kesinti riski, daha yüksek operasyonel iş yükü
Edge + central cloud	Latency optimizasyonu, veri transfer azaltma	Dağıtık yönetim karmaşıklığı

7. EN İYİ PRATİKLER

Production Kullanımı

Start small, measure: Küçük bir pilot ile başlayın; eğitim ve inference maliyetlerini gerçek verilerle ölçün.
Chargeback ve showback: Maliyetleri ekip bazında izleyin; ekipleri maliyet bilinçli karar almaya teşvik edin.
Model routing: Sorgu türüne göre küçük veya büyük modeli seçen routing stratejileri uygulayın.
Quota & rate limiting: Beklenmedik yüklenmeleri sınırlayarak maliyet dalgalanmalarını engelleyin.

Performans Optimizasyonu

Model distillation ile daha küçük ve hızlı modeller elde edin.
Quantization ve pruning teknikleri ile bellek kullanımını düşürün.
Dynamic batching ve caching ile throughput'u artırırken maliyeti azaltın.
Spot instance ve preemptible VM kullanarak eğitim maliyetini düşürün; checkpoint ve fault‑tolerant pipeline'lar hazırlayın.

Güvenlik ve Uyumluluk

Veri egress ve konum maliyetlerini göz önünde bulundurarak data residency gereksinimlerini planlayın.
Hassas veriler için on‑prem veya VPC izolasyonu tercih edin; anonimleştirme ile veri transfer maliyetlerini azaltın.

8. SIK YAPILAN HATALAR

Benchmark değil production verisi ile ölçmek: Eğitim ve inference maliyetleri sahte veriyle küçümsenebilir; gerçek trafik ve veri ile test edin.
Model seçiminde sadece doğruluğa bakmak: Latency ve maliyet etkilerini göz ardı etmek yanlış kararlar doğurur.
Spot instance'ları plansız kullanmak: Checkpoint, retry ve otomasyon olmadan spot kullanımı risklidir.
Maliyet izleme olmadan ölçekleme: Otomatik scaling kurmadan önce maliyet sigortası oluşturun.

9. GELECEK TRENDLER

Efficient model families: Daha küçük, domain‑specific efficient modeller yaygınlaşacak; maliyet/doğruluk trade‑off'u iyileşecek.
Hardware specialization: GPU dışı hızlandırıcılar (TPU, IPU, NPU) ve on‑chip inferencing çözümleri maliyet avantajı sunacak.
Serverless inference evrimi: Soğuk başlangıç (cold start) problemleri azaldıkça serverless inference daha çekici olacak.
Carbon & cost aware scheduling: Hem maliyeti hem çevresel etkileri minimize eden job scheduling araçları ortaya çıkacak.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

AI altyapı maliyetini nasıl hızlıca tahmin edebilirim?
Basit bir yol: model boyutu, saatlik GPU maliyeti ve tahmini eğitim süresi ile ilk kaba tahmini oluşturun; inference için çağrı hacmi x latency x saatlik instance maliyetini hesaplayın. Sonrasında gerçek telemetry ile düzeltin.
Spot instance kullanmalı mıyım?
Evet, eğitim maliyetini düşürmek için uygundur; ancak kesinti toleranslı pipeline ve sık checkpoint alımı gerektirir.
Inference için GPU mı, CPU mu tercih etmeliyim?
Model boyutuna ve latency gereksinimine bağlıdır. Küçük modeller CPU'da ekonomik olabilir; büyük LLM'ler GPU gerektirir.
Cache kullanmak maliyeti nasıl etkiler?
Cache sık tekrarlanan isteklerde doğrudan çağrı sayısını azaltır ve maliyeti düşürür; cache tutma stratejisi bellek maliyetini arttırabilir.
Veri egress maliyetlerini nasıl azaltırım?
Veri işlenmesini aynı bölgede tutun, gereken minimum veri transferi yapın ve özet/embedding gibi hafif temsilcilerle çalışın.
Model distillation ne zaman uygulanmalı?
Üretim latency hedefleri yüksek ancak büyük model doğruluğu isteniyorsa; distillation sonrası küçük model ile maliyet tasarrufu sağlanır.
Maliyet izleme için hangi metrikleri kullanmalıyım?
Cost per training hour, cost per inference, cost per prediction, utilization (GPU/CPU), egress costs, storage costs ve team chargeback metrikleri önemlidir.
Bulut mu on‑prem mi daha ucuzdur?
Kısa vadede bulut genelde daha ekonomik; ancak sürekli yüksek yük ve özel donanım ihtiyacı varsa on‑prem amortize edilebilir.

Anahtar Kavramlar

Distillation: Büyük modelin bilgisinin küçük modele aktarılması yöntemi; inference maliyetini düşürür.
Quantization: Model parametrelerini düşük bitli temsillere dönüştürerek bellek ve compute maliyetini azaltma tekniği.
Spot Instance: Bulut sağlayıcıların daha düşük ücretli fakat kesintiye açık VM türleri.
Dynamic Batching: Birden çok isteği tek inference çağrısında birleştirerek GPU verimliliğini artırma.

Öğrenme Yol Haritası

Temel: Bulut platformları (AWS/GCP/Azure) ve instance tipleri hakkında bilgi edinin.
Model Optimizasyonu: Distillation, quantization, pruning tekniklerini öğrenin.
MLOps: Pipeline, checkpointing, distributed training ve spot instance yönetimini deneyimleyin.
Cost Engineering: Cost modeling, chargeback, quota ve billing metriklerini uygulayın.
Pratik: Küçük bir model eğitip, distill edip ve üretimde inference maliyetini ölçün; optimizasyon adımlarını uygulayın.