Capacity Planning — Kaynakları Öngörme, Ölçeklendirme ve Maliyet-Performans Dengesi

Yayınlayan: Vebende Akademi | Okuma süresi: ~45-70 dk

1. Giriş

Capacity planning (kapasite planlaması), bir sistemin gelecekteki iş yüklerini karşılayabilmesi için gerekli kaynakların öngörülmesi, planlanması ve yönetilmesini ifade eder. Bulut altyapılarının sunduğu esneklik, mikroservislerin yaygınlaşması ve kullanıcı beklentilerinin artması ile birlikte kapasite planlaması sadece altyapı maliyetlerini kontrol etmek için değil, kullanıcı deneyimini korumak, SLO'ları sağlamak ve operasyonel riskleri azaltmak için de temel bir disiplin hâline geldi.

Bu konu neden bugün konuşuluyor?

Hızla değişen trafik desenleri (ör. promosyona bağlı ani yük, mevsimsellik) kaynak yönetimini zorlaştırıyor.
Bulut maliyetleri kontrolsüz büyüyebiliyor; doğru kapasite planlaması maliyet-performans optimizasyonu sağlar.
SLO/SLI temelli operasyonel yaklaşımlar kapasite planlamayı iş hedefleriyle doğrudan ilişkilendiriyor.

Kimler için önemli?

SRE ve platform mühendisleri
Altyapı ve bulut mimarları
Ürün yöneticileri ve CTO'lar (kapasite maliyet‑yarar dengesi için)
FinOps ekipleri ve maliyet yöneticileri

Hangi problemleri çözüyor?

Öngörüsüz ölçeklendirme ve maliyet sızıntılarını önleme
Performans düşüşleri ve SLO ihlallerine karşı proaktif önlem alma
Kaynak tedarik zinciri ve kapasite rezervasyon süreçlerini optimize etme

2. Kavramsal Temeller

Bu bölüm kapasite planlamasının temel kavramlarını, terminolojisini ve mimari bileşenlerini açıklar. Net terimler, doğru analiz ve politika üretimi için gereklidir.

2.1. Temel Kavramlar

Capacity (Kapasite): Bir sistemin belli bir zamanda işleyebileceği maksimum iş miktarı (ör. rps, concurrent connections, IOPS).
Headroom: Güvenlik payı; beklenmeyen yük artışlarını veya altyapı problemlerini karşılayacak fazladan kapasite.
Provisioning: Kaynak tahsisi süreci (önceden rezerve etme veya on-demand yaratma).
Autoscaling: Otomatik olarak kaynak ekleme/çıkarma mekanizmaları (horizontal/vertical).
Utilization: Kaynak kullanım oranı; ideal hedef genellikle %60–80 arasında değişir uygulama ve toleranslara göre.
Peak vs Baseline: Temel (ortalama) yük ve tepe (peak) anları; her ikisini de planlamak gerekir.
Service Level Objective (SLO): Kapasite planlamayı iş hedefleri ile bağlayan ölçütler (ör. p95 latency hedefi).

2.2. Terminoloji ve Metodolojik Unsurlar

Forecasting (Tahmin): Geçmiş veri ve mevsimsellik modellemeleriyle gelecekteki iş yükünü öngörme.
What‑if Analysis: Senaryo bazlı değerlendirmeler; ani trafik artışları veya failover durumları için kaynak ihtiyacı simülasyonu.
Capacity Model: Sistem bileşenleri arasındaki bağımlılıkları ve performans karakteristiklerini tanımlayan nicel model.
Workload Characterization: İş yükünü sınıflandırma: latency-sensitive, throughput-oriented, batch veya spiky.

2.3. Bileşenler

Compute: VM, instance tipleri, container CPU/memory
Network: Bandwidth, NIC limitleri, peering ve CDN
Storage: IOPS, throughput, latency ve storage sınıfları (SSD/HDD/Object)
Database: Read replicas, shards, caching stratejileri
Queue/Stream: Broker throughput ve retention

3. Nasıl Çalışır? — Teknik Mimari ve Süreç

Kapasite planlaması, veriye dayalı adımlar içerir: veri toplama, modelleme, simülasyon, karar verme ve uygulama. Bu süreç bir döngüdür; düzenli olarak gözden geçirilip güncellenmelidir.

3.1. Veri Toplama ve Hazırlık

Historical metrics: CPU, memory, network, disk I/O, request rates, latencies, error rates.
Correlation data: deploy history, feature flags, marketing campaigns and business events.
Telemetry quality: Eksik veya bozuk veri modelleri yanlış tahmine yol açar — veri doğruluğu kritik.

3.2. İş Yükü Sınıflandırması

Her iş yükü aynı kapasite davranışını göstermez. Tipik sınıflandırmalar:

Steady-state: Kararlı, öngörülebilir trafik (ör. background batch işleri).
Spiky: Ani ve kısa süreli yük patlamaları (ör. kampanyalar, flash sale).
Seasonal/Trend: Haftalık, aylık veya yıllık döngüler.
Random burst: Non-deterministic anomaliler; headroom ile yönetilir.

3.3. Kapasite Modelleme

Basit bir kapasite modeli bile bileşenler arası bağımlılıkları hesaba katmalıdır. Örnek yaklaşım:

Her bileşen için bir performans fonksiyonu belirleyin: örn. latency = f(load, cpu, mem, i/o).
Workload modeline göre ilgili metrikleri simüle edin: rps dağılımı, eşzamanlı istek sayısı, payload boyutları.
Modeli kullanarak çeşitli konfigürasyonlar test edin (instance type, replica count, cache size) ve hedef SLO'ları sağlayan minimum kaynak setini bulun.

3.4. What‑if Analizleri ve Senaryolar

Senaryolar genellikle şu soruları yanıtlar:

Beklenmedik %x trafik artışı durumunda kaç ek instance gerekir?
Tek bir veri merkezinin devre dışı kalması durumda sistemin kapasite kaybı ne olur?
Planlı bakım için hangi minimal kapasite korunmalı?

3.5. Provisioning Stratejileri

On-demand: Hızlı tedarik, fakat maliyet daha yüksek olabilir.
Reserved/Savings Plans: Öngörülebilir yükler için maliyet avantajı sağlar.
Spot/Preemptible: Maliyet-optimizasyonu için uygundur fakat volatiliteye dayanıklı iş yükleri için sınırlıdır.
Hybrid: Temel (baseline) kapasite reserved, burst için on-demand veya spot kullanımı.

3.6. Autoscaling Tasarımı

Autoscaling kurallarının tasarımında dikkat edilmesi gerekenler:

Scale-up ve scale-down gecikmeleri (cooldown) SLO'ları etkilememeli.
Hysteresis: oscillation'ı önlemek için eşiğin üzerine çıkma ve altına düşme stratejileri.
Multiple signals: CPU tek başına değil, queue length, latency ve custom business metrics ile karar verin.

4. Gerçek Dünya Kullanımları

Kapasite planlaması farklı sektörlerde farklı uygulamalar bulur. Aşağıdaki örnekler, yaklaşımların nasıl çeşitlendiğini gösterir.

4.1. Netflix

Netflix, global kullanıcı dağılımı ve yüksek video trafiği nedeniyle edge caching, regional provisioning ve CDN performansını merkezî planlamada kullanır. Peak dönemleri için önceden rezervasyon, trafik rejimlerini simülasyonlarla doğrulama ve QoE (quality of experience) metriklerini SLO'ya entegre eder.

4.2. Uber

Gerçek zamanlı dispatch için düşük-latency gereksinimi vardır. Uber, locality-aware provisioning, in-memory state replication ve hızlı failover ile operasyonel kapasiteyi korur. Ayrıca farklı bölgeler için bağımsız kapasite planları uygular.

4.3. Amazon (AWS)

AWS müşterilerine çeşitli provisioning seçenekleri sunar: on-demand, reserved, spot. Büyük müşteriler için kapasite rezervasyonu ve dedicated instances ile predictable performans garanti edilir. Ayrıca bölgesel trafik dağılımı ve peering optimizasyonları ile ağ kapasitesi planlanır.

4.4. OpenAI ve Model Servisleri

Model inference kaynak talebi çok yüksek ve maliyetli olabilir. OpenAI tarzı servislerde batching, model sharding, GPU pool yönetimi ve dynamic scaling ile hem throughput hem latency hedefleri korunur. Capacity planning burada hem compute hem de GPU hafıza/VRAM gereksinimini içerir.

4.5. E‑Ticaret (Büyük Kampanya Dönemleri)

Black Friday veya kampanya dönemleri için retailer'lar sezon öncesi simülasyon, peak rezervasyonu ve staged rollout stratejileri uygular. Cache warming, read-replica provisioning ve CDN prep önlemleri kritik adımlardır.

5. Avantajlar ve Sınırlamalar

Avantajlar

Proaktif kapasite yönetimi ile SLO ihlallerini önleme
Maliyet optimizasyonu: doğru karışım on-demand/reserved/spot ile maliyet düşer
İş sürekliliği ve dayanıklılık planlarının desteklenmesi

Sınırlamalar

Gereken veri ve model doğruluğu yüksek; kötü veri yanlış planlama yapar
Paylaşılan bulut altyapısının belirsizliği (noisy neighbour) sonuçları etkileyebilir
Complexity: Çok katmanlı sistemlerde bağımlılıkların modellenmesi zor olabilir

6. Alternatifler ve Karşılaştırma

Kapasite planlamada çeşitli yaklaşımlar vardır. Aşağıdaki tablo avantaj/dezavantaj yönünden bir karşılaştırma sunar.

Yaklaşım	Avantaj	Dezavantaj
Reactive (sonrasında ölçekleme)	Düşük ön maliyet; sadece ihtiyaç ortaya çıkınca kaynak eklenir	Geç tepki riski, SLO ihlalleri
Proactive (tahmine dayalı)	SLO'ları korur, kesintileri önler	Tahmin hatası maliyeti, daha karmaşık süreç
Hybrid (baseline reserved + burst on-demand)	Maliyet ve risk arasında denge sağlar	İyi ayarlanmış model gerektirir
Fully serverless	Operasyonel kolaylık, otomatik ölçek	Cold start, maliyet öngörülemezliği bazı durumlarda sorun

7. En İyi Pratikler

Aşağıdaki pratikler kapasite planlaması süreçlerini üretim ortamında güvenilir ve sürdürülebilir kılar.

Production Kullanımı

Business events (promosyon, kampanya, yeni özellik lansmanı) ile capacity planlamayı entegre edin.
Baseline için reserved instances, burst için on-demand/spot kullanın; maliyet optimizasyonu yapın.
Runbooks ve otomatik playbook'lar ile kriz anında kapasite artırma adımlarını hızlandırın.

Forecasting & Modelling

Kısa vadeli tahminler için time-series modelleri (ARIMA, Prophet), uzun vadeli için trend analizlerini kullanın.
Ensemble modeller ve business signal'lar (kampanya takvimi) ile tahmin doğruluğunu artırın.
What-if simulasyonları ve sensitivity analysis ile riskleri ölçün.

Autoscaling ve Safety

Scale kararlarında çoklu sinyal tabanlı kurallar kullanın (latency, queue depth, error rate, CPU).
Hysteresis, cooldown ve rate-limiting ile oscillation'ı önleyin.
Capacity change'lerini canary ile test edin; olası regressiyonları izleyin.

FinOps ve Maliyet Yönetimi

Cost per performance metriğini oluşturun; ör: $/1000 requests veya $/p95 latency hedefi.
Reserved vs spot mix'ini per-service bazında optimize edin.
Resource tagging ve chargeback mekanizmaları ile ekiplerin maliyet sorumluluğunu netleştirin.

8. Sık Yapılan Hatalar

Geçmiş veriye dayanarak tek bir model üretmek: mevsimsellik ve iş stratejileri atlanır.
Autoscaling kurallarını sadece CPU'ya dayandırmak: queue/latency signal'leri göz ardı edilir.
Headroom planlamasını ihmal etmek: ani trafik patlamalarında SLO ihlali oluşur.
Spot instance'ları kritik path için kullanmak: preemption riski yüksek.
Veri kalitesini değerlendirmeden karar almak: bozuk metrikler yanlış kapasite gereksinimi doğurur.

9. Gelecek Trendler

AI ile Kapasite Öngörüsü

ML tabanlı forecasting, anomaly detection ve otomatik parametre optimizasyonu kapasite planlamasında daha fazla rol alacak. Gerçek zamanlı model güncellemeleri ve online learning yaklaşımları öngörü doğruluğunu artıracak.

Edge ve Geo-aware Provisioning

Global uygulamalar için coğrafi bazlı kapasite rezervasyonu, edge node provisioning ve latency-aware resource placement önem kazanacak.

Serverless & Managed GPU Pools

Model serving ve yüksek performanslı iş yükleri için paylaşılan, yönetilen GPU havuzları ve serverless GPU modelleri maliyet-verim dengesi getirecek.