Veri Felaket Kurtarma (Data Disaster Recovery): Strateji, Mimari ve Uygulama Rehberi

Yayınlayan: Vebende Akademi | Okuma süresi: ~40–100 dk

1. GİRİŞ

Veri felaket kurtarma (Disaster Recovery, DR) organizasyonların beklenmedik altyapı kesintileri, veri bozulmaları veya coğrafi felaketler karşısında iş sürekliliğini sağlama yeteneğidir. Bulut‑native uygulamalar, mikroservisler, çoklu bölge dağılımları ve artan regülasyon baskısı DR stratejilerinin önemini artırdı. Bu rehber mühendis ve teknik liderler için RTO/RPO hedeflerinden operasyonel tatbikatlara kadar uygulanabilir adımlar sunar.

Bu neden bugün önemli?

Hizmet kesintileri telafisi zor maliyetler doğurur: gelir kaybı, müşteri memnuniyetsizliği, itibar zedelenmesi.
Çoklu bulut ve coğrafi dağıtımlarda veri tedarik zinciri karmaşıklaştı; DR planı olmadan regülasyon uyumu risk altına girer.
Veri silinmesi veya bozulması (ransomware gibi) operasyonel hazırlık gerektirir.

Kimler için önemli?

CTO/VP Engineering, platform mühendisleri, SRE ekipleri, veri mühendisleri, güvenlik ve uyumluluk ekipleri DR planlamasından doğrudan etkilenir. Ayrıca iş sürekliliği ve risk yöneticileri de bu sürece dahil olmalıdır.

Hangi problemleri çözüyor?

Kesinti süresini (RTO) ve veri kaybını (RPO) hedeflenen seviyede sınırlama
Felaket sonrası hizmetlerin hızlıca geri getirilmesi için prosedürler sağlama
Uyumluluk ve denetim taleplerini destekleyen kanıtlar sağlama

2. KAVRAMSAL TEMELLER

2.1 Temel tanımlar

RTO (Recovery Time Objective): Hizmetin tekrar çalışır duruma gelmesi için kabul edilebilir maksimum süre.
RPO (Recovery Point Objective): Kabul edilebilir maksimum veri kaybı süresi — en son hangi noktaya geri dönülebileceği.
Backup vs Replication: Backup, periyodik yedekleme ve arşiv iken; replication gerçek zamanlı veya yakın gerçek zamanlı kopyalamadır.

2.2 Mimariler ve bileşenler

Multi‑region replication ve geo‑redundancy
Immutable backups ve versioned snapshots
Disaster recovery runbooks ve otomatik playbooks
Failover orchestration, DNS ve traffic steering

3. NASIL ÇALIŞIR?

3.1 DR strateji katmanları

DR stratejileri genelde üç kattır: prevention (önleme), detection (tespit) ve recovery (kurtarma). Önleme; yedekleme, replikasyon ve güvenlik kontrollerini içerir. Tespit; monitoring, anomaly detection ve integrity checks ile yapılır. Kurtarma ise failover, restore süreçleri ve business continuity aktivitelerini kapsar.

3.2 Backup politikaları

Backup frekansı RPO hedefleriyle uyumlu olmalıdır. Incremental, differential ve full backup stratejilerinin kombinasyonu maliyet‑performans dengesi sağlar. Immutable backups (değiştirilemez) ransomware saldırılarına karşı önemli bir savunmadır. Snapshot tabanlı backup'lar hızlı restore sağlar ancak metadata ve dependency yönetimi planlanmalıdır.

3.3 Replikasyon ve failover

Replikasyon, read locality ve hızlı recovery sağlar; ancak tutarlılık ve lag yönetimi gerekir. Otomatik failover için lider election, health checks, fencing ve orchestration plus DNS failover veya traffic manager entegrasyonu gereklidir. Controlled failover (manual) kritik durumlarda yanlış failover riskini azaltır.

3.4 Orkestrasyon ve playbook'lar

DR playbook'ları; kimler ne yapar, hangi sistemler sırayla hangi adımlarla kurtarılır, hangi iletişim kanalları kullanılır gibi operasyonel talimatları içerir. Otomatikleştirilmiş runbook'lar (e.g., AWS Systems Manager Automation, Terraform, Ansible) insan hatasını azaltır fakat test edilmeleri şarttır.

3.5 Test etme ve tatbikatlar

Tabletop tatbikatları, kısmi failover testleri ve full DR drills periyodik olarak yapılmalıdır. Testler gerçekçi senaryoları kapsamalı, restore süreleri, veri tutarlılığı ve uygulama bağımlılıklarını doğrulamalıdır. Postmortem ve learnings dökümü test sonrası zorunlu olmalıdır.

4. GERÇEK DÜNYA KULLANIMLARI

4.1 Finans sektörü

Finansal hizmetlerde RTO ve RPO çok sıkı olabilir; immutable snapshots, synchronous replication ve sıkı audit izleri kullanılır. Ayrıca regulator raporlama için restore sürecinin kayıt altına alınması gerekir.

4.2 E‑ticaret (Amazon benzeri)

Peak dönemlerde (ör. kampanya günleri) düşük RTO gereksinimi olur. Blue/Green deploy, read replicas ve warm standby cluster'lar kullanılarak hızlı failover sağlanır.

4.3 SaaS ve platform sağlayıcılar

Çok kiracılı yapılarda tenant izolasyonu, per‑tenant restore ve test ortamlarının ayrı tutulması gibi ek gereksinimler vardır. Ayrıca SLA taahhütleri teknik olarak ölçülebilir olmalıdır.

4.4 Ransomware sonrası kurtarma senaryoları

Immutable backups, offline copies ve verinin restore edilebilirliğini doğrulayan canary restores kritik önlemlerdir. Ayrıca forensik veri toplanmalı ve temiz restore sonrası reklamasyon işlemleri planlanmalıdır.

5. AVANTAJLAR VE SINIRLAMALAR

Avantajlar

İyi planlanmış DR, iş sürekliliğini ve müşteri güvenini korur.
RPO/RTO hedefleri doğrultusunda operasyonel zarar minimize edilir.
Uyumluluk ve denetim süreçleri için kanıt sağlar.

Sınırlamalar

DR hazırlığı maliyetli olabilir; yedekleme ve ikinci bölge kaynak maliyetleri artar.
Gerçekçi testler yapılmadığında DR işe yaramaz hale gelir.
Ransomware gibi senaryolarda sadece restore değil, temizleme ve forensik süreçleri de kompleks ve maliyetlidir.

6. ALTERNATİFLER VE KARŞILAŞTIRMA

DR yaklaşımlarının kısa karşılaştırması:

Yaklaşım	Avantaj	Dezavantaj
Warm standby	Hızlı geri dönüş, maliyet orta	Kaynak rezervasyonu gerektirir
Cold standby	Düşük maliyet	Uzun RTO
Active‑active multi‑region	En düşük RTO, yüksek availability	Yüksek maliyet ve karmaşıklık
Immutable backups	Ransomware koruması	Depolama maliyeti

7. EN İYİ PRATİKLER

Production kullanımı

RTO/RPO hedeflerini iş birimi ile netleştirin ve SLA'lara çevirin.
DR playbook'larını kodlayın ve otomasyon kullanın; restore adımlarını otomatikleştirin.
Backup'ların doğrulanmasını (restore testleri) otomatikleştirin — canary restore uygulayın.

Performans optimizasyonu

Snapshot ve incremental backup kombinasyonları ile restore sürelerini iyileştirin.
Replication lag izleme ve throttling ile performans dengesini koruyun.

Güvenlik

Yedekleri şifreleyin, erişimi sıkı RBAC ile yönetin ve immutable storage kullanın.
Backup metadatasını ve erişim loglarını merkezi SIEM'e gönderin.

Ölçeklenebilirlik

Multi‑region yedekleme ve replication planlayın; network bandwidth ihtiyaçlarını hesaplayın.
Test ortamlarında DR prosedürlerini otomatikleştirerek ölçekli tatbikatlar gerçekleştirin.

8. SIK YAPILAN HATALAR

Restore testlerini yapmamak — backup alınmış olsa bile restore başarısız olabilir.
Failover prosedürlerini belgelememek veya güncel tutmamak.
Immutable backups yerine sadece snapshot kullanmak; snapshot'lar da bozulabilir veya silinebilir.
İletişim ve görev dağılımı planı olmadan DR tatbikatı yapmak.

9. GELECEK TRENDLER

9.1 Ransomware‑resilient mimariler

Immutable backups, offline air‑gapped copies ve önişlemeli restore testleri ile ransomware'lere karşı dayanıklılık artırılacak. Ayrıca verinin integrity'sini doğrulayan sistemler yaygınlaşacak.

9.2 DR otomasyonu ve AI destekli kararlar

AI, felaket senaryolarını sınıflandırmada ve en uygun restore planını önermede yardımcı olacak; otomatik runbook seçimi ve kaynak tahsisi ile recovery süreci hızlanacak.

9.3 Cross‑cloud ve hybrid DR

Çoklu bulut sağlayıcılarına yönelik DR stratejileri daha kullanıcı dostu hale gelecek; cross‑cloud replication, abstraction ve orchestration katmanları olgunlaşacak.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

RTO ve RPO nasıl belirlenir?
İş birimleriyle birlikte işin kritik fonksiyonlarını, finansal etkileri ve müşteri beklentilerini değerlendirerek; maliyet‑fayda analizine göre belirlenir.
Immutable backup nedir ve neden önemlidir?
Immutable backup, değiştirilemeyen depolama alanında saklanan yedeklerdir; ransomware saldırılarında yedeklerin şifrelenmesini veya silinmesini engeller.
Cold vs warm vs hot standby farkı nedir?
Cold standby düşük maliyetli ama yavaş RTO; warm standby daha hızlı geri dönüş sağlar; hot standby (active‑active) en düşük RTO ancak yüksek maliyetlidir.
DR tatbikatlarını ne sıklıkla yapmalıyım?
Temel table‑top tatbikatları çeyreklik, tam restore testleri ise en az yıllık veya büyük değişiklik sonrası yapılmalıdır.
Ransomware sonrası restore sürecinde hangi adımlar önemlidir?
İzolasyon, forensik veri toplama, temiz restore (canary restore), güvenlik açığının kapatılması ve iletişim planı ilk adımlardır.
Cross‑region replication için maliyeti nasıl hesaplarım?
Depolama, network egress, replica sayısı ve otomatik snapshot frekansı gibi parametreleri göz önüne alarak hesaplama yapılmalıdır.
DR için otomasyon ne kadar gereklidir?
Otomasyon insan hatasını azaltır ve RTO'yu düşürür; kritik adımlar mümkün olduğunca otomatik olmalı ancak manuel onay mekanizmaları kritik durumlar için saklanmalıdır.
DR planı uyumluluk raporlamasına nasıl yardımcı olur?
Restore test logları, yedek politikaları ve access logları denetimler için kanıt sağlar; otomatik raporlar uyumluluk yükünü azaltır.

Anahtar Kavramlar

RTO: Hizmetin tekrar çalışır hale gelmesi için hedef süre.
RPO: Kabul edilebilir veri kaybı süresi.
Immutable Backup: Değiştirilemeyen yedekleme saklama şekli.
Canary Restore: Restore işleminin küçük bir subset üzerinde doğrulanması.
Failover Orchestration: Failover adımlarını otomatikleştiren araç ve süreçler.

Öğrenme Yol Haritası

0–1 ay: Backup, snapshot ve temel replikasyon kavramlarını öğrenin.
1–3 ay: Cloud provider DR hizmetleri, snapshot yönetimi ve immutable storage pratiklerini deneyin.
3–6 ay: Failover orchestration, runbook yazımı ve kademeli restore testleri uygulayın.
6–12 ay: Komple DR tatbikatları, forensik süreçler ve ransomware‑resilient mimari tasarımları üzerinde çalışın.