AI Threat Models — Yapay Zeka Tehdit Modelleri: Saldırı Vektörleri, Savunmalar ve Operasyonel Rehber

Yayınlayan: Vebende Akademi | Okuma süresi: ~80–300 dk

1. GİRİŞ

Yapay zeka (AI) ve makine öğrenmesi (ML) sistemleri artık bankacılıktan sağlık hizmetlerine, otonom araçlardan içerik üretimine kadar birçok kritik alanda kullanılıyor. Bu yaygın kullanım, hem değerli hem de saldırıya açık hedefler oluşturuyor: modellerin kendisi, eğitim verileri, model sunucuları ve eğitim/dağıtım zinciri saldırıya uğrayabilir. "AI Threat Models" başlığı, bu yeni tehdit yüzeyini tanımlamak, saldırı türlerini sınıflandırmak ve savunma stratejileri geliştirmek için kullanılan çerçeveyi ifade eder.

Bu neden bugün konuşuluyor?

AI sistemleri işletme‑kritik kararlar almaya başladı; hatalar veya manipülasyonlar ciddi maddi ve yasal sonuçlar doğurabilir.
Saldırganlar model ve veri üzerinden gizlilik ihlali, finansal kazanç veya altyapı zararına yönelik yeni vektörler keşfediyor.
Regülasyonlar ve etik gereksinimler model güvenliği ve açıklanabilirlik taleplerini artırıyor.

Kimler için önemli?

ML mühendisleri ve veri bilimciler
Güvenlik mühendisleri, SOC ekipleri ve red team'ler
CTO/CISO, regülasyon ve uyumluluk ekipleri

2. KAVRAMSAL TEMELLER

2.1 Temel kavramlar ve sınıflama

Adversarial examples: Modelin yanlış sınıflandırma yapmasını sağlayan, gürültü gibi görünür ancak kasıtlı olarak tasarlanmış girdiler.
Data poisoning (veri zehirlenmesi): Eğitim setine kötü niyetli veri ekleyerek model davranışını bozan saldırılar.
Model extraction / model theft: API çağrılarını kullanarak modelin fonksiyonlarını veya parametrelerini yeniden inşa etme.
Model inversion & membership inference: Model çıktılarından eğitim verisinin özelliklerini veya bir örneğin eğitim setinde olup olmadığını tahmin etme.
Backdoor / trojaning: Belirli tetikleyicilerle modelin istenen davranışı sergilemesi için gizli kural ekleme.
Prompt injection: Özellikle büyük dil modellerinde (LLM) kullanıcı girdileri aracılığıyla istemci veya sistem komutlarının manipüle edilmesi.

2.2 Saldırı yüzeyi ve varlık sınıflandırması

AI sistemleri için saldırı yüzeyi, veri kaynakları, eğitim altyapısı, model depoları, API/serving bileşenleri, model yönetim ve izleme sistemleri ile insan operatörleri içerir. Her varlık farklı tehditlerle karşılaşır; örneğin veri kaynakları için veri bütünlüğü, model sunucular için API rate limiting ve telemetry koruması önemlidir.

3. NASIL ÇALIŞIR? — TEKNİK MİMARİ, VERİ AKIŞI VE SÜREÇLER

3.1 ML/AI pipeline katmanları

Tipik bir ML pipeline şu katmanlardan oluşur: veri toplama/ön işleme → feature store → eğitim (training) → model registry → model serving (inference) → monitoring & feedback. Tehdit modellemesi bu katmanların her birine uygulanmalıdır: örneğin feature store için yetki kontrolleri, training için veri doğrulama ve serving için input sanitization.

3.2 Veri güvenliği

Veri, ML sistemlerinin yakıtıdır. Veri kaynaklarının bütünlüğü ve gizliliği sağlanmalıdır. Data lineage, versioning ve immutable logging (ör. hash, Merkle trees) veri değişikliğini izlemeye yardımcı olur. Differential privacy ve secure aggregation, model eğitimi sırasında bireysel kayıtların gizliliğini korumak için kullanılır.

3.3 Training infra ve supply‑chain riskleri

Eğitim altyapısı (GPU kümeleri, distributed training, container imajları) supply‑chain saldırılarına açıktır. Malicious dependency, compromise edilmiş container registry veya trojaned ML libraries model poisoning'e yol açabilir. Model provenance ve signed model artifacts (imza ile saklama) bu riski azaltır.

3.4 Inference ve API koruması

Model serving katmanındaki riskler: API üzerinden model extraction, excessive probing, adversarial input injection ve confidential data leakage. Rate limiting, input anomaly detection, output sanitization, response truncation ve watermarking servis‑seviye koruma sağlar.

3.5 Monitoring ve detection

ML özelinde monitoring; input distribution drift, concept drift, performance metrics, adversarial score ve privacy leakage ölçümlerini içerir. Baseline davranışı tanımlamak ve drift algılamaya dayalı alarmlar kurmak zorunludur. Telemetry'in integrity'si korunmalı ve analiz için güvenli depolara gönderilmelidir.

4. GERÇEK DÜNYA KULLANIMLARI VE ÖRNEKLER

4.1 Finans — fraud detection

Bankalar ML modellerine dayalı fraud detection sistemleri kullanır. Saldırganlar modelin zayıf noktalarını keşfederek dolandırıcılık yollarını değiştirebilir (adversarial transaction patterns). Model drift ve concept shift detection, modelin güncelliğini korumada kritik rol oynar.

4.2 Sağlık — teşhis destek sistemleri

Medikal görüntüleme modelleri adversarial örneklere karşı hassastır; küçük pixel değişiklikleri yanlış teşhise yol açabilir. Ayrıca model inversion yoluyla hastaya ait gizli verinin açığa çıkması ciddi gizlilik ihlallerine sebep olur.

4.3 LLM ve içerik platformları

Büyük dil modelleri (LLM) prompt injection, data leakage ve model misuse (sosyal mühendislik, otomatik kod üretip kötü amaçlı yazılımlar üretme) riskleri ile başa çıkar. OpenAI, Google gibi sağlayıcılar API katmanında rate limiting, content filtering ve retraining ile mitigasyon uyguluyor. Ancak araştırma ve saldırı örnekleri sürekli gelişiyor.

4.4 Otonom sistemler

Görüntü tabanlı algılama sistemleri adversarial fiziksel örneklere (sticker, afiş) maruz kalabilir. Otonom araçlar için bu tür saldırılar hayati sonuçlar doğurabilir; bu yüzden sensor fusion (lidar+radar+cam) ve robust perception süreçleri hayati önemdedir.

5. AVANTAJLAR VE SINIRLAMALAR

Avantajlar

Tehdit modellemesi, risk odaklı güvenlik yatırımı yapmayı sağlar.
Veri ve model‑odaklı savunma stratejileri (privacy, robustness) işletmeye yönelik somut kazançlar sunar.
ML güvenliği süreçleri olgunlaştıkça model güvenilirliği ve regülatif uyum artar.

Sınırlamalar

Defanslar genelde saldırı türüne özeldir; evrensel bir savunma yoktur.
Gizlilik‑performans trade‑off'ları (ör. DP ile doğruluk kaybı) gündeme gelir.
Certified defenses maliyetli veya sınırlı uygulama alanı sunabilir; operasyonel karmaşıklık artar.

6. ALTERNATİFLER VE KARŞILAŞTIRMA

Defans / Yaklaşım	Avantaj	Dezavantaj
Differential Privacy (DP)	Gizliliği matematiksel olarak garanti eder	Model performansında düşüş, parametre ayarlaması zor
Adversarial training	Belirli adversarial örneklere karşı dayanıklılık sağlar	Eğitim süresi artar, genelleme sorunları olabilir
Secure enclaves / TEE	Model ve veri için güçlü ortam izolasyonu	Hız, ölçek ve donanım bağımlılığı sorunları
Homomorphic Encryption / MPC	Şifrelenmiş veriler üzerinde inference	Hesaplama maliyeti çok yüksek
Watermarking / Fingerprinting	Model theft tespitini kolaylaştırır	Kırılabilir, sağlamlığı sınırlı

7. EN İYİ PRATİKLER

7.1 Mühendislik ve üretim kullanımı

Threat modeling'i ML lifecycle'ın başına koyun: veri akışı, model sınıflandırması ve kritik kullanım senaryolarını belgeleyin.
Model Registry ve signed artifacts kullanın; model provenance takip edilmelidir.
CI/CD for ML (MLOps) içinde güvenlik testleri: adversarial test suite, membership inference testleri ve privacy checks ekleyin.

7.2 Veri ve eğitim pratikleri

Data validation (schema checks, distribution checks) ve anomaly detection ile zehirlenmiş veri girişini erken yakalayın.
Differential privacy ve secure aggregation kullanarak hassas veri sızıntısını azaltın.
Sandboxed / isolated training ortamları ve signed dependency zinciri kullanın.

7.3 Servis ve API koruması

Rate limiting, authentication, input sanitization ve output minimization uygulayın.
Model watermarking ve response randomization ile model extraction'ı zorlaştırın.
Telemetry toplayın: sorgu deseni analizi, anomalous probing detection ve drift alarm sistemleri kurun.

8. SIK YAPILAN HATALAR

Sadece accuracy odaklı olmak; güvenlik ve gizlilik risklerini göz ardı etmek.
Veri kaynaklarını doğrulamadan kullanmak—training pipeline'a kötü niyetli veri girişi riski.
Inference API'larını sınırlamadan açık bırakmak; model extraction ve leakage kolaylaşır.
Defansları tek bir teknikle sınırlamak; kombinasyonlu, defense‑in‑depth yaklaşımı gerekli.

9. GELECEK TRENDLER

9.1 AI güvenliği ve regülasyon

Regülatörler model güvenliği, explainability ve veri koruma taleplerini artıracak. Model risk yönetimi (model risk governance) süreçleri bankacılık ve sağlık gibi regüle sektörlerde zorunlu hale gelebilir.

9.2 Federated learning ve privacy preserving ML

Federated learning ile veriler yerinde kalırken ortak modeller eğitilecek; secure aggregation, DP ve attestation ile gizlilik korunacak. Ancak federated ortamda poisoning ve Byzantine davranış riskleri öne çıkacak.

9.3 AI‑driven red teaming

Savunma ekipleri artık AI tabanlı saldırı simülasyonları (adversarial generation, prompt injection automation) ile modellerini test edecek; otomatik red teaming döngüleri olgun güvenlik test süreçlerinin parçası olacak.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

1. Model extraction nedir ve neden tehlikelidir?
Model extraction, bir modelin davranışını API çağrıları aracılığıyla taklit ederek içyapısını tahmin etme işlemidir. Bu, fikri mülkiyet kaybına ve özel eğitim verisine dair bilgiler açığa çıkmasına yol açar.
2. Adversarial örneklere karşı evrensel bir savunma var mı?
Hayır; adversarial örneklere karşı genel geçer, her saldırıya dayanıklı bir savunma henüz yok. Adversarial training ve certified defenses sınırlı fayda sağlar ama üzerlerinden saldırılar evrilebilir.
3. Differential privacy model doğruluğunu çok mu düşürür?
DP parametrelerine bağlıdır. Güçlü DP garantıları doğruluk üzerinde etkili olabilir; ancak doğru ayarlamalar ve larger datasets ile kabul edilebilir doğruluk korunabilir.
4. Backdoor saldırısını nasıl tespit ederim?
Model behavior'ını kontrol etmek, trigger pattern detection, neuron activation analizleri ve trojan detection araçları ile backdoor tespiti yapılabilir. Ancak tespit zor olabilir; preventive measures (trusted data, signed data) önemlidir.
5. LLM'lerde prompt injection nasıl önlenir?
Input sanitization, system prompt hardening, chain‑of‑thought kontrolü ve context window yönetimi ile prompt injection riski azaltılabilir. Ayrıca LLM için safemode token ve policy enforcement katmanları eklenmelidir.
6. Model watermarking ne kadar güvenli?
Watermarking model theft tespitini kolaylaştırır ancak kırılabilir. Robust watermark teknikleri ve kombinasyonlu tespit yöntemleri önerilir.
7. Federated learning poisoning riski nasıl yönetilir?
Secure aggregation, Byzantine detection, client reputation ve robust aggregation algoritmaları ile poisoning riski azaltılabilir.
8. Küçük ekipler nereden başlamalı?
1) Basit threat modeling ile hangi varlıkların kritik olduğunu belirleyin; 2) Inference API'larına rate limiting ve authentication ekleyin; 3) Data validation ve monitoring ile veri zehirlenmesini önlemeye başlayın.

Anahtar Kavramlar

Adversarial example: Modele yanlış karar verdirmek için üretilmiş zararlı girdi.
Poisoning: Training verisini manipüle ederek modele zarar verme.
DP (Differential Privacy): Bireysel veri gizliliğini koruyan matematiksel yaklaşım.
TEE (Trusted Execution Environment): Donanım tabanlı güvenli yürütme alanı.

Öğrenme Yol Haritası

0–1 ay: ML temel kavramları, supervised/unsupervised learning ve model evaluation metriklerini öğrenin.
1–3 ay: Adversarial ML temel tekniklerini, Carlini‑Wagner, FGSM gibi saldırıları ve basit defansları deneyin.
3–6 ay: Differential privacy, federated learning, secure MPC/HE ve TEE tabanlı inference konularında derinleşin.
6–12 ay: MLOps güvenlik pratikleri, model provenance, otomatik red teaming ve production grade monitoring çözümleri geliştirin.