AI System Design Interview Guide — Mülakatlar İçin Pratik ve Teknik Rehber

Yayınlayan: Vebende Akademi | Okuma süresi: ~60–120 dk

1. GİRİŞ

Yapay zekâ (AI) ve makine öğrenmesi (ML) artık yalnızca araştırma laboratuvarlarının konusu değil; üretime alınan hizmetlerin kalbinde yer alıyor. Birçok büyük teknoloji şirketi AI sistem tasarım sorularını mühendislik mülakatlarında önceliklendiriyor çünkü bu sorular adayın hem derin teknik bilgisini hem de sistemsel düşünme yeteneğini ölçer. AI system design mülakatları, tek bir modelin doğruluğunu ölçmekten daha fazlasını talep eder: veri akışı, ölçeklenebilirlik, gecikme, güvenlik, maliyet, gözlemlenebilirlik ve operasyon süreçlerini kapsayan uçtan uca bir bakış gerektirir.

Bu neden bugün önemli?

AI uygulamaları ürün kararlarını doğrudan etkilediği için güvenilir, izlenebilir ve ölçeklenebilir sistem tasarımı kritik.
Mühendislerin üretim meselelerini (drift, retrain, feature inconsistency) anlayıp tasarıma yansıtması bekleniyor.
Büyük ölçekli sistemlerde maliyet optimizasyonu, veri yönetimi ve model ops becerileri işin kalitesini belirliyor.

Kimler için önemli?

ML mühendisleri, MLOps, veri mühendisleri ve platform mühendisleri
Çözüm mimarları ve teknik liderler
Yazılım mühendisleri—AI projelerine geçiş yapmak isteyenler

Mülakatlarda hangi problemler çözülür?

Ölçeklenen inference sistemleri tasarımı
Gerçek zamanlı ML pipeline'ları ve streaming iş akışları
Model güncelleme ve retrain politikaları
Veri tutarlılığı ve feature store yönetimi

2. KAVRAMSAL TEMELLER

2.1 Temel kavramlar ve terminoloji

Offline vs Online Inference: Batch (gecikmeli) veya request/response (düşük gecikmeli) çıkarım modellerinin farkları.
Feature Store: Modellerin offline/online feature'larını tutarlı şekilde sağlayan hizmet.
Model Registry: Model artefaktlarının versiyonlandığı ve metadata/validation sonuçlarının saklandığı depo.
RAG (Retrieval Augmented Generation): LLM tabanlı uygulamalarda retrieval katmanının kullanımı, caching ve provenance.
Drift: Üretim verisi ile eğitim verisi arasındaki dağılım değişiklikleri.

2.2 Mimarilerde sık kullanılan bileşenler

Ingestion katmanı (batch/stream)
Preprocessing ve feature extraction (offline/online)
Model training pipeline'ları (versioned datasets, reproducibility)
Model serving (stateless service, GPU/CPU seçimi)
Observability (metrics, logs, traces, drift detection)

2.3 Mülakatlarda ölçülen yetkinlikler

Sistem tasarımı ve trade‑off analizi (latency vs throughput vs cost)
Veri mühendisliği ve feature engineering anlayışı
MLOps süreçleri: CI/CD, retraining, canary rollout
Güvenlik, gizlilik ve regülasyon farkındalığı

3. NASIL ÇALIŞIR? — Mülakat Yaklaşımı ve Teknik Adımlar

3.1 Genel mülakat stratejisi

AI system design soruları genelde açık uçludur. İyi bir cevap akışı şu adımları takip eder:

Requirements (Fonksiyonel ve Fonksiyonel Olmayan): Latency hedefleri, SLA, beklenen QPS, doğruluk hedefleri, veri kaynakları, gizlilik gereksinimleri, hata toleransı gibi gereksinimleri netleştirin.
High level design: Ana bileşenleri çizin: ingestion, feature store, training, serving, monitoring.
Capacity planning & Scaling: Trafik tahmini, bottleneck belirleme, caching / batching stratejileri.
Data and model considerations: Data quality, labeling, retraining cadences, validation, drift detection.
Failure modes & mitigations: Fallback planları, canary rollouts, circuit breakers, graceful degradation.
Trade‑offs & Alternatives: Tasarım seçimlerinin avantaj/dezavantajlarını tartışın.

3.2 Örnek: "Real‑time Fraud Detection" tasarımı

Hedef: Her işlem için ≤100 ms latency ile fraud risk skorlaması.

Gereksinimler: QPS tahmini, false positive toleransı, regulatory logging
High level: Event ingestion (Kafka) → Stream processing (Flink) → Feature service lookup (Redis) → Model scorer (lightweight model on CPU or optimized GPU) → Decision service
Scaling: Horizontal autoscaling, model shard'ları, feature cache replications
Failure modes: Feature store unavailable → degrade to cached features or fallback rule‑based scorer
Operational: Retrain daily with labeled data, shadow testing yeni modeller üzerinde

3.3 Örnek: "Search with RAG" tasarımı

Hedef: Kullanıcı sorgularına kaynak göstererek metin bazlı cevap üretme.

Ingestion: Dokümanları chunk'lara bölme, embedding üretimi, vektör DB index (FAISS/Milvus/Pinecone)
Query flow: Query embedding → ANN search top‑k → Rerank (cross‑encoder) → Prompt assembly with provenance → LLM call → Postprocess and surface sources
Optimization: Embedding cache, prompt cache, rate limit, smart truncation
Safety: Source filtering, hallucination mitigation, user feedback loop

4. GERÇEK DÜNYA KULLANIMLARI — Örnek Şirket Senaryoları

Netflix — Recommendation Serving

Öneri sistemlerinde yüksek throughput ve düşük latency hedeflenir. Feature precomputation, embedding retrieval ve hybrid ranking (approximate retrieval + cross‑encoder rerank) pattern'leri yaygındır. Mülakatlarda adaydan embedding boyutu, ANN yapılandırma ve caching stratejileri beklenir.

Uber — Real‑time Decision Pipelines

Milisaniye düzeyinde karar gerektiren servisler için online feature computation, local caches ve lightweight models tercih edilir. Candidate selection, scoring, and ranking aşamalarını ayırt eden tasarımlar önemlidir.

Amazon — Search & RAG Entegrasyonu

Bilgi tabanlı cevaplarda retrieval + generation kombinasyonu; provenance, source ranking ve long‑context handling önemli konulardır. Ayrıca cost management (API token usage) soruları sıkça sorulur.

5. AVANTAJLAR VE SINIRLAMALAR — Mülakat Perspektifi

Avantajlar

Mühendislerin sistematik düşünme yeteneği ve pratik üretim tecrübesi değerlendirilir.
Gerçek dünya kısıtları (maliyet, latency, regulatory) ile başa çıkabilme becerisi öne çıkar.

Sınırlamalar

Problem tanımı belirsiz olduğunda adayın varsayımları çok önem kazanır; yanlış varsayımlar yanıltıcı olabilir.
Mülakat süresi kısıtlıdır; derin konulara dalmadan geniş kapsamlı trade‑off'ları göstermek gerekir.

6. ALTERNATİFLER VE KARŞILAŞTIRMA

Yaklaşım	Avantaj	Dezavantaj
On‑device inference	Gizlilik, düşük latency	Model kapasite kısıtları, güncelleme zorluğu
Cloud real‑time serving	Kolay güncelleme, yüksek compute	Maliyet, ağ gecikmesi
Hybrid batch + online	Doğruluk ve latency arasında denge	Senkronizasyon, offline/online tutarlılık sorunları

7. EN İYİ PRATİKLER — Mülakatlarda ve Üretimde

Production kullanımına yönelik tavsiyeler

Her tasarım kararının neden alındığını SLO/SLI ve kabul kriterleriyle bağlayın.
Canary ve shadow deployment ile yeni modelleri ölçün; üretimi bozmadan doğrulama yapın.
Observability: latency, error rate, prediction distribution ve feature drift metriklerini izleyin.

Performans optimizasyonu

Binning ve quantization ile model footprint'ini küçültün.
Batching ve request coalescing ile throughput'u artırın.
Edge caching ve CDN ile content/RAG kaynaklarını hızlandırın.

Güvenlik ve gizlilik

PII masking, encryption, ve least privilege erişim kontrollerini uygulayın.
Model explainability ve audit log'ları ile regülasyona hazırlıklı olun.

Ölçeklenebilirlik

Stateless tasarımlar tercih edin; stateful bileşenleri managed servislerde tutun.
Autoscaling, backpressure ve queueing stratejileri planlayın.

8. SIK YAPILAN HATALAR

Requirements eksikliği: Latency, QPS veya doğruluk hedefleri net değilse tasarım eksik kalır.
Feature inconsistency: Offline ve online feature hesaplama farklılıkları ciddi üretim hatalarına yol açar.
Monitoring yokluğu: Model drift veya regresyonlar geç fark edilir.
Hallucination ve provenance ihmal edilmesi (özellikle RAG uygulamalarında)

9. GELECEK TRENDLER

Foundation model orchestration: LLM'lerin serverless veya orchestrated biçimde verimli kullanımı artacak.
Model mesh ve model discovery: Organizasyon içinde modellere servis‑mesh benzeri discovery, governance ve routing modelleri yaygınlaşacak.
Privacy‑preserving inference: MPC, federated learning ve on‑device inference çözümleri artacak.
Automated model ops: Continuous evaluation, auto‑retraining ve causal monitoring ile otomasyon artacak.

EK BÖLÜMLER

Sık Sorulan Sorular (FAQ)

AI system design mülakatlarında nasıl hazırlanmalıyım?
Temel olarak sistem tasarımı pratikleri, dağıtık sistem kavramları, ML pipeline'ları ve örnek uygulamalar üzerine çalışın. Gerçek dünya örnekleri çözün ve trade‑off analizi yapma pratiği kazanın.
Mülakatta hangi sorular sık sorulur?
Real‑time scoring, recommendation system, RAG architecture, feature store design ve model retraining stratejileri sıkça sorulur.
Ne kadar detay vermeliyim?
Yüksek seviyede net bir akış verin; sonra interviewer ile birlikte gerekli alanlarda derinleşin. Varsayımlarınızı açıkça belirtin.
Latency hedefi verilmiyorsa ne yapmalıyım?
Varsayımlar yapın ve bu varsayımları mülakatçıya belirtin. Örneğin "düşük latency: <200ms" gibi bir hedef önerin ve tasarımınızı ona göre şekillendirin.
Cost soruları nasıl cevaplanır?
Bulut maliyetlerini azaltma stratejileri sunun: model distillation, caching, reserved/spot instances, batching ve smarter routing.
Feature store neden önemlidir?
Offline/online tutarlılığı sağlar, feature reuse'u kolaylaştırır ve production hatalarını azaltır.
RAG uygulamasında hallucination nasıl azaltılır?
Provenance ile kaynak gösterimi, retrieval kalitesini arttırma, cross‑checking ve answer grounding ile azaltılır.
Mülakat sırasında kod yazmam istendiğinde ne yapmalıyım?
Basit pseudocode yazın; odak noktası algoritma veya API kullanım mantığını göstermektir. Performans ve edge case'leri tartışın.

Anahtar Kavramlar

Feature Store: Offline ve online feature'ların tutarlılığını sağlayan altyapı.
Model Registry: Model artefaktlarının ve metriklerinin versiyonlandığı depo.
RAG: LLM'leri retrieval ile zenginleştirerek daha doğru ve kaynaklı cevaplar üretme deseni.
Drift Detection: Üretim verisi ile eğitim verisi arasındaki sapmaları tespit etme yaklaşımları.
Canary / Shadow Testing: Yeni modelin küçük trafik veya gözlem modunda test edilme yöntemleri.

Öğrenme Yol Haritası

Dağıtık Sistemler ve Temel Tasarım (1–2 ay): Load balancing, caching, queues, CAP teoremi, idempotency ve rate limiting konularını öğrenin.
ML Pipeline ve Veri Mühendisliği (2–3 ay): Feature engineering, streaming (Kafka/Flink), batch processing (Spark) ve feature store kavramları.
MLOps & Model Serving (2–3 ay): CI/CD for models, model registry, Seldon/BentoML, deployment stratejileri, monitoring ve retraining.
Design Practice (sürekli): Gerçek dünya örnekleri çözün: recommendation, fraud detection, RAG sistemleri; trade‑off değerlendirmesi yapın.
Mock Interviews & System Design Drills (sürekli): Zamanlı pratikler, whiteboard çalışmaları ve geribildirim ile yeteneğinizi pekiştirin.