AI System Design Interview Guide — Mülakatlar İçin Pratik ve Teknik Rehber
1. GİRİŞ
Yapay zekâ (AI) ve makine öğrenmesi (ML) artık yalnızca araştırma laboratuvarlarının konusu değil; üretime alınan hizmetlerin kalbinde yer alıyor. Birçok büyük teknoloji şirketi AI sistem tasarım sorularını mühendislik mülakatlarında önceliklendiriyor çünkü bu sorular adayın hem derin teknik bilgisini hem de sistemsel düşünme yeteneğini ölçer. AI system design mülakatları, tek bir modelin doğruluğunu ölçmekten daha fazlasını talep eder: veri akışı, ölçeklenebilirlik, gecikme, güvenlik, maliyet, gözlemlenebilirlik ve operasyon süreçlerini kapsayan uçtan uca bir bakış gerektirir.
Bu neden bugün önemli?
- AI uygulamaları ürün kararlarını doğrudan etkilediği için güvenilir, izlenebilir ve ölçeklenebilir sistem tasarımı kritik.
- Mühendislerin üretim meselelerini (drift, retrain, feature inconsistency) anlayıp tasarıma yansıtması bekleniyor.
- Büyük ölçekli sistemlerde maliyet optimizasyonu, veri yönetimi ve model ops becerileri işin kalitesini belirliyor.
Kimler için önemli?
- ML mühendisleri, MLOps, veri mühendisleri ve platform mühendisleri
- Çözüm mimarları ve teknik liderler
- Yazılım mühendisleri—AI projelerine geçiş yapmak isteyenler
Mülakatlarda hangi problemler çözülür?
- Ölçeklenen inference sistemleri tasarımı
- Gerçek zamanlı ML pipeline'ları ve streaming iş akışları
- Model güncelleme ve retrain politikaları
- Veri tutarlılığı ve feature store yönetimi
2. KAVRAMSAL TEMELLER
2.1 Temel kavramlar ve terminoloji
- Offline vs Online Inference: Batch (gecikmeli) veya request/response (düşük gecikmeli) çıkarım modellerinin farkları.
- Feature Store: Modellerin offline/online feature'larını tutarlı şekilde sağlayan hizmet.
- Model Registry: Model artefaktlarının versiyonlandığı ve metadata/validation sonuçlarının saklandığı depo.
- RAG (Retrieval Augmented Generation): LLM tabanlı uygulamalarda retrieval katmanının kullanımı, caching ve provenance.
- Drift: Üretim verisi ile eğitim verisi arasındaki dağılım değişiklikleri.
2.2 Mimarilerde sık kullanılan bileşenler
- Ingestion katmanı (batch/stream)
- Preprocessing ve feature extraction (offline/online)
- Model training pipeline'ları (versioned datasets, reproducibility)
- Model serving (stateless service, GPU/CPU seçimi)
- Observability (metrics, logs, traces, drift detection)
2.3 Mülakatlarda ölçülen yetkinlikler
- Sistem tasarımı ve trade‑off analizi (latency vs throughput vs cost)
- Veri mühendisliği ve feature engineering anlayışı
- MLOps süreçleri: CI/CD, retraining, canary rollout
- Güvenlik, gizlilik ve regülasyon farkındalığı
3. NASIL ÇALIŞIR? — Mülakat Yaklaşımı ve Teknik Adımlar
3.1 Genel mülakat stratejisi
AI system design soruları genelde açık uçludur. İyi bir cevap akışı şu adımları takip eder:
- Requirements (Fonksiyonel ve Fonksiyonel Olmayan): Latency hedefleri, SLA, beklenen QPS, doğruluk hedefleri, veri kaynakları, gizlilik gereksinimleri, hata toleransı gibi gereksinimleri netleştirin.
- High level design: Ana bileşenleri çizin: ingestion, feature store, training, serving, monitoring.
- Capacity planning & Scaling: Trafik tahmini, bottleneck belirleme, caching / batching stratejileri.
- Data and model considerations: Data quality, labeling, retraining cadences, validation, drift detection.
- Failure modes & mitigations: Fallback planları, canary rollouts, circuit breakers, graceful degradation.
- Trade‑offs & Alternatives: Tasarım seçimlerinin avantaj/dezavantajlarını tartışın.
3.2 Örnek: "Real‑time Fraud Detection" tasarımı
Hedef: Her işlem için ≤100 ms latency ile fraud risk skorlaması.
- Gereksinimler: QPS tahmini, false positive toleransı, regulatory logging
- High level: Event ingestion (Kafka) → Stream processing (Flink) → Feature service lookup (Redis) → Model scorer (lightweight model on CPU or optimized GPU) → Decision service
- Scaling: Horizontal autoscaling, model shard'ları, feature cache replications
- Failure modes: Feature store unavailable → degrade to cached features or fallback rule‑based scorer
- Operational: Retrain daily with labeled data, shadow testing yeni modeller üzerinde
3.3 Örnek: "Search with RAG" tasarımı
Hedef: Kullanıcı sorgularına kaynak göstererek metin bazlı cevap üretme.
- Ingestion: Dokümanları chunk'lara bölme, embedding üretimi, vektör DB index (FAISS/Milvus/Pinecone)
- Query flow: Query embedding → ANN search top‑k → Rerank (cross‑encoder) → Prompt assembly with provenance → LLM call → Postprocess and surface sources
- Optimization: Embedding cache, prompt cache, rate limit, smart truncation
- Safety: Source filtering, hallucination mitigation, user feedback loop
4. GERÇEK DÜNYA KULLANIMLARI — Örnek Şirket Senaryoları
Netflix — Recommendation Serving
Öneri sistemlerinde yüksek throughput ve düşük latency hedeflenir. Feature precomputation, embedding retrieval ve hybrid ranking (approximate retrieval + cross‑encoder rerank) pattern'leri yaygındır. Mülakatlarda adaydan embedding boyutu, ANN yapılandırma ve caching stratejileri beklenir.
Uber — Real‑time Decision Pipelines
Milisaniye düzeyinde karar gerektiren servisler için online feature computation, local caches ve lightweight models tercih edilir. Candidate selection, scoring, and ranking aşamalarını ayırt eden tasarımlar önemlidir.
Amazon — Search & RAG Entegrasyonu
Bilgi tabanlı cevaplarda retrieval + generation kombinasyonu; provenance, source ranking ve long‑context handling önemli konulardır. Ayrıca cost management (API token usage) soruları sıkça sorulur.
5. AVANTAJLAR VE SINIRLAMALAR — Mülakat Perspektifi
Avantajlar
- Mühendislerin sistematik düşünme yeteneği ve pratik üretim tecrübesi değerlendirilir.
- Gerçek dünya kısıtları (maliyet, latency, regulatory) ile başa çıkabilme becerisi öne çıkar.
Sınırlamalar
- Problem tanımı belirsiz olduğunda adayın varsayımları çok önem kazanır; yanlış varsayımlar yanıltıcı olabilir.
- Mülakat süresi kısıtlıdır; derin konulara dalmadan geniş kapsamlı trade‑off'ları göstermek gerekir.
6. ALTERNATİFLER VE KARŞILAŞTIRMA
| Yaklaşım | Avantaj | Dezavantaj |
|---|---|---|
| On‑device inference | Gizlilik, düşük latency | Model kapasite kısıtları, güncelleme zorluğu |
| Cloud real‑time serving | Kolay güncelleme, yüksek compute | Maliyet, ağ gecikmesi |
| Hybrid batch + online | Doğruluk ve latency arasında denge | Senkronizasyon, offline/online tutarlılık sorunları |
7. EN İYİ PRATİKLER — Mülakatlarda ve Üretimde
Production kullanımına yönelik tavsiyeler
- Her tasarım kararının neden alındığını SLO/SLI ve kabul kriterleriyle bağlayın.
- Canary ve shadow deployment ile yeni modelleri ölçün; üretimi bozmadan doğrulama yapın.
- Observability: latency, error rate, prediction distribution ve feature drift metriklerini izleyin.
Performans optimizasyonu
- Binning ve quantization ile model footprint'ini küçültün.
- Batching ve request coalescing ile throughput'u artırın.
- Edge caching ve CDN ile content/RAG kaynaklarını hızlandırın.
Güvenlik ve gizlilik
- PII masking, encryption, ve least privilege erişim kontrollerini uygulayın.
- Model explainability ve audit log'ları ile regülasyona hazırlıklı olun.
Ölçeklenebilirlik
- Stateless tasarımlar tercih edin; stateful bileşenleri managed servislerde tutun.
- Autoscaling, backpressure ve queueing stratejileri planlayın.
8. SIK YAPILAN HATALAR
- Requirements eksikliği: Latency, QPS veya doğruluk hedefleri net değilse tasarım eksik kalır.
- Feature inconsistency: Offline ve online feature hesaplama farklılıkları ciddi üretim hatalarına yol açar.
- Monitoring yokluğu: Model drift veya regresyonlar geç fark edilir.
- Hallucination ve provenance ihmal edilmesi (özellikle RAG uygulamalarında)
9. GELECEK TRENDLER
- Foundation model orchestration: LLM'lerin serverless veya orchestrated biçimde verimli kullanımı artacak.
- Model mesh ve model discovery: Organizasyon içinde modellere servis‑mesh benzeri discovery, governance ve routing modelleri yaygınlaşacak.
- Privacy‑preserving inference: MPC, federated learning ve on‑device inference çözümleri artacak.
- Automated model ops: Continuous evaluation, auto‑retraining ve causal monitoring ile otomasyon artacak.
EK BÖLÜMLER
Sık Sorulan Sorular (FAQ)
-
AI system design mülakatlarında nasıl hazırlanmalıyım?
Temel olarak sistem tasarımı pratikleri, dağıtık sistem kavramları, ML pipeline'ları ve örnek uygulamalar üzerine çalışın. Gerçek dünya örnekleri çözün ve trade‑off analizi yapma pratiği kazanın.
-
Mülakatta hangi sorular sık sorulur?
Real‑time scoring, recommendation system, RAG architecture, feature store design ve model retraining stratejileri sıkça sorulur.
-
Ne kadar detay vermeliyim?
Yüksek seviyede net bir akış verin; sonra interviewer ile birlikte gerekli alanlarda derinleşin. Varsayımlarınızı açıkça belirtin.
-
Latency hedefi verilmiyorsa ne yapmalıyım?
Varsayımlar yapın ve bu varsayımları mülakatçıya belirtin. Örneğin "düşük latency: <200ms" gibi bir hedef önerin ve tasarımınızı ona göre şekillendirin.
-
Cost soruları nasıl cevaplanır?
Bulut maliyetlerini azaltma stratejileri sunun: model distillation, caching, reserved/spot instances, batching ve smarter routing.
-
Feature store neden önemlidir?
Offline/online tutarlılığı sağlar, feature reuse'u kolaylaştırır ve production hatalarını azaltır.
-
RAG uygulamasında hallucination nasıl azaltılır?
Provenance ile kaynak gösterimi, retrieval kalitesini arttırma, cross‑checking ve answer grounding ile azaltılır.
-
Mülakat sırasında kod yazmam istendiğinde ne yapmalıyım?
Basit pseudocode yazın; odak noktası algoritma veya API kullanım mantığını göstermektir. Performans ve edge case'leri tartışın.
Anahtar Kavramlar
- Feature Store
- Offline ve online feature'ların tutarlılığını sağlayan altyapı.
- Model Registry
- Model artefaktlarının ve metriklerinin versiyonlandığı depo.
- RAG
- LLM'leri retrieval ile zenginleştirerek daha doğru ve kaynaklı cevaplar üretme deseni.
- Drift Detection
- Üretim verisi ile eğitim verisi arasındaki sapmaları tespit etme yaklaşımları.
- Canary / Shadow Testing
- Yeni modelin küçük trafik veya gözlem modunda test edilme yöntemleri.
Öğrenme Yol Haritası
- Dağıtık Sistemler ve Temel Tasarım (1–2 ay): Load balancing, caching, queues, CAP teoremi, idempotency ve rate limiting konularını öğrenin.
- ML Pipeline ve Veri Mühendisliği (2–3 ay): Feature engineering, streaming (Kafka/Flink), batch processing (Spark) ve feature store kavramları.
- MLOps & Model Serving (2–3 ay): CI/CD for models, model registry, Seldon/BentoML, deployment stratejileri, monitoring ve retraining.
- Design Practice (sürekli): Gerçek dünya örnekleri çözün: recommendation, fraud detection, RAG sistemleri; trade‑off değerlendirmesi yapın.
- Mock Interviews & System Design Drills (sürekli): Zamanlı pratikler, whiteboard çalışmaları ve geribildirim ile yeteneğinizi pekiştirin.