# Claude Haiku 4.5: Hız ve Düşük Maliyet Rehberi
Anthropic'in model ailesinde Haiku genellikle "hızlı ama sınırlı" olarak görülür. Ama Claude Haiku 4.5 bu algıyı sarsıyor — 2026 Ocak'ta çıkan bu versiyon $0.80/1M input ve $4/1M output fiyatla piyasanın en ekonomik "useful" modeli. Classification, extraction, routing, moderation, short summary task'larında Sonnet 4.6'nın %90 performansını veriyor ama 4x ucuz. Bu yazı Haiku 4.5'in gerçek yeteneklerini, ideal use case'lerini ve production maliyeti optimizasyon stratejilerini anlatır.
💡 Pro Tip: Haiku'yu "zayıf model" diye küçümseme. Doğru task'ta Haiku, Opus'a para yakmaktan daha akıllı seçim. Sınıf lideri fiyat-performans.
İçindekiler
- Haiku 4.5 Teknik Spesifikasyonlar
- Benchmark Skorları
- Fiyatlandırma ve Ekonomi
- İdeal Use Case'ler
- Zayıf Olduğu Alanlar
- Haiku ile Routing Pattern
- Caching + Haiku = Ultra Ucuz
- Code Örnekleri
Haiku 4.5 Teknik Spesifikasyonlar
- Context window: 200k token
- Max output: 8k token
- Latency p50: 0.4 saniye (sınıf lideri)
- Latency p99: 1.2 saniye
- Throughput: ~120 tokens/second
- Multimodal: Text + image (PDF, photo)
- Tool use: Desteklenir (simpler than Opus)
- Extended thinking: Yok (fast response tercihi)
Haiku'nun avantajı: hızlı response döngüsü. Real-time chat, interactive analysis, webhook triggered processing için ideal.
Benchmark Skorları
Haiku 4.5'in 2026 Q1 resmi skorları:
Benchmark | Haiku 4.5 | Sonnet 4.6 | Opus 4.7 |
|---|---|---|---|
MMLU-Pro | 68.5 | 74.8 | 79.2 |
HumanEval+ | 78.3 | 85.7 | 89.3 |
SWE-bench Verified | 32.1 | 55.4 | 68.2 |
GPQA Diamond | 55.2 | 64.3 | 72.4 |
TAU-bench (agent) | 48.7 | 58.9 | 65.1 |
Tool use accuracy | 82% | 91% | 95% |
Kısa özet: Haiku 4.5, Sonnet 4.6'nın %88-92'si kadar performans, %74 daha ucuz.
Eşsiz Güçlü Olduğu Alanlar
- Classification: Multi-class %95, binary %98 accuracy
- Entity extraction: Named entity, dates, prices %99
- Moderation: Toxic/safe detection %97
- Short summarization: 3-sentence özet %94 quality
Fiyatlandırma ve Ekonomi
Model | Input $/1M | Output $/1M | Cache Write | Cache Read |
|---|---|---|---|---|
Haiku 4.5 | **$0.80** | **$4.00** | $1.00 | $0.08 |
Sonnet 4.6 | $3.00 | $15.00 | $3.75 | $0.30 |
Opus 4.7 | $15.00 | $75.00 | $18.75 | $1.50 |
Örnek Maliyet
1M moderation query, ortalama 500 token input + 50 token output:
- Haiku 4.5: 1M × (500 × $0.80 + 50 × $4.00)/1M = $400 + $200 = **$600/ay**
- Sonnet 4.6: 1M × (500 × $3 + 50 × $15)/1M = $1,500 + $750 = $2,250/ay
- Opus 4.7: 1M × (500 × $15 + 50 × $75)/1M = $7,500 + $3,750 = $11,250/ay
Haiku tasarruf: Sonnet'e göre %73, Opus'a göre %94.
Caching İle
Moderation instruction'ı cache edersen (400 token sistem prompt):
- Haiku + cache: $0.08 × 400 + $0.80 × 100 + $4 × 50 = $32 + $80 + $200 = $312/ay (caching aktif, 3/4 request cached varsayım)
İdeal Use Case'ler
1. Classification
Multi-class text classification — destek tipi, ürün kategorisi, duygu analizi:
python
1result = client.messages.create(2 model="claude-haiku-4-5",3 max_tokens=50,4 messages=[{5 "role": "user",6 "content": f"Bu destek talebini kategorize et: {user_message}\n\nKategoriler: billing, technical, feature_request, complaint, other\n\nSadece kategori adını dön."7 }]8)9# Accuracy: %95, Latency: 300ms, Cost: $0.00082. Entity Extraction
python
1result = client.messages.create(2 model="claude-haiku-4-5",3 max_tokens=200,4 messages=[{5 "role": "user",6 "content": f"Bu email'den JSON çıkar: sender_name, email, phone, request_type, urgency\n\nEmail:\n{email_text}"7 }]8)9# JSON output %99 valid3. Content Moderation
python
1result = client.messages.create(2 model="claude-haiku-4-5",3 max_tokens=20,4 messages=[{5 "role": "user",6 "content": f"Bu yorum uygun mu? 'yes' veya 'no' ile cevap ver. Sebep gerekmiyor.\n\nYorum: {comment}"7 }]8)9# Binary classification %97+4. Routing (Meta-task)
Başka modellere route etmek için:
python
1def route_task(user_query: str) -> str:2 result = client.messages.create(3 model="claude-haiku-4-5",4 max_tokens=30,5 messages=[{6 "role": "user",7 "content": f"Bu sorguyu hangi modele göndereceğim? 'haiku', 'sonnet', 'opus' — sadece model adı dön.\n\nSorgu: {user_query}"8 }]9 )10 return result.content[0].text.strip()11 12# Haiku routes diğerlerine — $0.001/request5. Short Summarization
python
1# 500-word article → 2-sentence summary2# Quality %94, Cost $0.0026. Webhook Processing
Real-time event processing where latency critical:
- Stripe webhook → invoice analysis
- Slack message → bot auto-reply
- SMS → intent detection
Zayıf Olduğu Alanlar
Haiku'yu şu durumlarda seçme:
1. Multi-step Reasoning
3+ adım gerektiren problemler. Haiku genellikle kısa cevaplar üretir, complex chain kuramaz.
2. Creative Writing
Flat, repetitive tone. Blog yazısı, marketing copy — Sonnet'e git.
3. Code Generation (Complex)
CRUD boilerplate OK, ama algorithm design, multi-file refactor — Sonnet/Opus.
4. Long-form Output
2000+ word output'ta coherence kaybı. Short format'a optimize.
5. Nuanced Understanding
Sarcasm, irony, double meaning — Haiku literal alır.
Haiku ile Routing Pattern
Production'da Haiku routing classifier olarak kullanılabilir:
python
1class ModelRouter:2 def __init__(self):3 self.client = Anthropic()4 5 async def route(self, query: str) -> str:6 """Haiku'yu classifier olarak kullan."""7 decision = await self.client.messages.create(8 model="claude-haiku-4-5",9 max_tokens=50,10 messages=[{11 "role": "user",12 "content": self._routing_prompt(query)13 }]14 )15 return json.loads(decision.content[0].text)16 17 def _routing_prompt(self, query: str) -> str:18 return f"""Classify this query complexity:19- simple: extraction, classification, short QA (→ haiku)20- medium: coding, content, multi-turn (→ sonnet)21- complex: multi-step reasoning, large codebase (→ opus)22 23Query: {query}24 25Return JSON: {{"tier": "simple|medium|complex", "confidence": 0.0-1.0}}26"""27 28router = ModelRouter()29decision = await router.route(user_input) # $0.00130model_id = {"simple": "claude-haiku-4-5", "medium": "claude-sonnet-4-6", "complex": "claude-opus-4-7"}[decision["tier"]]Routing overhead $0.001/request — total maliyeti 5-10x azaltır.
Caching + Haiku = Ultra Ucuz
Prompt caching Haiku'da da çalışır:
python
1response = client.messages.create(2 model="claude-haiku-4-5",3 extra_headers={"anthropic-beta": "prompt-caching-2024-07-31"},4 max_tokens=200,5 messages=[{6 "role": "user",7 "content": [8 {9 "type": "text",10 "text": SYSTEM_INSTRUCTIONS, # 2k token, cached11 "cache_control": {"type": "ephemeral"}12 },13 {14 "type": "text",15 "text": user_query # variable16 }17 ]18 }]19)Cache hit: $0.08/1M instead of $0.80/1M = %90 ucuz.
10x kullanılan system prompt'u cache et:
- No cache: $0.0016/request × 1M = $1,600/ay
- Cached: $0.0002/request × 1M = $200/ay
Code Örnekleri
Async/Stream
python
1import asyncio2from anthropic import AsyncAnthropic3 4client = AsyncAnthropic()5 6async def classify_stream(queries: list[str]):7 tasks = [8 client.messages.create(9 model="claude-haiku-4-5",10 max_tokens=20,11 messages=[{"role": "user", "content": f"Category? {q}"}]12 )13 for q in queries14 ]15 return await asyncio.gather(*tasks)16 17# 100 parallel classifications in ~500ms18results = asyncio.run(classify_stream(user_queries))Batch API
Anthropic Batch API Haiku'yu %50 daha ucuz yapar (24h SLA):
python
1batch = client.batches.create(2 requests=[3 {4 "custom_id": f"req-{i}",5 "params": {6 "model": "claude-haiku-4-5",7 "max_tokens": 50,8 "messages": [{"role": "user", "content": msg}]9 }10 }11 for i, msg in enumerate(messages)12 ]13)14 15# 24h sonra result'ı al16results = client.batches.results(batch.id)17# $0.40/1M input, $2/1M outputBüyük data processing için batch API altın.
ALTIN İPUCU
Bu yazının en değerli bilgisi
Bu ipucu, yazının en önemli çıkarımını içeriyor.
Easter Egg
Gizli bir bilgi buldun!
Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?
python
1# 1. Haiku: Task classifier (cheap)2task_type = await haiku_classify(user_input) # $0.0013 4# 2. Task-specific worker:5if task_type == "faq":6 answer = await haiku_answer(user_input, faq_context) # $0.0057elif task_type == "coding":8 answer = await sonnet_answer(user_input) # $0.029elif task_type == "complex":10 answer = await opus_answer(user_input) # $0.1511 12# 3. Haiku: Quality check (cheap verification)13quality = await haiku_verify(user_input, answer) # $0.00114 15# Total avg cost: ~$0.008 (Haiku heavy, Opus rare)Okuyucu Ödülü
En çok ROI veren Haiku pattern'i — "router + worker": Bu pattern'i Anthropic'in Claude.ai, Cursor, Claude Code hepsi kullanıyor — underlying routing logic. **External Resources:** - [Haiku 4.5 model card](https://docs.anthropic.com/claude/docs/models-overview) - [Pricing comparison](https://www.anthropic.com/pricing) - [Batch API guide](https://docs.anthropic.com/en/api/creating-message-batches) - [Prompt caching best practices](https://docs.anthropic.com/en/docs/prompt-caching) - [Model selection guide](https://docs.anthropic.com/en/docs/model-selection)
Sonuç
Haiku 4.5 "ikinci sınıf model" algısını kırdı. Doğru task'ta — classification, extraction, moderation, routing — Sonnet'ın %90'ı kadar quality veriyor ama %25'i fiyata. Prompt caching + batch API + smart routing kombinasyonu ile production maliyeti radikal düşüyor. 2026'da ölçeklenen AI uygulamalar için Haiku tier zorunlu — tüm traffic'i Opus'a göndermek ekonomik intihar. Smart router tasarla, çoklu tier kullan, quality sacrifice minimize.
*İlgili yazılar: Sonnet 4.5, Opus 4.6, Opus 4.7 Ne Zaman.*

