# OpenAI o3 ve o4: Reasoning Models Derinlemesine Analiz
OpenAI'nın reasoning model serisi o1'le başladı (2024), o3 (2025 başı), o3-mini (2025 Q1), o4 (2026 Q1). "Reasoning" modelleri standart LLM'lerden farklı: respond etmeden önce hidden chain-of-thought yapar, math/code/complex reasoning task'larda radikal daha iyi performans verir ama daha yavaş + pahalıdır. Bu yazı o3/o4 ailesinin teknik detaylarını, reasoning_effort parametresini, maliyet/latency tradeoff'larını ve Claude Extended Thinking karşılaştırmasını anlatır.
💡 Pro Tip: Reasoning model seçmeden önce task'ın gerçekten reasoning gerektirdiğini doğrula. "Bu kitabı özetle" için o3 kullanmak — GPT-4o'nun 20x maliyeti olur, aynı cevap.
İçindekiler
- Reasoning Models Nedir?
- o3 vs o4 Karşılaştırma
- reasoning_effort Parametresi
- Benchmark Skorları
- Maliyet ve Latency
- API Kullanımı
- Claude Extended Thinking vs OpenAI Reasoning
- Ne Zaman Reasoning Model
- Production Pattern'ler
Reasoning Models Nedir?
Standart LLM'de (GPT-4o, Claude Sonnet):
- User question → Direct answer
- Maybe CoT if prompted
Reasoning model'de:
- User question → Hidden thinking (500-10,000+ token internal monologue) → Answer
Bu "düşünme" genellikle "chain-of-thought" denir ama scale ve depth çok farklı. Model problem'i aşama aşama çözüyor, kendisini doğrulayıp düzeltiyor.
Örnek
"Bir trenin 3 saatte 240 km yol aldığını, sonraki 2 saatte hızını %25 artırdığını biliyorum. Toplam mesafe nedir?"
GPT-4o (standart):
"240 km + (240/3 × 1.25 × 2) = 240 + 200 = 440 km"
(2 saniyede cevap, genelde doğru)
o3 (reasoning):
swift
1[Thinking: 1500 token internal monologue]2 - First calc speed: 240/3 = 80 km/h3 - New speed: 80 × 1.25 = 100 km/h4 - Distance in 2 hours: 100 × 2 = 200 km5 - Total: 240 + 200 = 440 km6 - Verify: work backwards... ✓7 8[Answer] 440 km(10 saniyede cevap, her zaman doğru, edge case'lerde güçlü)
o3 vs o4 Karşılaştırma
Özellik | o3-mini | o3 | o4 |
|---|---|---|---|
Release | 2025 Q1 | 2025 Q1 | 2026 Q1 |
Context | 128k | 200k | 500k |
Max output | 65k | 100k | 100k |
Reasoning tokens | Up to 20k | Up to 50k | Up to 100k |
Input $/1M | $1.10 | $15 | $20 |
Output $/1M | $4.40 | $60 | $80 |
Latency (p50) | 5s | 15s | 20s |
SWE-bench | 49% | 71.7% | 74.5% |
AIME 2025 | 87% | 96.7% | 97.2% |
Multimodal | Text only | Text + image | Text + image + video |
reasoning_effort Parametresi
o-series'de reasoning seviyesi kontrol:
python
1from openai import OpenAI2 3client = OpenAI()4 5response = client.responses.create(6 model="o3",7 reasoning_effort="high", # low, medium, high8 input="Bu 3000-satır Python codebase'inde race condition'ı bul"9)Effort Levels
- low: ~1k reasoning tokens — simple problems
- medium: ~5k tokens — standard reasoning
- high: ~20k tokens — complex multi-step
reasoning_effort="high" = 5x daha pahalı + yavaş ama doğruluk %40 artış (hard problems).
Benchmark Skorları
SWE-bench Verified
- GPT-4o: 42.1%
- o3-mini (high): 62%
- o3 (high): 71.7%
- o4 (high): 74.5%
- Claude 4.7 Opus (xhigh): 72.5%
AIME 2025 (Math)
- GPT-4o: 13.4%
- o3-mini: 87%
- o3: 96.7%
- o4: 97.2% (beats human experts %97)
- Gemini 2.5 Pro: 97.2%
- Claude 4.7 Opus: 91.8%
Codeforces (Competitive Programming)
- o3: 2727 rating (Grandmaster tier — top 200 worldwide)
- o4: 2941 rating (Top 50)
GPQA Diamond
- o3: 87.7%
- o4: 92.4%
- Claude 4.7 Opus: 72.4%
Reasoning models, Claude Extended Thinking'den GPQA'da açık ara önde.
Maliyet ve Latency
Örnek: 1000 query/gün, complex reasoning
o3 high effort:
- Input: 2k token × 1000 = 2M × $15/1M = $30
- Reasoning: 15k token × 1000 = 15M × $60/1M = $900 (billed as output)
- Output: 500 × 1000 = 500k × $60/1M = $30
- Total: $960/gün = $28,800/ay
Claude Opus 4.7 xhigh:
- Input: 2M × $15/1M = $30
- Output (incl. thinking): 5.5M × $75/1M = $412.50/gün
- Total: $412.50/gün = $12,375/ay
Claude Opus xhigh yaklaşık yarı fiyat (benchmark'ta yakın performans).
Latency
- o3 high: p50 15s, p99 45s
- o4 high: p50 20s, p99 60s
- Claude Opus xhigh: p50 25s, p99 70s
Reasoning model'lerin tümü yavaş — real-time UX'e uygun değil.
API Kullanımı
Responses API (Yeni)
OpenAI 2025'te responses API'sini lanse etti — reasoning models için:
python
1response = client.responses.create(2 model="o4",3 reasoning_effort="high",4 input="Bu complex problem..."5)6 7# Response structure8print(response.output[0].content[0].text) # Final answer9print(response.usage.reasoning_tokens) # Thinking token countStreaming
python
1with client.responses.stream(2 model="o4",3 reasoning_effort="high",4 input="..."5) as stream:6 for event in stream:7 if event.type == "response.output_text.delta":8 print(event.delta, end="", flush=True)Reasoning Summary (Preview)
o4'te reasoning summary — full thinking trace değil, ama özet:
python
1response = client.responses.create(2 model="o4",3 reasoning_effort="high",4 reasoning_summary=True,5 input="..."6)7 8print(response.reasoning_summary) # Concise thinking overviewClaude Extended Thinking vs OpenAI Reasoning
Özellik | Claude Extended Thinking | OpenAI Reasoning (o-series) |
|---|---|---|
Release | 2024 Q4 | 2024 Q4 |
Thinking visibility | Opsiyonel görünür | Hidden (summary possible) |
Effort levels | low/medium/high/xhigh | low/medium/high |
Max thinking tokens | 32k (xhigh) | 100k (o4) |
Cost structure | Thinking = output tokens | Reasoning = output tokens |
Latency | Similar | Similar |
Multimodal | Opus 4.7: text+image | o3+: text+image, o4: +video |
Best for | Coding, multi-file refactor | Math, scientific reasoning |
Ne Zaman Hangisi
OpenAI o4 seç:
- Matematik olimpiyat seviyesi problem
- Bilimsel araştırma (physics, chemistry, medicine)
- Competitive programming
- Multi-modal input (video analysis)
Claude Opus 4.7 xhigh seç:
- Software engineering (SWE-bench)
- Agentic workflow (tool use chains)
- Long-form writing
- Legal/business analysis
- Tight budget (yaklaşık yarı fiyat)
Ne Zaman Reasoning Model
✅ İdeal
- Matematik problemleri (olimpiyat, research)
- Complex coding (multi-file, algorithm design)
- Scientific paper review
- Legal contract analysis
- Medical diagnosis assistance
- Debugging hard bugs
- Architecture design
❌ Overkill
- Simple Q&A
- Content generation (blog, marketing)
- Translation
- Short summary
- Classification
- CRUD boilerplate
Rule of thumb: If GPT-4o/Sonnet solves correctly, reasoning model overkill.
Production Pattern'ler
Router Pattern
python
1async def smart_answer(query: str):2 # 1. Haiku/GPT-4o-mini classifier (cheap)3 complexity = await classify_complexity(query)4 5 if complexity == "simple":6 return await gpt4o_mini_answer(query) # $0.0027 elif complexity == "medium":8 return await claude_sonnet_answer(query) # $0.029 elif complexity == "hard":10 return await claude_opus_xhigh(query) # $0.3011 elif complexity == "extreme":12 return await o4_high(query) # $1.50Parallel Consensus
Hard problem için multiple reasoning model parallel:
python
1results = await asyncio.gather(2 o3_answer(problem),3 o4_answer(problem),4 claude_opus_xhigh_answer(problem)5)6# Compare answers, majority vote or escalate to human$5/request ama kritik decisions için değer.
ALTIN İPUCU
Bu yazının en değerli bilgisi
Bu ipucu, yazının en önemli çıkarımını içeriyor.
Easter Egg
Gizli bir bilgi buldun!
Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?
python
1def estimate_cost(2 model: str,3 input_tokens: int,4 output_tokens: int,5 reasoning_effort: str = None6):7 """Maliyet tahmin fonksiyonu."""8 prices = {9 "gpt-4o-mini": {"in": 0.15, "out": 0.60},10 "gpt-4o": {"in": 2.50, "out": 10},11 "o3-mini": {"in": 1.10, "out": 4.40},12 "o3": {"in": 15, "out": 60},13 "o4": {"in": 20, "out": 80},14 }15 16 reasoning_tokens = {17 "low": 1_000,18 "medium": 5_000,19 "high": 20_000,20 }21 22 if model.startswith("o"):23 reasoning = reasoning_tokens[reasoning_effort or "medium"]24 else:25 reasoning = 026 27 p = prices[model]28 cost = (input_tokens * p["in"] + (output_tokens + reasoning) * p["out"]) / 1_000_00029 30 return {31 "total_cost_usd": cost,32 "reasoning_tokens": reasoning,33 "effective_output_tokens": output_tokens + reasoning34 }35 36# Example37print(estimate_cost("o4", 2000, 500, "high"))38# {"total_cost_usd": 1.68, "reasoning_tokens": 20000, "effective_output_tokens": 20500}Okuyucu Ödülü
**External Resources:** - [o3/o4 model page](https://platform.openai.com/docs/models/o4) - [Responses API docs](https://platform.openai.com/docs/api-reference/responses) - [Reasoning best practices](https://platform.openai.com/docs/guides/reasoning) - [Benchmark leaderboard](https://openai.com/evaluations) - [Competitive programming research](https://arxiv.org/abs/2407.05941)
Sonuç
OpenAI o3/o4 reasoning models matematik, bilimsel reasoning, karmaşık kod için çığır açıcı — ama maliyet + latency yüksek. Claude Opus 4.7 xhigh coding'de rekabetçi, daha ucuz, software dev için tercih. reasoning_effort medium çoğu task için optimal. Router pattern ile cheap/expensive model seçimi = production standard. 2026'nın sonunda o5 ve GPT-6 bekliyor — reasoning paradigması AI'ın yeni normalı.
*İlgili yazılar: GPT-5, Claude Extended Thinking, Claude Opus Ne Zaman.*

