Tüm Yazılar
KategoriAI
Okuma Süresi
18 dk okuma
Yayın Tarihi
...
Kelime Sayısı
1.460kelime

Kahveni hazırla - bu içerikli bir makale!

OpenAI o3-mini, o3, o4 reasoning modelleri ile hidden chain-of-thought, reasoning_effort parametresi, maliyet analizi ve Claude Extended Thinking karşılaştırması.

OpenAI o3 ve o4: Reasoning Models Derinlemesine Analiz

# OpenAI o3 ve o4: Reasoning Models Derinlemesine Analiz

OpenAI'nın reasoning model serisi o1'le başladı (2024), o3 (2025 başı), o3-mini (2025 Q1), o4 (2026 Q1). "Reasoning" modelleri standart LLM'lerden farklı: respond etmeden önce hidden chain-of-thought yapar, math/code/complex reasoning task'larda radikal daha iyi performans verir ama daha yavaş + pahalıdır. Bu yazı o3/o4 ailesinin teknik detaylarını, reasoning_effort parametresini, maliyet/latency tradeoff'larını ve Claude Extended Thinking karşılaştırmasını anlatır.

💡 Pro Tip: Reasoning model seçmeden önce task'ın gerçekten reasoning gerektirdiğini doğrula. "Bu kitabı özetle" için o3 kullanmak — GPT-4o'nun 20x maliyeti olur, aynı cevap.

İçindekiler


Reasoning Models Nedir?

Standart LLM'de (GPT-4o, Claude Sonnet):

  • User question → Direct answer
  • Maybe CoT if prompted

Reasoning model'de:

  • User question → Hidden thinking (500-10,000+ token internal monologue) → Answer

Bu "düşünme" genellikle "chain-of-thought" denir ama scale ve depth çok farklı. Model problem'i aşama aşama çözüyor, kendisini doğrulayıp düzeltiyor.

Örnek

"Bir trenin 3 saatte 240 km yol aldığını, sonraki 2 saatte hızını %25 artırdığını biliyorum. Toplam mesafe nedir?"

GPT-4o (standart):

"240 km + (240/3 × 1.25 × 2) = 240 + 200 = 440 km"

(2 saniyede cevap, genelde doğru)

o3 (reasoning):

swift
1[Thinking: 1500 token internal monologue]
2 - First calc speed: 240/3 = 80 km/h
3 - New speed: 80 × 1.25 = 100 km/h
4 - Distance in 2 hours: 100 × 2 = 200 km
5 - Total: 240 + 200 = 440 km
6 - Verify: work backwards... ✓
7 
8[Answer] 440 km

(10 saniyede cevap, her zaman doğru, edge case'lerde güçlü)


o3 vs o4 Karşılaştırma

Özellik
o3-mini
o3
o4
Release
2025 Q1
2025 Q1
2026 Q1
Context
128k
200k
500k
Max output
65k
100k
100k
Reasoning tokens
Up to 20k
Up to 50k
Up to 100k
Input $/1M
$1.10
$15
$20
Output $/1M
$4.40
$60
$80
Latency (p50)
5s
15s
20s
SWE-bench
49%
71.7%
74.5%
AIME 2025
87%
96.7%
97.2%
Multimodal
Text only
Text + image
Text + image + video

reasoning_effort Parametresi

o-series'de reasoning seviyesi kontrol:

python
1from openai import OpenAI
2 
3client = OpenAI()
4 
5response = client.responses.create(
6 model="o3",
7 reasoning_effort="high", # low, medium, high
8 input="Bu 3000-satır Python codebase'inde race condition'ı bul"
9)

Effort Levels

  • low: ~1k reasoning tokens — simple problems
  • medium: ~5k tokens — standard reasoning
  • high: ~20k tokens — complex multi-step

reasoning_effort="high" = 5x daha pahalı + yavaş ama doğruluk %40 artış (hard problems).


Benchmark Skorları

SWE-bench Verified

  • GPT-4o: 42.1%
  • o3-mini (high): 62%
  • o3 (high): 71.7%
  • o4 (high): 74.5%
  • Claude 4.7 Opus (xhigh): 72.5%

AIME 2025 (Math)

  • GPT-4o: 13.4%
  • o3-mini: 87%
  • o3: 96.7%
  • o4: 97.2% (beats human experts %97)
  • Gemini 2.5 Pro: 97.2%
  • Claude 4.7 Opus: 91.8%

Codeforces (Competitive Programming)

  • o3: 2727 rating (Grandmaster tier — top 200 worldwide)
  • o4: 2941 rating (Top 50)

GPQA Diamond

  • o3: 87.7%
  • o4: 92.4%
  • Claude 4.7 Opus: 72.4%

Reasoning models, Claude Extended Thinking'den GPQA'da açık ara önde.


Maliyet ve Latency

Örnek: 1000 query/gün, complex reasoning

o3 high effort:

  • Input: 2k token × 1000 = 2M × $15/1M = $30
  • Reasoning: 15k token × 1000 = 15M × $60/1M = $900 (billed as output)
  • Output: 500 × 1000 = 500k × $60/1M = $30
  • Total: $960/gün = $28,800/ay

Claude Opus 4.7 xhigh:

  • Input: 2M × $15/1M = $30
  • Output (incl. thinking): 5.5M × $75/1M = $412.50/gün
  • Total: $412.50/gün = $12,375/ay

Claude Opus xhigh yaklaşık yarı fiyat (benchmark'ta yakın performans).

Latency

  • o3 high: p50 15s, p99 45s
  • o4 high: p50 20s, p99 60s
  • Claude Opus xhigh: p50 25s, p99 70s

Reasoning model'lerin tümü yavaş — real-time UX'e uygun değil.


API Kullanımı

Responses API (Yeni)

OpenAI 2025'te responses API'sini lanse etti — reasoning models için:

python
1response = client.responses.create(
2 model="o4",
3 reasoning_effort="high",
4 input="Bu complex problem..."
5)
6 
7# Response structure
8print(response.output[0].content[0].text) # Final answer
9print(response.usage.reasoning_tokens) # Thinking token count

Streaming

python
1with client.responses.stream(
2 model="o4",
3 reasoning_effort="high",
4 input="..."
5) as stream:
6 for event in stream:
7 if event.type == "response.output_text.delta":
8 print(event.delta, end="", flush=True)

Reasoning Summary (Preview)

o4'te reasoning summary — full thinking trace değil, ama özet:

python
1response = client.responses.create(
2 model="o4",
3 reasoning_effort="high",
4 reasoning_summary=True,
5 input="..."
6)
7 
8print(response.reasoning_summary) # Concise thinking overview

Claude Extended Thinking vs OpenAI Reasoning

Özellik
Claude Extended Thinking
OpenAI Reasoning (o-series)
Release
2024 Q4
2024 Q4
Thinking visibility
Opsiyonel görünür
Hidden (summary possible)
Effort levels
low/medium/high/xhigh
low/medium/high
Max thinking tokens
32k (xhigh)
100k (o4)
Cost structure
Thinking = output tokens
Reasoning = output tokens
Latency
Similar
Similar
Multimodal
Opus 4.7: text+image
o3+: text+image, o4: +video
Best for
Coding, multi-file refactor
Math, scientific reasoning

Ne Zaman Hangisi

OpenAI o4 seç:

  • Matematik olimpiyat seviyesi problem
  • Bilimsel araştırma (physics, chemistry, medicine)
  • Competitive programming
  • Multi-modal input (video analysis)

Claude Opus 4.7 xhigh seç:

  • Software engineering (SWE-bench)
  • Agentic workflow (tool use chains)
  • Long-form writing
  • Legal/business analysis
  • Tight budget (yaklaşık yarı fiyat)

Ne Zaman Reasoning Model

✅ İdeal

  • Matematik problemleri (olimpiyat, research)
  • Complex coding (multi-file, algorithm design)
  • Scientific paper review
  • Legal contract analysis
  • Medical diagnosis assistance
  • Debugging hard bugs
  • Architecture design

❌ Overkill

  • Simple Q&A
  • Content generation (blog, marketing)
  • Translation
  • Short summary
  • Classification
  • CRUD boilerplate

Rule of thumb: If GPT-4o/Sonnet solves correctly, reasoning model overkill.


Production Pattern'ler

Router Pattern

python
1async def smart_answer(query: str):
2 # 1. Haiku/GPT-4o-mini classifier (cheap)
3 complexity = await classify_complexity(query)
4 
5 if complexity == "simple":
6 return await gpt4o_mini_answer(query) # $0.002
7 elif complexity == "medium":
8 return await claude_sonnet_answer(query) # $0.02
9 elif complexity == "hard":
10 return await claude_opus_xhigh(query) # $0.30
11 elif complexity == "extreme":
12 return await o4_high(query) # $1.50

Parallel Consensus

Hard problem için multiple reasoning model parallel:

python
1results = await asyncio.gather(
2 o3_answer(problem),
3 o4_answer(problem),
4 claude_opus_xhigh_answer(problem)
5)
6# Compare answers, majority vote or escalate to human

$5/request ama kritik decisions için değer.


ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

python
1def estimate_cost(
2 model: str,
3 input_tokens: int,
4 output_tokens: int,
5 reasoning_effort: str = None
6):
7 """Maliyet tahmin fonksiyonu."""
8 prices = {
9 "gpt-4o-mini": {"in": 0.15, "out": 0.60},
10 "gpt-4o": {"in": 2.50, "out": 10},
11 "o3-mini": {"in": 1.10, "out": 4.40},
12 "o3": {"in": 15, "out": 60},
13 "o4": {"in": 20, "out": 80},
14 }
15 
16 reasoning_tokens = {
17 "low": 1_000,
18 "medium": 5_000,
19 "high": 20_000,
20 }
21 
22 if model.startswith("o"):
23 reasoning = reasoning_tokens[reasoning_effort or "medium"]
24 else:
25 reasoning = 0
26 
27 p = prices[model]
28 cost = (input_tokens * p["in"] + (output_tokens + reasoning) * p["out"]) / 1_000_000
29 
30 return {
31 "total_cost_usd": cost,
32 "reasoning_tokens": reasoning,
33 "effective_output_tokens": output_tokens + reasoning
34 }
35 
36# Example
37print(estimate_cost("o4", 2000, 500, "high"))
38# {"total_cost_usd": 1.68, "reasoning_tokens": 20000, "effective_output_tokens": 20500}

Okuyucu Ödülü

**External Resources:** - [o3/o4 model page](https://platform.openai.com/docs/models/o4) - [Responses API docs](https://platform.openai.com/docs/api-reference/responses) - [Reasoning best practices](https://platform.openai.com/docs/guides/reasoning) - [Benchmark leaderboard](https://openai.com/evaluations) - [Competitive programming research](https://arxiv.org/abs/2407.05941)

Sonuç

OpenAI o3/o4 reasoning models matematik, bilimsel reasoning, karmaşık kod için çığır açıcı — ama maliyet + latency yüksek. Claude Opus 4.7 xhigh coding'de rekabetçi, daha ucuz, software dev için tercih. reasoning_effort medium çoğu task için optimal. Router pattern ile cheap/expensive model seçimi = production standard. 2026'nın sonunda o5 ve GPT-6 bekliyor — reasoning paradigması AI'ın yeni normalı.

*İlgili yazılar: GPT-5, Claude Extended Thinking, Claude Opus Ne Zaman.*

Etiketler

#AI#OpenAI#o3#o4#Reasoning#Chain-of-Thought#GPT-5#2026
Muhittin Çamdalı

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

Bunu da begenebilirsiniz