Tüm Yazılar
KategoriAI
Okuma Süresi
22 dk okuma
Yayın Tarihi
...
Kelime Sayısı
2.128kelime

Kahveni hazırla - bu içerikli bir makale!

GPT-4.7, Claude Opus 4.7, Gemini 2.5 Pro ve Llama 4'ün MMLU, HumanEval, SWE-bench skorları; benchmark metodolojileri, sınırlamalar ve gerçek dünya performans farkı.

LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

# LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

2026'da yapay zeka modelleri artık benchmark tablosunda yarışan rakamlar değil — gerçek iş süreçlerine entegre olan araçlar. Peki bir modelin "MMLU %92.3" skorunu görünce ne anlamalıyız? Bu sayı sana gerçekten ne söylüyor, ne söylemiyor? Benchmark sektörü hem modellerin hem de değerlendirme yöntemlerinin hızla evrildiği bir dönemde, sayıların arkasındaki metodoloji anlamak hayati önem taşıyor. Bu yazı, 2026'daki önde gelen LLM benchmark'larını derinlemesine inceliyor, her birinin güçlü ve zayıf yönlerini açıklıyor ve en çok konuşulan modellerin gerçek performans farkını ortaya koyuyor.

💡 Pro Tip: Bir model benchmark'ta harika görünüyorsa ama production'da beklentini karşılamıyorsa, önce benchmark'ın ölçtüğü şeyle senin use-case'inin ne kadar örtüştüğünü sorgula. "Goodhart's Law" AI dünyasında da geçerli: bir ölçüt hedef haline gelince, ölçüt olmaktan çıkar.

İçindekiler


Benchmark Neden Önemli ve Neden Yetersiz?

LLM benchmark'ları özünde bir modelin yeteneklerini standart, tekrarlanabilir biçimde ölçmeye çalışır. Bunun için genellikle çok sorulu test setleri, doğruluk metrikleri ve zaman zaman insan değerlendirmesi kullanılır. Ancak her standardizasyon girişimi gibi bunlar da gerçekliğin bir soyutlaması.

Benchmark'ların Sağladıkları

Makul bir benchmark, modeller arasında _karşılaştırılabilirlik_ sağlar. Aynı test seti, aynı değerlendirme kodu, aynı metrikler. GPT-4.7 ile Gemini 2.5 Pro'yu aynı MMLU test seti üzerinde karşılaştırabilirsin. Trend takibi açısından da değerlidir: bir model ailesinin zaman içinde nasıl ilerlediğini görmek için serinin her versiyonunu aynı benchmark üzerinde test edersin.

Benchmark'ların Sağlamadıkları

İşte kritik nokta: benchmark seti bir modelin _genel zekasını_ ölçmez. Yalnızca o benchmark'a özgü görev türlerindeki performansını ölçer. Bazı problemler:

  • Veri sızması (data contamination):: Test setleri modelin eğitim verisinde bulunuyorsa, model ezberden cevap veriyor olabilir. Bu özellikle GPT-4 döneminden bu yana tartışmalı bir konu.
  • Prompt formatı duyarlılığı:: Aynı model, aynı soruya farklı prompt formatlarıyla %5-15 farklı skorlar üretebilir.
  • Statik snapshot:: Dünya değişiyor ama benchmark seti değişmiyor. 2024'te hazırlanan bir MMLU sorusu 2026'da çoktan "bilinen" bilgi olmuş olabilir.
  • İnsan-model farkı:: Benchmarklar insan doğruluğunu referans alır ama insanlar da bu testlerde %85-90 alır. "İnsan üstü" demek test tipinde üstün demek, hayatta üstün değil.

MMLU: Çok Görevli Dil Anlama

MMLU (Massive Multitask Language Understanding), Dan Hendrycks ve ekibi tarafından 2020'de yayımlanan, 57 farklı konuda ~15.000 çoktan seçmeli sorudan oluşan bir benchmark'tır. Tıp, hukuk, matematik, tarih, fizik, etik... Geniş kapsam nedeniyle hâlâ genel dil anlama testi olarak yaygınca kullanılıyor.

Nasıl Ölçülür?

Her soru için 4 şık sunulur, model doğru şıkkı seçer. Ölçüm basit: doğru cevap oranı (accuracy). 5-shot prompting standart haline geldi; modele önce 5 örnek verilir, ardından asıl soru.

python
1# MMLU değerlendirme örneği (basitleştirilmiş)
2def run_mmlu_benchmark(model, dataset, num_shots=5):
3 correct = 0
4 total = 0
5 for subject, questions in dataset.items():
6 # Few-shot context hazırla
7 shots = questions[:num_shots]
8 test_questions = questions[num_shots:]
9 
10 context = format_shots(shots)
11 for q in test_questions:
12 prompt = context + format_question(q)
13 response = model.generate(prompt)
14 predicted = extract_answer(response) # A/B/C/D
15 if predicted == q['answer']:
16 correct += 1
17 total += 1
18 return correct / total

2026 MMLU Skorları

Model
MMLU (5-shot)
MMLU-Pro
GPT-4.7
91.8%
74.2%
Claude Opus 4.7
92.3%
76.1%
Gemini 2.5 Pro
90.9%
73.8%
Llama 4 Scout
88.4%
68.3%
DeepSeek R1
90.1%
72.6%

MMLU-Pro nedir? 2024'te yayımlanan, daha zor ve daha az tahmin edilebilir soruları olan geliştirilmiş versiyonu. Modeller artık standart MMLU'yu "doyurmaya" başladığı için Pro versiyonu daha ayırt edici oluyor.

Sınırlamalar

MMLU çoktan seçmeli format kullanıyor. Gerçek dünya görevleri açık uçlu. Ayrıca soruların büyük bölümü 2020 öncesi bilgi gerektiriyor; 2026 modelleri için bu neredeyse "ezber" testine dönüşüyor.


HumanEval ve MBPP: Kod Üretimi Testleri

HumanEval, OpenAI'ın 2021'de yayımladığı Python fonksiyon yazma benchmark'ı. 164 el yazımı programlama problemi içeriyor. Her problem için bir dokümentasyon stringi veriliyor, modelin fonksiyon gövdesini tamamlaması isteniyor.

Değerlendirme Metriği: pass@k

HumanEval'in ilginç tarafı pass@k metriği. Modelden k farklı çözüm üretmesini istiyorsun ve en az biri testleri geçerse başarı sayılıyor.

typescript
1// pass@k hesaplama mantığı
2function passAtK(n: number, c: number, k: number): number {
3 // n: toplam üretilen çözüm
4 // c: geçen çözüm sayısı
5 // k: değerlendirme k değeri
6 if (n - c < k) return 1.0;
7 
8 // Kombinatoryal hesaplama: 1 - C(n-c, k) / C(n, k)
9 let result = 1.0;
10 for (let i = 0; i < k; i++) {
11 result *= (n - c - i) / (n - i);
12 }
13 return 1.0 - result;
14}

MBPP (Mostly Basic Programming Problems) ise Google'ın 974 basit Python problemi içeren benchmark'ı. HumanEval'e göre daha erişilebilir görevler.

2026 HumanEval Skorları

Model
HumanEval (pass@1)
MBPP
GPT-4.7
92.1%
87.3%
Claude Opus 4.7
91.4%
86.8%
Gemini 2.5 Pro
89.7%
84.1%
DeepSeek R1
90.3%
85.6%
Llama 4 Scout
85.2%
79.4%

HumanEval'in Problemleri

164 sorudan oluşan küçük bir test seti bugün için yetersiz. Modeller bu problemi de ezberlemiş olabilir. EvalPlus gibi genişletilmiş versiyonlar daha güvenilir sonuçlar veriyor.


SWE-bench: Gerçek GitHub Issue Çözme

SWE-bench, 2024 sonlarında akademik dünyada ses getiren bir benchmark. Princeton ve Stanford araştırmacılarının hazırladığı bu test, modele gerçek GitHub repo'larından alınmış issue'lar veriyor ve modelin kodu düzeltmesini bekliyor. Sonra bu düzeltme gerçek test suite'leri üzerinde çalıştırılıyor.

Neden Devrimsel?

"Kodu yaz" testlerinden farklı olarak SWE-bench şunu soruyor: _Gerçek bir production codebase'indeki bir bug'ı düzeltebilir misin?_ Bu çok daha gerçekçi bir LLM yeteneklerini değerlendirme biçimi.

python
1# SWE-bench değerlendirme akışı (kavramsal)
2class SWEBenchRunner:
3 def run_instance(self, model, instance):
4 # 1. Repo'yu klonla, issue context'ini hazırla
5 repo = clone_repo(instance['repo'], instance['commit'])
6 issue_text = instance['problem_statement']
7 
8 # 2. Modelden patch üret
9 patch = model.generate_patch(
10 repo=repo,
11 issue=issue_text,
12 relevant_files=instance['hints_text']
13 )
14 
15 # 3. Patch'i uygula
16 apply_patch(repo, patch)
17 
18 # 4. Test suite çalıştır
19 results = run_tests(repo, instance['test_patch'])
20 
21 # 5. Tüm testler geçti mi?
22 return results.all_passed

SWE-bench Verified (2025)

OpenAI, gerçek insan geliştiricilerin doğruladığı daha güvenilir bir alt küme yayımladı. Bu versiyonda:

Model
SWE-bench Verified (Resolved%)
Claude Opus 4.7 (Agentic)
72.5%
GPT-4.7 (Agentic)
68.9%
Gemini 2.5 Pro
63.4%
DeepSeek R1
55.2%
Llama 4 Scout
38.7%

"Agentic" neden önemli? Modeller tek seferlik bir yanıt üretmek yerine araçlar kullanarak (dosya okuma, test çalıştırma, düzeltme) iteratif çalışıyor. Bu, agent mimarisini kullanan modellerden ciddi bir avantaj sağlıyor. Swe-bench.github.io adresinden güncel leaderboard'u takip edebilirsin.


GPQA ve MATH: Uzmanlık ve Akıl Yürütme

GPQA: Graduate-Level Google-Proof Q&A

GPQA, 2023'te yayımlanan ve kasıtlı olarak "Google-proof" yani internette aranarak cevaplanamayacak sorular içeriyor. Biyoloji, kimya ve fizik alanlarında doktora seviyesinde sorular. İnsan uzmanlar bu testte %65 alırken, uzman olmayan insanlar %34 alıyor.

2026 Sonuçları: Claude Opus 4.7 ve GPT-4.7 bu benchmark'ta %88+ ile insan uzmanları geçiyor. Bu, "doktora seviyesi muhakeme" iddiasını destekliyor — ancak bu spesifik test tipinde.

MATH Dataset

Hendrycks ve ekibinin hazırladığı rekabetçi matematik soruları. AMC, AIME gibi yarışmalardan derlenen problemler. Çözüm adımlarını da test ediyor.

python
1# MATH değerlendirmesinde sık yapılan hata: sadece final cevabı kontrol etme
2# Doğru yaklaşım: symbolic math checker kullan
3from sympy import sympify, simplify
4 
5def check_math_answer(predicted: str, ground_truth: str) -> bool:
6 try:
7 pred_expr = sympify(predicted)
8 truth_expr = sympify(ground_truth)
9 return simplify(pred_expr - truth_expr) == 0
10 except Exception:
11 return predicted.strip() == ground_truth.strip()

2026'da MATH Sonuçları: Güçlü frontier modeller %90+ alıyor. Bu özellikle "chain-of-thought" (adım adım düşünme) aktifleştirildiğinde belirgin. Reasoning modelleri (o1-pro, claude-opus-4-7-extended-thinking) bu alanda standart modellerin ~10-15 puan önünde.


BBH ve BIG-Bench: Kapsamlı Değerlendirme

BIG-Bench (Beyond the Imitation Game Benchmark), Google Brain önderliğinde 200+ araştırmacının katkısıyla hazırlanan 200+ farklı görev içeren devasa benchmark. Ancak büyük frontier modeller artık bu benchmark'ın büyük bölümünde doyuma ulaştı.

BIG-Bench Hard (BBH), özellikle modelleri zorlayan 23 görevi çıkararak daha ayırt edici bir alt küme oluşturdu. Mantıksal akıl yürütme, kalibrasyon, counterfactual sorunları içeriyor.


2026 Model Karşılaştırması: Tablo ve Analiz

Benchmark sonuçlarını bir arada değerlendirirken her zaman aynı tarihte, aynı koşullarda yapılan testlere bakmak gerekiyor. Farklı araştırma gruplarının farklı tarihlerde yaptığı ölçümler karşılaştırılamaz.

Güçlü Yönler Matrisi

Model
Muhakeme
Kod
Bilim
Dil
Hız
Claude Opus 4.7
★★★★★
★★★★★
★★★★★
★★★★★
★★★
GPT-4.7
★★★★★
★★★★★
★★★★
★★★★★
★★★★
Gemini 2.5 Pro
★★★★
★★★★
★★★★★
★★★★
★★★★
DeepSeek R1
★★★★★
★★★★
★★★★
★★★
★★★★★
Llama 4 Scout
★★★
★★★
★★★
★★★
★★★★★

DeepSeek R1'in dikkat çekici noktası: Açık kaynak olmasına rağmen muhakeme testlerinde frontier modellere rakip olması. DeepSeek R1 hakkında detaylı inceleme yazısına bakabilirsin.


Benchmark Gaming: Nasıl Oynanır?

"Benchmark gaming", modelin gerçekten daha yetenekli olmadan daha yüksek skor almasını sağlayan çeşitli teknikler anlamına geliyor. Bu hem akademik hem de ticari açıdan ciddi bir sorun.

Gaming Türleri

1. Veri kontaminasyonu: Test setinin eğitim verisine sızması. Özellikle internet scraping ile eğitilen modellerde yaygın. Bazı modeller MMLU sorularını doğrudan ezberlemiş olabilir.

2. Prompt mühendisliği optimizasyonu: Benchmark-spesifik prompt formatları kullanmak. "Cevabı A/B/C/D harfiyle ver" gibi yönlendirmeler skor artırabilir.

3. Post-training gaming: RLHF veya benzer fine-tuning süreçlerinde benchmark sorularına ağırlık vermek.

python
1# Contamination detection — basit n-gram overlap kontrolü
2def check_contamination(training_data: list[str], test_question: str, n: int = 8):
3 test_ngrams = set(get_ngrams(test_question, n))
4 
5 for doc in training_data:
6 doc_ngrams = set(get_ngrams(doc, n))
7 overlap = len(test_ngrams & doc_ngrams) / len(test_ngrams)
8 
9 if overlap > 0.3: # %30+ overlap şüpheli
10 return True, overlap
11 
12 return False, 0.0
13 
14def get_ngrams(text: str, n: int) -> list[tuple]:
15 tokens = text.lower().split()
16 return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

Gaming'e Karşı Önlemler

  • Dinamik benchmark'lar:: Her değerlendirmede farklı soru çekilmesi
  • Contamination audit:: Eğitim verisi ve test seti overlap analizi
  • Held-out test setleri:: Yalnızca değerlendirme kurumunun erişebildiği gizli setler
  • Human preference ranking:: LMSYS Chatbot Arena gibi insan tercih tabanlı platformlar

Gerçek Dünya vs Benchmark Farkı

İşte en önemli mesele: benchmark skoru ile gerçek kullanım deneyimi arasındaki uçurum.

Neden Fark Oluşuyor?

1. Görev türü uyuşmazlığı: Benchmark soruları genellikle kapalı uçlu (tek doğru cevap). Gerçek görevler açık uçlu, belirsiz, çok adımlı.

2. Bağlam uzunluğu: Benchmark soruları kısa. Gerçek kullanımda 50K-200K token context ile çalışabilirsin. Modelin long-context performansı benchmark'ta görünmüyor.

3. Tool use: SWE-bench dışında çoğu benchmark tool use veya agentic behavior içermiyor. Production'da model araç kullanıyor.

4. Güvenilirlik ve tutarlılık: Benchmark tek seferlik doğruluğu ölçüyor. Sen günde 1000 çağrı yapacaksın; modelin aynı soruya her seferinde tutarlı cevap verip vermediği önemli.

Pratik Öneri: Kendi Test Setini Oluştur

Eğer ciddi bir model seçimi yapıyorsan, kendi use-case'ine özgü 50-100 soruluk bir test seti hazırla. Bu, herhangi bir genel benchmark'tan çok daha değerli bilgi verecek.

typescript
1// Custom test framework örneği
2interface TestCase {
3 id: string;
4 input: string;
5 expectedOutput?: string;
6 judge: (output: string) => { score: number; reason: string };
7}
8 
9async function runCustomTests(
10 model: LLMClient,
11 cases: TestCase[]
12): Promise {
13 const results = await Promise.all(
14 cases.map(async (c) => {
15 const output = await model.complete(c.input);
16 const judgment = c.judge(output);
17 return { id: c.id, output, ...judgment };
18 })
19 );
20 
21 const avgScore = results.reduce((s, r) => s + r.score, 0) / results.length;
22 return { cases: results, avgScore, timestamp: new Date().toISOString() };
23}

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Model karşılaştırması yapmak isteyenler için iki ücretsiz kaynak: **LMSYS Chatbot Arena** (arena.lmsys.org) gerçek kullanıcı tercih oylamasıyla dinamik sıralama yapıyor — benchmark gaming'e karşı en dirençli yöntem. **Scale AI SEAL Leaderboard** ise çeşitli görev türlerinde çok daha granüler breakdown sunuyor. Her iki kaynağı da genel benchmark tablolarına ek olarak kullan.

Sonuç

2026'da LLM benchmark dünyası hem olgunlaştı hem de daha karmaşık hale geldi. MMLU artık doyuma yakın, SWE-bench gerçek dünya yeteneklerini ölçmede devrimsel, HumanEval ise en iyi şekilde EvalPlus ile kullanılıyor.

Model seçimi yaparken: önce kullanım amacını netleştir, ardından o amaca özgü benchmark'lara bak, şüpheliysen kendi test setini oluştur. Genel sıralama tabloları yön gösterir ama karar vermez.

Claude Opus 4.7 veya GPT-5 gibi modelleri production'da kullanmadan önce kendi test sürecinizi mutlaka kurun.

Etiketler

#AI#LLM#Benchmark#MMLU#HumanEval#SWE-bench#AI Evaluation#2026
Muhittin Çamdalı

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

Bunu da begenebilirsiniz