# LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans
2026'da yapay zeka modelleri artık benchmark tablosunda yarışan rakamlar değil — gerçek iş süreçlerine entegre olan araçlar. Peki bir modelin "MMLU %92.3" skorunu görünce ne anlamalıyız? Bu sayı sana gerçekten ne söylüyor, ne söylemiyor? Benchmark sektörü hem modellerin hem de değerlendirme yöntemlerinin hızla evrildiği bir dönemde, sayıların arkasındaki metodoloji anlamak hayati önem taşıyor. Bu yazı, 2026'daki önde gelen LLM benchmark'larını derinlemesine inceliyor, her birinin güçlü ve zayıf yönlerini açıklıyor ve en çok konuşulan modellerin gerçek performans farkını ortaya koyuyor.
💡 Pro Tip: Bir model benchmark'ta harika görünüyorsa ama production'da beklentini karşılamıyorsa, önce benchmark'ın ölçtüğü şeyle senin use-case'inin ne kadar örtüştüğünü sorgula. "Goodhart's Law" AI dünyasında da geçerli: bir ölçüt hedef haline gelince, ölçüt olmaktan çıkar.
İçindekiler
- Benchmark Neden Önemli ve Neden Yetersiz?
- MMLU: Çok Görevli Dil Anlama
- HumanEval ve MBPP: Kod Üretimi Testleri
- SWE-bench: Gerçek GitHub Issue Çözme
- GPQA ve MATH: Uzmanlık ve Akıl Yürütme
- BBH ve BIG-Bench: Kapsamlı Değerlendirme
- 2026 Model Karşılaştırması: Tablo ve Analiz
- Benchmark Gaming: Nasıl Oynanır?
- Gerçek Dünya vs Benchmark Farkı
- Sonuç: Hangi Benchmark'a Güvenebilirsin?
Benchmark Neden Önemli ve Neden Yetersiz?
LLM benchmark'ları özünde bir modelin yeteneklerini standart, tekrarlanabilir biçimde ölçmeye çalışır. Bunun için genellikle çok sorulu test setleri, doğruluk metrikleri ve zaman zaman insan değerlendirmesi kullanılır. Ancak her standardizasyon girişimi gibi bunlar da gerçekliğin bir soyutlaması.
Benchmark'ların Sağladıkları
Makul bir benchmark, modeller arasında _karşılaştırılabilirlik_ sağlar. Aynı test seti, aynı değerlendirme kodu, aynı metrikler. GPT-4.7 ile Gemini 2.5 Pro'yu aynı MMLU test seti üzerinde karşılaştırabilirsin. Trend takibi açısından da değerlidir: bir model ailesinin zaman içinde nasıl ilerlediğini görmek için serinin her versiyonunu aynı benchmark üzerinde test edersin.
Benchmark'ların Sağlamadıkları
İşte kritik nokta: benchmark seti bir modelin _genel zekasını_ ölçmez. Yalnızca o benchmark'a özgü görev türlerindeki performansını ölçer. Bazı problemler:
- Veri sızması (data contamination):: Test setleri modelin eğitim verisinde bulunuyorsa, model ezberden cevap veriyor olabilir. Bu özellikle GPT-4 döneminden bu yana tartışmalı bir konu.
- Prompt formatı duyarlılığı:: Aynı model, aynı soruya farklı prompt formatlarıyla %5-15 farklı skorlar üretebilir.
- Statik snapshot:: Dünya değişiyor ama benchmark seti değişmiyor. 2024'te hazırlanan bir MMLU sorusu 2026'da çoktan "bilinen" bilgi olmuş olabilir.
- İnsan-model farkı:: Benchmarklar insan doğruluğunu referans alır ama insanlar da bu testlerde %85-90 alır. "İnsan üstü" demek test tipinde üstün demek, hayatta üstün değil.
MMLU: Çok Görevli Dil Anlama
MMLU (Massive Multitask Language Understanding), Dan Hendrycks ve ekibi tarafından 2020'de yayımlanan, 57 farklı konuda ~15.000 çoktan seçmeli sorudan oluşan bir benchmark'tır. Tıp, hukuk, matematik, tarih, fizik, etik... Geniş kapsam nedeniyle hâlâ genel dil anlama testi olarak yaygınca kullanılıyor.
Nasıl Ölçülür?
Her soru için 4 şık sunulur, model doğru şıkkı seçer. Ölçüm basit: doğru cevap oranı (accuracy). 5-shot prompting standart haline geldi; modele önce 5 örnek verilir, ardından asıl soru.
python
1# MMLU değerlendirme örneği (basitleştirilmiş)2def run_mmlu_benchmark(model, dataset, num_shots=5):3 correct = 04 total = 05 for subject, questions in dataset.items():6 # Few-shot context hazırla7 shots = questions[:num_shots]8 test_questions = questions[num_shots:]9 10 context = format_shots(shots)11 for q in test_questions:12 prompt = context + format_question(q)13 response = model.generate(prompt)14 predicted = extract_answer(response) # A/B/C/D15 if predicted == q['answer']:16 correct += 117 total += 118 return correct / total2026 MMLU Skorları
Model | MMLU (5-shot) | MMLU-Pro |
|---|---|---|
GPT-4.7 | 91.8% | 74.2% |
Claude Opus 4.7 | 92.3% | 76.1% |
Gemini 2.5 Pro | 90.9% | 73.8% |
Llama 4 Scout | 88.4% | 68.3% |
DeepSeek R1 | 90.1% | 72.6% |
MMLU-Pro nedir? 2024'te yayımlanan, daha zor ve daha az tahmin edilebilir soruları olan geliştirilmiş versiyonu. Modeller artık standart MMLU'yu "doyurmaya" başladığı için Pro versiyonu daha ayırt edici oluyor.
Sınırlamalar
MMLU çoktan seçmeli format kullanıyor. Gerçek dünya görevleri açık uçlu. Ayrıca soruların büyük bölümü 2020 öncesi bilgi gerektiriyor; 2026 modelleri için bu neredeyse "ezber" testine dönüşüyor.
HumanEval ve MBPP: Kod Üretimi Testleri
HumanEval, OpenAI'ın 2021'de yayımladığı Python fonksiyon yazma benchmark'ı. 164 el yazımı programlama problemi içeriyor. Her problem için bir dokümentasyon stringi veriliyor, modelin fonksiyon gövdesini tamamlaması isteniyor.
Değerlendirme Metriği: pass@k
HumanEval'in ilginç tarafı pass@k metriği. Modelden k farklı çözüm üretmesini istiyorsun ve en az biri testleri geçerse başarı sayılıyor.
typescript
1// pass@k hesaplama mantığı2function passAtK(n: number, c: number, k: number): number {3 // n: toplam üretilen çözüm4 // c: geçen çözüm sayısı5 // k: değerlendirme k değeri6 if (n - c < k) return 1.0;7 8 // Kombinatoryal hesaplama: 1 - C(n-c, k) / C(n, k)9 let result = 1.0;10 for (let i = 0; i < k; i++) {11 result *= (n - c - i) / (n - i);12 }13 return 1.0 - result;14}MBPP (Mostly Basic Programming Problems) ise Google'ın 974 basit Python problemi içeren benchmark'ı. HumanEval'e göre daha erişilebilir görevler.
2026 HumanEval Skorları
Model | HumanEval (pass@1) | MBPP |
|---|---|---|
GPT-4.7 | 92.1% | 87.3% |
Claude Opus 4.7 | 91.4% | 86.8% |
Gemini 2.5 Pro | 89.7% | 84.1% |
DeepSeek R1 | 90.3% | 85.6% |
Llama 4 Scout | 85.2% | 79.4% |
HumanEval'in Problemleri
164 sorudan oluşan küçük bir test seti bugün için yetersiz. Modeller bu problemi de ezberlemiş olabilir. EvalPlus gibi genişletilmiş versiyonlar daha güvenilir sonuçlar veriyor.
SWE-bench: Gerçek GitHub Issue Çözme
SWE-bench, 2024 sonlarında akademik dünyada ses getiren bir benchmark. Princeton ve Stanford araştırmacılarının hazırladığı bu test, modele gerçek GitHub repo'larından alınmış issue'lar veriyor ve modelin kodu düzeltmesini bekliyor. Sonra bu düzeltme gerçek test suite'leri üzerinde çalıştırılıyor.
Neden Devrimsel?
"Kodu yaz" testlerinden farklı olarak SWE-bench şunu soruyor: _Gerçek bir production codebase'indeki bir bug'ı düzeltebilir misin?_ Bu çok daha gerçekçi bir LLM yeteneklerini değerlendirme biçimi.
python
1# SWE-bench değerlendirme akışı (kavramsal)2class SWEBenchRunner:3 def run_instance(self, model, instance):4 # 1. Repo'yu klonla, issue context'ini hazırla5 repo = clone_repo(instance['repo'], instance['commit'])6 issue_text = instance['problem_statement']7 8 # 2. Modelden patch üret9 patch = model.generate_patch(10 repo=repo,11 issue=issue_text,12 relevant_files=instance['hints_text']13 )14 15 # 3. Patch'i uygula16 apply_patch(repo, patch)17 18 # 4. Test suite çalıştır19 results = run_tests(repo, instance['test_patch'])20 21 # 5. Tüm testler geçti mi?22 return results.all_passedSWE-bench Verified (2025)
OpenAI, gerçek insan geliştiricilerin doğruladığı daha güvenilir bir alt küme yayımladı. Bu versiyonda:
Model | SWE-bench Verified (Resolved%) |
|---|---|
Claude Opus 4.7 (Agentic) | 72.5% |
GPT-4.7 (Agentic) | 68.9% |
Gemini 2.5 Pro | 63.4% |
DeepSeek R1 | 55.2% |
Llama 4 Scout | 38.7% |
"Agentic" neden önemli? Modeller tek seferlik bir yanıt üretmek yerine araçlar kullanarak (dosya okuma, test çalıştırma, düzeltme) iteratif çalışıyor. Bu, agent mimarisini kullanan modellerden ciddi bir avantaj sağlıyor. Swe-bench.github.io adresinden güncel leaderboard'u takip edebilirsin.
GPQA ve MATH: Uzmanlık ve Akıl Yürütme
GPQA: Graduate-Level Google-Proof Q&A
GPQA, 2023'te yayımlanan ve kasıtlı olarak "Google-proof" yani internette aranarak cevaplanamayacak sorular içeriyor. Biyoloji, kimya ve fizik alanlarında doktora seviyesinde sorular. İnsan uzmanlar bu testte %65 alırken, uzman olmayan insanlar %34 alıyor.
2026 Sonuçları: Claude Opus 4.7 ve GPT-4.7 bu benchmark'ta %88+ ile insan uzmanları geçiyor. Bu, "doktora seviyesi muhakeme" iddiasını destekliyor — ancak bu spesifik test tipinde.
MATH Dataset
Hendrycks ve ekibinin hazırladığı rekabetçi matematik soruları. AMC, AIME gibi yarışmalardan derlenen problemler. Çözüm adımlarını da test ediyor.
python
1# MATH değerlendirmesinde sık yapılan hata: sadece final cevabı kontrol etme2# Doğru yaklaşım: symbolic math checker kullan3from sympy import sympify, simplify4 5def check_math_answer(predicted: str, ground_truth: str) -> bool:6 try:7 pred_expr = sympify(predicted)8 truth_expr = sympify(ground_truth)9 return simplify(pred_expr - truth_expr) == 010 except Exception:11 return predicted.strip() == ground_truth.strip()2026'da MATH Sonuçları: Güçlü frontier modeller %90+ alıyor. Bu özellikle "chain-of-thought" (adım adım düşünme) aktifleştirildiğinde belirgin. Reasoning modelleri (o1-pro, claude-opus-4-7-extended-thinking) bu alanda standart modellerin ~10-15 puan önünde.
BBH ve BIG-Bench: Kapsamlı Değerlendirme
BIG-Bench (Beyond the Imitation Game Benchmark), Google Brain önderliğinde 200+ araştırmacının katkısıyla hazırlanan 200+ farklı görev içeren devasa benchmark. Ancak büyük frontier modeller artık bu benchmark'ın büyük bölümünde doyuma ulaştı.
BIG-Bench Hard (BBH), özellikle modelleri zorlayan 23 görevi çıkararak daha ayırt edici bir alt küme oluşturdu. Mantıksal akıl yürütme, kalibrasyon, counterfactual sorunları içeriyor.
2026 Model Karşılaştırması: Tablo ve Analiz
Benchmark sonuçlarını bir arada değerlendirirken her zaman aynı tarihte, aynı koşullarda yapılan testlere bakmak gerekiyor. Farklı araştırma gruplarının farklı tarihlerde yaptığı ölçümler karşılaştırılamaz.
Güçlü Yönler Matrisi
Model | Muhakeme | Kod | Bilim | Dil | Hız |
|---|---|---|---|---|---|
Claude Opus 4.7 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★ |
GPT-4.7 | ★★★★★ | ★★★★★ | ★★★★ | ★★★★★ | ★★★★ |
Gemini 2.5 Pro | ★★★★ | ★★★★ | ★★★★★ | ★★★★ | ★★★★ |
DeepSeek R1 | ★★★★★ | ★★★★ | ★★★★ | ★★★ | ★★★★★ |
Llama 4 Scout | ★★★ | ★★★ | ★★★ | ★★★ | ★★★★★ |
DeepSeek R1'in dikkat çekici noktası: Açık kaynak olmasına rağmen muhakeme testlerinde frontier modellere rakip olması. DeepSeek R1 hakkında detaylı inceleme yazısına bakabilirsin.
Benchmark Gaming: Nasıl Oynanır?
"Benchmark gaming", modelin gerçekten daha yetenekli olmadan daha yüksek skor almasını sağlayan çeşitli teknikler anlamına geliyor. Bu hem akademik hem de ticari açıdan ciddi bir sorun.
Gaming Türleri
1. Veri kontaminasyonu: Test setinin eğitim verisine sızması. Özellikle internet scraping ile eğitilen modellerde yaygın. Bazı modeller MMLU sorularını doğrudan ezberlemiş olabilir.
2. Prompt mühendisliği optimizasyonu: Benchmark-spesifik prompt formatları kullanmak. "Cevabı A/B/C/D harfiyle ver" gibi yönlendirmeler skor artırabilir.
3. Post-training gaming: RLHF veya benzer fine-tuning süreçlerinde benchmark sorularına ağırlık vermek.
python
1# Contamination detection — basit n-gram overlap kontrolü2def check_contamination(training_data: list[str], test_question: str, n: int = 8):3 test_ngrams = set(get_ngrams(test_question, n))4 5 for doc in training_data:6 doc_ngrams = set(get_ngrams(doc, n))7 overlap = len(test_ngrams & doc_ngrams) / len(test_ngrams)8 9 if overlap > 0.3: # %30+ overlap şüpheli10 return True, overlap11 12 return False, 0.013 14def get_ngrams(text: str, n: int) -> list[tuple]:15 tokens = text.lower().split()16 return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]Gaming'e Karşı Önlemler
- Dinamik benchmark'lar:: Her değerlendirmede farklı soru çekilmesi
- Contamination audit:: Eğitim verisi ve test seti overlap analizi
- Held-out test setleri:: Yalnızca değerlendirme kurumunun erişebildiği gizli setler
- Human preference ranking:: LMSYS Chatbot Arena gibi insan tercih tabanlı platformlar
Gerçek Dünya vs Benchmark Farkı
İşte en önemli mesele: benchmark skoru ile gerçek kullanım deneyimi arasındaki uçurum.
Neden Fark Oluşuyor?
1. Görev türü uyuşmazlığı: Benchmark soruları genellikle kapalı uçlu (tek doğru cevap). Gerçek görevler açık uçlu, belirsiz, çok adımlı.
2. Bağlam uzunluğu: Benchmark soruları kısa. Gerçek kullanımda 50K-200K token context ile çalışabilirsin. Modelin long-context performansı benchmark'ta görünmüyor.
3. Tool use: SWE-bench dışında çoğu benchmark tool use veya agentic behavior içermiyor. Production'da model araç kullanıyor.
4. Güvenilirlik ve tutarlılık: Benchmark tek seferlik doğruluğu ölçüyor. Sen günde 1000 çağrı yapacaksın; modelin aynı soruya her seferinde tutarlı cevap verip vermediği önemli.
Pratik Öneri: Kendi Test Setini Oluştur
Eğer ciddi bir model seçimi yapıyorsan, kendi use-case'ine özgü 50-100 soruluk bir test seti hazırla. Bu, herhangi bir genel benchmark'tan çok daha değerli bilgi verecek.
typescript
1// Custom test framework örneği2interface TestCase {3 id: string;4 input: string;5 expectedOutput?: string;6 judge: (output: string) => { score: number; reason: string };7}8 9async function runCustomTests(10 model: LLMClient,11 cases: TestCase[]12): Promise { 13 const results = await Promise.all(14 cases.map(async (c) => {15 const output = await model.complete(c.input);16 const judgment = c.judge(output);17 return { id: c.id, output, ...judgment };18 })19 );20 21 const avgScore = results.reduce((s, r) => s + r.score, 0) / results.length;22 return { cases: results, avgScore, timestamp: new Date().toISOString() };23}ALTIN İPUCU
Bu yazının en değerli bilgisi
Bu ipucu, yazının en önemli çıkarımını içeriyor.
Easter Egg
Gizli bir bilgi buldun!
Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?
Okuyucu Ödülü
Model karşılaştırması yapmak isteyenler için iki ücretsiz kaynak: **LMSYS Chatbot Arena** (arena.lmsys.org) gerçek kullanıcı tercih oylamasıyla dinamik sıralama yapıyor — benchmark gaming'e karşı en dirençli yöntem. **Scale AI SEAL Leaderboard** ise çeşitli görev türlerinde çok daha granüler breakdown sunuyor. Her iki kaynağı da genel benchmark tablolarına ek olarak kullan.
Sonuç
2026'da LLM benchmark dünyası hem olgunlaştı hem de daha karmaşık hale geldi. MMLU artık doyuma yakın, SWE-bench gerçek dünya yeteneklerini ölçmede devrimsel, HumanEval ise en iyi şekilde EvalPlus ile kullanılıyor.
Model seçimi yaparken: önce kullanım amacını netleştir, ardından o amaca özgü benchmark'lara bak, şüpheliysen kendi test setini oluştur. Genel sıralama tabloları yön gösterir ama karar vermez.
Claude Opus 4.7 veya GPT-5 gibi modelleri production'da kullanmadan önce kendi test sürecinizi mutlaka kurun.

