AI konusunda bu rehber ne anlatıyor?

GPT-4.7, Claude Opus 4.7, Gemini 2.5 Pro ve Llama 4'ün MMLU, HumanEval, SWE-bench skorları; benchmark metodolojileri, sınırlamalar ve gerçek dünya performans farkı.

Bu AI rehberini kimler okumalı?

Bu yazı, AI alanında çalışan orta ve ileri seviye geliştiriciler için hazırlanmıştır. 22 dk okuma okuma süresi ile kapsamlı bilgi sunar.

AI için hangi ön bilgiler gerekli?

Bu rehberi takip etmek için temel AI bilgisi gereklidir. AI, LLM, Benchmark konularında deneyim faydalı olacaktır.

LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

# LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

2026'da yapay zeka modelleri artık benchmark tablosunda yarışan rakamlar değil — gerçek iş süreçlerine entegre olan araçlar. Peki bir modelin "MMLU %92.3" skorunu görünce ne anlamalıyız? Bu sayı sana gerçekten ne söylüyor, ne söylemiyor? Benchmark sektörü hem modellerin hem de değerlendirme yöntemlerinin hızla evrildiği bir dönemde, sayıların arkasındaki metodoloji anlamak hayati önem taşıyor. Bu yazı, 2026'daki önde gelen LLM benchmark'larını derinlemesine inceliyor, her birinin güçlü ve zayıf yönlerini açıklıyor ve en çok konuşulan modellerin gerçek performans farkını ortaya koyuyor.

💡 Pro Tip: Bir model benchmark'ta harika görünüyorsa ama production'da beklentini karşılamıyorsa, önce benchmark'ın ölçtüğü şeyle senin use-case'inin ne kadar örtüştüğünü sorgula. "Goodhart's Law" AI dünyasında da geçerli: bir ölçüt hedef haline gelince, ölçüt olmaktan çıkar.

İçindekiler

Benchmark Neden Önemli ve Neden Yetersiz?
MMLU: Çok Görevli Dil Anlama
HumanEval ve MBPP: Kod Üretimi Testleri
SWE-bench: Gerçek GitHub Issue Çözme
GPQA ve MATH: Uzmanlık ve Akıl Yürütme
BBH ve BIG-Bench: Kapsamlı Değerlendirme
2026 Model Karşılaştırması: Tablo ve Analiz
Benchmark Gaming: Nasıl Oynanır?
Gerçek Dünya vs Benchmark Farkı
Sonuç: Hangi Benchmark'a Güvenebilirsin?

Benchmark Neden Önemli ve Neden Yetersiz?

LLM benchmark'ları özünde bir modelin yeteneklerini standart, tekrarlanabilir biçimde ölçmeye çalışır. Bunun için genellikle çok sorulu test setleri, doğruluk metrikleri ve zaman zaman insan değerlendirmesi kullanılır. Ancak her standardizasyon girişimi gibi bunlar da gerçekliğin bir soyutlaması.

Benchmark'ların Sağladıkları

Makul bir benchmark, modeller arasında _karşılaştırılabilirlik_ sağlar. Aynı test seti, aynı değerlendirme kodu, aynı metrikler. GPT-4.7 ile Gemini 2.5 Pro'yu aynı MMLU test seti üzerinde karşılaştırabilirsin. Trend takibi açısından da değerlidir: bir model ailesinin zaman içinde nasıl ilerlediğini görmek için serinin her versiyonunu aynı benchmark üzerinde test edersin.

Benchmark'ların Sağlamadıkları

İşte kritik nokta: benchmark seti bir modelin _genel zekasını_ ölçmez. Yalnızca o benchmark'a özgü görev türlerindeki performansını ölçer. Bazı problemler:

Veri sızması (data contamination):: Test setleri modelin eğitim verisinde bulunuyorsa, model ezberden cevap veriyor olabilir. Bu özellikle GPT-4 döneminden bu yana tartışmalı bir konu.
Prompt formatı duyarlılığı:: Aynı model, aynı soruya farklı prompt formatlarıyla %5-15 farklı skorlar üretebilir.
Statik snapshot:: Dünya değişiyor ama benchmark seti değişmiyor. 2024'te hazırlanan bir MMLU sorusu 2026'da çoktan "bilinen" bilgi olmuş olabilir.
İnsan-model farkı:: Benchmarklar insan doğruluğunu referans alır ama insanlar da bu testlerde %85-90 alır. "İnsan üstü" demek test tipinde üstün demek, hayatta üstün değil.

MMLU: Çok Görevli Dil Anlama

MMLU (Massive Multitask Language Understanding), Dan Hendrycks ve ekibi tarafından 2020'de yayımlanan, 57 farklı konuda ~15.000 çoktan seçmeli sorudan oluşan bir benchmark'tır. Tıp, hukuk, matematik, tarih, fizik, etik... Geniş kapsam nedeniyle hâlâ genel dil anlama testi olarak yaygınca kullanılıyor.

Nasıl Ölçülür?

Her soru için 4 şık sunulur, model doğru şıkkı seçer. Ölçüm basit: doğru cevap oranı (accuracy). 5-shot prompting standart haline geldi; modele önce 5 örnek verilir, ardından asıl soru.

python

1# MMLU değerlendirme örneği (basitleştirilmiş)
2def run_mmlu_benchmark(model, dataset, num_shots=5):
3    correct = 0
4    total = 0
5    for subject, questions in dataset.items():
6        # Few-shot context hazırla
7        shots = questions[:num_shots]
8        test_questions = questions[num_shots:]
9 
10        context = format_shots(shots)
11        for q in test_questions:
12            prompt = context + format_question(q)
13            response = model.generate(prompt)
14            predicted = extract_answer(response)  # A/B/C/D
15            if predicted == q['answer']:
16                correct += 1
17            total += 1
18    return correct / total

2026 MMLU Skorları

Model	MMLU (5-shot)	MMLU-Pro
GPT-4.7	91.8%	74.2%
Claude Opus 4.7	92.3%	76.1%
Gemini 2.5 Pro	90.9%	73.8%
Llama 4 Scout	88.4%	68.3%
DeepSeek R1	90.1%	72.6%

MMLU-Pro nedir? 2024'te yayımlanan, daha zor ve daha az tahmin edilebilir soruları olan geliştirilmiş versiyonu. Modeller artık standart MMLU'yu "doyurmaya" başladığı için Pro versiyonu daha ayırt edici oluyor.

Sınırlamalar

MMLU çoktan seçmeli format kullanıyor. Gerçek dünya görevleri açık uçlu. Ayrıca soruların büyük bölümü 2020 öncesi bilgi gerektiriyor; 2026 modelleri için bu neredeyse "ezber" testine dönüşüyor.

HumanEval ve MBPP: Kod Üretimi Testleri

HumanEval, OpenAI'ın 2021'de yayımladığı Python fonksiyon yazma benchmark'ı. 164 el yazımı programlama problemi içeriyor. Her problem için bir dokümentasyon stringi veriliyor, modelin fonksiyon gövdesini tamamlaması isteniyor.

Değerlendirme Metriği: pass@k

HumanEval'in ilginç tarafı pass@k metriği. Modelden k farklı çözüm üretmesini istiyorsun ve en az biri testleri geçerse başarı sayılıyor.

typescript

1// pass@k hesaplama mantığı
2function passAtK(n: number, c: number, k: number): number {
3  // n: toplam üretilen çözüm
4  // c: geçen çözüm sayısı
5  // k: değerlendirme k değeri
6  if (n - c < k) return 1.0;
7 
8  // Kombinatoryal hesaplama: 1 - C(n-c, k) / C(n, k)
9  let result = 1.0;
10  for (let i = 0; i < k; i++) {
11    result *= (n - c - i) / (n - i);
12  }
13  return 1.0 - result;
14}

MBPP (Mostly Basic Programming Problems) ise Google'ın 974 basit Python problemi içeren benchmark'ı. HumanEval'e göre daha erişilebilir görevler.

2026 HumanEval Skorları

Model	HumanEval (pass@1)	MBPP
GPT-4.7	92.1%	87.3%
Claude Opus 4.7	91.4%	86.8%
Gemini 2.5 Pro	89.7%	84.1%
DeepSeek R1	90.3%	85.6%
Llama 4 Scout	85.2%	79.4%

HumanEval'in Problemleri

164 sorudan oluşan küçük bir test seti bugün için yetersiz. Modeller bu problemi de ezberlemiş olabilir. EvalPlus gibi genişletilmiş versiyonlar daha güvenilir sonuçlar veriyor.

SWE-bench: Gerçek GitHub Issue Çözme

SWE-bench, 2024 sonlarında akademik dünyada ses getiren bir benchmark. Princeton ve Stanford araştırmacılarının hazırladığı bu test, modele gerçek GitHub repo'larından alınmış issue'lar veriyor ve modelin kodu düzeltmesini bekliyor. Sonra bu düzeltme gerçek test suite'leri üzerinde çalıştırılıyor.

Neden Devrimsel?

"Kodu yaz" testlerinden farklı olarak SWE-bench şunu soruyor: _Gerçek bir production codebase'indeki bir bug'ı düzeltebilir misin?_ Bu çok daha gerçekçi bir LLM yeteneklerini değerlendirme biçimi.

python

1# SWE-bench değerlendirme akışı (kavramsal)
2class SWEBenchRunner:
3    def run_instance(self, model, instance):
4        # 1. Repo'yu klonla, issue context'ini hazırla
5        repo = clone_repo(instance['repo'], instance['commit'])
6        issue_text = instance['problem_statement']
7 
8        # 2. Modelden patch üret
9        patch = model.generate_patch(
10            repo=repo,
11            issue=issue_text,
12            relevant_files=instance['hints_text']
13        )
14 
15        # 3. Patch'i uygula
16        apply_patch(repo, patch)
17 
18        # 4. Test suite çalıştır
19        results = run_tests(repo, instance['test_patch'])
20 
21        # 5. Tüm testler geçti mi?
22        return results.all_passed

SWE-bench Verified (2025)

OpenAI, gerçek insan geliştiricilerin doğruladığı daha güvenilir bir alt küme yayımladı. Bu versiyonda:

Model	SWE-bench Verified (Resolved%)
Claude Opus 4.7 (Agentic)	72.5%
GPT-4.7 (Agentic)	68.9%
Gemini 2.5 Pro	63.4%
DeepSeek R1	55.2%
Llama 4 Scout	38.7%

"Agentic" neden önemli? Modeller tek seferlik bir yanıt üretmek yerine araçlar kullanarak (dosya okuma, test çalıştırma, düzeltme) iteratif çalışıyor. Bu, agent mimarisini kullanan modellerden ciddi bir avantaj sağlıyor. Swe-bench.github.io adresinden güncel leaderboard'u takip edebilirsin.

GPQA ve MATH: Uzmanlık ve Akıl Yürütme

GPQA: Graduate-Level Google-Proof Q&A

GPQA, 2023'te yayımlanan ve kasıtlı olarak "Google-proof" yani internette aranarak cevaplanamayacak sorular içeriyor. Biyoloji, kimya ve fizik alanlarında doktora seviyesinde sorular. İnsan uzmanlar bu testte %65 alırken, uzman olmayan insanlar %34 alıyor.

2026 Sonuçları: Claude Opus 4.7 ve GPT-4.7 bu benchmark'ta %88+ ile insan uzmanları geçiyor. Bu, "doktora seviyesi muhakeme" iddiasını destekliyor — ancak bu spesifik test tipinde.

MATH Dataset

Hendrycks ve ekibinin hazırladığı rekabetçi matematik soruları. AMC, AIME gibi yarışmalardan derlenen problemler. Çözüm adımlarını da test ediyor.

python

1# MATH değerlendirmesinde sık yapılan hata: sadece final cevabı kontrol etme
2# Doğru yaklaşım: symbolic math checker kullan
3from sympy import sympify, simplify
4 
5def check_math_answer(predicted: str, ground_truth: str) -> bool:
6    try:
7        pred_expr = sympify(predicted)
8        truth_expr = sympify(ground_truth)
9        return simplify(pred_expr - truth_expr) == 0
10    except Exception:
11        return predicted.strip() == ground_truth.strip()

2026'da MATH Sonuçları: Güçlü frontier modeller %90+ alıyor. Bu özellikle "chain-of-thought" (adım adım düşünme) aktifleştirildiğinde belirgin. Reasoning modelleri (o1-pro, claude-opus-4-7-extended-thinking) bu alanda standart modellerin ~10-15 puan önünde.

BBH ve BIG-Bench: Kapsamlı Değerlendirme

BIG-Bench (Beyond the Imitation Game Benchmark), Google Brain önderliğinde 200+ araştırmacının katkısıyla hazırlanan 200+ farklı görev içeren devasa benchmark. Ancak büyük frontier modeller artık bu benchmark'ın büyük bölümünde doyuma ulaştı.

BIG-Bench Hard (BBH), özellikle modelleri zorlayan 23 görevi çıkararak daha ayırt edici bir alt küme oluşturdu. Mantıksal akıl yürütme, kalibrasyon, counterfactual sorunları içeriyor.

2026 Model Karşılaştırması: Tablo ve Analiz

Benchmark sonuçlarını bir arada değerlendirirken her zaman aynı tarihte, aynı koşullarda yapılan testlere bakmak gerekiyor. Farklı araştırma gruplarının farklı tarihlerde yaptığı ölçümler karşılaştırılamaz.

Güçlü Yönler Matrisi

Model	Muhakeme	Kod	Bilim	Dil	Hız
Claude Opus 4.7	★★★★★	★★★★★	★★★★★	★★★★★	★★★
GPT-4.7	★★★★★	★★★★★	★★★★	★★★★★	★★★★
Gemini 2.5 Pro	★★★★	★★★★	★★★★★	★★★★	★★★★
DeepSeek R1	★★★★★	★★★★	★★★★	★★★	★★★★★
Llama 4 Scout	★★★	★★★	★★★	★★★	★★★★★

DeepSeek R1'in dikkat çekici noktası: Açık kaynak olmasına rağmen muhakeme testlerinde frontier modellere rakip olması. DeepSeek R1 hakkında detaylı inceleme yazısına bakabilirsin.

Benchmark Gaming: Nasıl Oynanır?

"Benchmark gaming", modelin gerçekten daha yetenekli olmadan daha yüksek skor almasını sağlayan çeşitli teknikler anlamına geliyor. Bu hem akademik hem de ticari açıdan ciddi bir sorun.

Gaming Türleri

1. Veri kontaminasyonu: Test setinin eğitim verisine sızması. Özellikle internet scraping ile eğitilen modellerde yaygın. Bazı modeller MMLU sorularını doğrudan ezberlemiş olabilir.

2. Prompt mühendisliği optimizasyonu: Benchmark-spesifik prompt formatları kullanmak. "Cevabı A/B/C/D harfiyle ver" gibi yönlendirmeler skor artırabilir.

3. Post-training gaming: RLHF veya benzer fine-tuning süreçlerinde benchmark sorularına ağırlık vermek.

python

1# Contamination detection — basit n-gram overlap kontrolü
2def check_contamination(training_data: list[str], test_question: str, n: int = 8):
3    test_ngrams = set(get_ngrams(test_question, n))
4 
5    for doc in training_data:
6        doc_ngrams = set(get_ngrams(doc, n))
7        overlap = len(test_ngrams & doc_ngrams) / len(test_ngrams)
8 
9        if overlap > 0.3:  # %30+ overlap şüpheli
10            return True, overlap
11 
12    return False, 0.0
13 
14def get_ngrams(text: str, n: int) -> list[tuple]:
15    tokens = text.lower().split()
16    return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

Gaming'e Karşı Önlemler

Dinamik benchmark'lar:: Her değerlendirmede farklı soru çekilmesi
Contamination audit:: Eğitim verisi ve test seti overlap analizi
Held-out test setleri:: Yalnızca değerlendirme kurumunun erişebildiği gizli setler
Human preference ranking:: LMSYS Chatbot Arena gibi insan tercih tabanlı platformlar

Gerçek Dünya vs Benchmark Farkı

İşte en önemli mesele: benchmark skoru ile gerçek kullanım deneyimi arasındaki uçurum.

Neden Fark Oluşuyor?

1. Görev türü uyuşmazlığı: Benchmark soruları genellikle kapalı uçlu (tek doğru cevap). Gerçek görevler açık uçlu, belirsiz, çok adımlı.

2. Bağlam uzunluğu: Benchmark soruları kısa. Gerçek kullanımda 50K-200K token context ile çalışabilirsin. Modelin long-context performansı benchmark'ta görünmüyor.

3. Tool use: SWE-bench dışında çoğu benchmark tool use veya agentic behavior içermiyor. Production'da model araç kullanıyor.

4. Güvenilirlik ve tutarlılık: Benchmark tek seferlik doğruluğu ölçüyor. Sen günde 1000 çağrı yapacaksın; modelin aynı soruya her seferinde tutarlı cevap verip vermediği önemli.

Pratik Öneri: Kendi Test Setini Oluştur

Eğer ciddi bir model seçimi yapıyorsan, kendi use-case'ine özgü 50-100 soruluk bir test seti hazırla. Bu, herhangi bir genel benchmark'tan çok daha değerli bilgi verecek.

typescript

1// Custom test framework örneği
2interface TestCase {
3  id: string;
4  input: string;
5  expectedOutput?: string;
6  judge: (output: string) => { score: number; reason: string };
7}
8 
9async function runCustomTests(
10  model: LLMClient,
11  cases: TestCase[]
12): Promise<TestReport> {
13  const results = await Promise.all(
14    cases.map(async (c) => {
15      const output = await model.complete(c.input);
16      const judgment = c.judge(output);
17      return { id: c.id, output, ...judgment };
18    })
19  );
20 
21  const avgScore = results.reduce((s, r) => s + r.score, 0) / results.length;
22  return { cases: results, avgScore, timestamp: new Date().toISOString() };
23}

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Model karşılaştırması yapmak isteyenler için iki ücretsiz kaynak: **LMSYS Chatbot Arena** (arena.lmsys.org) gerçek kullanıcı tercih oylamasıyla dinamik sıralama yapıyor — benchmark gaming'e karşı en dirençli yöntem. **Scale AI SEAL Leaderboard** ise çeşitli görev türlerinde çok daha granüler breakdown sunuyor. Her iki kaynağı da genel benchmark tablolarına ek olarak kullan.

Sonuç

2026'da LLM benchmark dünyası hem olgunlaştı hem de daha karmaşık hale geldi. MMLU artık doyuma yakın, SWE-bench gerçek dünya yeteneklerini ölçmede devrimsel, HumanEval ise en iyi şekilde EvalPlus ile kullanılıyor.

Model seçimi yaparken: önce kullanım amacını netleştir, ardından o amaca özgü benchmark'lara bak, şüpheliysen kendi test setini oluştur. Genel sıralama tabloları yön gösterir ama karar vermez.

Claude Opus 4.7 veya GPT-5 gibi modelleri production'da kullanmadan önce kendi test sürecinizi mutlaka kurun.

Etiketler

#AI#LLM#Benchmark#MMLU#HumanEval#SWE-bench#AI Evaluation#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

# LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

💡 Pro Tip: Bir model benchmark'ta harika görünüyorsa ama production'da beklentini karşılamıyorsa, önce benchmark'ın ölçtüğü şeyle senin use-case'inin ne kadar örtüştüğünü sorgula. "Goodhart's Law" AI dünyasında da geçerli: bir ölçüt hedef haline gelince, ölçüt olmaktan çıkar.

İçindekiler

Benchmark Neden Önemli ve Neden Yetersiz?
MMLU: Çok Görevli Dil Anlama
HumanEval ve MBPP: Kod Üretimi Testleri
SWE-bench: Gerçek GitHub Issue Çözme
GPQA ve MATH: Uzmanlık ve Akıl Yürütme
BBH ve BIG-Bench: Kapsamlı Değerlendirme
2026 Model Karşılaştırması: Tablo ve Analiz
Benchmark Gaming: Nasıl Oynanır?
Gerçek Dünya vs Benchmark Farkı
Sonuç: Hangi Benchmark'a Güvenebilirsin?

Benchmark Neden Önemli ve Neden Yetersiz?

Benchmark'ların Sağladıkları

Benchmark'ların Sağlamadıkları

İşte kritik nokta: benchmark seti bir modelin _genel zekasını_ ölçmez. Yalnızca o benchmark'a özgü görev türlerindeki performansını ölçer. Bazı problemler:

Veri sızması (data contamination):: Test setleri modelin eğitim verisinde bulunuyorsa, model ezberden cevap veriyor olabilir. Bu özellikle GPT-4 döneminden bu yana tartışmalı bir konu.
Prompt formatı duyarlılığı:: Aynı model, aynı soruya farklı prompt formatlarıyla %5-15 farklı skorlar üretebilir.
Statik snapshot:: Dünya değişiyor ama benchmark seti değişmiyor. 2024'te hazırlanan bir MMLU sorusu 2026'da çoktan "bilinen" bilgi olmuş olabilir.
İnsan-model farkı:: Benchmarklar insan doğruluğunu referans alır ama insanlar da bu testlerde %85-90 alır. "İnsan üstü" demek test tipinde üstün demek, hayatta üstün değil.

MMLU: Çok Görevli Dil Anlama

Nasıl Ölçülür?

python

1# MMLU değerlendirme örneği (basitleştirilmiş)
2def run_mmlu_benchmark(model, dataset, num_shots=5):
3    correct = 0
4    total = 0
5    for subject, questions in dataset.items():
6        # Few-shot context hazırla
7        shots = questions[:num_shots]
8        test_questions = questions[num_shots:]
9 
10        context = format_shots(shots)
11        for q in test_questions:
12            prompt = context + format_question(q)
13            response = model.generate(prompt)
14            predicted = extract_answer(response)  # A/B/C/D
15            if predicted == q['answer']:
16                correct += 1
17            total += 1
18    return correct / total

2026 MMLU Skorları

Model	MMLU (5-shot)	MMLU-Pro
GPT-4.7	91.8%	74.2%
Claude Opus 4.7	92.3%	76.1%
Gemini 2.5 Pro	90.9%	73.8%
Llama 4 Scout	88.4%	68.3%
DeepSeek R1	90.1%	72.6%

Sınırlamalar

HumanEval ve MBPP: Kod Üretimi Testleri

Değerlendirme Metriği: pass@k

HumanEval'in ilginç tarafı pass@k metriği. Modelden k farklı çözüm üretmesini istiyorsun ve en az biri testleri geçerse başarı sayılıyor.

typescript

1// pass@k hesaplama mantığı
2function passAtK(n: number, c: number, k: number): number {
3  // n: toplam üretilen çözüm
4  // c: geçen çözüm sayısı
5  // k: değerlendirme k değeri
6  if (n - c < k) return 1.0;
7 
8  // Kombinatoryal hesaplama: 1 - C(n-c, k) / C(n, k)
9  let result = 1.0;
10  for (let i = 0; i < k; i++) {
11    result *= (n - c - i) / (n - i);
12  }
13  return 1.0 - result;
14}

MBPP (Mostly Basic Programming Problems) ise Google'ın 974 basit Python problemi içeren benchmark'ı. HumanEval'e göre daha erişilebilir görevler.

2026 HumanEval Skorları

Model	HumanEval (pass@1)	MBPP
GPT-4.7	92.1%	87.3%
Claude Opus 4.7	91.4%	86.8%
Gemini 2.5 Pro	89.7%	84.1%
DeepSeek R1	90.3%	85.6%
Llama 4 Scout	85.2%	79.4%

HumanEval'in Problemleri

164 sorudan oluşan küçük bir test seti bugün için yetersiz. Modeller bu problemi de ezberlemiş olabilir. EvalPlus gibi genişletilmiş versiyonlar daha güvenilir sonuçlar veriyor.

SWE-bench: Gerçek GitHub Issue Çözme

Neden Devrimsel?

python

1# SWE-bench değerlendirme akışı (kavramsal)
2class SWEBenchRunner:
3    def run_instance(self, model, instance):
4        # 1. Repo'yu klonla, issue context'ini hazırla
5        repo = clone_repo(instance['repo'], instance['commit'])
6        issue_text = instance['problem_statement']
7 
8        # 2. Modelden patch üret
9        patch = model.generate_patch(
10            repo=repo,
11            issue=issue_text,
12            relevant_files=instance['hints_text']
13        )
14 
15        # 3. Patch'i uygula
16        apply_patch(repo, patch)
17 
18        # 4. Test suite çalıştır
19        results = run_tests(repo, instance['test_patch'])
20 
21        # 5. Tüm testler geçti mi?
22        return results.all_passed

SWE-bench Verified (2025)

OpenAI, gerçek insan geliştiricilerin doğruladığı daha güvenilir bir alt küme yayımladı. Bu versiyonda:

Model	SWE-bench Verified (Resolved%)
Claude Opus 4.7 (Agentic)	72.5%
GPT-4.7 (Agentic)	68.9%
Gemini 2.5 Pro	63.4%
DeepSeek R1	55.2%
Llama 4 Scout	38.7%

GPQA ve MATH: Uzmanlık ve Akıl Yürütme

GPQA: Graduate-Level Google-Proof Q&A

2026 Sonuçları: Claude Opus 4.7 ve GPT-4.7 bu benchmark'ta %88+ ile insan uzmanları geçiyor. Bu, "doktora seviyesi muhakeme" iddiasını destekliyor — ancak bu spesifik test tipinde.

MATH Dataset

Hendrycks ve ekibinin hazırladığı rekabetçi matematik soruları. AMC, AIME gibi yarışmalardan derlenen problemler. Çözüm adımlarını da test ediyor.

python

1# MATH değerlendirmesinde sık yapılan hata: sadece final cevabı kontrol etme
2# Doğru yaklaşım: symbolic math checker kullan
3from sympy import sympify, simplify
4 
5def check_math_answer(predicted: str, ground_truth: str) -> bool:
6    try:
7        pred_expr = sympify(predicted)
8        truth_expr = sympify(ground_truth)
9        return simplify(pred_expr - truth_expr) == 0
10    except Exception:
11        return predicted.strip() == ground_truth.strip()

BBH ve BIG-Bench: Kapsamlı Değerlendirme

2026 Model Karşılaştırması: Tablo ve Analiz

Güçlü Yönler Matrisi

Model	Muhakeme	Kod	Bilim	Dil	Hız
Claude Opus 4.7	★★★★★	★★★★★	★★★★★	★★★★★	★★★
GPT-4.7	★★★★★	★★★★★	★★★★	★★★★★	★★★★
Gemini 2.5 Pro	★★★★	★★★★	★★★★★	★★★★	★★★★
DeepSeek R1	★★★★★	★★★★	★★★★	★★★	★★★★★
Llama 4 Scout	★★★	★★★	★★★	★★★	★★★★★

DeepSeek R1'in dikkat çekici noktası: Açık kaynak olmasına rağmen muhakeme testlerinde frontier modellere rakip olması. DeepSeek R1 hakkında detaylı inceleme yazısına bakabilirsin.

Benchmark Gaming: Nasıl Oynanır?

"Benchmark gaming", modelin gerçekten daha yetenekli olmadan daha yüksek skor almasını sağlayan çeşitli teknikler anlamına geliyor. Bu hem akademik hem de ticari açıdan ciddi bir sorun.

Gaming Türleri

1. Veri kontaminasyonu: Test setinin eğitim verisine sızması. Özellikle internet scraping ile eğitilen modellerde yaygın. Bazı modeller MMLU sorularını doğrudan ezberlemiş olabilir.

2. Prompt mühendisliği optimizasyonu: Benchmark-spesifik prompt formatları kullanmak. "Cevabı A/B/C/D harfiyle ver" gibi yönlendirmeler skor artırabilir.

3. Post-training gaming: RLHF veya benzer fine-tuning süreçlerinde benchmark sorularına ağırlık vermek.

python

1# Contamination detection — basit n-gram overlap kontrolü
2def check_contamination(training_data: list[str], test_question: str, n: int = 8):
3    test_ngrams = set(get_ngrams(test_question, n))
4 
5    for doc in training_data:
6        doc_ngrams = set(get_ngrams(doc, n))
7        overlap = len(test_ngrams & doc_ngrams) / len(test_ngrams)
8 
9        if overlap > 0.3:  # %30+ overlap şüpheli
10            return True, overlap
11 
12    return False, 0.0
13 
14def get_ngrams(text: str, n: int) -> list[tuple]:
15    tokens = text.lower().split()
16    return [tuple(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

Gaming'e Karşı Önlemler

Dinamik benchmark'lar:: Her değerlendirmede farklı soru çekilmesi
Contamination audit:: Eğitim verisi ve test seti overlap analizi
Held-out test setleri:: Yalnızca değerlendirme kurumunun erişebildiği gizli setler
Human preference ranking:: LMSYS Chatbot Arena gibi insan tercih tabanlı platformlar

Gerçek Dünya vs Benchmark Farkı

İşte en önemli mesele: benchmark skoru ile gerçek kullanım deneyimi arasındaki uçurum.

Neden Fark Oluşuyor?

1. Görev türü uyuşmazlığı: Benchmark soruları genellikle kapalı uçlu (tek doğru cevap). Gerçek görevler açık uçlu, belirsiz, çok adımlı.

2. Bağlam uzunluğu: Benchmark soruları kısa. Gerçek kullanımda 50K-200K token context ile çalışabilirsin. Modelin long-context performansı benchmark'ta görünmüyor.

3. Tool use: SWE-bench dışında çoğu benchmark tool use veya agentic behavior içermiyor. Production'da model araç kullanıyor.

4. Güvenilirlik ve tutarlılık: Benchmark tek seferlik doğruluğu ölçüyor. Sen günde 1000 çağrı yapacaksın; modelin aynı soruya her seferinde tutarlı cevap verip vermediği önemli.

Pratik Öneri: Kendi Test Setini Oluştur

Eğer ciddi bir model seçimi yapıyorsan, kendi use-case'ine özgü 50-100 soruluk bir test seti hazırla. Bu, herhangi bir genel benchmark'tan çok daha değerli bilgi verecek.

typescript

1// Custom test framework örneği
2interface TestCase {
3  id: string;
4  input: string;
5  expectedOutput?: string;
6  judge: (output: string) => { score: number; reason: string };
7}
8 
9async function runCustomTests(
10  model: LLMClient,
11  cases: TestCase[]
12): Promise<TestReport> {
13  const results = await Promise.all(
14    cases.map(async (c) => {
15      const output = await model.complete(c.input);
16      const judgment = c.judge(output);
17      return { id: c.id, output, ...judgment };
18    })
19  );
20 
21  const avgScore = results.reduce((s, r) => s + r.score, 0) / results.length;
22  return { cases: results, avgScore, timestamp: new Date().toISOString() };
23}

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Sonuç

Claude Opus 4.7 veya GPT-5 gibi modelleri production'da kullanmadan önce kendi test sürecinizi mutlaka kurun.

Etiketler

#AI#LLM#Benchmark#MMLU#HumanEval#SWE-bench#AI Evaluation#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

Benchmark'ların Sağladıkları

Benchmark'ların Sağlamadıkları

Nasıl Ölçülür?

2026 MMLU Skorları

Sınırlamalar

Değerlendirme Metriği: pass@k

2026 HumanEval Skorları

HumanEval'in Problemleri

Neden Devrimsel?

SWE-bench Verified (2025)

GPQA: Graduate-Level Google-Proof Q&A

MATH Dataset

Güçlü Yönler Matrisi

Gaming Türleri

Gaming'e Karşı Önlemler

Neden Fark Oluşuyor?

Pratik Öneri: Kendi Test Setini Oluştur

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

MCP (Model Context Protocol): AI Entegrasyon Standardı

RAG mı Fine-tuning mi? Production LLM Kararları için Kesin Rehber

İlgili Yazılar

Claude 4.6 Opus: 2026'nin En Güçlü AI Modeli

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

Codex vs Claude Code vs Gemini Code Assist: 2026 Savaşı

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

Claude Code Hooks: Pre-Commit ve Post-Commit Otomasyonu

İlgili Karşılaştırmalar

Claude vs ChatGPT — Yazılım Geliştirme İçin

Cursor vs GitHub Copilot

v0 (Vercel) vs Bolt.new

İlgili İçerik

LLM Benchmarks 2026: MMLU, HumanEval, SWE-bench ve Gerçek Performans

Benchmark'ların Sağladıkları

Benchmark'ların Sağlamadıkları

Nasıl Ölçülür?

2026 MMLU Skorları

Sınırlamalar

Değerlendirme Metriği: pass@k

2026 HumanEval Skorları

HumanEval'in Problemleri

Neden Devrimsel?

SWE-bench Verified (2025)

GPQA: Graduate-Level Google-Proof Q&A

MATH Dataset

Güçlü Yönler Matrisi

Gaming Türleri

Gaming'e Karşı Önlemler

Neden Fark Oluşuyor?

Pratik Öneri: Kendi Test Setini Oluştur

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

MCP (Model Context Protocol): AI Entegrasyon Standardı

RAG mı Fine-tuning mi? Production LLM Kararları için Kesin Rehber

İlgili Yazılar

Claude 4.6 Opus: 2026'nin En Güçlü AI Modeli

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

Codex vs Claude Code vs Gemini Code Assist: 2026 Savaşı

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

Claude Code Hooks: Pre-Commit ve Post-Commit Otomasyonu

İlgili Karşılaştırmalar

Claude vs ChatGPT — Yazılım Geliştirme İçin

Cursor vs GitHub Copilot

v0 (Vercel) vs Bolt.new

İlgili İçerik