Tüm Yazılar
KategoriAI
Okuma Süresi
28 dk okuma
Yayın Tarihi
...
Kelime Sayısı
2.342kelime

Kahveni hazırla - bu içerikli bir makale!

Llama 4 Scout, Maverick ve Behemoth modelleri, Mixture of Experts mimarisi, 10M context window, açık ağırlık lisanslama ve fine-tuning rehberi. Kapsamlı analiz.

Meta Llama 4: Açık Kaynak LLM Devrimi

# Meta Llama 4: Açık Kaynak LLM Devrimi

Yapay zeka dünyasında açık kaynak ve kapalı kaynak modeller arasındaki yarış kızışıyor. OpenAI ve Anthropic kapalı modelleriyle öne çıkarken, Meta Llama serisiyle açık ağırlık (open-weight) cephesini liderliğe taşıdı. Llama 4, Mixture of Experts (MoE) mimarisi, 10 milyon token context window ve multimodal yetenekleriyle yapay zeka tarihinde yeni bir sayfa açıyor. Scout, Maverick ve Behemoth olmak üzere üç farklı model sunan Llama 4 ailesi, GPT-4o ve Gemini 2.0 Flash'ı geride bırakan benchmark sonuçlarıyla dikkat çekiyor. Bu yazıda Llama 4'ün mimarisinden fine-tuning rehberine, deployment stratejilerinden lisanslama detaylarına kadar her şeyi kapsamlı olarak ele alacağız.

💡 Pro Tip: Llama 4, açık ağırlık modellerle ne yapılabileceğinin sınırlarını genişletti. Kendi verilerinle fine-tune edebilir, kendi sunucunda çalıştırabilir ve veri gizliliğini tamamen kontrol altında tutabilirsin. Bu, kurumsal uygulamalar için oyun değiştirici bir avantaj.

İçindekiler


1. Llama 4 Ailesi: Scout, Maverick, Behemoth

Meta, Llama 4'ü üç farklı boyut ve kapasitede sunuyor. Her model farklı kullanım senaryoları için optimize edilmiş:

Model Karşılaştırması

Özellik
Scout
Maverick
Behemoth
**Aktif Parametre**
17B
17B
288B
**Toplam Parametre**
109B
400B+
2T+
**Expert Sayısı**
16
128
16
**Context Window**
10M token
1M token
**Multimodal**
Evet
Evet
Evet
**Donanım**
1x H100 (INT4)
1x H100 host
Çoklu H100
**Durum**
Yayında
Yayında
Eğitimde

Dikkat çekici nokta: Scout ve Maverick'in aktif parametre sayıları aynı (17B). Fark, toplam parametre ve expert sayısında. Scout 16 expert ile daha kompakt ama 10M context window'a sahip. Maverick ise 128 expert ile daha geniş bilgi kapasitesine sahip ama context window 1M ile sınırlı.

Hangi Model Ne Zaman?

typescript
1// Llama 4 model seçim rehberi
2const modelSelectionGuide = {
3 scout: {
4 bestFor: [
5 'Uzun doküman analizi (10M context)',
6 'Büyük kod tabanı inceleme',
7 'Kitap/makale özetleme',
8 'Sınırlı GPU kaynağı (tek H100)',
9 ],
10 notFor: [
11 'Karmaşık çok adımlı muhakeme',
12 'Yaratıcı içerik üretimi',
13 ],
14 },
15 
16 maverick: {
17 bestFor: [
18 'Genel amaçlı AI asistan',
19 'Kod üretimi ve debug',
20 'Multimodal görevler (görsel + metin)',
21 'Chatbot ve konuşma AI',
22 ],
23 notFor: [
24 '10M+ token gerektiren görevler',
25 'Çok düşük bütçe (tek GPU'da INT4 zor)',
26 ],
27 },
28 
29 behemoth: {
30 bestFor: [
31 'STEM ve bilimsel araştırma',
32 'İleri düzey muhakeme',
33 'Distillation (küçük modellere bilgi aktarımı)',
34 'Benchmark yarışması',
35 ],
36 notFor: [
37 'Henüz yayınlanmadı — bekle',
38 ],
39 },
40};

2. Mixture of Experts (MoE) Mimarisi

Llama 4, Meta'nın ilk MoE mimarisine sahip model ailesi. MoE, yapay zeka modellerinin eğitim ve çıkarım verimliliğini dramatik şekilde artıran bir mimari yaklaşım.

MoE Nedir?

Geleneksel "dense" (yoğun) modellerde her girdi, modelin tüm parametrelerinden geçer. 70B parametreli bir modelde her token için 70B parametre hesaplanır. MoE mimarisinde ise her girdi sadece belirli "expert" alt modellerinden geçer — tüm model aktif olmaz.

typescript
1// MoE mimarisi soyutlaması
2interface MixtureOfExperts {
3 // Router: Girdinin hangi expert'lere gideceğini belirler
4 router: {
5 type: 'learned-gating';
6 topK: 2; // Her token için en uygun 2 expert seçilir
7 loadBalancing: true; // Expert'ler arası yük dengeleme
8 };
9 
10 // Expert'ler: Uzmanlaşmış alt modeller
11 experts: {
12 count: 16 | 128; // Scout: 16, Maverick: 128
13 parameterPerExpert: string;
14 specialization: 'implicit'; // Eğitim sırasında otomatik uzmanlaşma
15 };
16 
17 // Verimlilik kazanımı
18 efficiency: {
19 activeParams: '17B'; // Her token için aktif parametre
20 totalParams: '109B-400B+'; // Toplam parametre
21 computeSavings: '~6x-24x'; // Dense modele göre tasarruf
22 };
23 
24 // Maverick özel yapısı
25 maverickArchitecture: {
26 layerType: 'alternating'; // MoE ve dense katmanlar dönüşümlü
27 moeLayerRatio: 0.5; // Katmanların yarısı MoE
28 };
29}

MoE'nin Avantajları ve Dezavantajları

Avantaj
Dezavantaj
Daha az hesaplama maliyeti
Daha fazla toplam RAM gereksinimi
Daha hızlı çıkarım (inference)
Expert dengesizliği riski
Uzmanlaşmış bilgi kapasitesi
Eğitim karmaşıklığı
Ölçeklenebilirlik
Fine-tuning zorlukları

Swift Async/Await yazımızda anlattığımız concurrency gibi, MoE de aslında "paralel uzmanlaşma" prensibi üzerine kurulu. Her expert farklı bir görev türünde uzmanlaşıyor — tıpkı async task'ların farklı işleri paralel yapması gibi.


3. 10 Milyon Token Context Window

Llama 4 Scout'un en çarpıcı özelliği 10 milyon token context window. Bu ne anlama geliyor? Kabaca 7.5 milyon kelime veya 15.000 sayfalık metin. Tek seferde birden fazla kitabı okuyabilecek bir model.

Context Window Karşılaştırması

Model
Context Window
Yaklaşık Sayfa
GPT-4 Turbo
128K
200
Claude 3 Opus
200K
300
Gemini 1.5 Pro
2M
3.000
**Llama 4 Scout**
**10M**
**15.000**
Llama 4 Maverick
1M
1.500

Pratik Kullanım Senaryoları

typescript
1// 10M context window kullanım senaryoları
2const longContextUseCases = {
3 // 1. Büyük kod tabanı analizi
4 codeAnalysis: {
5 scenario: 'Tüm proje kodunu yükle, mimari analiz iste',
6 tokenUsage: '500K-5M',
7 example: 'Bu 200 dosyalık React projesinin mimarisini analiz et, iyileştirme öner',
8 },
9 
10 // 2. Hukuki doküman inceleme
11 legalReview: {
12 scenario: 'Yüzlerce sayfalık sözleşmeleri karşılaştır',
13 tokenUsage: '1M-5M',
14 example: '3 sözleşme arasındaki farklılıkları listele, risk analizi yap',
15 },
16 
17 // 3. Araştırma sentezi
18 researchSynthesis: {
19 scenario: 'Onlarca akademik makaleyi analiz et',
20 tokenUsage: '2M-8M',
21 example: '50 ML makalesini oku, ortak bulguları ve çelişkileri raporla',
22 },
23 
24 // 4. Repository-level kod üretimi
25 repoLevelCoding: {
26 scenario: 'Tüm projenin context\'inde kod yaz',
27 tokenUsage: '1M-3M',
28 example: 'Bu projeye yeni bir modül ekle, mevcut mimariyle tutarlı olsun',
29 },
30};

10M context window, RAG (Retrieval Augmented Generation) ihtiyacını azaltıyor. Firebase Advanced yazımızda anlattığımız veri sorgulama yerine, tüm veriyi doğrudan modele verebilirsin. Ama dikkat: context ne kadar büyükse, dikkat mekanizması (attention) o kadar zorlanır. "Needle in a haystack" (samanlıkta iğne) testlerinde uzun context'lerde doğruluk düşebilir.

💡 Pro Tip: 10M context kullanırken, kritik bilgileri metnin başına veya sonuna koy. LLM'ler uzun metinlerin ortasındaki bilgileri kaçırma eğiliminde — buna "lost in the middle" problemi deniyor.

4. Benchmark Karşılaştırmaları

Meta, Llama 4'ün benchmark sonuçlarını açıkça paylaştı. İşte rakiplerle karşılaştırma:

Scout Benchmark Sonuçları

Benchmark
Scout
Gemma 3
Gemini 2.0 Flash-Lite
Mistral 3.1
**MMLU**
79.6
75.2
74.8
73.1
**HumanEval**
72.0
68.5
70.1
67.3
**MATH**
63.5
58.2
60.7
55.4

Maverick Benchmark Sonuçları

Benchmark
Maverick
GPT-4o
Gemini 2.0 Flash
**MMLU**
85.2
83.7
84.1
**HumanEval**
81.5
80.2
79.8
**MATH**
71.3
70.8
69.5
**Multimodal (MMMU)**
73.4
72.1
71.8

Behemoth (Ön Sonuçlar)

Behemoth henüz eğitim aşamasında ama Meta'nın paylaştığı ön sonuçlara göre GPT-4.5, Claude Sonnet 3.7 ve Gemini 2.0 Pro'yu STEM benchmark'larında geride bırakıyor. Bu doğrulanırsa, açık ağırlık bir modelin ilk kez en üst tier kapalı modelleri geçmesi anlamına gelecek.


5. Fine-Tuning Rehberi

Llama 4'ün en büyük avantajlarından biri, kendi verilerinle fine-tune edebilmen. İşte adım adım fine-tuning süreci:

Fine-Tuning Yöntemleri

typescript
1// Llama 4 fine-tuning yöntemleri
2interface FineTuningMethods {
3 // 1. Full Fine-Tuning
4 fullFineTuning: {
5 description: 'Tüm model ağırlıkları güncellenir';
6 gpuRequirement: '8x H100 (Scout), 16x+ H100 (Maverick)';
7 dataRequirement: '10K-100K+ örnek';
8 trainingTime: 'Saatler-Günler';
9 bestFor: 'Domaine özel tam adaptasyon';
10 };
11 
12 // 2. LoRA (Low-Rank Adaptation)
13 lora: {
14 description: 'Düşük boyutlu adaptör katmanları eklenir';
15 gpuRequirement: '1-2x H100 (Scout), 4x H100 (Maverick)';
16 dataRequirement: '1K-10K örnek';
17 trainingTime: 'Dakikalar-Saatler';
18 bestFor: 'Maliyet-verimli adaptasyon';
19 };
20 
21 // 3. QLoRA (Quantized LoRA)
22 qlora: {
23 description: 'Kuantize model + LoRA';
24 gpuRequirement: '1x A100/H100 (Scout)';
25 dataRequirement: '1K-10K örnek';
26 trainingTime: 'Dakikalar';
27 bestFor: 'Sınırlı GPU ile fine-tuning';
28 };
29}

Pratik Fine-Tuning Adımları

typescript
1// QLoRA ile Llama 4 Scout fine-tuning pipeline
2const fineTuningPipeline = {
3 // Adım 1: Ortam hazırlığı
4 setup: {
5 framework: 'Hugging Face Transformers + PEFT',
6 gpu: 'NVIDIA H100 80GB (minimum A100 40GB)',
7 pythonVersion: '3.11+',
8 dependencies: [
9 'transformers >= 4.40',
10 'peft >= 0.10',
11 'bitsandbytes >= 0.43',
12 'datasets',
13 'trl',
14 ],
15 },
16 
17 // Adım 2: Veri hazırlığı
18 dataPreparation: {
19 format: 'instruction-response çiftleri',
20 minSamples: 1000,
21 maxSamples: 50000,
22 quality: 'Yüksek kaliteli, tutarlı, doğrulanmış',
23 structure: {
24 instruction: 'Kullanıcı sorusu veya komutu',
25 input: 'Opsiyonel ek bağlam',
26 output: 'Beklenen model yanıtı',
27 },
28 },
29 
30 // Adım 3: Hiperparametreler
31 hyperparameters: {
32 learningRate: 2e-4,
33 batchSize: 4,
34 gradientAccumulationSteps: 8,
35 epochs: 3,
36 warmupRatio: 0.03,
37 loraRank: 64,
38 loraAlpha: 128,
39 loraDropout: 0.05,
40 targetModules: ['q_proj', 'k_proj', 'v_proj', 'o_proj'],
41 },
42};

Fine-tuning sürecinde dikkat edilmesi gereken kritik noktalar:

  • Veri kalitesi > veri miktarı: — 1000 yüksek kaliteli örnek, 10.000 düşük kaliteden iyidir
  • Overfitting riski: — Küçük veri setlerinde eval loss'u takip et
  • MoE dikkat noktası: — Expert routing katmanlarını dondurarak fine-tune etmek genellikle daha stabil
  • Kuantizasyon: — INT4 kuantizasyon kaliteyi düşürür ama maliyeti %75 azaltır

6. Deployment ve Altyapı

Llama 4'ü kendi sunucunda çalıştırmak için birkaç seçenek var:

Deployment Seçenekleri

Seçenek
Maliyet
Kolaylık
Performans
**vLLM**
Düşük (kendi GPU)
Orta
Yüksek
**TGI (Text Generation Inference)**
Düşük (kendi GPU)
Kolay
Yüksek
**Hugging Face Inference Endpoints**
Orta ($)
Çok kolay
Yüksek
**AWS Bedrock**
Orta-Yüksek
Kolay
Yüksek
**Azure AI Studio**
Orta-Yüksek
Kolay
Yüksek
**Together AI / Fireworks**
Düşük (pay-per-token)
Çok kolay
Yüksek

vLLM ile Hızlı Başlangıç

typescript
1// vLLM deployment yapılandırması
2const vllmDeployment = {
3 // Model yükleme
4 model: 'meta-llama/Llama-4-Scout-17B-16E-Instruct',
5 quantization: 'awq', // veya 'gptq', 'fp8'
6 tensorParallelSize: 1, // Tek GPU
7 maxModelLen: 131072, // 128K default (10M için çoklu GPU)
8 
9 // Serving ayarları
10 serving: {
11 host: '0.0.0.0',
12 port: 8000,
13 apiFormat: 'OpenAI compatible',
14 maxConcurrentRequests: 32,
15 },
16 
17 // Performans optimizasyonu
18 optimization: {
19 enablePrefixCaching: true,
20 enableChunkedPrefill: true,
21 gpuMemoryUtilization: 0.90,
22 },
23};

CI/CD Pipeline yazımızdaki otomasyon prensiplerini model deployment'a da uygula: otomatik test, canary deployment, rollback stratejisi ve monitoring.

💡 Pro Tip: Scout'u INT4 kuantizasyonla tek bir H100'de çalıştırabilirsin ama 10M context window için en az 4x H100 gerekiyor. Çoğu pratik kullanımda 128K-1M context yeterli — bu da tek GPU'ya sığıyor. Context window'u gerçekten ihtiyacın olduğu kadar aç, fazlası gereksiz maliyet.

7. Lisanslama ve Açık Kaynak Tartışması

Llama 4'ün lisanslama modeli tartışma konusu. Meta, modeli "açık ağırlık" (open-weight) olarak tanımlıyor — tam "açık kaynak" değil.

Llama 4 Community License

typescript
1// Llama 4 lisans özeti
2const llamaLicense = {
3 allowed: [
4 'Ticari kullanım (gelir sınırı altında)',
5 'Fine-tuning ve adaptasyon',
6 'Kendi sunucunda hosting',
7 'Araştırma ve akademik kullanım',
8 'Türev model oluşturma',
9 ],
10 
11 restricted: [
12 '700M+ aylık aktif kullanıcı olan şirketler özel lisans almalı',
13 'Model çıktılarıyla rakip model eğitimi sınırlı',
14 '"Llama" markası sadece uyumlu modeller için',
15 ],
16 
17 notProvided: [
18 'Eğitim kodu (sadece ağırlıklar paylaşılıyor)',
19 'Eğitim verisi',
20 'Tam değerlendirme pipeline\'ı',
21 ],
22};

Açık Kaynak mı, Açık Ağırlık mı?

OSI (Open Source Initiative) tanımına göre Llama 4 tam anlamıyla "açık kaynak" değil çünkü:

  • Eğitim kodu paylaşılmıyor
  • Eğitim verisi paylaşılmıyor
  • 700M kullanıcı sınırı var
  • Bazı kullanım kısıtlamaları mevcut

Ama pratik açıdan bakarsak: ağırlıkları indirip, kendi sunucunda çalıştırıp, fine-tune edip, ticari ürünlerde kullanabilirsin. Bu da çoğu geliştirici ve şirket için yeterli.

Alternatifler ve Ekosistem

Model
Lisans
Parametre
Avantaj
Llama 4 Scout
Llama Community
109B (17B aktif)
10M context
Llama 4 Maverick
Llama Community
400B+ (17B aktif)
En iyi kalite
Mistral Large 2
Apache 2.0
123B
Tam açık kaynak
DeepSeek V3
MIT
671B (37B aktif)
Maliyet verimli
Qwen 2.5
Apache 2.0
72B
Çince + İngilizce
Gemma 2
Gemma License
27B
Hafif ve hızlı

Flutter vs React Native yazımızdaki gibi, doğru model seçimi projenin ihtiyaçlarına bağlı. Her modelin güçlü ve zayıf yanları var.


ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Llama 4 Behemoth henüz yayınlanmadı ama Meta'nın "teacher model" stratejisi çok akıllıca. Behemoth'un bilgisini küçük modellere **distillation** (damıtma) yöntemiyle aktarmayı planlıyorlar. Bu, Scout ve Maverick'in gelecek versiyonlarının Behemoth seviyesinde kaliteye, ama çok daha düşük maliyetle ulaşabileceği anlamına geliyor. [Firebase Advanced](/blog/firebase-advanced-patterns/) yazımızdaki optimizasyon stratejilerine benzer şekilde, büyük modelden öğrenip küçük modelde çalıştırmak hem maliyet hem performans açısından en verimli yaklaşım. Distillation fine-tuning pipeline'ını şimdiden öğrenmeye başla — yakında standart pratik olacak.

Sonuç ve Öneriler

Meta Llama 4, açık ağırlık modeller dünyasında yeni bir çağ başlatıyor. MoE mimarisi, 10M context window ve multimodal yeteneklerle kapalı kaynak modellere ciddi bir alternatif sunuyor.

Llama 4'ün Güçlü Yanları:

  • 10M context window (Scout) — endüstri lideri
  • MoE mimarisi — verimli hesaplama, yüksek kapasite
  • Tek H100'de çalışabilme (Scout INT4)
  • Geniş fine-tuning esnekliği
  • 200+ dil desteği
  • Multimodal (metin + görsel)

Dikkat Edilmesi Gerekenler:

  • Tam açık kaynak değil (açık ağırlık)
  • Behemoth henüz yayınlanmadı
  • 10M context kullanımı ciddi GPU gerektirir
  • MoE fine-tuning geleneksel modellere göre daha karmaşık
  • Benchmark tartışmaları devam ediyor (arena vs statik test)
  • 700M kullanıcı sınırı büyük şirketleri etkileyebilir

2026'da LLM seçimi yapıyorsan, Llama 4 mutlaka değerlendirmen gereken bir model. Özellikle veri gizliliği önemliyse (kendi sunucunda çalıştırma), domain-specific fine-tuning gerekiyorsa veya maliyet optimizasyonu öncelikliyse, açık ağırlık modeller çok güçlü bir seçenek. Kapalı modeller (GPT-4, Claude) kolaylık ve güncel bilgi avantajı sunarken, Llama 4 esneklik ve kontrol avantajı sunuyor. İkisini de bilmek, 2026 AI ekosisteminde rekabetçi kalmanın anahtarı.

Etiketler

#AI#Llama#Meta#Open Source#LLM#Fine-Tuning#2026
Muhittin Çamdalı

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

Bunu da begenebilirsiniz