AI konusunda bu rehber ne anlatıyor?

Açık kaynak LLM dünyasının 2026 durumu: Llama 4, DeepSeek R1, Qwen 2.5, Mistral Large 3 ve Phi-3.5 karşılaştırması. Lisans, donanım, quantization, production deployment ve maliyet.

Bu AI rehberini kimler okumalı?

Bu yazı, AI alanında çalışan orta ve ileri seviye geliştiriciler için hazırlanmıştır. 24 dk okuma okuma süresi ile kapsamlı bilgi sunar.

AI için hangi ön bilgiler gerekli?

Bu rehberi takip etmek için temel AI bilgisi gereklidir. AI, LLM, Open Source konularında deneyim faydalı olacaktır.

Açık Kaynak LLMs 2026: Llama 4, DeepSeek R1, Qwen 2.5 ve Mistral Karşılaştırması

# Açık Kaynak LLMs 2026: Llama 4, DeepSeek R1, Qwen 2.5 ve Mistral Karşılaştırması

Açık kaynak LLM ekosistemi 2026'da closed-source liderlerini yakaladı hatta bazı metriklerde geçti. Llama 4 (Meta), DeepSeek R1, Qwen 2.5 (Alibaba), Mistral Large 3, Phi-3.5 (Microsoft) — hepsi kendi alanında üstün. Ama "hangisi benim için?" sorusu donanım, lisans, use case, maliyet dengesine göre değişir. Bu rehber 2026 açık kaynak LLM'lerin teknik spesifikasyonları, gerçek benchmark'ları, production deploy zorlukları ve self-host ekonomisini derinlemesine inceler.

💡 Pro Tip: Açık kaynak LLM seçiminde "en yüksek parametre sayısı" yanıltıcı — 70B modelin senin kullanım senaryonda 7B'den %10 daha iyi olması için 10x daha fazla VRAM'e değmeyebilir.

Neden Açık Kaynak LLM?

Closed-source Claude/GPT/Gemini'yi bırakıp açık kaynak LLM seçmek için 5 temel motivasyon var:

Data privacy: Finansal, medikal, hukuki data API'ye gönderilemez (GDPR, HIPAA).
Cost control: Milyon token/gün kullanımda self-host %70-90 ucuzlaşır.
Customization: Fine-tune edip domain'ine uyarlayabilirsin — closed-source'ta bu sınırlı.
Vendor lock-in yok: API değişirse, price artışı yapılırsa işin çökmez.
Regülatör uyumu: AB AI Act bazı kullanımlar için on-premise şart koşabilir.

Dezavantajları: operasyonel overhead (GPU yönetimi, latency tuning), güncellik geriliği (Claude/GPT hızlı iterate), benchmark performans farkı (top-tier closed-source hala %10-15 önde bazı task'larda).

Llama 4 (Meta): Ekosistem Lideri

Llama 4 2026 başında yayınlandı. 3 variant: 8B, 70B, 405B.

Teknik Spesifikasyonlar

Context window: 256k token (standard), 1M context opsiyonel
Training tokens: 15 trilyon+ (2 trilyon multimodal)
Architecture: Transformer + Mixture of Experts (MoE) 405B modelde
Multimodal: Vision + text (audio yakında)
Quantization: Native INT8 support, GGUF 4-bit hazır

Benchmark Skorları (2026)

Benchmark	8B	70B	405B
MMLU-Pro	62.3	74.1	79.8
HumanEval+	72.1	86.4	91.2
SWE-bench Verified	28.5	52.3	64.7
GPQA Diamond	48.2	65.8	71.9

405B versiyon Claude 4.7 Opus'a yakın (SWE-bench'de %72.5 vs %64.7), GPT-5'e yakın. 70B version Sonnet 4.6 ile yarışıyor.

Lisans

Llama 4 Community License (Apache benzeri ama bazı kısıtlar):

700M+ aylık aktif kullanıcı eşiği — üstünde Meta'dan izin gerekir
Llama ile eğitilmiş çıktılarla başka bir LLM eğitmek yasak
Attribution gerekli ("Built with Llama")

Startup'lar ve orta ölçekli firmalar için sorunsuz. Ancak mega-cap AI firmaları için Claude/GPT benzeri managed model tercih edilebilir.

Donanım

\\\`yaml

# Llama 4 8B FP16

GPU: 1 × A100 80GB (veya 2 × RTX 4090 24GB + tensor parallelism)

RAM: 32GB+

Latency: 80-120 tok/s (RTX 4090), 150-200 tok/s (A100)

# Llama 4 70B 4-bit (GGUF Q4_K_M)

GPU: 2 × A100 80GB (veya 4 × RTX 4090)

RAM: 64GB+

Latency: 30-50 tok/s

# Llama 4 405B MoE 8-bit

GPU: 8 × H100 80GB

RAM: 128GB+

Latency: 15-25 tok/s

\\\`

DeepSeek R1: Reasoning Devrimi

DeepSeek R1 2025 başında açık kaynak reasoning model olarak çıktı. OpenAI o1'e rakip, sadece %10 maliyetle.

Reasoning Architecture

DeepSeek R1 "hidden chain-of-thought" pattern'ini açık kaynak yapan ilk model. Response'a başlamadan önce 500-5000 token "thinking" yapıyor.

\\\`python

from openai import OpenAI # DeepSeek OpenAI-compatible API

client = OpenAI(

api_key="your-deepseek-key",

base_url="https://api.deepseek.com"

)

response = client.chat.completions.create(

model="deepseek-reasoner",

messages=[{

"role": "user",

"content": "24 hesap makinesiyle 3x + 7 = 22 denklemini adım adım çöz"

}]

)

# response.choices[0].message.reasoning_content → CoT

# response.choices[0].message.content → final answer

\\\`

Benchmark Skorları

AIME 2025: 89.2 (Claude 4.7 Opus: 91.8, GPT-5: 94.5)
Codeforces: 2029 rating (expert-level)
GPQA Diamond: 65.1 (Opus: 72.4)

Reasoning task'larda Claude/GPT'ye yakın, %90 daha ucuz.

Lisans: MIT

Tamamen açık — ticari kullanım, fine-tuning, redistribution serbest. Bu yüzden popüler.

Qwen 2.5 (Alibaba): Çoklu Dil Ustalığı

Qwen 2.5 (Alibaba Cloud) Asya pazarlarında ve multilingual task'larda lider.

Öne Çıkanlar

29 dil: Türkçe dahil — en iyi Türkçe LLM performansı (özellikle Türkçe-Çince çeviri)
Specialized variants: Qwen-Coder (kod), Qwen-Math (matematik), Qwen-Audio
Sizes: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B

Türkçe Benchmark (TR-MMLU)

Qwen 2.5 72B: 78.4
Claude 4.6 Opus: 74.2
GPT-4o: 75.8
Llama 4 70B: 68.1

Türkçe task'lar için Qwen sürpriz lider.

Lisans: Apache 2.0 (72B'nin altındaki versiyonlar)

72B için "Qwen License" (Meta Llama'ya benzer kısıtlar). Daha küçük modeller tamamen Apache 2.0.

Mistral Large 3: Avrupa Alternatifi

Mistral AI (Fransa) AB AI Act uyumlu, Avrupa veri merkezlerinde self-host için optimal.

Mistral Large 3 (2026)

Parameters: 123B
Context: 128k
Tool use: Native function calling
Multimodal: Text + vision

Neden Mistral?

Avrupa kökenli: Data residency Avrupa'da kalabilir
Enterprise focus: Fine-tuning, on-premise deploy için documentation iyi
Mixtral 8x22B MoE: Küçük modeller aktif, büyük parametre havuzu

Benchmark

MMLU-Pro: 72.8
HumanEval+: 84.3
MGSM (multilingual math): 89.1

Benchmark'ta Llama 4 70B'yle yarışır, Avrupa regulatorik avantajı var.

Lisans: Mistral License (ticari) + Apache 2.0 (bazı variants)

Ticari kullanım için lisans ödeme gerekebilir. Small variants (7B) serbest.

Phi-3.5 (Microsoft): Küçük Ama Etkili

Microsoft Phi-3.5 "küçük ama akıllı" modelin şampiyonu. 3.8B parametre, 128k context.

Niye İlginç?

Tek consumer GPU'da çalışır (RTX 3060 12GB yeter)
MMLU 69.5 (7B Llama 4'e yakın, 2x daha küçük)
Mobile/edge deployment için ideal

Use Cases

On-device AI (mobile apps)
Embedded systems
Low-latency inference (offline first)

Phi-3.5 mini variant 1.3B parametre, mobile CPU'da ~5-10 tok/s çalışır.

Lisans ve Ticari Kullanım

Model	Lisans	700M+ MAU Sınırı	Redistribute
Llama 4	Community	Var	Var
DeepSeek R1	MIT	Yok	Serbest
Qwen 2.5 (7B-)	Apache 2.0	Yok	Serbest
Qwen 2.5 72B	Qwen License	Olasılıkla	Var
Mistral Large 3	Mistral Commercial	Yok	Kısıtlı
Phi-3.5	MIT	Yok	Serbest

Startup'lar için en güvenli: DeepSeek R1, Phi-3.5, Qwen 2.5 small (MIT/Apache).

Donanım ve Quantization

Quantization Teknikleri

FP16 (half precision): Baseline, maximum accuracy
INT8: %50 VRAM tasarrufu, minimal accuracy kaybı
GGUF (llama.cpp): CPU/GPU hybrid inference, Q4_K_M en popüler
AWQ (Activation-aware Weight Quantization): INT4 ama accuracy korur
GPTQ: Similar to AWQ, widely supported

\\\`bash

# Llama 4 70B 4-bit quantize (llama.cpp)

./quantize \\

--allow-requantize \\

./models/llama-4-70b/ggml-model-f16.gguf \\

./models/llama-4-70b/ggml-model-q4_k_m.gguf \\

Q4_K_M

# Serve with llama-server

./llama-server -m ./models/llama-4-70b/ggml-model-q4_k_m.gguf \\

--ctx-size 8192 \\

--n-gpu-layers 40 \\

--port 8080

\\\`

Inference Engine'ler

vLLM: En hızlı, continuous batching, PagedAttention — production standard
Ollama: Developer-friendly, local testing
LM Studio: GUI, non-technical users
Text Generation Inference (TGI): Hugging Face, Kubernetes native
TensorRT-LLM: NVIDIA optimized, en düşük latency

Self-host vs Managed Cloud

Self-Host Maliyet Analizi (Llama 4 70B)

Donanım: 2 × A100 80GB ($25k) veya cloud $4.50/saat AWS

Elektrik (self-host): ~800W × $0.15/kWh × 24h × 30 = $86/ay

Maintenance: 1 DevOps engineer 10% zamanı = $1,000/ay

Aylık operational: ~$1,100 (sabit maliyet)

Cost per 1M tokens: ~$0.50 (4M token/saat throughput varsayımı)

Managed Cloud (TogetherAI, Fireworks, Anyscale)

Llama 4 70B: ~$0.90/1M input token, $0.90/1M output
DeepSeek R1: ~$0.55/1M input, $2.19/1M output
Qwen 2.5 72B: ~$1.20/1M total

Break-even

10M token/gün varsayım:

Self-host: $1,100/ay (amortize)
Cloud (Llama 4 70B): $540/ay

Düşük hacimde cloud ucuz. Aylık 50M+ token'da self-host kazanmaya başlar. 500M+ token'da self-host %80+ tasarruf.

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Açık kaynak LLM production deploy için battle-tested stack: \`\`\`yaml

# docker-compose.yml

services:

vllm:

image: vllm/vllm-openai:latest

runtime: nvidia

environment:

- NVIDIA_VISIBLE_DEVICES=all

command: >

--model meta-llama/Llama-4-70B-Instruct-AWQ

--quantization awq

--max-model-len 32768

--gpu-memory-utilization 0.95

--port 8000

ports:

- "8000:8000"

proxy:

image: nginx:alpine

volumes:

- ./nginx.conf:/etc/nginx/nginx.conf

ports:

- "443:443"

depends_on:

- vllm

prometheus:

image: prom/prometheus

# vLLM metrics scrape

grafana:

image: grafana/grafana

# Dashboards: tokens/s, latency, queue depth

\\\`

NGINX ile rate limit + TLS + auth. Prometheus/Grafana ile monitoring. Bu kombinasyon Claude API'sine alternatif production system.

External Resources:

Sonuç

Açık kaynak LLM ekosistemi 2026'da artık "alternatif" değil, "eş-rakip". Llama 4 genel amaç, DeepSeek R1 reasoning, Qwen 2.5 multilingual, Mistral enterprise, Phi-3.5 küçük formfaktör — her biri bir nişte üstün. Karar matrisi: lisans + donanım + benchmark + task-fit. Self-host 50M+ token/ay'da ekonomik, altında managed cloud tercih et. 2026'nın ikinci yarısında Llama 5 ve DeepSeek v3 bekliyor — ekosistem hızla ilerliyor.

*İlgili yazılar: Meta Llama 4 derin inceleme, DeepSeek R1 analizi, Claude 4.6 Opus.*

Etiketler

#AI#LLM#Open Source#Llama 4#DeepSeek R1#Qwen 2.5#Mistral#Self-Hosted#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

# Açık Kaynak LLMs 2026: Llama 4, DeepSeek R1, Qwen 2.5 ve Mistral Karşılaştırması

💡 Pro Tip: Açık kaynak LLM seçiminde "en yüksek parametre sayısı" yanıltıcı — 70B modelin senin kullanım senaryonda 7B'den %10 daha iyi olması için 10x daha fazla VRAM'e değmeyebilir.

İçindekiler

Neden Açık Kaynak LLM?
Llama 4 (Meta): Ekosistem Lideri
DeepSeek R1: Reasoning Devrimi
Qwen 2.5 (Alibaba): Çoklu Dil Ustalığı
Mistral Large 3: Avrupa Alternatifi
Phi-3.5 (Microsoft): Küçük Ama Etkili
Lisans ve Ticari Kullanım
Donanım ve Quantization
Self-host vs Managed Cloud

Neden Açık Kaynak LLM?

Closed-source Claude/GPT/Gemini'yi bırakıp açık kaynak LLM seçmek için 5 temel motivasyon var:

Data privacy: Finansal, medikal, hukuki data API'ye gönderilemez (GDPR, HIPAA).
Cost control: Milyon token/gün kullanımda self-host %70-90 ucuzlaşır.
Customization: Fine-tune edip domain'ine uyarlayabilirsin — closed-source'ta bu sınırlı.
Vendor lock-in yok: API değişirse, price artışı yapılırsa işin çökmez.
Regülatör uyumu: AB AI Act bazı kullanımlar için on-premise şart koşabilir.

Llama 4 (Meta): Ekosistem Lideri

Llama 4 2026 başında yayınlandı. 3 variant: 8B, 70B, 405B.

Teknik Spesifikasyonlar

Context window: 256k token (standard), 1M context opsiyonel
Training tokens: 15 trilyon+ (2 trilyon multimodal)
Architecture: Transformer + Mixture of Experts (MoE) 405B modelde
Multimodal: Vision + text (audio yakında)
Quantization: Native INT8 support, GGUF 4-bit hazır

Benchmark Skorları (2026)

Benchmark	8B	70B	405B
MMLU-Pro	62.3	74.1	79.8
HumanEval+	72.1	86.4	91.2
SWE-bench Verified	28.5	52.3	64.7
GPQA Diamond	48.2	65.8	71.9

405B versiyon Claude 4.7 Opus'a yakın (SWE-bench'de %72.5 vs %64.7), GPT-5'e yakın. 70B version Sonnet 4.6 ile yarışıyor.

Lisans

Llama 4 Community License (Apache benzeri ama bazı kısıtlar):

700M+ aylık aktif kullanıcı eşiği — üstünde Meta'dan izin gerekir
Llama ile eğitilmiş çıktılarla başka bir LLM eğitmek yasak
Attribution gerekli ("Built with Llama")

Startup'lar ve orta ölçekli firmalar için sorunsuz. Ancak mega-cap AI firmaları için Claude/GPT benzeri managed model tercih edilebilir.

Donanım

\\\`yaml

# Llama 4 8B FP16

GPU: 1 × A100 80GB (veya 2 × RTX 4090 24GB + tensor parallelism)

RAM: 32GB+

Latency: 80-120 tok/s (RTX 4090), 150-200 tok/s (A100)

# Llama 4 70B 4-bit (GGUF Q4_K_M)

GPU: 2 × A100 80GB (veya 4 × RTX 4090)

RAM: 64GB+

Latency: 30-50 tok/s

# Llama 4 405B MoE 8-bit

GPU: 8 × H100 80GB

RAM: 128GB+

Latency: 15-25 tok/s

\\\`

DeepSeek R1: Reasoning Devrimi

DeepSeek R1 2025 başında açık kaynak reasoning model olarak çıktı. OpenAI o1'e rakip, sadece %10 maliyetle.

Reasoning Architecture

DeepSeek R1 "hidden chain-of-thought" pattern'ini açık kaynak yapan ilk model. Response'a başlamadan önce 500-5000 token "thinking" yapıyor.

\\\`python

from openai import OpenAI # DeepSeek OpenAI-compatible API

client = OpenAI(

api_key="your-deepseek-key",

base_url="https://api.deepseek.com"

)

response = client.chat.completions.create(

model="deepseek-reasoner",

messages=[{

"role": "user",

"content": "24 hesap makinesiyle 3x + 7 = 22 denklemini adım adım çöz"

}]

)

# response.choices[0].message.reasoning_content → CoT

# response.choices[0].message.content → final answer

\\\`

Benchmark Skorları

AIME 2025: 89.2 (Claude 4.7 Opus: 91.8, GPT-5: 94.5)
Codeforces: 2029 rating (expert-level)
GPQA Diamond: 65.1 (Opus: 72.4)

Reasoning task'larda Claude/GPT'ye yakın, %90 daha ucuz.

Lisans: MIT

Tamamen açık — ticari kullanım, fine-tuning, redistribution serbest. Bu yüzden popüler.

Qwen 2.5 (Alibaba): Çoklu Dil Ustalığı

Qwen 2.5 (Alibaba Cloud) Asya pazarlarında ve multilingual task'larda lider.

Öne Çıkanlar

29 dil: Türkçe dahil — en iyi Türkçe LLM performansı (özellikle Türkçe-Çince çeviri)
Specialized variants: Qwen-Coder (kod), Qwen-Math (matematik), Qwen-Audio
Sizes: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B

Türkçe Benchmark (TR-MMLU)

Qwen 2.5 72B: 78.4
Claude 4.6 Opus: 74.2
GPT-4o: 75.8
Llama 4 70B: 68.1

Türkçe task'lar için Qwen sürpriz lider.

Lisans: Apache 2.0 (72B'nin altındaki versiyonlar)

72B için "Qwen License" (Meta Llama'ya benzer kısıtlar). Daha küçük modeller tamamen Apache 2.0.

Mistral Large 3: Avrupa Alternatifi

Mistral AI (Fransa) AB AI Act uyumlu, Avrupa veri merkezlerinde self-host için optimal.

Mistral Large 3 (2026)

Parameters: 123B
Context: 128k
Tool use: Native function calling
Multimodal: Text + vision

Neden Mistral?

Avrupa kökenli: Data residency Avrupa'da kalabilir
Enterprise focus: Fine-tuning, on-premise deploy için documentation iyi
Mixtral 8x22B MoE: Küçük modeller aktif, büyük parametre havuzu

Benchmark

MMLU-Pro: 72.8
HumanEval+: 84.3
MGSM (multilingual math): 89.1

Benchmark'ta Llama 4 70B'yle yarışır, Avrupa regulatorik avantajı var.

Lisans: Mistral License (ticari) + Apache 2.0 (bazı variants)

Ticari kullanım için lisans ödeme gerekebilir. Small variants (7B) serbest.

Phi-3.5 (Microsoft): Küçük Ama Etkili

Microsoft Phi-3.5 "küçük ama akıllı" modelin şampiyonu. 3.8B parametre, 128k context.

Niye İlginç?

Tek consumer GPU'da çalışır (RTX 3060 12GB yeter)
MMLU 69.5 (7B Llama 4'e yakın, 2x daha küçük)
Mobile/edge deployment için ideal

Use Cases

On-device AI (mobile apps)
Embedded systems
Low-latency inference (offline first)

Phi-3.5 mini variant 1.3B parametre, mobile CPU'da ~5-10 tok/s çalışır.

Lisans ve Ticari Kullanım

Model	Lisans	700M+ MAU Sınırı	Redistribute
Llama 4	Community	Var	Var
DeepSeek R1	MIT	Yok	Serbest
Qwen 2.5 (7B-)	Apache 2.0	Yok	Serbest
Qwen 2.5 72B	Qwen License	Olasılıkla	Var
Mistral Large 3	Mistral Commercial	Yok	Kısıtlı
Phi-3.5	MIT	Yok	Serbest

Startup'lar için en güvenli: DeepSeek R1, Phi-3.5, Qwen 2.5 small (MIT/Apache).

Donanım ve Quantization

Quantization Teknikleri

FP16 (half precision): Baseline, maximum accuracy
INT8: %50 VRAM tasarrufu, minimal accuracy kaybı
GGUF (llama.cpp): CPU/GPU hybrid inference, Q4_K_M en popüler
AWQ (Activation-aware Weight Quantization): INT4 ama accuracy korur
GPTQ: Similar to AWQ, widely supported

\\\`bash

# Llama 4 70B 4-bit quantize (llama.cpp)

./quantize \\

--allow-requantize \\

./models/llama-4-70b/ggml-model-f16.gguf \\

./models/llama-4-70b/ggml-model-q4_k_m.gguf \\

Q4_K_M

# Serve with llama-server

./llama-server -m ./models/llama-4-70b/ggml-model-q4_k_m.gguf \\

--ctx-size 8192 \\

--n-gpu-layers 40 \\

--port 8080

\\\`

Inference Engine'ler

vLLM: En hızlı, continuous batching, PagedAttention — production standard
Ollama: Developer-friendly, local testing
LM Studio: GUI, non-technical users
Text Generation Inference (TGI): Hugging Face, Kubernetes native
TensorRT-LLM: NVIDIA optimized, en düşük latency

Self-host vs Managed Cloud

Self-Host Maliyet Analizi (Llama 4 70B)

Donanım: 2 × A100 80GB ($25k) veya cloud $4.50/saat AWS

Elektrik (self-host): ~800W × $0.15/kWh × 24h × 30 = $86/ay

Maintenance: 1 DevOps engineer 10% zamanı = $1,000/ay

Aylık operational: ~$1,100 (sabit maliyet)

Cost per 1M tokens: ~$0.50 (4M token/saat throughput varsayımı)

Managed Cloud (TogetherAI, Fireworks, Anyscale)

Llama 4 70B: ~$0.90/1M input token, $0.90/1M output
DeepSeek R1: ~$0.55/1M input, $2.19/1M output
Qwen 2.5 72B: ~$1.20/1M total

Break-even

10M token/gün varsayım:

Self-host: $1,100/ay (amortize)
Cloud (Llama 4 70B): $540/ay

Düşük hacimde cloud ucuz. Aylık 50M+ token'da self-host kazanmaya başlar. 500M+ token'da self-host %80+ tasarruf.

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Açık kaynak LLM production deploy için battle-tested stack: \`\`\`yaml

# docker-compose.yml

services:

vllm:

image: vllm/vllm-openai:latest

runtime: nvidia

environment:

- NVIDIA_VISIBLE_DEVICES=all

command: >

--model meta-llama/Llama-4-70B-Instruct-AWQ

--quantization awq

--max-model-len 32768

--gpu-memory-utilization 0.95

--port 8000

ports:

- "8000:8000"

proxy:

image: nginx:alpine

volumes:

- ./nginx.conf:/etc/nginx/nginx.conf

ports:

- "443:443"

depends_on:

- vllm

prometheus:

image: prom/prometheus

# vLLM metrics scrape

grafana:

image: grafana/grafana

# Dashboards: tokens/s, latency, queue depth

\\\`

NGINX ile rate limit + TLS + auth. Prometheus/Grafana ile monitoring. Bu kombinasyon Claude API'sine alternatif production system.

External Resources:

Sonuç

*İlgili yazılar: Meta Llama 4 derin inceleme, DeepSeek R1 analizi, Claude 4.6 Opus.*

Etiketler

#AI#LLM#Open Source#Llama 4#DeepSeek R1#Qwen 2.5#Mistral#Self-Hosted#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Açık Kaynak LLMs 2026: Llama 4, DeepSeek R1, Qwen 2.5 ve Mistral Karşılaştırması

Teknik Spesifikasyonlar

Benchmark Skorları (2026)

Lisans

Donanım

Reasoning Architecture

Benchmark Skorları

Lisans: MIT

Öne Çıkanlar

Türkçe Benchmark (TR-MMLU)

Lisans: Apache 2.0 (72B'nin altındaki versiyonlar)

Mistral Large 3 (2026)

Neden Mistral?

Benchmark

Lisans: Mistral License (ticari) + Apache 2.0 (bazı variants)

Niye İlginç?

Use Cases

Quantization Teknikleri

Inference Engine'ler

Self-Host Maliyet Analizi (Llama 4 70B)

Managed Cloud (TogetherAI, Fireworks, Anyscale)

Break-even

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

Case Study: MADPAW — Pet Tracker, GPS + Activity ML, 30-Gün Pil Ömrü

Claude 4.7 Opus: Benchmark, Yetenekler ve Pratik Kullanım Senaryoları

İlgili Yazılar

Meta Llama 4: Açık Kaynak LLM Devrimi

Claude 4.6 Opus: 2026'nin En Güçlü AI Modeli

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

MCP (Model Context Protocol): AI Entegrasyon Standardı

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

İlgili Karşılaştırmalar

Claude vs ChatGPT — Yazılım Geliştirme İçin

Cursor vs GitHub Copilot

v0 (Vercel) vs Bolt.new

İlgili İçerik

Açık Kaynak LLMs 2026: Llama 4, DeepSeek R1, Qwen 2.5 ve Mistral Karşılaştırması

Teknik Spesifikasyonlar

Benchmark Skorları (2026)

Lisans

Donanım

Reasoning Architecture

Benchmark Skorları

Lisans: MIT

Öne Çıkanlar

Türkçe Benchmark (TR-MMLU)

Lisans: Apache 2.0 (72B'nin altındaki versiyonlar)

Mistral Large 3 (2026)

Neden Mistral?

Benchmark

Lisans: Mistral License (ticari) + Apache 2.0 (bazı variants)

Niye İlginç?

Use Cases

Quantization Teknikleri

Inference Engine'ler

Self-Host Maliyet Analizi (Llama 4 70B)

Managed Cloud (TogetherAI, Fireworks, Anyscale)

Break-even

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

Case Study: MADPAW — Pet Tracker, GPS + Activity ML, 30-Gün Pil Ömrü

Claude 4.7 Opus: Benchmark, Yetenekler ve Pratik Kullanım Senaryoları

İlgili Yazılar

Meta Llama 4: Açık Kaynak LLM Devrimi

Claude 4.6 Opus: 2026'nin En Güçlü AI Modeli

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

MCP (Model Context Protocol): AI Entegrasyon Standardı

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

İlgili Karşılaştırmalar