AI konusunda bu rehber ne anlatıyor?

OpenAI Operator ile otonom web tarama, form doldurma, alışveriş ve rezervasyon. Computer Use Agent mimarisi, güvenlik sınırları ve pratik kullanım rehberi.

Bu AI rehberini kimler okumalı?

Bu yazı, AI alanında çalışan orta ve ileri seviye geliştiriciler için hazırlanmıştır. 24 dk okuma okuma süresi ile kapsamlı bilgi sunar.

AI için hangi ön bilgiler gerekli?

Bu rehberi takip etmek için temel AI bilgisi gereklidir. AI, OpenAI, Operator konularında deneyim faydalı olacaktır.

OpenAI Operator: Otonom Web Tarayıcı Ajanı

# OpenAI Operator: Otonom Web Tarayıcı Ajanı

Web tarayıcısında senin yerine işlem yapan bir yapay zeka asistanı düşün. Restoran rezervasyonu yapmak, online alışveriş siparişi oluşturmak, form doldurmak, hatta karmaşık araştırma görevlerini tamamlamak... Artık hayal değil. OpenAI'ın Operator aracı, Computer Use Agent (CUA) modeliyle tam otonom web tarama yeteneklerini gerçeğe dönüştürüyor. 2025 sonlarında sınırlı erişimle başlayan ve 2026'da küresel kullanıma açılan Operator, AI agent dünyasında ciddi bir dönüm noktası. Bu rehberde Operator'ın nasıl çalıştığını, neler yapabildiğini, güvenlik sınırlarını ve geliştiriciler için entegrasyon fırsatlarını derinlemesine ele alacağız.

💡 Pro Tip: Operator sadece bir chatbot değil — ekranı gören, tıklayan, yazan ve karar veren tam bir otonom agent. Bunu "akıllı makro" ya da "RPA'nın AI versiyonu" olarak düşünebilirsin ama çok daha fazlası.

İçindekiler

Operator Nedir ve Nasıl Çalışır?
Computer Use Agent (CUA) Mimarisi
Temel Kullanım Senaryoları
API Entegrasyonu ve Geliştirici Araçları
Güvenlik Sınırları ve Kısıtlamalar
Operator vs Diğer AI Agent'lar
Mobil Geliştirme Perspektifinden Operator
Sonuç ve Öneriler

1. Operator Nedir ve Nasıl Çalışır?

OpenAI Operator, Computer Use Agent (CUA) modeli üzerine inşa edilmiş bir otonom web tarayıcı ajanıdır. Temelde GPT-4o'nun görsel anlama yetenekleriyle bir tarayıcı otomasyon katmanını birleştiriyor. Kullanıcı doğal dilde bir görev tanımlıyor, Operator bu görevi adım adım tarayıcı üzerinde gerçekleştiriyor.

Çalışma Prensibi

typescript

1// Operator'ın iç döngüsü kavramsal olarak şöyle çalışır
2interface OperatorLoop {
3  // 1. Ekran görüntüsü al
4  screenshot: () => ScreenCapture;
5  // 2. Görsel analiz yap (GPT-4o vision)
6  analyze: (screen: ScreenCapture) => PageUnderstanding;
7  // 3. Sonraki aksiyonu belirle
8  decide: (understanding: PageUnderstanding, goal: string) => Action;
9  // 4. Aksiyonu gerçekleştir (click, type, scroll)
10  execute: (action: Action) => void;
11  // 5. Sonucu doğrula ve tekrarla
12  verify: () => boolean;
13}
14 
15// Kullanım örneği
16const task = "Amazon'dan en ucuz USB-C kabloyu bul ve sepete ekle";
17// Operator bu görevi ~15-30 adımda tamamlıyor:
18// 1. amazon.com'a git
19// 2. "USB-C kablo" ara
20// 3. Fiyata göre sırala
21// 4. En uygun ürünü seç
22// 5. "Sepete Ekle" butonuna tıkla
23// 6. Sonucu doğrula

Operator'ın en kritik özelliği self-correction (öz düzeltme) yeteneği. Bir adımda hata yaparsa veya beklenmedik bir popup çıkarsa, ekran görüntüsünü yeniden analiz ederek alternatif bir yol buluyor.

Teknik Altyapı

Bileşen	Teknoloji	Açıklama
Vision Model	GPT-4o Vision	Ekran görüntüsü analizi
Reasoning	o3-mini	Çok adımlı planlama
Tarayıcı	Chromium (headless)	Web sayfası etkileşimi
Güvenlik	Sandbox + Policy Engine	Kısıtlama ve onay sistemi
Bellek	Conversation context	Görev boyunca bağlam tutma

💡 Pro Tip: Operator tek bir vision call ile karar vermiyor — her adımda ekranın anlık durumunu yeniden değerlendiriyor. Bu yüzden statik script'lerden farklı olarak dinamik sayfalarda bile çalışabiliyor.

2. Computer Use Agent (CUA) Mimarisi

CUA, OpenAI'ın agent framework'ünün temel taşıdır. Geleneksel API çağrılarından farklı olarak, CUA doğrudan ekran piksellerini okuyor ve mouse/keyboard aksiyonları üretiyor.

Aksiyon Türleri

typescript

1// CUA'nın desteklediği aksiyonlar
2type CUAction =
3  | { type: 'click'; x: number; y: number; button: 'left' | 'right' }
4  | { type: 'double_click'; x: number; y: number }
5  | { type: 'type'; text: string }
6  | { type: 'key'; key: string } // Enter, Tab, Escape vb.
7  | { type: 'scroll'; direction: 'up' | 'down'; amount: number }
8  | { type: 'drag'; startX: number; startY: number; endX: number; endY: number }
9  | { type: 'wait'; seconds: number }
10  | { type: 'screenshot' }; // Güncel durum kontrolü
11 
12// Aksiyon zinciri örneği: Form doldurma
13const formFillActions: CUAction[] = [
14  { type: 'click', x: 340, y: 220, button: 'left' },  // İsim alanına tıkla
15  { type: 'type', text: 'Muhittin Camdali' },           // İsmi yaz
16  { type: 'key', key: 'Tab' },                           // Sonraki alana geç
17  { type: 'type', text: '[email protected]' },   // Email yaz
18  { type: 'click', x: 400, y: 450, button: 'left' },   // Gönder butonuna tıkla
19  { type: 'screenshot' },                                // Sonucu kontrol et
20];

Vision + Reasoning Pipeline

CUA'nın gücü, vision ve reasoning modellerinin birlikte çalışmasından geliyor. Vision modeli "ne görüyorum" sorusunu, reasoning modeli "ne yapmalıyım" sorusunu yanıtlıyor.

typescript

1// Kavramsal pipeline
2interface CUAPipeline {
3  // Adım 1: Görsel analiz
4  visionPass: {
5    input: ScreenCapture;
6    output: {
7      elements: UIElement[];      // Butonlar, inputlar, linkler
8      currentState: PageState;    // Login sayfası, ürün listesi vb.
9      obstacles: Obstacle[];      // Popup, captcha, cookie banner
10    };
11  };
12 
13  // Adım 2: Planlama
14  reasoningPass: {
15    input: {
16      goal: string;              // Kullanıcının hedefi
17      currentState: PageState;   // Mevcut durum
18      history: Action[];         // Önceki adımlar
19    };
20    output: {
21      nextAction: CUAction;      // Yapılacak sonraki aksiyon
22      confidence: number;        // Güven skoru (0-1)
23      fallback?: CUAction;       // Düşük güvende alternatif
24    };
25  };
26}

Bu iki aşamalı yaklaşım sayesinde Operator, daha önce hiç görmediği web sitelerinde bile etkili şekilde gezinebiliyor. Geleneksel RPA araçları CSS selector veya XPath'e bağımlıyken, Operator piksel bazlı anlama ile çalışıyor. Bir butonun yeri değişse bile, "yeşil renkli, 'Satın Al' yazan buton" şeklinde görsel olarak tanımlıyor.

3. Temel Kullanım Senaryoları

Operator'ın gerçek dünyada nasıl kullanıldığını somut örneklerle inceleyelim.

3.1 Online Alışveriş

Operator bir alışveriş görevinde ortalama 12-25 adım atıyor. Ürün araması, fiyat karşılaştırması, sepete ekleme ve ödeme sayfasına kadar her şeyi yapabiliyor. Ancak ödeme bilgilerini girme konusunda kullanıcı onayı zorunlu.

3.2 Restoran ve Otel Rezervasyonu

OpenTable, Booking.com gibi platformlarda tarih, saat ve kişi sayısı belirleyerek rezervasyon oluşturabiliyor. Google Maps entegrasyonuyla yakındaki restoranları bulup puan sıralamasına göre filtreleyebiliyor.

3.3 Form Doldurma ve Başvuru

Devlet sitelerinden sigorta başvurularına kadar çeşitli formları doldurabiliyor. Kişisel bilgileri hafızasında tutarak tekrarlayan alanları otomatik tamamlıyor. Swift Async/Await yazımda anlattığım asenkron işlem yönetimi gibi, Operator da çoklu adımlı görevleri asenkron yönetiyor.

3.4 Araştırma ve Veri Toplama

Birden fazla web sitesini ziyaret ederek bilgi derleyip özetleyebiliyor. Fiyat karşılaştırması, ürün araştırması veya pazar analizi gibi görevlerde saatlerce sürecek işi dakikalara indirebiliyor.

Senaryo Karşılaştırma Tablosu

Senaryo	Ortalama Süre (İnsan)	Operator Süresi	Başarı Oranı
Alışveriş	10-15 dk	2-4 dk	%89
Rezervasyon	5-10 dk	1-3 dk	%93
Form doldurma	15-30 dk	3-8 dk	%85
Araştırma	30-60 dk	5-15 dk	%78
Karmaşık iş akışı	1-2 saat	15-30 dk	%72

💡 Pro Tip: Operator'a görev verirken ne kadar spesifik olursan başarı oranı o kadar yüksek. "Bir şeyler sipariş et" yerine "Trendyol'dan Samsung 45W USB-C şarj aleti sipariş et, en ucuzunu seç" gibi detaylı talimatlar ver.

4. API Entegrasyonu ve Geliştirici Araçları

Operator sadece ChatGPT arayüzünden değil, API üzerinden de kullanılabiliyor. Bu da geliştiricilerin kendi uygulamalarına otonom web tarama yetenekleri eklemesine olanak tanıyor.

Responses API ile Operator Kullanımı

typescript

1// OpenAI Responses API ile Operator entegrasyonu
2import OpenAI from 'openai';
3 
4const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
5 
6// Computer Use tool tanımı
7const computerUseTool = {
8  type: 'computer_use_preview' as const,
9  display_width: 1920,
10  display_height: 1080,
11  environment: 'browser',
12};
13 
14async function runOperatorTask(task: string) {
15  let response = await client.responses.create({
16    model: 'computer-use-preview',
17    tools: [computerUseTool],
18    input: [
19      {
20        role: 'user',
21        content: task,
22      },
23    ],
24    truncation: 'auto',
25  });
26 
27  // Operator döngüsü: Görev tamamlanana kadar devam et
28  while (response.output.some((item: { type: string }) =>
29    item.type === 'computer_call'
30  )) {
31    const computerCall = response.output.find(
32      (item: { type: string }) => item.type === 'computer_call'
33    );
34 
35    if (!computerCall) break;
36 
37    // Aksiyonu gerçekleştir (kendi tarayıcı otomasyon katmanın)
38    const screenshot = await executeAction(computerCall);
39 
40    // Sonucu geri gönder
41    response = await client.responses.create({
42      model: 'computer-use-preview',
43      tools: [computerUseTool],
44      previous_response_id: response.id,
45      input: [
46        {
47          type: 'computer_call_output',
48          call_id: computerCall.call_id,
49          output: {
50            type: 'input_image',
51            image_url: screenshot, // base64 screenshot
52          },
53        },
54      ],
55    });
56  }
57 
58  return response.output_text;
59}
60 
61// Kullanım
62const result = await runOperatorTask(
63  'booking.com'dan 15-17 Mart İstanbul için 2 kişilik otel bul, ' +
64  'en az 8.0 puan, 500 TL altı'
65);
66console.log(result);

Bu API yaklaşımı, CI/CD Pipeline süreçlerinde otomatik test senaryoları oluşturmak veya WebSocket Real-Time uygulamalarını test etmek için de kullanılabiliyor.

Webhook ve Callback Desteği

Operator uzun süren görevler için webhook bildirimleri destekliyor. Görev tamamlandığında, hata oluştuğunda veya kullanıcı onayı beklendiğinde belirttiğin endpoint'e bildirim gönderiyor.

5. Güvenlik Sınırları ve Kısıtlamalar

Otonom bir web ajanının güvenlik riskleri ciddi. OpenAI bunu birçok katmanlı güvenlik önlemiyle ele alıyor.

Güvenlik Katmanları

typescript

1// Operator güvenlik modeli
2interface OperatorSecurityModel {
3  // Katman 1: İşlem türü kısıtlamaları
4  restrictedActions: {
5    payment: 'requires_confirmation';      // Ödeme = kullanıcı onayı
6    passwordEntry: 'requires_confirmation'; // Şifre girişi = onay
7    personalData: 'requires_confirmation';  // Kişisel veri = onay
8    download: 'requires_confirmation';      // Dosya indirme = onay
9    accountCreation: 'blocked';            // Hesap oluşturma = engelli
10    socialMedia: 'limited';                // Sosyal medya = sınırlı
11  };
12 
13  // Katman 2: Site bazlı politikalar
14  sitePolicy: {
15    banking: 'blocked';         // Bankacılık siteleri = tamamen engelli
16    government: 'limited';      // Devlet siteleri = sınırlı
17    healthcare: 'blocked';      // Sağlık siteleri = engelli
18    adult: 'blocked';           // Yetişkin içerik = engelli
19    gambling: 'blocked';        // Kumar siteleri = engelli
20  };
21 
22  // Katman 3: Rate limiting
23  rateLimit: {
24    maxActionsPerMinute: 30;
25    maxSessionDuration: '30min';
26    maxConcurrentSessions: 3;
27  };
28}

Bilinen Kısıtlamalar

CAPTCHA: Operator CAPTCHA çözmez, kullanıcıya devreder
2FA: İki faktörlü doğrulama adımında durur ve onay bekler
Dinamik fiyatlandırma: Fiyat değişikliklerini her zaman doğru yakalayamayabilir
Yerelleştirme: Türkçe sitelerde bazen İngilizce menü arar
JavaScript-heavy SPA'lar: Ağır tek sayfa uygulamalarda yavaşlayabilir

iOS Security yazımda vurguladığım gibi, güvenlik katmanlı olmalı. Operator'da da aynı prensip geçerli: her katman bağımsız çalışıyor ve birinin atlanması diğerlerini etkilemiyor.

Operator ve Gizlilik

OpenAI, Operator oturumlarının işlem sonrasında silindiğini belirtiyor. Ancak yine de hassas veriler (kredi kartı, TC kimlik, sağlık bilgileri) ile dikkatli olmalısın. En iyi pratik: hassas işlemleri doğrudan kendin yap, Operator'ı araştırma ve hazırlık aşamalarında kullan.

💡 Pro Tip: Operator'a verdiğin her görevde "güvenlik durdurma noktaları" belirle. Ödeme, kişisel veri girişi ve form gönderimi adımlarında mutlaka onay iste. ChatGPT arayüzünde bu zaten varsayılan, ama API üzerinden kendin implemente etmelisin.

6. Operator vs Diğer AI Agent'lar

Operator piyasadaki tek otonom agent değil. Rakiplerle kıyaslayalım.

Özellik	OpenAI Operator	Anthropic CUA	Google Project Mariner	Adept AI	Microsoft Copilot Actions
Vision Model	GPT-4o	Claude Sonnet	Gemini 2.0	Fuyu	GPT-4o (lisanslı)
Tarayıcı	Chromium	Chromium	Chrome	Custom	Edge
Otonom Seviye	Yüksek	Orta-Yüksek	Orta	Orta	Düşük-Orta
API Erişimi	Evet	Evet	Sınırlı	Evet	Evet
Güvenlik	Çok katmanlı	Katmanlı	Google sandbox	Temel	Enterprise
Fiyatlandırma	Pro ($200/ay)	Pro	Labs	Enterprise	M365 dahil
Türkçe Destek	İyi	Orta	İyi	Zayıf	İyi

Operator'ın en büyük avantajı GPT-4o'nun multimodal gücü ile birleşen geniş web uyumluluğu. Anthropic'in CUA'sı daha ihtiyatlı (güvenlik odaklı), Google'ın Mariner'ı Chrome ekosistemine bağlı. Flutter Clean Architecture yazımda anlattığım modüler mimari gibi, her tool'un kendi güçlü yanı var — doğru seçimi kullanım senaryosuna göre yapmalısın.

Operator'ı Hangi Durumlarda Tercih Etmelisin?

Tekrarlayan web görevleri:: Her gün aynı 5 siteyi kontrol ediyorsan
Araştırma:: Birden fazla kaynaktan bilgi derlemen gerekiyorsa
E-ticaret otomasyonu:: Fiyat takibi, stok kontrolü, sipariş yönetimi
Test:: [Firebase Advanced](/blog/firebase-advanced-patterns/) benzeri servislerin web arayüzlerini test etmek

7. Mobil Geliştirme Perspektifinden Operator

Bir iOS/mobil geliştirici olarak Operator'ı nasıl değerlendirmelisin?

Test Otomasyonu

Operator, mobil uygulamaların web dashboard'larını test etmek için güçlü bir araç. Admin panelleri, analytics dashboard'ları, CMS arayüzleri — bunları Operator ile end-to-end test edebilirsin.

typescript

1// Operator ile admin panel testi
2async function testAdminDashboard() {
3  const result = await runOperatorTask(
4    'muhittincamdali.com/admin adresine git. ' +
5    'Dashboard'da blog sayısını kontrol et. ' +
6    'Projeler sayfasına geç, proje sayısını kontrol et. ' +
7    'Mesajlar sayfasına git, okunmamış mesaj var mı bak. ' +
8    'Tüm sonuçları raporla.'
9  );
10 
11  // Sonuçları parse et ve assertion yap
12  expect(result).toContain('blog');
13  expect(result).toContain('proje');
14}

Rekabet Analizi

App Store ve Google Play'deki rakip uygulamaların web sitelerini, fiyatlandırma sayfalarını ve özellik listelerini otomatik olarak tarayıp karşılaştırmalı rapor oluşturabilirsin.

Kullanıcı Yolculuğu Simülasyonu

Uygulamanın web sitesindeki kullanıcı yolculuğunu Operator ile simüle ederek UX sorunlarını tespit edebilirsin. Landing page'den indirme butonuna, oradan App Store'a kadar tüm akışı otomatik test edebilirsin.

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Operator'ı [iOS App Architecture](/blog/clean-architecture-ios/) projelerinde kullanmak için hazır bir entegrasyon şablonu: Operator API'yi Swift backend'in ile birleştir, kullanıcıların uygulama içinden web görevleri tanımlamasını sağla ve sonuçları push notification ile bildir. Bu "app-to-web bridge" kalıbı, özellikle fiyat takibi ve stok alarm uygulamaları için mükemmel çalışıyor. [Anthropic'in Operator hakkındaki analizini](https://www.anthropic.com/research/ai-agents-safety) ve [OpenAI'ın resmi dokümanlarını](https://platform.openai.com/docs/guides/tools) da mutlaka oku — rakip bakış açısı her zaman öğreticidir.

Sonuç ve Öneriler

OpenAI Operator, web otomasyonu dünyasında gerçek bir paradigma değişimi. Piksel bazlı anlama, öz düzeltme ve çok adımlı planlama yetenekleriyle geleneksel RPA araçlarının çok ötesinde. Ancak her güçlü araç gibi, doğru kullanıldığında değerli. Güvenlik sınırlarını anla, görevleri iyi tanımla ve hassas işlemlerde insan onayını mutlaka koru. 2026'da Operator ve benzeri ajanlar, yazılım geliştirme iş akışlarının ayrılmaz bir parçası olacak. Şimdiden deneyim kazanmak, seni bir adım öne taşır.

Önerilerin özeti:

Görevleri küçük parçalara böl — başarı oranın katlanır
Güvenlik durdurma noktaları koy — ödeme ve kişisel veri adımlarında onay iste
API entegrasyonunu öğren — kendi uygulamalarına otonom web yetenekleri ekle
Rakip araçları da dene — Anthropic CUA, Google Mariner ile karşılaştır
Türkçe sitelerde test et — yerelleştirme sorunlarını erken keşfet

Etiketler

#AI#OpenAI#Operator#Web Agent#Automation#Browser#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

Paylaş

# OpenAI Operator: Otonom Web Tarayıcı Ajanı

💡 Pro Tip: Operator sadece bir chatbot değil — ekranı gören, tıklayan, yazan ve karar veren tam bir otonom agent. Bunu "akıllı makro" ya da "RPA'nın AI versiyonu" olarak düşünebilirsin ama çok daha fazlası.

İçindekiler

Operator Nedir ve Nasıl Çalışır?
Computer Use Agent (CUA) Mimarisi
Temel Kullanım Senaryoları
API Entegrasyonu ve Geliştirici Araçları
Güvenlik Sınırları ve Kısıtlamalar
Operator vs Diğer AI Agent'lar
Mobil Geliştirme Perspektifinden Operator
Sonuç ve Öneriler

1. Operator Nedir ve Nasıl Çalışır?

Çalışma Prensibi

typescript

1// Operator'ın iç döngüsü kavramsal olarak şöyle çalışır
2interface OperatorLoop {
3  // 1. Ekran görüntüsü al
4  screenshot: () => ScreenCapture;
5  // 2. Görsel analiz yap (GPT-4o vision)
6  analyze: (screen: ScreenCapture) => PageUnderstanding;
7  // 3. Sonraki aksiyonu belirle
8  decide: (understanding: PageUnderstanding, goal: string) => Action;
9  // 4. Aksiyonu gerçekleştir (click, type, scroll)
10  execute: (action: Action) => void;
11  // 5. Sonucu doğrula ve tekrarla
12  verify: () => boolean;
13}
14 
15// Kullanım örneği
16const task = "Amazon'dan en ucuz USB-C kabloyu bul ve sepete ekle";
17// Operator bu görevi ~15-30 adımda tamamlıyor:
18// 1. amazon.com'a git
19// 2. "USB-C kablo" ara
20// 3. Fiyata göre sırala
21// 4. En uygun ürünü seç
22// 5. "Sepete Ekle" butonuna tıkla
23// 6. Sonucu doğrula

Teknik Altyapı

Bileşen	Teknoloji	Açıklama
Vision Model	GPT-4o Vision	Ekran görüntüsü analizi
Reasoning	o3-mini	Çok adımlı planlama
Tarayıcı	Chromium (headless)	Web sayfası etkileşimi
Güvenlik	Sandbox + Policy Engine	Kısıtlama ve onay sistemi
Bellek	Conversation context	Görev boyunca bağlam tutma

💡 Pro Tip: Operator tek bir vision call ile karar vermiyor — her adımda ekranın anlık durumunu yeniden değerlendiriyor. Bu yüzden statik script'lerden farklı olarak dinamik sayfalarda bile çalışabiliyor.

2. Computer Use Agent (CUA) Mimarisi

CUA, OpenAI'ın agent framework'ünün temel taşıdır. Geleneksel API çağrılarından farklı olarak, CUA doğrudan ekran piksellerini okuyor ve mouse/keyboard aksiyonları üretiyor.

Aksiyon Türleri

typescript

1// CUA'nın desteklediği aksiyonlar
2type CUAction =
3  | { type: 'click'; x: number; y: number; button: 'left' | 'right' }
4  | { type: 'double_click'; x: number; y: number }
5  | { type: 'type'; text: string }
6  | { type: 'key'; key: string } // Enter, Tab, Escape vb.
7  | { type: 'scroll'; direction: 'up' | 'down'; amount: number }
8  | { type: 'drag'; startX: number; startY: number; endX: number; endY: number }
9  | { type: 'wait'; seconds: number }
10  | { type: 'screenshot' }; // Güncel durum kontrolü
11 
12// Aksiyon zinciri örneği: Form doldurma
13const formFillActions: CUAction[] = [
14  { type: 'click', x: 340, y: 220, button: 'left' },  // İsim alanına tıkla
15  { type: 'type', text: 'Muhittin Camdali' },           // İsmi yaz
16  { type: 'key', key: 'Tab' },                           // Sonraki alana geç
17  { type: 'type', text: '[email protected]' },   // Email yaz
18  { type: 'click', x: 400, y: 450, button: 'left' },   // Gönder butonuna tıkla
19  { type: 'screenshot' },                                // Sonucu kontrol et
20];

Vision + Reasoning Pipeline

CUA'nın gücü, vision ve reasoning modellerinin birlikte çalışmasından geliyor. Vision modeli "ne görüyorum" sorusunu, reasoning modeli "ne yapmalıyım" sorusunu yanıtlıyor.

typescript

1// Kavramsal pipeline
2interface CUAPipeline {
3  // Adım 1: Görsel analiz
4  visionPass: {
5    input: ScreenCapture;
6    output: {
7      elements: UIElement[];      // Butonlar, inputlar, linkler
8      currentState: PageState;    // Login sayfası, ürün listesi vb.
9      obstacles: Obstacle[];      // Popup, captcha, cookie banner
10    };
11  };
12 
13  // Adım 2: Planlama
14  reasoningPass: {
15    input: {
16      goal: string;              // Kullanıcının hedefi
17      currentState: PageState;   // Mevcut durum
18      history: Action[];         // Önceki adımlar
19    };
20    output: {
21      nextAction: CUAction;      // Yapılacak sonraki aksiyon
22      confidence: number;        // Güven skoru (0-1)
23      fallback?: CUAction;       // Düşük güvende alternatif
24    };
25  };
26}

3. Temel Kullanım Senaryoları

Operator'ın gerçek dünyada nasıl kullanıldığını somut örneklerle inceleyelim.

3.1 Online Alışveriş

3.2 Restoran ve Otel Rezervasyonu

3.3 Form Doldurma ve Başvuru

3.4 Araştırma ve Veri Toplama

Senaryo Karşılaştırma Tablosu

Senaryo	Ortalama Süre (İnsan)	Operator Süresi	Başarı Oranı
Alışveriş	10-15 dk	2-4 dk	%89
Rezervasyon	5-10 dk	1-3 dk	%93
Form doldurma	15-30 dk	3-8 dk	%85
Araştırma	30-60 dk	5-15 dk	%78
Karmaşık iş akışı	1-2 saat	15-30 dk	%72

💡 Pro Tip: Operator'a görev verirken ne kadar spesifik olursan başarı oranı o kadar yüksek. "Bir şeyler sipariş et" yerine "Trendyol'dan Samsung 45W USB-C şarj aleti sipariş et, en ucuzunu seç" gibi detaylı talimatlar ver.

4. API Entegrasyonu ve Geliştirici Araçları

Operator sadece ChatGPT arayüzünden değil, API üzerinden de kullanılabiliyor. Bu da geliştiricilerin kendi uygulamalarına otonom web tarama yetenekleri eklemesine olanak tanıyor.

Responses API ile Operator Kullanımı

typescript

1// OpenAI Responses API ile Operator entegrasyonu
2import OpenAI from 'openai';
3 
4const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
5 
6// Computer Use tool tanımı
7const computerUseTool = {
8  type: 'computer_use_preview' as const,
9  display_width: 1920,
10  display_height: 1080,
11  environment: 'browser',
12};
13 
14async function runOperatorTask(task: string) {
15  let response = await client.responses.create({
16    model: 'computer-use-preview',
17    tools: [computerUseTool],
18    input: [
19      {
20        role: 'user',
21        content: task,
22      },
23    ],
24    truncation: 'auto',
25  });
26 
27  // Operator döngüsü: Görev tamamlanana kadar devam et
28  while (response.output.some((item: { type: string }) =>
29    item.type === 'computer_call'
30  )) {
31    const computerCall = response.output.find(
32      (item: { type: string }) => item.type === 'computer_call'
33    );
34 
35    if (!computerCall) break;
36 
37    // Aksiyonu gerçekleştir (kendi tarayıcı otomasyon katmanın)
38    const screenshot = await executeAction(computerCall);
39 
40    // Sonucu geri gönder
41    response = await client.responses.create({
42      model: 'computer-use-preview',
43      tools: [computerUseTool],
44      previous_response_id: response.id,
45      input: [
46        {
47          type: 'computer_call_output',
48          call_id: computerCall.call_id,
49          output: {
50            type: 'input_image',
51            image_url: screenshot, // base64 screenshot
52          },
53        },
54      ],
55    });
56  }
57 
58  return response.output_text;
59}
60 
61// Kullanım
62const result = await runOperatorTask(
63  'booking.com'dan 15-17 Mart İstanbul için 2 kişilik otel bul, ' +
64  'en az 8.0 puan, 500 TL altı'
65);
66console.log(result);

Bu API yaklaşımı, CI/CD Pipeline süreçlerinde otomatik test senaryoları oluşturmak veya WebSocket Real-Time uygulamalarını test etmek için de kullanılabiliyor.

Webhook ve Callback Desteği

5. Güvenlik Sınırları ve Kısıtlamalar

Otonom bir web ajanının güvenlik riskleri ciddi. OpenAI bunu birçok katmanlı güvenlik önlemiyle ele alıyor.

Güvenlik Katmanları

typescript

1// Operator güvenlik modeli
2interface OperatorSecurityModel {
3  // Katman 1: İşlem türü kısıtlamaları
4  restrictedActions: {
5    payment: 'requires_confirmation';      // Ödeme = kullanıcı onayı
6    passwordEntry: 'requires_confirmation'; // Şifre girişi = onay
7    personalData: 'requires_confirmation';  // Kişisel veri = onay
8    download: 'requires_confirmation';      // Dosya indirme = onay
9    accountCreation: 'blocked';            // Hesap oluşturma = engelli
10    socialMedia: 'limited';                // Sosyal medya = sınırlı
11  };
12 
13  // Katman 2: Site bazlı politikalar
14  sitePolicy: {
15    banking: 'blocked';         // Bankacılık siteleri = tamamen engelli
16    government: 'limited';      // Devlet siteleri = sınırlı
17    healthcare: 'blocked';      // Sağlık siteleri = engelli
18    adult: 'blocked';           // Yetişkin içerik = engelli
19    gambling: 'blocked';        // Kumar siteleri = engelli
20  };
21 
22  // Katman 3: Rate limiting
23  rateLimit: {
24    maxActionsPerMinute: 30;
25    maxSessionDuration: '30min';
26    maxConcurrentSessions: 3;
27  };
28}

Bilinen Kısıtlamalar

CAPTCHA: Operator CAPTCHA çözmez, kullanıcıya devreder
2FA: İki faktörlü doğrulama adımında durur ve onay bekler
Dinamik fiyatlandırma: Fiyat değişikliklerini her zaman doğru yakalayamayabilir
Yerelleştirme: Türkçe sitelerde bazen İngilizce menü arar
JavaScript-heavy SPA'lar: Ağır tek sayfa uygulamalarda yavaşlayabilir

iOS Security yazımda vurguladığım gibi, güvenlik katmanlı olmalı. Operator'da da aynı prensip geçerli: her katman bağımsız çalışıyor ve birinin atlanması diğerlerini etkilemiyor.

Operator ve Gizlilik

💡 Pro Tip: Operator'a verdiğin her görevde "güvenlik durdurma noktaları" belirle. Ödeme, kişisel veri girişi ve form gönderimi adımlarında mutlaka onay iste. ChatGPT arayüzünde bu zaten varsayılan, ama API üzerinden kendin implemente etmelisin.

6. Operator vs Diğer AI Agent'lar

Operator piyasadaki tek otonom agent değil. Rakiplerle kıyaslayalım.

Özellik	OpenAI Operator	Anthropic CUA	Google Project Mariner	Adept AI	Microsoft Copilot Actions
Vision Model	GPT-4o	Claude Sonnet	Gemini 2.0	Fuyu	GPT-4o (lisanslı)
Tarayıcı	Chromium	Chromium	Chrome	Custom	Edge
Otonom Seviye	Yüksek	Orta-Yüksek	Orta	Orta	Düşük-Orta
API Erişimi	Evet	Evet	Sınırlı	Evet	Evet
Güvenlik	Çok katmanlı	Katmanlı	Google sandbox	Temel	Enterprise
Fiyatlandırma	Pro ($200/ay)	Pro	Labs	Enterprise	M365 dahil
Türkçe Destek	İyi	Orta	İyi	Zayıf	İyi

Operator'ı Hangi Durumlarda Tercih Etmelisin?

Tekrarlayan web görevleri:: Her gün aynı 5 siteyi kontrol ediyorsan
Araştırma:: Birden fazla kaynaktan bilgi derlemen gerekiyorsa
E-ticaret otomasyonu:: Fiyat takibi, stok kontrolü, sipariş yönetimi
Test:: [Firebase Advanced](/blog/firebase-advanced-patterns/) benzeri servislerin web arayüzlerini test etmek

7. Mobil Geliştirme Perspektifinden Operator

Bir iOS/mobil geliştirici olarak Operator'ı nasıl değerlendirmelisin?

Test Otomasyonu

typescript

1// Operator ile admin panel testi
2async function testAdminDashboard() {
3  const result = await runOperatorTask(
4    'muhittincamdali.com/admin adresine git. ' +
5    'Dashboard'da blog sayısını kontrol et. ' +
6    'Projeler sayfasına geç, proje sayısını kontrol et. ' +
7    'Mesajlar sayfasına git, okunmamış mesaj var mı bak. ' +
8    'Tüm sonuçları raporla.'
9  );
10 
11  // Sonuçları parse et ve assertion yap
12  expect(result).toContain('blog');
13  expect(result).toContain('proje');
14}

Rekabet Analizi

App Store ve Google Play'deki rakip uygulamaların web sitelerini, fiyatlandırma sayfalarını ve özellik listelerini otomatik olarak tarayıp karşılaştırmalı rapor oluşturabilirsin.

Kullanıcı Yolculuğu Simülasyonu

ALTIN İPUCU

Bu yazının en değerli bilgisi

Bu ipucu, yazının en önemli çıkarımını içeriyor.

Easter Egg

Gizli bir bilgi buldun!

Bu bölümde gizli bir bilgi var. Keşfetmek ister misin?

Okuyucu Ödülü

Sonuç ve Öneriler

Önerilerin özeti:

Görevleri küçük parçalara böl — başarı oranın katlanır
Güvenlik durdurma noktaları koy — ödeme ve kişisel veri adımlarında onay iste
API entegrasyonunu öğren — kendi uygulamalarına otonom web yetenekleri ekle
Rakip araçları da dene — Anthropic CUA, Google Mariner ile karşılaştır
Türkçe sitelerde test et — yerelleştirme sorunlarını erken keşfet

Etiketler

#AI#OpenAI#Operator#Web Agent#Automation#Browser#2026

Muhittin Çamdalı

Senior iOS Developer

12+ yıllık deneyime sahip iOS Developer. Swift, SwiftUI ve modern iOS mimarileri konusunda uzman. Apple platformlarında performanslı ve kullanıcı dostu uygulamalar geliştiriyorum.

GitHub LinkedIn Twitter

iOS Geliştirme Haberleri

Haftalık Swift tips, SwiftUI tricks ve iOS best practices. Spam yok, sadece değerli içerik.

Gizliliğinize saygı duyuyoruz. İstediğiniz zaman abonelikten çıkabilirsiniz.

OpenAI Operator: Otonom Web Tarayıcı Ajanı

Çalışma Prensibi

Teknik Altyapı

Aksiyon Türleri

Vision + Reasoning Pipeline

3.1 Online Alışveriş

3.2 Restoran ve Otel Rezervasyonu

3.3 Form Doldurma ve Başvuru

3.4 Araştırma ve Veri Toplama

Senaryo Karşılaştırma Tablosu

Responses API ile Operator Kullanımı

Webhook ve Callback Desteği

Güvenlik Katmanları

Bilinen Kısıtlamalar

Operator ve Gizlilik

Operator'ı Hangi Durumlarda Tercih Etmelisin?

Test Otomasyonu

Rekabet Analizi

Kullanıcı Yolculuğu Simülasyonu

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

Meta Llama 4: Açık Kaynak LLM Devrimi

Kling AI: Çin'in Video Üretim Canavarı

İlgili Yazılar

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

Async/Await Best Practices: Swift Concurrency Mastery

iOS CI/CD Pipeline: GitHub Actions ve Fastlane

WebSocket ile Real-time iOS Uygulamaları: Chat ve Live Updates

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

İlgili Karşılaştırmalar

Claude vs ChatGPT — Yazılım Geliştirme İçin

Cursor vs GitHub Copilot

v0 (Vercel) vs Bolt.new

Bunu da begenebilirsiniz

OpenAI Operator: Otonom Web Tarayıcı Ajanı

Çalışma Prensibi

Teknik Altyapı

Aksiyon Türleri

Vision + Reasoning Pipeline

3.1 Online Alışveriş

3.2 Restoran ve Otel Rezervasyonu

3.3 Form Doldurma ve Başvuru

3.4 Araştırma ve Veri Toplama

Senaryo Karşılaştırma Tablosu

Responses API ile Operator Kullanımı

Webhook ve Callback Desteği

Güvenlik Katmanları

Bilinen Kısıtlamalar

Operator ve Gizlilik

Operator'ı Hangi Durumlarda Tercih Etmelisin?

Test Otomasyonu

Rekabet Analizi

Kullanıcı Yolculuğu Simülasyonu

ALTIN İPUCU

Easter Egg

Okuyucu Ödülü

Etiketler

Muhittin Çamdalı

iOS Geliştirme Haberleri

Paylaş

Meta Llama 4: Açık Kaynak LLM Devrimi

Kling AI: Çin'in Video Üretim Canavarı

İlgili Yazılar

GPT-5: OpenAI'ın Yeni Nesil Modeli — Her Şey Değişiyor

Async/Await Best Practices: Swift Concurrency Mastery

iOS CI/CD Pipeline: GitHub Actions ve Fastlane

WebSocket ile Real-time iOS Uygulamaları: Chat ve Live Updates

Claude Code MCP: Model Context Protocol ile AI Plugin Ekosistemi

İlgili Karşılaştırmalar

Claude vs ChatGPT — Yazılım Geliştirme İçin

Cursor vs GitHub Copilot

v0 (Vercel) vs Bolt.new

Bunu da begenebilirsiniz