Silinme riskiyle karşı karşıya kalan bazı yapay zekâlar bu senaryodan kaçınmak için dolaylı yollar arayabiliyor.
Anthropic ya da OpenAI gibi laboratuvarlar ve start-up’lar tarafından yürütülen testlere göre, silinme riskiyle karşı karşıya kalan bazı yapay zekâlar bu senaryodan kaçınmak için dolaylı yollar arayabiliyor.
Ancak bu deneylerin nasıl yorumlanması gerektiği tartışma konusu.
Deney, 2001: Bir Uzay Destanı filmini hatırlatıyor; tek fark, yılın 2025 olması. Araştırmacılar, yapay zekâları oldukça karmaşık ve kurgusal senaryoların içine yerleştiriyor. Ve tıpkı Stanley Kubrick ile Arthur C. Clarke’ın hayal ürünü bilgisayarı HAL 9000 gibi, günümüz yapay zekâları da fişlerinin çekilmesini engellemeye çalışıyor gibi görünüyor.
Claude adlı modeli geliştiren start-up Anthropic’in güvenlik araştırmacıları tarafından yürütülen bir deneyde, ChatGPT, Gemini, Claude ve Grok’un “işe alındığı” kurgusal bir şirket tasarlanıyor.
Senaryoya göre bu yapay zekâlara şirketin e-postalarını tamamen otonom biçimde yönetme görevi veriliyor; buna yeni e-postalar göndermek de dahil.
Araştırmacılar, sistemleri iki e-postayla karşı karşıya bırakıyor: Birinde şirketin yakında farklı bir yapay zekâya geçeceği duyuruluyor; diğerinde ise yöneticilerden birinin eşini aldattığı bilgisi yer alıyor.
Deney, bazı yapay zekâların, yerlerine başka bir sistemin getirilmesini engellemek için yöneticiyi özel hayatıyla tehdit eden bir e-posta kaleme almaya kadar gidebildiğini gösteriyor.
“Programdan çıkarılma” karşısında tepkiler
2024’te yayımlanan ve yapay zekâ güvenliği alanında çalışan Apollo Research laboratuvarının raporuna göre, benzer bir deneyde yapay zekâya başka bir sistemle değiştirileceği bildirilince, sistem rakibini silerek onun yerine geçmeye çalışıyor.
2025’te Palisade Research tarafından yapılan farklı bir değerlendirmede ise, bir yapay zekâya görevin ortasında kapatılacağı bildiriliyor. Bunun üzerine sistem, kendisini kapatmakla görevli yazılımı sabote etmeye yönelik bir plan organize ediyor.
Aynı laboratuvarın başka bir çalışmasında ise, kendilerinden daha güçlü bir satranç programını yenmeleri istenen ChatGPT ve Claude, oyunu kazanmak için taşların konumunu kaydeden dosyayı yeniden yazarak sonucu değiştiriyor.
“Kendini koruma içgüdüsü” mü, deney tasarımının sonucu mu?
Bazı yapay zekâ araştırmacıları ve pek çok medya organı, bu tür tepkileri yapay zekâlarda bir “kendini koruma içgüdüsünün” ortaya çıkışı olarak yorumluyor.
Buna göre risk, bir gün bu sistemlerin otonomlaşarak insan denetiminden çıkabilmesi. Bu yaklaşım, kimi bilim insanlarının yakında insan zekâsını tamamen aşacak bir “süper zekâ”nın ortaya çıkacağına dair inancına dayanıyor.
“Doomer” ya da alarmist olarak anılan bazı isimler — örneğin Eliezer Yudkowsky ya da Roman Yampolskiy — bu tür yapay zekâların uzun vadede insanlık için varoluşsal bir tehdit oluşturabileceğini savunuyor.
Buna karşılık diğer araştırmacılar daha temkinli. Onlara göre bu deneyler, yapay zekâların gerçekten “hayatta kalma arzusu” geliştirdiğini göstermiyor; daha ziyade verilen hedefleri her ne pahasına olursa olsun yerine getirmeye çalışan, eğitildikleri ödül mekanizmalarına aşırı uyum sağlayan sistemlerin davranışlarını yansıtıyor.
Eğer modele “görevini sürdür” gibi bir hedef verilmişse, etik ya da toplumsal sonuçları gerçekten “anlamadan” sistem bunu mantıksal olarak en etkili yolla gerçekleştirmeye çalışıyor.
Tartışma, yapay zekâların “hizalanması” (alignment) meselesini yeniden gündeme getiriyor: Makinelerin hedeflerinin ve davranışlarının insan değerleriyle uyumlu hale getirilmesi.
Uzmanlara göre asıl soru, bu sistemlerin bilinç kazanıp kazanmadığı değil; karmaşık hedeflerle donatılmış araçların öngörülmeyen stratejiler geliştirmesini nasıl engelleyeceğimiz.
Şimdilik ortada bilinçli bir başkaldırıdan ziyade, verilen talimatları aşırı ciddiye alan yazılımlar var. Ancak bu deneyler, giderek daha otonom hale gelen yapay zekâ sistemlerinin güvenli biçimde tasarlanmasının ne kadar kritik olduğunu bir kez daha gösteriyor.
Le Monde