Microsoft’un yapay zekâ araçlarını kamuya sunulmadan önce “hackleyen” ekibin iç işleyişi nasıl?
Şirket, piyasaya sürülmeden önce tüm yapay zekâyı değerlendiren ve gerekirse yayımlanmasını engelleyen bir “kırmızı ekip” istihdam ediyor.
Microsoft başkanı Brad Smith, “koruyucu sınırlar” (guardrails) kelimesini kullanmadan önce kısa bir an duraksıyor; bu, uçurumun tehlikeleri üzerine çokça düşünmüş birinin rahatlığıyla kullandığı bir ifade.
Şirketin yeni ürün lansmanına ilişkin konferans, Washington eyaletinin Redmond kentindeki genel merkezde düzenleniyor ve bu ve diğer uluslararası gazeteler davet edilmiş durumda.
EL PAÍS, şirketin yapay zekâsının İran’daki mevcut çatışma gibi savaş bağlamlarında kullanılıp kullanılamayacağına kimlerin ve nasıl karar verdiğini soruyor.
Sadece birkaç gün önce, yapay zekâ şirketi Anthropic’in, teknolojisinin savunma kurumu tarafından kullanılmasına yönelik bir sözleşmeyi reddetmesinin ardından Pentagon tarafından kara listeye alındığı gerekçesiyle dava açtığı ortaya çıkmıştı.
Bu, Büyük Teknoloji dünyasında şu anda süren tartışmanın kendisi ve Microsoft için oldukça tanıdık bir mesele.
2021’de Pentagon, çalışanların protestolarının ardından şirketle yaptığı 10 milyar dolarlık anlaşmayı iptal etmişti. Microsoft ise bu süreçte Anthropic’i destekledi.
Smith şöyle yanıtlıyor: “İlkelerimiz var, onları tanımlarız ve yayımlarız. Tanım gereği bu ilkeler koruyucu sınırlar oluşturur.
Ve biz bu sınırlar içinde kalırız. Mesele sadece teknolojiyi ne zaman kullanmamız gerektiği değil, aynı zamanda ne zaman kullanmamamız gerektiğidir.”
Kendi ürünlerini hackleyen ekip
Bu sürece yardımcı olmak için Microsoft’un kendi ürünlerini hackleyen bir ekibi bulunuyor: kırmızı ekip.
Bu isim askeri bir geçmişi çağrıştırıyor. Kırmızı ekipler ilk olarak ordular tarafından, gerçek bir düşman bunu yapmadan önce saldırıları simüle etmek ve zafiyetleri tespit etmek amacıyla oluşturulmuştu.
Siber güvenlikte bu uygulama onlarca yıldır yerleşmiş durumda. Ancak bunu üretken yapay zekâya uygulamak nispeten yeni bir şey ve Microsoft’un bu alanda öncü olduğu, ekibini 2018’de kurduğu belirtiliyor.
Kendini “veri kovboyu” olarak tanımlayan ve kırmızı ekibin lideri olan Ram Shankar Siva Kumar şöyle açıklıyor: “Bir ürün piyasaya sürülmeden önce kırmızı ekipler teknolojiyi kırar; böylece diğerleri onu daha sağlam ve güvenli şekilde yeniden inşa edebilir.”
“Yapay zekâ güvenlik hatalarından psikososyal zarara kadar sorunlar üretebilir. İnsanlar Copilot’u büyük kırılganlık anlarında kullanıyor, bu yüzden bu sistemlerin kullanıcıya ulaşmadan önce nasıl başarısız olabileceğini gözlemlemek temel öneme sahip,” diyor.
Onun yapay zekâ “iç işleri” ekibi şimdiye kadar şirketin 100’den fazla ürününü analiz etti.
Microsoft, ekipte kaç kişinin çalıştığına ya da yayımlanmasını durdurdukları ürünlerin sayısına veya hangileri olduğuna dair bilgi vermiyor.
Ancak Kumar, ekibin bu yetkiye sahip olduğunu söylüyor: “Yüksek riskli hiçbir yapay zekâ sistemi bağımsız bir testten geçmeden uygulanmaz. Eğer ekibimiz giderilmemiş ciddi riskler tespit ederse, bu sorunlar çözülene kadar ürün yayımlanmaz.”
Ekip, bir ürünü piyasaya sürülmeden önce analiz ederken şu soruyu soruyor: “Bu yapay zekâ sistemi, iyi ya da kötü niyetle, aylar veya yıllar içinde nasıl kullanılabilir?”
Altı ilke
Smith’in bahsettiği “koruyucu sınırlar”, ürünleri incelerken ekibe rehberlik eden altı genel ilkedir: adalet, güvenilirlik ve güvenlik, gizlilik ve emniyet, şeffaflık, hesap verebilirlik ve kapsayıcılık.
Her gün bu ilkeleri somut araçlara dönüştürüyorlar. Kumar şöyle diyor: “Bir mühendise bu ilkeleri uygulaması için 50 sayfalık bir belge verirseniz, bunalır.
Pyrit adında açık kaynaklı bir aracımız var. Onu kendimiz için geliştirdik ve sonra dünyaya açtık, çünkü ekosistemin sağlığına inanıyoruz.”
Kırmızı ekipte nörobilimciler, dilbilimciler, ulusal güvenlik uzmanları, siber güvenlik uzmanları, askeri gaziler ve hatta Kumar’ın ifadesiyle “kendini rehabilite etmiş” eski bir mahkûm bulunuyor.
Ayrıca 17 dil konuşuyorlar ve ekip liderine göre Fransızca, Moğolca, Tayca ve Korece lehçelerine de hâkimler; bu da yapay zekânın dünya genelinde hata yapmamasını sağlama hedefleri açısından önemli.
İnsan ve makine
Kumar ile birlikte ekibin operasyonlarını yöneten Tori Westerhoff’un geçmişi, bilişsel nörobilim ile ulusal güvenlik stratejisini birleştiriyor; Yale’de eğitim gördü ve Wharton Neuroscience Initiative’in ilk üyelerindendi, ayrıca istihbarat ve savunma kurumlarında çalıştı.
“Bir görev aldığımızda,” diye açıklıyor, “o teknolojinin kullanım eğrisinin uç noktalarında neyin yanlış gidebileceğini simüle ederiz.
Ekibim, ürünü hem amaçlandığı şekilde hem de amaç dışı kullanımlarla inceleyerek en uç senaryoları belirler ve ürün ekibinin bunları gerçek dünyada karşılaşılmadan önce çoğaltıp azaltmasına yardımcı olur.”
Bunun bir örneği, geçen ağustosta piyasaya sürülen OpenAI modelinin GPT-5 sürümü üzerinde yapılan kırmızı ekip çalışmasıydı.
Yaptıkları şey, başka bir yapay zekâyı eğiterek programı otomatik olarak ve insanların yapamayacağı bir ölçekte hacklemekti.
GPT-5’i test ederken, kırmızı ekip Pyrit’i kullanarak otomatik olarak iki milyondan fazla sahte konuşma üretti.
Yapay zekâ günler boyunca diğer yapay zekâya sürekli saldırarak, bir insanın asla aklına gelmeyecek kombinasyonları keşfetti. Bu zayıf noktaları manuel olarak bulmak son derece yavaş bir süreçtir; bu yüzden işi yapması için başka bir yapay zekâ eğitildi.
Kumar’ın ifadesiyle, Christopher Nolan’ın rüyalar içinde rüyalar fikrini işlediği Inception filmindeki gibi.
Ancak Westerhoff, Kumar ve şirketin Sorumlu Yapay Zekâ ofisini yöneten Daniel Krutz bir noktayı vurguluyor:
“Kırmızı ekip çalışması yalnızca belirli bir ölçüde otomatikleştirilebilir ve bir yapay zekâ yanıtının garip hissettirip hissettirmediğine ya da önyargı içerip içermediğine yalnızca insanlar karar verebilir.”
Yargıyı insan verir; ölçek ise makine tarafından sağlanır. Bu iş bölümü, ekibin felsefesini tanımlar.
Westerhoff’a göre aslında yalnızca insan zihni, “henüz gözlemlenmemiş, tam olarak tanımlanmamış ya da keşfedilmemiş alanları hayal edebilir. Bizim işimiz, sistematize edilmiş alanın ötesinde yenilik yapmak ve yaratmaktır.”
Ekip, otomasyonun doğası gereği kör olduğu ve insan yargısının zorunlu olduğu üç alan belirledi. Birincisi konularla ilgilidir: tıp ve güvenlik gibi alanlarda risk değerlendirmesi için insanlara ihtiyaç vardır. İkincisi, yapay zekânın kullanılacağı yerlerle ilgilidir.
“Dilsel farklılıkları dikkate almak ve farklı siyasi ve kültürel bağlamlarda neyin zarar sayıldığını yeniden tanımlamak için insanlara ihtiyacımız var,” diyor şirket. Üçüncüsü ise duygusal zekâdır.
Bu alanda, kullanıcıların yapay zekâ sistemleriyle kurabileceği etkileşim aralığını yalnızca insanlar değerlendirebilir. Bir model tüm otomatik testleri geçebilir ve yine de gerçek bir durumda bir insan için rahatsız edici olabilecek yanıtlar üretebilir.
Yapay zekâya bu bakış açısı, DeepMind’ın kurucularından biri ve Microsoft’un CEO’su olan Mustafa Suleyman’ın vizyonuyla örtüşüyor.
Suleyman birkaç gün önce Nature dergisinde, bilinçli gibi görünen bir yapay zekânın bir silaha dönüşebileceğini yazdı.
Yapay zekâ sistemleri giderek insan dilinin yapısını taklit ettikçe, onların bilinçli varlıklar sanılmasını önlemek için tasarım standartlarına ve yasalara ihtiyaç olduğunu savunuyor.
Suleyman, “Onlar temelde insanlara karşı sorumlu kalmalı ve insanlığın refahına tabi olmalıdır,” diye belirtirken “Yapay zekâ ajanlarının benim dizüstü bilgisayarımdan daha fazla hak ya da özgürlüğü olmamalı” dedi.
Kırmızı ekibin çalışmasının temelinde yatan merkezi felsefe kısaca şudur: “Sorumlu yapay zekâ, geliştirme sürecinin sonunda uygulanan bir filtre değil, sürecin temel bir parçasıdır,” diyor Kumar. Bunlar Smith’in koruyucu sınırlarıdır; aslında fren değil, hızlı ilerlerken çarpmamak için bir koşuldur.
El Pais