Castricato: Dünya Artık “Fiziksel Yapay Zekâ”nın Test Sahası
Bilgisayar bilimcisi Louis Castricato, ChatGPT ve Claude gibi sohbet robotlarının temelini oluşturan büyük dil modelleri (LLM) üzerine sekiz yıl çalıştıktan sonra bir çıkmaza girdiğini hissetmeye başladı.
“Gerçek anlamda temel LLM araştırmalarının sınırını büyük ölçüde aştığımızı düşünüyorum,” diyen Castricato, “Artık mesele daha çok uygulamalar geliştirmekten ibaret” ifadelerini kullandı.
Araştırmacı, Brown University'deki çalışmalarını bırakarak Overworld adlı yeni bir şirket kurdu. Şirketin hedefi ismine de yansıyor: Sadece kelimeleri değil, dünyayı anlayabilen ve içinde hareket edebilen yapay zekâ sistemleri geliştirmek.
Yapay zekâ sohbet botlarından hâlâ büyük gelirler elde edilmesi bekleniyor. Yatırımcılar, Anthropic ve OpenAI gibi öncü şirketlere trilyonlarca dolarlık yatırım yaparken bu potansiyele güveniyor.
Ancak giderek daha fazla sayıda yapay zekâ girişimcisi, bir sonraki büyük sıçramanın “dünya modelleri” (world models) olduğuna inanıyor.
Bu modeller, yapay zekâ sistemlerine ve kimi zaman robotlara fiziksel çevreyi anlamayı ve ona tepki vermeyi öğretmeyi amaçlıyor.
Bu alanda çalışanlar arasında yapay zekâ dünyasının en tanınmış isimlerinden bazıları da bulunuyor. Bunlardan biri olan Fei-Fei Li, dünya modeli kavramını “bugün yapay zekâ alanındaki en önemli ve aynı zamanda en fazla anlam yüklenen kavramlardan biri” olarak tanımlıyor.
Yapay Zekâya Yeni Bir Boyut: Dünyayı Anlamak
Dünya modeli araştırmalarının temelinde şu düşünce yatıyor: Bir yapay zekâ yalnızca kitap okuyabiliyorsa gerçekten zeki sayılamaz. Aynı zamanda bulunduğu ortamı da okuyabilmelidir.
Bu ay yayımladığı bir makalede, aynı zamanda World Labs kurucusu olan Li şunları yazdı:
“Dil modelleri metnin istatistiksel yapısını öğrenirken, dünya modelleri uzayın ve zamanın istatistiksel yapısını öğrenir: Işığın bir yüzeye nasıl düştüğünü, bir bahçenin hiçbir kameranın çekmediği açıdan nasıl görüneceğini, nesnelerin kuvvete nasıl tepki verdiğini ve fizik kurallarına nasıl uyduğunu.”
Bir diğer önemli savunucu ise yapay zekâ öncülerinden Yann LeCun. LeCun, geçen yıl Meta'daki baş yapay zekâ bilimcisi görevinden ayrılarak Paris merkezli Advanced Machine Intelligence Labs adlı girişimi kurdu.
Yakın zamanda katıldığı bir podcast programında LeCun şunları söyledi:
“Dünya modeli hızla moda bir kavrama dönüşüyor.”
LeCun'a göre dünya modeli, bir yapay zekâ ajanının:
“Kendi eylemlerinin sonuçlarını öngörebilmesini sağlayan bir sistemdir.”
Dünya modellerinin kesin bir tanımı bulunmuyor. Tanımlar çoğu zaman geliştiricilerin hedeflerine göre değişiyor; bazıları robotlar için, bazıları ise daha etkileşimli video oyunları için bu teknolojiyi geliştirmeyi amaçlıyor.
Robotlar Sadece Kitaplardan Öğrenemez
İnsanlığın kitapları, haberleri ve görsel içerikleri üzerinde eğitilen büyük dil modelleri, ofis işlerinin ve yaratıcı sektörlerin yapısını değiştiren güçlü yapay zekâ asistanları ortaya çıkardı.
Ancak birçok araştırmacı, bir sonraki kelimeyi veya pikseli tahmin ederek çalışan üretken yapay zekâ modellerinin önemli sınırlamaları olduğunu düşünüyor.
Carnegie Mellon University Bilgisayar Bilimleri Fakültesi Dekanı Martin Hebert bunun en basit örneğini şöyle açıklıyor:
“Sohbet robotları bir kahve kupasını kaldıramaz.”
Hebert'e göre bunun nedeni yalnızca nesneyi tanımak değil; aynı zamanda dünyanın geometrisini, elin hareket dinamiklerini ve fiziksel temasın nasıl gerçekleştiğini anlamanın gerekmesidir.
“Bu, bir cümledeki sonraki kelimeyi tahmin etmekten çok daha karmaşık.”
Kırk yılı aşkın süredir robotik üzerine çalışan Hebert gibi bilim insanları için dünya modellerinin en önemli kullanım alanı, “fiziksel yapay zekâ” geliştirmeyi hızlandırmak ve maliyetleri düşürmek.
Hebert'e göre fiziksel veya bedenlenmiş yapay zekâ, geçmişte robotik olarak adlandırılan alanın doğal evrimidir.
İnsan bedenini örnek gösteren Hebert şöyle diyor:
“Vücudunuzda ve omuriliğinizde denge kurma, yürüme ve hareket etme konusunda genel bir model bulunur. Diziniz ağrıdığında yürüyüşünüzü otomatik olarak değiştirirsiniz. Bunun üzerinde bilinçli olarak düşünmeniz gerekmez.”
Bu tür genel modeller, insanların çevresel değişikliklere hızlı uyum sağlamasını mümkün kılıyor. Araştırmacılar benzer yetenekleri robotlara da kazandırmak istiyor.
Simüle Edilmiş Dünyalar Yatırımcıların İlgisini Çekiyor
Daha akıllı robotlar, dünya modellerinin tek hedefi değil.
Castricato'nun kurduğu Overworld, örneğin ürkütücü bir orman sahnesinin, sanal karakter ilerledikçe ve çevreyle etkileşime girdikçe dinamik biçimde değişebildiği video oyunu dünyaları geliştiriyor.
Castricato bunu şöyle açıklıyor:
“Kapılardan geçebildiğiniz ya da bu kadar ayrıntılı bir çevreyle etkileşime girebildiğiniz başka bir dünya modeli yok. Biz her şeyden önce etkileşime odaklanıyoruz.”
Yapay zekâ destekli yazılım geliştirme araçları kadar görünür kısa vadeli kullanım alanlarına sahip olmasa da, dünya modeli geliştiren şirketler yatırımcıların dikkatini çekiyor.
Bunlardan biri olan Steve Jang, yatırım şirketi Kindred Ventures aracılığıyla Overworld'e yatırım yapıyor.
Şirket ayrıca hava tahmini için yapay zekâ modelleri geliştiren Causal Labs ve dünya modellerine uygun özel işlemciler üreten Extropic gibi girişimleri de destekliyor.
Jang'a göre gelecekte tek bir dev yapay zekâ modeli olmayacak:
“Geleceğin, farklı felsefelere ve mimarilere sahip çok sayıda modelden oluşacağını düşünüyorum. Her şeye hükmeden tek bir büyük model olmayacak.”
Dünya Modellerinin Üç Türü
Fei-Fei Li, kavram etrafındaki karmaşayı azaltmak amacıyla yakın zamanda bir “dünya modelleri sınıflandırması”önerdi.
Li'nin ifadesiyle:
“Muhteşem ama fiziksel olarak imkânsız alevler üreten bir video modeli, oynanabilir bir oyun oluşturan dil modeli ve yanmayı doğru biçimde simüle eden bir fizik motoru aynı isimle anılabiliyor.”
Li dünya modellerini üç temel kategoriye ayırıyor:
1. Görselleştiriciler (Renderers)
Bugün ticari açıdan en uygulanabilir modeller bunlar. Sanal dünyaların görsel kalitesine odaklanıyorlar. Ancak robotlara fiziksel dünyayı öğretme konusunda yeterince güvenilir değiller.
2. Simülatörler (Simulators)
Gerçek dünyanın fiziksel yapısını doğru şekilde temsil eden sanal eğitim alanları oluşturuyorlar. Robotların eğitiminde kritik rol oynayabilecekleri düşünülüyor.
3. Planlayıcılar (Planners)
Yapılandırılmamış bir ortamda bir yapay zekâ ajanının veya robotun ne yapması gerektiğini öngörmeye çalışıyorlar.
Li'ye göre yarışın asıl hedefi burada:
“Plan yapabilen bir robot çalışabilen bir robottur ve tüm sektör bu hedefe ilk ulaşan olmak için yarışıyor.”
Yapay zekâ sektöründe sohbet robotlarından sonra yeni büyük rekabet alanının, yalnızca konuşabilen değil aynı zamanda fiziksel dünyayı anlayabilen, öngörebilen ve içinde hareket edebilen sistemler geliştirmek olduğu giderek daha net hale geliyor.
Bu nedenle birçok araştırmacı ve yatırımcı, geleceğin yapay zekâ devriminin ekranlarda değil, gerçek dünyanın içinde gerçekleşeceğine inanıyor.
AP News