Yapay Zekâ “Pişmanlığı” Keşfediyor

Yapay zekâ “pişmanlıktan” öğreniyor: Makine öğrenimini devrimleştiren yeni model.

2026 tarihli bir akademik çalışma, psikolojik mekanizmaların sisteme dâhil edilmesinin eğitim sürelerini yüzde 36 oranında azalttığını ortaya koyuyor.

İşte “sonradan akıl yürütmenin” makineleri neden daha hatasız hâle getirdiği.

Yapay zekânın neredeyse her şeye kadir göründüğü bir çağda yaşıyoruz; ancak “motorun altında” çalışanlar bu sistemlerin çok ciddi bir zayıf noktası olduğunu iyi biliyor: verimsizlik.

Gözleriniz kapalı şekilde satranç oynamayı öğrenmeye çalıştığınızı hayal edin ve yalnızca oyunun sonunda “Kazandın” ya da “Kaybettin” şeklinde bir geri bildirim aldığınızı düşünün.

Üç saat önce yaptığınız hangi hamlenin sizi yenilgiye götürdüğüne dair hiçbir ipucu yok. Bu durum, geleneksel Pekiştirmeli Öğrenme’de (Reinforcement Learning – RL) karşılaşılan “seyrek ödül” probleminin özeti niteliğindedir.

Algoritma, yani yapay zekâ, kazandığını ya da kaybettiğini çok geç fark eder; tüm işlemler tamamlandığında. Bu da pek çok adımın boşa harcanmasına yol açar.

Profesör Zhe Xu’nun 2026 yılında yayımlanan “StepScorer: Accelerating Reinforcement Learning with Step-wise Scoring and Psychological Regret Modeling” başlıklı çalışması, saf bilgisayar biliminden ziyade davranışsal ekonomi tadında bir çözüm sunuyor: makinelere pişmanlık hesabını öğretmek.

Zhe Xu tarafından geliştirilen Psikolojik Pişmanlık Modeli (PRM), algoritmayı her adımda şu soruyla yüzleştirerek eğitim sürelerini yüzde 36 oranında kısaltmayı vaat ediyor:

“En iyi seçeneği tercih etmediğim için ne kadar kaybettim?”
Bu, her adımda daha doğru kararlar almayı sağlayan gerçek bir pişmanlık hesabıdır.

Verimlilik Problemi

Klasik Pekiştirmeli Öğrenme’de ajan, bir ödüle rastlayana kadar ortamı neredeyse rastgele keşfeder. Bu son derece “liberal” bir yaklaşımdır: çevrenin (piyasanın) öğrenmeyi kendi temposunda düzenlemesine izin verilir ve ödüller üzerinden optimizasyon yapılır.

Ancak bu öğrenme biçimi son derece yavaştır. Yapay zekâ, sürecin sonunda gelen nihai geri bildirimi beklemek zorunda kalır; bu da birçok adımın boşa harcanmasına ve çoğu zaman optimal çözümün bulunamamasına neden olur.

PRM modeli ise aktif bir ekonomi politikası gibi devreye girer. Başarıyı ya da başarısızlığı beklemez. Yoğun bir geri bildirim sistemi sunar; ajana anında düzeltici sinyaller göndererek onu optimum çözüme yönlendirir. Ekonomik açıdan bakıldığında, yapılan eylem ile beklenen sonuç arasındaki bilgi asimetrisini azaltır.

“Pişmanlık Hesabı” Tam Olarak Nedir?

Burada insan duygularından değil, onların katı bir matematiksel biçimde modellenmesinden söz edilmektedir. PRM’nin merkezinde, karar teorisinin temel taşlarından biri olan karşı-olgusal düşünme (counterfactual thinking) yer alır. Yapay zekâ, tamamen matematiksel bir çerçevede şu soruyu sorar:
“Ya farklı bir seçim yapsaydım?”

“Pişmanlık”, matematiksel olarak, o durumda yapılabilecek en iyi eylemin değeri ile ajanın fiilen seçtiği eylemin değeri arasındaki fark olarak hesaplanır. Çalışmada sunulan temel formül şu şekildedir:

regret(s_t, a_t) ≈ Q_opp(s_t, a*_opp) – Q_opp(s_t, a_t)

Burada:

Q_opp, güçlü bir “rakip” ya da öğretmen model tarafından sağlanan değer tahminidir.
a*_opp, o andaki mümkün olan en iyi eylemdir.
a_t, ajanın fiilen gerçekleştirdiği eylemdir.

Başka bir deyişle, ajan optimal olmayan bir hamle yaptığında sistem bölümün sonunu beklemez. O hamlenin ne kadar kötü olduğunu, mümkün olan en iyi hamleyle arasındaki fark oranında, anında negatif bir sinyalle bildirir. Bu durum, geri bildirimin olmadığı bir “çölü”, sinyallerle dolu bir patikaya dönüştürerek çok daha hızlı bir yakınsamaya olanak tanır.

Sonuç Neden Daha İyi?

Çalışmanın en dikkat çekici yönü yalnızca hız değil, aynı zamanda sonuçların kalitesidir.

Lunar Lander-v3 ortamında (bir uzay aracının güvenli şekilde indirilmesini simüle eden fizik tabanlı bir test ortamı) yapılan deneylerde, algoritma sadece daha hızlı öğrenmekle kalmamış, aynı zamanda daha iyi öğrenmiştir.

Sonuçlara göre:

İstikrar: PRM kullanan ajanlar, sürecin çok erken aşamalarında dikey dengeyi korumayı öğrenmiştir.
Verimlilik: Standart ajanların son anda düşme riski yaratan düzensiz manevralarına karşılık, PRM ajanları daha akıcı itki profilleri kullanarak yakıt tasarrufu sağlamıştır.

Doğrudan performans karşılaştırması:

Metrik	PPO (Standart)	PPO + PRM (Pişmanlıkla)
Çözüm için gereken bölüm sayısı	550+	350 (-%36)
Ortalama nihai ödül	140 ± 15	300 ± 20

Pişmanlık temelli model, ortalama 300 puan elde ederken, temel model 140 puanda kalmıştır. Bu da ajanın yalnızca “çakılmamayı” değil, iniş sürecinin tamamını optimize ettiğini göstermektedir.

Davranışsal Modelin Yapay Zekâ İçin Gerçek Değeri

Bu yaklaşım neden oyunların ötesinde önemlidir?

Gerçek Dünya Uygulamaları: Robotik ve otonom sürüş gibi alanlarda binlerce hatayı beklemek mümkün değildir. Düşen bir robot maliyetlidir, savrulan bir araç tehlikelidir. PRM, adım adım geri bildirim sunduğu için gecikmeli ödüllerin olduğu bu ortamlara son derece uygundur.
Finans ve Alım-Satım: Pişmanlık kavramı finansal piyasalara doğası gereği içkindir. Sadece gerçekleşen kâr ve zararları değil, kaçırılan fırsatların maliyetini de öğrenen bir algoritma, daha dengeli ve daha az aşırı risk alan stratejiler geliştirir.
Akışkan Zekâ: Çalışmanın vardığı sonuçlardan biri de, PRM’nin “bir kez eğit, sonsuza kadar uyarla” yaklaşımıyla, hafif adaptörler (örneğin LoRA) aracılığıyla yeni görevlere hızla uyarlanabilmesidir.

Elbette bazı dezavantajlar da vardır: her adımda fırsat maliyeti hesaplamak, ciddi bir hesaplama yükü getirir. Bu da daha yüksek hesaplama kapasitesi ihtiyacını doğurur.

Matematiksel İnsanlaşma

Bu çalışmanın verdiği temel ders şudur: makineleri daha zeki yapmak için, paradoksal biçimde, onları insanın “acı veren” bilişsel süreçlerine daha çok benzetmek gerekir.

Psikolojide pişmanlık, tekrar eden hataları önleyen son derece güçlü bir öğrenme mekanizmasıdır.

Zhe Xu, “sonradan akıl yürütmeyi” matematiksel olarak formüle etmenin yalnızca teorik bir egzersiz değil, hesaplama sürelerini kısaltan ve performansı artıran gerçek bir mühendislik tekniği olduğunu göstermektedir." diyor

Hesaplama gücünün enerji ve maliyet açısından giderek daha pahalı hâle geldiği bir dünyada, daha az hata yaparak daha çok öğrenen algoritmalar, yapay zekânın gerçek dönüm noktasıdır.

Yapay Zekâ “Pişmanlığı” Keşfediyor

Haber Galerisi

İlgili Haberler

Amazon, Güney Afrika'da uydu internet hizmetini başlatacak

Netflix'in bir sonraki büyüme dönemi, izleyicileri platformda tutabilmesine bağlı

Intel'den, dizüstü bilgisayar için ASML Hamlesi

“Anthropic Avrupa’yı önemsemiyor”

İsviçre, arama motoru seçeneğini kaldıran Google hakkında inceleme başlattı

IBM, harcamaların yapay zekâya kayması nedeniyle ikinci çeyrek ön gelir tahmininin beklentilerin altında kalacağını öngördü