Liste uzadıkça beyni karıştı! Yapay zekayı çökerten o psikolojik test

Yapay zeka sistemlerinin karmaşık problemleri çözmedeki başarısına rağmen, yeni bir bilimsel araştırma bu teknolojilerin dikkat yönetimi konusunda ciddi bir zayıflığı olduğunu ortaya koydu. Psikolojide kullanılan ünlü Stroop Testi’ne tabi tutulan GPT-5, Claude 3.5 ve Gemini 2.5 gibi dev modeller, görev uzadıkça asıl hedefi kaçırıyor. İşte insan beyni ile yapay zeka arasındaki o çarpıcı fark ve araştırmanın detayları.

Giriş Tarihi:
Liste uzadıkça beyni karıştı! Yapay zekayı çökerten o psikolojik test
ai haber özet Hızlı Özet Göster
  • Yapay zeka sistemleri üzerinde yapılan bir araştırma, bu teknolojilerin dikkat yönetimi konusunda zayıflıklar gösterebileceğini ortaya koydu.
  • Araştırmada, büyük dil modellerine Stroop Testi uygulanarak dikkat ve odaklanma becerileri incelendi ve uzun süreli odaklanmada zorluk yaşadıkları belirlendi.
  • Testin ilerleyen aşamalarında, kelime sayısı arttıkça yapay zeka modellerinin performansında belirgin düşüşler gözlemlendi.
  • Uyumlu ve uyumsuz renk-kelime eşleşmelerinin bir arada olduğu listelerde yapay zekaların performansı neredeyse sıfıra yaklaştı.
  • Araştırma, yapay zeka modellerinin dikkat süreçlerinin insan beynindeki mekanizmalardan farklı çalıştığını gösterdi.

Yapay zeka sistemleri metin üretme, kod yazma ve karmaşık problemleri çözme konusunda etkileyici performans sergilese de yeni bir araştırma, bu teknolojilerin dikkat yönetimi konusunda önemli bir zayıflığa sahip olabileceğini ortaya koydu.

Araştırmacılar, onlarca yıldır psikoloji alanında kullanılan Stroop Testi'ni büyük dil modelleri üzerinde uygulayarak dikkat ve odaklanma becerilerini inceledi. Elde edilen sonuçlar, bazı gelişmiş yapay zeka sistemlerinin görevin mantığını anlamasına rağmen uzun süre boyunca aynı hedefe odaklanmakta zorlandığını gösterdi.

Araştırma, yapay zekaların dikkat kontrolünde beklenmedik zayıflıklar taşıyabileceğini ortaya koydu. (Haberde yer alan fotoğraflar Takvim Foto Arşiv'e aittir)Araştırma, yapay zekaların dikkat kontrolünde beklenmedik zayıflıklar taşıyabileceğini ortaya koydu. (Haberde yer alan fotoğraflar Takvim Foto Arşiv'e aittir)

STROOP TESTİ NEDİR?

Stroop Testi, insan beyninin dikkat kontrolünü ve dikkat dağıtıcı unsurlara karşı direncini ölçmek için kullanılan klasik psikoloji deneylerinden biri olarak biliniyor.

Testte katılımcılara renk isimleri gösteriliyor. Ancak kelimenin anlamı ile yazıldığı renk her zaman aynı olmuyor. Örneğin "kırmızı" kelimesi mavi renkle yazılabiliyor.

Katılımcılardan beklenen ise kelimenin anlamını değil, yazıldığı rengi söylemeleri oluyor.

İnsanlar için oldukça basit görünen bu görev aslında zihinsel bir çatışma yaratıyor. Çünkü beyin kelimeleri otomatik olarak okumaya eğilim gösteriyor. Bu eğilimi bastırmak ise dikkat kontrolü gerektiriyor.

Onlarca yıldır kullanılan Stroop Testi, bu kez gelişmiş yapay zeka modellerine uygulandı.Onlarca yıldır kullanılan Stroop Testi, bu kez gelişmiş yapay zeka modellerine uygulandı.

İLK SONUÇLAR UMUT VERİCİYDİ

Araştırma kapsamında GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 ve Gemini 2.5 gibi önde gelen yapay zekâ modelleri test edildi.

İlk aşamada modellerin önüne yalnızca beş kelimeden oluşan kısa listeler konuldu. Bu listelerde kelimelerin anlamları ile renkleri birbirleriyle uyuşmuyordu.

Sonuçlar ilk bakışta oldukça etkileyiciydi. GPT-4o testlerde yüzde 91 doğruluk oranına ulaştı. Claude 3.5 Sonnet de benzer şekilde başarılı performans sergiledi.

Bu tablo, yapay zekaların dikkat dağıtıcı bilgileri görmezden gelebildiği izlenimini oluşturdu.

LİSTE UZADIKÇA BAŞARI HIZLA DÜŞTÜ

Ancak araştırmanın ilerleyen aşamalarında dikkat çekici bir değişim yaşandı.

Kelime sayısı arttıkça yapay zeka modellerinin performansı belirgin şekilde gerilemeye başladı.

GPT-4o'nun doğruluk oranı:

  • 5 kelimelik listede yüzde 91
  • 10 kelimelik listede yüzde 57
  • 40 kelimelik listede yüzde 15

olarak ölçüldü.

Claude 3.5 Sonnet daha dayanıklı görünse de benzer bir tablo ortaya koydu. Model, 20 kelimeye kadar istikrarlı sonuçlar verirken 40 kelimelik listelerde doğruluk oranı yüzde 24'e kadar düştü.

Araştırmacılar aynı eğilimin GPT-5, Claude Opus 4.1 ve Gemini 2.5 modellerinde de görüldüğünü belirtti.

Testte modellerden kelimelerin anlamını değil, yazıldıkları rengi tespit etmeleri istendi.Testte modellerden kelimelerin anlamını değil, yazıldıkları rengi tespit etmeleri istendi.

KARIŞIK LİSTELER PERFORMANSI NEREDEYSE SIFIRLADI

Testlerde uyumlu ve uyumsuz renk-kelime eşleşmeleri aynı liste içerisinde birlikte kullanıldığında sonuçlar daha da çarpıcı hale geldi.

Bu senaryolarda yapay zeka sistemlerinin uyumsuz örneklerdeki başarı oranı bazı durumlarda sıfıra yakın seviyelere kadar geriledi.

Araştırmacılar, modellerin görevin temel mantığını anladığını ancak süreç uzadıkça asıl hedefi takip etmekte zorlandığını değerlendirdi.

Liste uzadıkça beyni karıştı! Yapay zekayı çökerten o psikolojik test-5

İNSAN BEYNİ İLE YAPAY ZEKA ARASINDAKİ TEMEL FARK

Araştırma sonuçları, insan dikkati ile büyük dil modellerinin kullandığı dikkat mekanizmalarının aynı şekilde çalışmadığını ortaya koyuyor.

İnsanlar da kelimeleri okumaya doğal olarak eğilimli olsa da görev boyunca bu refleksi bastırarak doğru hedefe odaklanabiliyor.

Yapay zeka modelleri ise başlangıçta talimatı takip etmelerine rağmen test ilerledikçe yeniden kelimelerin anlamına yöneliyor. Başka bir ifadeyle sistemler zamanla görevin asıl amacını gözden kaçırabiliyor.

Araştırmacılar bu durumun, transformer tabanlı yapay zeka mimarilerinin dikkat süreçlerinin insan beynindeki yürütücü kontrol mekanizmalarından önemli ölçüde farklı olduğuna işaret ettiğini vurguladı.

YAPAY ZEKANIN GÜÇLÜ YÖNLERİ KADAR SINIRLARI DA ÖNEM KAZANIYOR

Uzmanlara göre günümüz yapay zeka sistemleri yazı yazma, analiz yapma ve muhakeme yürütme gibi alanlarda dikkat çekici yetenekler sergilese de bu başarılar onların insan zihniyle aynı şekilde çalıştığı anlamına gelmiyor.

Yeni çalışma, özellikle uzun süreli dikkat gerektiren görevlerde, otomatik tepkilerin bastırılmasında ve belirli talimatların korunmasında yapay zekâların beklenmedik zorluklar yaşayabileceğini ortaya koyuyor.

Araştırmacılar, yapay zekanın günlük yaşamda daha fazla kullanılmaya başlamasıyla birlikte bu tür sınırlamaların anlaşılmasının, sistemlerin güçlü yönlerini ölçmek kadar önemli hale geldiğini belirtiyor.

Araştırma, 2 Haziran 2026 tarihinde PNAS Nexus dergisinde yayımlandı.

Takvim Kaynak Tercihleri
Ezgi Polat
Ezgi Polat Takvim.com.tr Teknoloji

Günün Manşetleri

Tüm Manşetler