Yazı: 12:13 Editörden

OpenAI: Yapay Zekâ Halüsinasyonları Sistematik Bir Sorun

OpenAI, yapay zekâ halüsinasyonlarının teknik bir hata değil, eğitim ve değerlendirme süreçlerinin doğal sonucu olduğunu açıkladı. Çözüm olarak, belirsizliği ifade eden modellere kısmi kredi verilmesi öneriliyor.

OpenAI araştırmacıları, büyük dil modellerinin yalnızca hata yapmakla kalmadığını, zaman zaman güvenle yanlış bilgiler ürettiğini açıkladı. Yeni yayımlanan “Why Language Models Hallucinate” başlıklı çalışmada, halüsinasyonların gizemli birer hata değil; eğitim ve test süreçlerinin öngörülebilir bir yan ürünü olduğu vurgulandı.

Halüsinasyonların Temeli

Araştırmaya göre sorun iki aşamada ortaya çıkıyor: ön eğitim (pretraining) ve değerlendirme (evaluation). Ön eğitim aşamasında modeller devasa veri setleri üzerinden bir sonraki kelimeyi tahmin etmeyi öğreniyor. Ancak bu yaklaşım, ikili sınıflandırmada görülen hata kalıplarını da beraberinde getiriyor. Örneğin, bir ünlünün doğum gününü yalnızca bir kez gören model, daha sonra bu bilgiyi güvenilir şekilde üretemiyor.

Kağıtta yer alan bir örnekte, bir yazarın doğum günü sorulduğunda açık kaynaklı bir model üç farklı ama hatalı tarih verdi. Bir başka testte “DEEPSEEK” kelimesindeki “D” harflerini sayması istendiğinde modeller 2 ile 7 arasında değişen yanlış cevaplar üretti.

Değerlendirme Süreci Hataları Kalıcı Kılıyor

Post-train sürecinde amaç hataları azaltmak olsa da, kullanılan test sistemleri modelleri “bilmediğini söylemek yerine tahmin yapmaya” teşvik ediyor. Çoğu benchmark testi doğru cevaplara puan verirken “bilmiyorum” yanıtını sıfırla değerlendiriyor. Bu da sürekli tahmin yapan modellerin daha yüksek skor elde etmesine yol açıyor.

Araştırmacılar, bu durumun yapay zekâ sistemlerini “sınav modunda” tuttuklarını ve aşırı özgüvenle yanlış cevap üretmelerini teşvik ettiğini belirtiyor.

Çözüm Önerileri

Çalışmanın yazarları, çözümün yeni bir halüsinasyon testi değil, değerlendirme sistemlerinin yeniden tasarlanması olduğunu savunuyor. Örneğin, modellerin yalnızca %75’in üzerinde emin oldukları cevapları vermesi veya belirsizliği ifade ettiklerinde kısmi kredi almaları öneriliyor.

Bu yaklaşım, özellikle finans, sigortacılık ve ödeme teknolojileri gibi doğruluk oranının kritik olduğu sektörlerde önem taşıyor. Nitekim bu yıl bazı sigorta şirketleri yapay zekâ halüsinasyonlarından kaynaklanan zararları teminat altına almaya başladı.

OpenAI’nin raporu, halüsinasyonların teknik bir aksaklıktan ziyade sistematik bir sonuç olduğunu ortaya koyuyor. Finans ve fintek alanında yapay zekâ çözümleri hızla yaygınlaşırken, bu sorun iş süreçlerinde ciddi maliyetlere yol açabilir. Özellikle regülasyon baskısının arttığı bir dönemde, doğruluğu garanti altına almayan modellerin risk yönetimi açısından büyük zafiyet oluşturacağı anlaşılıyor. Özetle, yapay zekânın daha güvenilir hale gelmesi yalnızca teknolojik ilerleme ile değil; performansın nasıl ölçüldüğüyle de doğrudan bağlantılı.

Kapat