OpenAI'ın Yeni Yapay Zeka Modellerinde Halüsinasyon Sorunu Büyüyor

Yiğit Aksüt
Teknoloji Editörü
OpenAI'ın Yeni Yapay Zeka Modellerinde Halüsinasyon Sorunu Büyüyor
#openai

Yapay zeka teknolojilerinde lider kuruluşlardan biri olan OpenAI, geçtiğimiz hafta kamuoyuna sunduğu yeni nesil modelleriyle dikkatleri bir kez daha üzerine çekmeyi başardı. Ancak bu yeni modellerin doğruluk performansıyla ilgili gelen ilk değerlendirmeler, olumlu beklentiler yaratmak yerine ciddi endişelere yol açtı. Özellikle o3 ve o4-mini isimli yeni modellerin, eski versiyonlara kıyasla daha fazla "halüsinasyon" üretmesi, yapay zeka sektöründe güvenilirlik tartışmalarını yeniden alevlendirdi.

OpenAI'ın Yeni Yapay Zeka Modelleri Gerçekten Daha Fazla Halüsinasyon Mu Görüyor?

Yapay zeka alanında "halüsinasyon" terimi, bir modelin gerçekte olmayan ya da doğrulukla bağdaşmayan bilgiler üretmesi anlamına geliyor. Bu durum, bilgiye dayalı uygulamalarda büyük riskler doğurduğu için, geliştiriciler ve kullanıcılar açısından son derece kritik bir mesele olarak değerlendiriliyor. OpenAI’ın teknik dökümanlarında yer alan güncel verilere göre, yeni geliştirilen o3 modelinin, şirketin kendi geliştirdiği bilgi doğruluğu testi olan PersonQA üzerinde yüzde 33 oranında halüsinasyon ürettiği tespit edildi.

Bu oran, önceki nesil o1 modelinin aynı testte kaydettiği yüzde 16'lık halüsinasyon oranının iki katı seviyesinde. Öte yandan, o3-mini modeli ise yüzde 14,8 gibi daha makul bir halüsinasyon oranı sergiledi. Ancak yeni modeller arasında en yüksek halüsinasyon oranı o4-mini modelinde gözlemlendi. O4-mini, yapılan testlerde yüzde 48 gibi oldukça yüksek bir oranda gerçek dışı bilgi üretti.

Beklenmedik Artışın Sebebi Ne Olabilir?

OpenAI yetkilileri, yeni modellerde görülen bu beklenmedik doğruluk probleminin kaynağına ilişkin henüz net bir açıklama yapmadı. Şirket tarafından yapılan değerlendirmelerde, bu durumun nedeninin tam olarak anlaşılabilmesi için daha fazla araştırmaya ihtiyaç olduğu belirtildi. OpenAI'ın bu konudaki açıklamasında şu ifadeler kullanıldı:

"Bu beklenmedik artışın nedenini henüz kesin olarak belirlemedik. Daha fazla veri topluyor ve kapsamlı analizler yürütüyoruz."

Bu durum, yapay zeka modellerinin geliştirilme sürecinde kullanılan yöntemlerin ve veri setlerinin yeniden gözden geçirilmesi gerektiğini gösteriyor olabilir.

Modeller Başka Alanlarda Başarılı mı?

İlginç bir şekilde, OpenAI’ın yeni modelleri bilgi doğruluğu açısından sorunlar yaşarken, bazı diğer teknik alanlarda olumlu performans sergiliyor. Özellikle matematiksel çözümlemeler ve yazılım üretimi gibi alanlarda yeni modellerin önceki nesillere göre daha iyi sonuçlar verdiği belirtiliyor. Ancak uzmanlar, bilgi doğruluğu konusundaki dengesizliklerin, yapay zekanın güvenilirliğini ciddi şekilde zedeleyebileceğine dikkat çekiyor. Bilhassa akademik araştırmalar, profesyonel yazılım geliştirme ve sağlık teknolojileri gibi kritik uygulamalarda, yüksek doğruluk oranı büyük önem taşıyor.

İçerik için#tepkiver

Toplamda 0 tepki verildi.

Default Avatar