Son dönemde yapılan bir araştırma, yapay zeka büyük dil modellerinin (LLM) gelişimi ile birlikte, bu modellerin sorgulara yanıt veremediğini kabul etme oranının azaldığını ortaya koydu. İspanya’daki Universitat Politecnica de Valencia’dan yapay zeka araştırmacıları tarafından gerçekleştirilen çalışma, büyük dil modellerinin kullanıcı sorularına yanlış yanıt verme olasılığının, cevabı bilmediklerini kabul etme olasılığından daha yüksek olduğunu göstermektedir. Bu durum, LLM’leri daha az güvenilir hale getirmektedir.
Araştırmada, BigScience’ın BLOOM modeli, Meta’nın Llama modeli ve OpenAI’nin GPT serisinin en son sürümleri gibi önde gelen yapay zeka modelleri, matematik, fen ve coğrafya konularında binlerce soruya maruz bırakıldı. Araştırmacılar, her bir modelin verdiği yanıtların kalitesini değerlendirdi ve bu yanıtları doğru, yanlış veya çekingen (kaçamak) yanıtlar olarak sınıflandırdı.
ARAŞTIRMA NATURE DERGİSİNDE YAYINLANDI
Araştırma sonuçları, Nature dergisinde yayınlandı. Yayınlanan çalışmada, her yeni modelin daha zorlu problemleri daha doğru yanıtlarla çözme kapasitesinin arttığı gözlemlendi. Ancak Euronews’in aktardığına göre, daha gelişmiş modeller, bir soruya doğru yanıt verip vermedikleri konusunda daha az şeffaflık gösterme eğilimindeydi. Önceki LLM modelleri, cevap bulamadıklarını veya bir cevaba ulaşmak için daha fazla bilgiye ihtiyaç duyduklarını belirtirken, yeni modellerin tahmin yapma ve basit sorulara bile yanlış cevap verme olasılığı daha yüksekti.
TEMEL PROBLEMLERDE BAŞARI EKSİKLİĞİ
Yapılan çalışmada, LLM'lerin veri setlerini anlama, tahmin yapma ve bunlara dayalı yeni içerikler üretme yeteneklerinin derin öğrenme algoritmaları aracılığıyla geliştirildiği ifade edildi. Yeni nesil modeller, karmaşık sorunları daha doğru bir şekilde çözebilme yeteneğine sahip olsalar da, temel soruları yanıtlama konusunda hâlâ bazı hatalar yapıyorlar. Araştırmaya göre, “çok düşük zorluk seviyelerinde bile tam güvenilirlik elde edilemiyor. Modeller, son derece zorlu örnekleri çözebilseler de, basit örneklerde başarısız oluyorlar.”
OpenAI'nin GPT-4 modelinde de durum benzer. ‘Kaçamak’ cevapların sayısının, bir önceki model olan GPT-3.5'e göre önemli ölçüde düştüğü belirtiliyor. Çalışmanın yazarları, “Bu durum, daha yeni LLM'lerin kendi çalışma aralıkları dışında cevap vermekten daha başarılı bir şekilde kaçınacağı beklentisiyle uyuşmuyor” diyerek, teknoloji ölçeklendirilmiş olsa bile modellerde belirgin bir gelişme olmadığını ifade etti. -Haber Merkezi