
OpenAI新論文揭示AI模型出現(xiàn)幻覺的原因:并非神秘故障而是模型訓練的獎勵機制問題
目前人工智能模型普遍存在幻覺問題,所謂幻覺就是模型偶爾會自信滿滿地輸出錯誤信息,此前曾有報道稱連研究人員都搞不清幻覺的根源,因為模型在運行中屬于黑盒模式。
不過 OpenAI 研究團隊最新發(fā)布的論文已經(jīng)揭示這種幻覺的原因:產(chǎn)生幻覺的根本原因并非神秘故障,而是源于訓練和評估機制的激勵偏差,這種激勵機制是產(chǎn)生幻覺的根本原因。
什么是人工智能模型的幻覺:
幻覺指的是人工智能模型生成看似合理但實際虛假的陳述,這種錯誤可能出現(xiàn)在簡單的問題上,但 AI 模型卻以非常自信的語氣呈現(xiàn)導致用戶以為內(nèi)容是真實的。
對初級用戶來說可以將幻覺想象成人類在對話中的胡說八道,模型像人類那樣編造信息并且缺乏自我懷疑能力,OpenAI 稱即便是最先進的 GPT-5 模型也無法完全消除幻覺,盡管該模型在推理任務中的幻覺已經(jīng)明顯減少。
評估機制如何助長幻覺:
論文的核心觀點是,幻覺持續(xù)存在的部分源于當前評估方法的激勵失誤,這種評估類似于考試評分系統(tǒng),但該系統(tǒng)更鼓勵模型蒙答案而不是誠實承認未知。
以多選題考試為例:如果你不知道正確答案,瞎猜可能會碰巧正確并獲得分數(shù),但如果留空那肯定是零分的,所以 AI 模型的評估通常只計算準確率也就是正確答案的比例,而忽略錯誤率或棄權(quán)率 (模型選擇不說或承認不確定)。
這種激勵模式導致的結(jié)果是模型學會了在不確定的時候大膽猜測以提高整體分數(shù),而不是坦率承認不會,正如各位向 AI 提問時,AI 總會給出回答而不是說自己不知道。
論文稱在真實應用中許多問題因為信息缺失、模型能力有限或者問題存在歧義導致模型無法給出 100% 正確的回答,因此單純追求準確率的排行榜在無意中鼓勵了這種行為,導致先進模型仍然會自信輸出錯誤回答。
OpenAI 的核心價值觀包括謙遜,其模型規(guī)范明確規(guī)定寧可表示不確定或?qū)で蟪吻?,也不要提供可能錯誤的回答,也就是:知之為知之,不知為不知,是知也。
如何改進激勵模式解決幻覺:
研究團隊提出一個簡單卻有效的修復方案:調(diào)整評分規(guī)則并嚴厲懲罰自信錯誤,同時為適當?shù)牟粶蚀_性給與部分分數(shù),這類似標準化考試的負分制:錯誤扣分,留空不扣。
不過研究團隊也強調(diào)僅添加少數(shù)考慮不確定性的新測試不足以解決問題,主要基準測試必須全面更新以避免獎勵幸運猜測,這樣才能推動開發(fā)者采用減少幻覺技術(shù),包括現(xiàn)有方法和新研究。
只有主流評估測試轉(zhuǎn)向激勵謙遜,模型才會學會在不確定時閉嘴而不是自信滿滿的編造回答。
幻覺發(fā)生的根本原因:
為什么人工智能模型容易產(chǎn)生事實性幻覺卻很少出現(xiàn)拼寫或語法錯誤?論文從預訓練過程入手進行解釋。模型首先會通過下一個詞預測學習,在海量文本中預測下一個單詞,沒有明確的真假標簽,只有流暢語言的正面示例。
預訓練像是教孩子閱讀,只給正確句子看而不會標注錯誤,模型必須從模式中推斷分布,但事實例如某人生日往往是低頻的、隨機的、無法從模式預測。例如圖像識別模型可以輕易分類貓和狗,但要預測寵物生日進行隨機猜測那必然是錯誤的。
拼寫和括號匹配有著固定的規(guī)則,隨著模型規(guī)模擴大而消失,但低頻事實例如名人生日缺乏模式,導致預訓練后幻覺開始萌芽,隨后階段例如微調(diào)本應該修改錯誤,但前文提到的評估激勵讓問題延續(xù),論文稱這種統(tǒng)計機制決定哪些幻覺類型會浮現(xiàn),并非模型智能不足。
有趣的是小型模型有時候更容易避免幻覺,例如問毛利語時,不知道毛利語的小型模型會直接說不知道,而更大規(guī)模的模型需評估自信度、計算更復雜,更容易出現(xiàn)錯誤的幻覺。
澄清誤解與未來展望:
論文也通過統(tǒng)計視角澄清常見的誤區(qū):
誤區(qū) 1:提升準確率就能消除幻覺,因為 100% 準確模型不會出錯。
事實 1:準確率永遠不可能達到 100%,因為有些問題本質(zhì)上不可回答例如信息缺失。
誤區(qū) 2:幻覺不可免。
事實 2:模型可以通過棄權(quán)來回避幻覺。
誤區(qū) 3:只有大型模型才能避免幻覺,需要更高的智能。
事實 3:小模型更容易校驗自身的不確定性。
誤區(qū) 4:幻覺是神秘故障。
事實 4:幻覺源于可理解的統(tǒng)計機制和評估獎勵。
誤區(qū) 5:只需要一個好幻覺評估系統(tǒng)即可。
事實 5:需要全面重構(gòu)當前主流準確率評估,以獎勵不確定性。
OpenAI 表示,其最新模型的幻覺率已經(jīng)降低并繼續(xù)努力減少自信錯誤,展望未來:這一研究有望推動行業(yè)標準變革,讓 AI 更可靠、更謙遜,對用戶而言選擇支持不確定性表達的模型,也有助于提升交互體驗。
文章目錄
什么是人工智能模型的幻覺:
評估機制如何助長幻覺:
如何改進激勵模式解決幻覺:
幻覺發(fā)生的根本原因:
澄清誤解與未來展望:
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 習近平祝賀中國致公黨成立100周年 7904102
- 2 詳訊:習近平同特朗普通電話 7808646
- 3 “超級中學”一個年級94個班 7714401
- 4 壁紙上新!中國戰(zhàn)機高清大片來了 7618684
- 5 48歲女子坐超市收銀臺后彈唱走紅 7522498
- 6 俄女子10萬盧布出賣靈魂買拉布布 7425952
- 7 山姆門店回應賣冷凍2年的西蘭花 7331986
- 8 馬克龍夫人提交證據(jù)證明自己是女性 7232991
- 9 百歲老人偷玩曾孫玩具 兒子悄悄記錄 7144083
- 10 埃及3000年前法老金鐲被賣不到3萬 7043125