新聞分類

科技
互聯(lián)網(wǎng)
- 融資
- 新零售
- 企服
- 共享
- 教育
- 醫(yī)療
- 物聯(lián)網(wǎng)
- 安全
- 智能
- 政策
- 動態(tài)
- 技術(shù)
- 軟件
娛樂
- 電影
- 電視劇
- 綜藝
- 動漫
- 音樂
- 明星
- 網(wǎng)娛
- 韓娛
- 熱點(diǎn)
- 值得買
游戲
- 手游
- 端游
- 頁游
- 主機(jī)
- 公告
- 攻略
體育
- 業(yè)界
- 足球
- 籃球
- 彩票
汽車
- 車訊
- 新車
- 評測
時尚
- 奢侈品
- 時裝
- 美妝
- 美體
健康
- 疾病
- 兩性
- 健美
- 醫(yī)美
- 養(yǎng)生
- 新冠
旅游
母嬰
- 孕產(chǎn)
- 哺育
- 早教
- 親子
- 萌娃
房產(chǎn)
- 資訊
- 家居
- 家電
教育
- 高考
- 考研
- 公考
- 留學(xué)
- 高校
- 小初高
寵物
- 資訊
- 百科
- 訓(xùn)練
- 常識
- 寵物用品
其它
造數(shù)

小心AI開始胡說八道

動態(tài) PRO 稿源：新浪財經(jīng) 2025-03-05 21:37

來源：南風(fēng)窗

2025年2月，如果不是長期從事人口研究的中國人民大學(xué)教授李婷的公開辟謠，很多人都真誠地相信了一組數(shù)據(jù)——“中國80后累計死亡率為5.20%”。

在社交媒體上，許多“80后”都曾因這組數(shù)據(jù)扼腕嘆息。“截至2024年末，80后的死亡率已經(jīng)超過70后，相當(dāng)于每20個80后中，就有1人已經(jīng)去世?！弊悦襟w傳播道。

這一說法很快露餡。李婷教授在受訪時表示：“（死亡率5.2%）錯誤非常明顯，因?yàn)閷I(yè)統(tǒng)計數(shù)據(jù)中死亡率會用千分率表示，而不是百分率?！彼赋?，國家統(tǒng)計局并未公布2024年的死亡率，也不會根據(jù)“80后”、“90后”等分段公布死亡人數(shù)，因此這一說法毫無數(shù)據(jù)支撐。

虛假的死亡率數(shù)據(jù)從何而來？李婷認(rèn)為：很有可能來源于AI大模型出錯。她曾嘗試在AI大模型中輸入問題：“50后、60后、70后、80后，這幾代人的死亡率分別是多少”，大模型表示：“根據(jù)網(wǎng)絡(luò)信息，80后現(xiàn)存2.12億，存活率94.8%，死亡率5.2%?！?/span>

AI無中生有的能力讓人心顫。在AI業(yè)界，這類“胡說八道”的本領(lǐng)被稱為“幻覺（hallucination）”，意思是，AI也像人產(chǎn)生心理幻覺一樣，在遇到自己不熟悉、不在知識范圍的問題時，編造難以辨明真假的細(xì)節(jié)，生成與事實(shí)相悖的答案。

此事件中，讓人畏懼的是由技術(shù)蔓延出的不可控。新浪新技術(shù)研發(fā)負(fù)責(zé)人張俊林告訴南風(fēng)窗，隨著各個領(lǐng)域都在加強(qiáng)對AI的接入，AI幻覺成為了現(xiàn)階段需要重視的問題。但遺憾的是，業(yè)界還沒找到根除AI幻覺的辦法。

清華大學(xué)長聘副教授陳天昊也在受訪時提到，對于學(xué)生等特殊人群來說，大模型幻覺問題帶來的風(fēng)險性可能更大?！氨热?，小學(xué)生可能和家長一起使用大模型學(xué)習(xí)知識，但大模型產(chǎn)生的幻覺可能會產(chǎn)生誤導(dǎo)。在自身缺乏辨別能力的情況下，可能難以判斷信息的真假?！?/span>

2025年，人人都開始用AI，而AI還在持續(xù)發(fā)揮想象力，用幻覺與假信息誤導(dǎo)更多人?，F(xiàn)在是時候一起面對AI這個巨大的Bug（漏洞）了。

過度自信

“想和大家說一件最近讓我憂慮的事，是關(guān)于AI幻覺強(qiáng)度的?！?月，知名科普作家河森堡在微博中表示。

他在近日使用ChatGPT，讓它介紹文物“青銅利簋”。結(jié)果，ChatGPT將這件西周文物的來歷，編造成了商王帝乙祭祀父親帝丁所鑄。AI此后還標(biāo)明了自己的文獻(xiàn)來源，源自《殷墟發(fā)掘報告》《商代青銅器銘文研究》等。

“看著是那么回事，其實(shí)又在胡扯，”河森堡發(fā)現(xiàn)，“前一篇文獻(xiàn)的作者是中國社會科學(xué)院考古研究所，AI說是中山大學(xué)考古學(xué)系，后一篇文獻(xiàn)的作者是嚴(yán)志斌，AI說是李學(xué)勤……”

錯漏百出的生成信息還不算什么，可怕的是，AI還會自我“包裝”，編造信息來源，讓人誤以為內(nèi)容十分專業(yè)且可信度高。

在豆瓣，陀思妥耶夫斯基的書迷，在使用AI的“聯(lián)網(wǎng)搜索”功能時，發(fā)現(xiàn)其不懂裝懂、捏造細(xì)節(jié)。

例如，有書迷問AI，“陀思妥耶夫斯基的哪部小說引用了涅克拉索夫的詩歌？”在引用了11個參考網(wǎng)頁后，AI生成了大段的、看似專業(yè)的答案，論證了兩者是好友，作品之間存在相互影響的關(guān)系。結(jié)論是，“陀并未在其小說中直接引用涅克拉索夫的詩?！?/span>

而事實(shí)上，熟悉陀思妥耶夫斯基的書迷很快想到，在《地下室手記》第二章開頭，他引用詩歌：“當(dāng)我用熱情的規(guī)勸/從迷霧的黑暗中/救出一個墮落的靈魂，你滿懷深沉的痛苦/痛心疾首地咒罵/那纏繞著你的穢行?！边@正是涅克拉索夫的詩。

張俊林告訴南風(fēng)窗，AI大模型非常容易“過度自信”。但目前，AI生成答案的過程仍像一個黑箱，AI業(yè)界也不完全清楚AI的自信從何而來?？傊?，在面對自己不懂的專業(yè)問題時，極少有AI會直接回答“不知道”；它們寧愿自信地、流暢地生成一些不準(zhǔn)確的內(nèi)容。

“DeepSeek幻覺有點(diǎn)太嚴(yán)重了，我受不了了?！狈▽W(xué)碩士生小昭2月在寫論文時感嘆。她對南風(fēng)窗承認(rèn)，平時學(xué)習(xí)和寫論文時，自己已經(jīng)離不開DeepSeek、豆包、Kimi等AI工具?！耙?yàn)椋ú挥玫脑挘┪腋鼘懖怀鰜怼！?/span>

但是小昭逐漸發(fā)現(xiàn)，AI生成的內(nèi)容，有很多是錯誤的。一個重災(zāi)區(qū)是關(guān)于“深度偽造”的法律問題，她發(fā)現(xiàn)AI會生成虛假的法律條例和案例。

此外，她在用AI準(zhǔn)備公務(wù)員面試時，AI很喜歡給她引用一些過于具體的數(shù)據(jù)，“很多數(shù)據(jù)很明顯是保密數(shù)據(jù)，一看就是AI編造的?！?/span>

AI生成的內(nèi)容看上去“過于專業(yè)”，小昭說，這時反而是“唬人的”，“內(nèi)容根本沒法用”。

一次，在寫AI深度偽造法律論文時，DeepSeek告訴她，不同年齡段法官對技術(shù)行為的評價呈現(xiàn)顯著差異。它因此生成了一張表格，把30歲以下、30-50歲、50歲以上的法官對待技術(shù)的裁判傾向分列其中。

最后，它甚至寫道，代際的差異在合議庭評議中會引發(fā)新的沖突。2023年，我國某中級法院在一次審理深度偽造案件中，“80后”和“60后”法官曾出現(xiàn)了激烈爭論。

但經(jīng)過調(diào)查和搜索，小昭發(fā)現(xiàn)，上述內(nèi)容也全部是AI編造的。面對AI，即使她此后給出了“減少對虛假案例的引用，擴(kuò)寫分析部分”的指令，AI仍止不住地出現(xiàn)幻覺，生成虛假信息。

于是，在高頻使用豆包、DeepSeek，以及OpenAI的o1等AI工具后，小昭的發(fā)現(xiàn)是，豆包的幻覺問題不算明顯，語言相對平實(shí)；OpenAI的o1對中國國情不夠熟悉，“國內(nèi)素材沒有那么充足”。而DeepSeek是其中最好用的工具，語言專業(yè)又生動，但DeepSeek編造細(xì)節(jié)的情況卻是最嚴(yán)重的。

“以至于每次看到DeepSeek引用的，我都要重新檢索，確認(rèn)下真實(shí)性。”小昭說。

“張冠李戴”的天性

小昭等“AI原住民”的感受并不虛妄。在Github上一個名為Vectara大模型幻覺測試排行榜中，2025年1月發(fā)布的DeepSeek R1，幻覺率高達(dá)14.3%。這一數(shù)字遠(yuǎn)高于國際先進(jìn)大模型，例如，OpenAI的GPT-4o幻覺率為1.5%，馬斯克的Grok幻覺率為4.6%。

為何DeepSeek的幻覺率這么高？一個最直接的原因是，張俊林說，DeepSeek生成的內(nèi)容比一般的AI應(yīng)用更長。AI生成的內(nèi)容越多、文本越長，出錯以及胡編亂造的可能性隨之更大。

另一個可能性在于，DeepSeek在生成答案時展現(xiàn)出了很強(qiáng)的創(chuàng)造性，這與強(qiáng)調(diào)信息精確、降低幻覺率的要求天然地相悖。張俊林提到，AI大模型有一個“溫度系數(shù)”（Temperature），指的是控制生成內(nèi)容隨機(jī)性和多樣性的參數(shù)。

一般而言，高溫度系數(shù)（如1.0或更高）的模型，生成內(nèi)容隨機(jī)性更高，可能會出現(xiàn)更多新穎或意想不到的結(jié)果。代價便是，其更容易出錯、胡說八道。相反，低溫度系數(shù)的模型，生成內(nèi)容更接近訓(xùn)練數(shù)據(jù)中的模式，結(jié)果更穩(wěn)定，但缺乏多樣性。

幻覺率的高低，關(guān)系到我們到底想要什么樣的AI——究竟是更能給予人靈感的，還是邏輯嚴(yán)密的。而在業(yè)界，一個共識是，無論想要什么樣的AI，幻覺問題仍非常難消除。

清華大學(xué)團(tuán)隊(duì)在2025年2月發(fā)布《DeepSeek與AI幻覺》報告，將AI幻覺分為兩類，一類是事實(shí)性幻覺，指生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。例如，模型錯誤地回答“糖尿病患者可以通過吃蜂蜜代替糖”。

另一類則是忠實(shí)性幻覺，指的是AI生成的內(nèi)容與用戶的指令、上下文或者參考內(nèi)容不一致。例如，《自然》雜志報道稱，AI在參考文獻(xiàn)方面出錯的情況極為普遍。2024年的研究發(fā)現(xiàn)，各類AI在提及參考文獻(xiàn)時，出錯率在30%~90%——它們至少會在論文標(biāo)題、第一作者或發(fā)表年份上出現(xiàn)偏差。

2022年，香港科技大學(xué)團(tuán)隊(duì)曾發(fā)布對AI幻覺的重磅研究。長達(dá)59頁的論文指出，導(dǎo)致AI幻覺的原因有很多，例如數(shù)據(jù)源問題、編碼器設(shè)計問題、解碼器錯誤解碼。

以數(shù)據(jù)源為例，由于AI大模型使用了大量互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練，數(shù)據(jù)集本身可能存在錯誤、過時或缺失，導(dǎo)致幻覺出現(xiàn)。再加上不同數(shù)據(jù)集之間存在相互矛盾的地方，“這可能會鼓勵模型生成不一定有依據(jù)，也不忠實(shí)于（固定）來源的文本”。

不過，從AI大模型原理的角度看，AI幻覺被業(yè)界認(rèn)為是AI擁有智能的體現(xiàn)。出門問問大模型團(tuán)隊(duì)前工程副總裁李維在受訪時解釋，幻覺的本質(zhì)是補(bǔ)白，是腦補(bǔ)?！鞍住本褪悄硞€具體事實(shí)，如果這個事實(shí)在訓(xùn)練數(shù)據(jù)中沒有足夠的信息冗余度，模型就記不住。接著，當(dāng)用戶問起AI失去記憶的內(nèi)容，他便開始自動腦補(bǔ)，一本正經(jīng)地胡說八道。

而且，AI的腦補(bǔ)絕非空想。李維解釋，大模型的知識學(xué)習(xí)過程（訓(xùn)練階段）是一種信息壓縮過程；大模型回答問題，就是一個信息解碼過程（推理階段）。這就好比升維了又降維。當(dāng)一個事實(shí)冗余度不夠，AI生成的虛假事實(shí)需要與補(bǔ)白所要求的value（價值）類型匹配，即符合ontology/taxonomy（本體/分類法）相應(yīng)的上位節(jié)點(diǎn)概念。

因此，AI“補(bǔ)白”的時候，即使不知道“狗”這類哺乳動物，也會生成哺乳動物“貓”，而不是像麻雀一樣的鳥類。

“大模型是天生的藝術(shù)家，張冠李戴、指鹿為馬等在大模型的幻覺里非常自然，因?yàn)閺埡屠钍窍嗨频?，馬和鹿也在同一條延長線上?！崩罹S總結(jié)道?！八幕糜X有內(nèi)在的合理性，但同時也更具有迷惑性。初接觸大模型的朋友，需要特別小心，不能輕信。”

不要神化

與人類有些相像的地方是，幻覺的出現(xiàn)，AI自己也表示“知道”。

“詢問”DeepSeek：“為什么你的回答有時很準(zhǔn)確，有時不太準(zhǔn)確甚至在編造呢？”在深度思索模式下，DeepSeek列出了自己的“反思”：

首先是知識邊界限制，“我的訓(xùn)練數(shù)據(jù)截止2023年12月，無法獲取最新信息；知識庫存在信息盲區(qū)（約10-15%的領(lǐng)域覆蓋不全）……”

它表示，生成機(jī)制特性也導(dǎo)致了這一結(jié)果，因?yàn)锳I并不真正理解語義與知識，而是“基于概率預(yù)測生成（每個token選擇概率前3候選詞）”。再加上其采用流暢度優(yōu)先機(jī)制，生成過程要先確保流暢度，而非保證事實(shí)。

誠如DeepSeek所言，AI的幻覺與其技術(shù)發(fā)展相伴相生，有時候，擁有幻覺本身，可能是AI感到驕傲的。在科學(xué)界，AI的幻覺正被很多科學(xué)家用于新分子的發(fā)現(xiàn)等科研工作。

例如，在AI+生物領(lǐng)域，麻省理工學(xué)院教授湯姆·克林斯（James Collins）在《自然》發(fā)布論文指出，AI的幻覺加速了他對新型抗生素的研究進(jìn)展?！拔覀兊靡猿晒ψ屇Ｐ吞岢鐾耆路f的分子?！?/span>

但這并不意味著，解決或改善幻覺問題對現(xiàn)有的AI大模型不重要。原因也很簡單，隨著AI持續(xù)滲透人們的生活，AI幻覺所帶來的信息污染很可能進(jìn)一步影響人們的生活與工作。

2月，美國知名律師事務(wù)所 Morgan & Morgan 向其 1000 多名律師發(fā)送緊急郵件，嚴(yán)正警告：AI 能編造虛假的判例信息，若律師在法庭文件中使用這類虛構(gòu)內(nèi)容，極有可能面臨被解雇的嚴(yán)重后果。這一聲明正是考慮到AI在法律界被濫用后可能造成的不良后果。

據(jù)路透社報道，在過去兩年間，美國多個法院已對至少七起案件中的律師提出警告或處分，因其在法律文件中使用 AI 生成的虛假信息。

例如，曾經(jīng)入獄的前特朗普律師邁克爾·科恩在2024年承認(rèn)，自己錯誤地使用了谷歌Bard生成的判例為自己申請緩刑。但他提交的文件中，由AI生成的至少三個案例，在現(xiàn)實(shí)中均不存在。

2024年11月，在美國德克薩斯州的一場法律訴訟中，律師布蘭登·蒙克引用了AI生成的虛假案例，被法院發(fā)現(xiàn)并罰款2000美元。他同時被要求參加關(guān)于法律領(lǐng)域生成式AI的課程。

意識到AI幻覺可能產(chǎn)生的巨大副作用，科技公司并非沒有行動，例如，檢索增強(qiáng)生成技術(shù)（RAG）正被諸如李彥宏等科技大佬所提倡。RAG的原理是，讓AI在回復(fù)問題前參考給定的可信文本，從而確?；貜?fù)內(nèi)容的真實(shí)性，以此減少“幻覺”的產(chǎn)生。

不過，這樣的方案也絕非一勞永逸。首先因?yàn)?，RAG會顯著增大計算成本和內(nèi)存，其次，專家知識庫和數(shù)據(jù)集也不可避免地存在偏差和疏漏，難以覆蓋所有領(lǐng)域的問題。

“盡管業(yè)界提出了很多辦法，例如RAG，但沒有一個辦法能根除AI幻覺?！睆埧×痔拐\地告訴南風(fēng)窗。“這是一個很重要的、值得關(guān)注的問題，但目前，我們確實(shí)還沒有辦法解決。”

如果AI幻覺無法徹底消除，那么，是否有更多辦法讓人們意識到，AI大模型并非如看上去的無所不能呢？

OpenAI華人科學(xué)家翁荔在一篇萬字文章中寫到，一個重要的努力方向是，確保模型輸出是事實(shí)性的并可以通過外部世界知識進(jìn)行驗(yàn)證?！巴瑯又匾氖牵?dāng)模型不了解某個事實(shí)時，它應(yīng)該明確表示不知道。”

谷歌的Gemini模型也曾做過很好的嘗試。該系統(tǒng)提供了“雙重核查響應(yīng)”功能：如果AI生成的內(nèi)容突出顯示為綠色，表示其已通過網(wǎng)絡(luò)搜索驗(yàn)證；內(nèi)容如果突出顯示為棕色，則表示其為有爭議或不確定的內(nèi)容。

這些努力都在預(yù)示著一個正確的方向：當(dāng)AI幻覺已經(jīng)不可避免地出現(xiàn)時，人們要做的首先是告訴自己：不要全然相信AI。

（應(yīng)受訪者要求，文中小昭為化名）

作者 | 南風(fēng)窗記者朱秋雨

編輯 | 向由

值班主編 | 吳擎

排版 | 八斤

南風(fēng)窗新媒體出品