
蘋果炮轟AI推理模型:全是假思考!所謂思考只是一種假象
蘋果近日發(fā)表了一篇研究論文,稱推理模型全都沒真正思考,無論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”,所謂思考只是一種假象。
有人總結(jié)到:蘋果剛剛當了一回馬庫斯,否定了所有大模型的推理能力。
蘋果團隊認為,現(xiàn)有評估主要集中在既定的數(shù)學(xué)和編碼基準上,看模型最終答案是否正確,但可能存在模型訓(xùn)練時見過類似題目。
并且,這些評估大都缺乏對“思考過程質(zhì)量”的分析,比如中間步驟是否邏輯一致、是否繞彎路等。
為了更客觀測試推理模型的推理能力,他們設(shè)計了4類謎題環(huán)境:漢諾塔、跳棋交換、過河問題、積木世界,并且這4類謎題的難度可以精確控制.
隨著問題變難,推理模型初始會延長思考,但隨后思考深度反而下降,盡管仍有充足token預(yù)算,它們卻在最需要深入思考時選擇了放棄!
并且,當問題復(fù)雜度繼續(xù)增加并超過某個臨界點時,無論是推理模型還是標準模型都會經(jīng)歷完全的性能崩潰,準確率直線下降至零。
對此,有網(wǎng)友諷刺到:“蘋果擁有最多的資金,2年了也沒有拿出像樣的成果,現(xiàn)在自己落后了,卻來否定別人的成果?!?/strong>
據(jù)悉,Apple Intelligence在2024年WWDC正式亮相,在這一年里,蘋果宣傳中的許多功能都經(jīng)歷延期、不夠完善甚至被下架。
不過也有人指出,這篇論文沒有看上去那么消極,而是呼吁設(shè)立更好的推理機制和評估辦法。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904531
- 2 蔡國強始祖鳥發(fā)布致歉信 7809755
- 3 “南天門計劃”是科幻還是現(xiàn)實 7714677
- 4 假期將至 高速出行指南搶先看 7618239
- 5 嵩山一景區(qū)“巨型蛇頭”已被覆蓋 7520159
- 6 墜落廣東的火流星被挖出 重423公斤 7424806
- 7 菲將舉行大規(guī)模游行 中使館發(fā)提醒 7331761
- 8 中國導(dǎo)彈亮相塞爾維亞閱兵 7234022
- 9 專家:高山草甸恢復(fù)需幾十甚至上百年 7137546
- 10 始祖鳥煙花秀引爭議 日喀則通報 7046282