
馬斯克的Grok3實(shí)測(cè)翻車(chē)!無(wú)法回答9.11和9.9哪個(gè)大
北京時(shí)間 2 月 18 日,馬斯克與 xAI 團(tuán)隊(duì),在直播中正式發(fā)布了 Grok 最新版本 Grok3。早在本次發(fā)布會(huì)之前,依靠著種種相關(guān)信息的拋出,加上馬斯克本人 24/7 不間斷的預(yù)熱炒作,讓全球?qū)?Grok3 的期待值被拉到了空前的程度。在一周前,馬斯克在直播中評(píng)論 DeepSeek R1 時(shí),還信心滿滿地表示「xAI 即將推出更優(yōu)秀的 AI 模型」。從現(xiàn)場(chǎng)展示的數(shù)據(jù)來(lái)看,Grok3 在數(shù)學(xué)、科學(xué)與編程的基準(zhǔn)測(cè)試上已經(jīng)超越了目前所有的主流模型,馬斯克甚至宣稱(chēng) Grok 3 未來(lái)將用于 SpaceX 火星任務(wù)計(jì)算,并預(yù)測(cè)「三年內(nèi)將實(shí)現(xiàn)諾貝爾獎(jiǎng)級(jí)別突破」。
但這些目前都只是馬斯克的一家之言。筆者在發(fā)布后,就測(cè)試了最新的 Beta 版 Grok3,并提出了那個(gè)經(jīng)典的用來(lái)刁難大模型的問(wèn)題:「9.11 與 9.9 哪個(gè)大?」遺憾的是,在不加任何定語(yǔ)以及標(biāo)注的情況下,號(hào)稱(chēng)目前最聰明的 Grok3,仍然無(wú)法正確回答這個(gè)問(wèn)題。
在這個(gè)測(cè)試發(fā)出之后,很短的時(shí)間內(nèi)迅速引發(fā)了不少朋友的關(guān)注,無(wú)獨(dú)有偶,在海外也有很多類(lèi)似問(wèn)題的測(cè)試,例如「比薩斜塔上兩個(gè)球哪個(gè)先落下」這些基礎(chǔ)物理/數(shù)學(xué)問(wèn)題,Grok3 也被發(fā)現(xiàn)仍然無(wú)法應(yīng)對(duì)。因此被戲稱(chēng)為「天才不愿意回答簡(jiǎn)單問(wèn)題」。
除了網(wǎng)友自發(fā)測(cè)試的這些基礎(chǔ)知識(shí)上 Grok3 出現(xiàn)了翻車(chē),在 xAI 發(fā)布會(huì)直播中,馬斯克演示使用 Grok3 來(lái)分析他號(hào)稱(chēng)經(jīng)常玩的 Path of Exile 2 (流放之路 2) 對(duì)應(yīng)的職業(yè)與升華效果,但實(shí)際上 Grok3 給出的對(duì)應(yīng)答案絕大部分都是錯(cuò)誤的。直播中的馬斯克并沒(méi)有看出這個(gè)明顯的問(wèn)題。
因此這個(gè)失誤不僅成為了海外網(wǎng)友再次嘲諷馬斯克打游戲「找代練」的實(shí)錘證據(jù),同時(shí)也為 Grok3 在實(shí)際應(yīng)用中的可靠性,再次打上了一個(gè)大大的問(wèn)號(hào)。
雖然在分?jǐn)?shù)上,Grok3 超過(guò)了目前公開(kāi)測(cè)試的所有模型,但這一點(diǎn)并不被很多人買(mǎi)賬:畢竟 xAI 在 Grok2 時(shí)代就有在這個(gè)榜單中「刷分」,隨著榜單對(duì)回答長(zhǎng)度風(fēng)格做降權(quán)處理而大幅降低分?jǐn)?shù)的情況,因此經(jīng)常被業(yè)內(nèi)人士詬病「高分低能」。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 情暖天山氣象新 7904133
- 2 殲-35完成在福建艦上彈射起飛 7808155
- 3 中國(guó)航母又一突破 7714075
- 4 國(guó)慶中秋臨近 文旅部發(fā)出游提示 7617003
- 5 港珠澳大橋主橋?qū)⒎忾] 7520123
- 6 萬(wàn)豪酒店承認(rèn)拖鞋循環(huán)多次使用 7427439
- 7 中方回應(yīng)“金正恩稱(chēng)絕不放棄核武” 7331076
- 8 福建艦電磁彈射宣傳片震撼發(fā)布 7233066
- 9 廣東或大范圍停工 7136109
- 10 背簍老人等公交被拒載 司機(jī)被開(kāi)除 7047426