
OpenAI員工公開指責Grok3
IT之家 2 月 23 日消息,本周,OpenAI 的一名員工公開指責埃隆?馬斯克旗下的 xAI 公司,稱其發(fā)布的最新 AI 模型 Grok 3 的基準測試結(jié)果具有誤導性。對此,xAI 的聯(lián)合創(chuàng)始人伊戈爾?巴布什金(Igor Babushkin)則堅稱公司并無不當。
xAI 在其博客上發(fā)布了一張圖表,展示了 Grok 3 在 AIME 2025(一項近期邀請制數(shù)學考試中的高難度數(shù)學題集)上的表現(xiàn)。盡管一些專家質(zhì)疑 AIME 作為 AI 基準的有效性,但 AIME 2025 及其早期版本仍被廣泛用于評估模型的數(shù)學能力。
IT之家注意到,xAI 的圖表顯示,Grok 3 的兩個版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表現(xiàn)超過了 OpenAI 當前最強的可用模型 o3-mini-high。然而,OpenAI 的員工很快在 X 平臺上指出,xAI 的圖表并未包含 o3-mini-high 在“cons@64”條件下的 AIME 2025 得分。
“cons@64”是指“consensus@64”,即允許模型在基準測試中對每個問題嘗試 64 次,并將出現(xiàn)頻率最高的答案作為最終答案??上攵?,這種方式往往會顯著提升模型的基準測試分數(shù),如果圖表中省略這一數(shù)據(jù),就可能讓人誤以為某個模型的表現(xiàn)優(yōu)于另一模型,而實際情況未必如此。
在 AIME 2025 的“@1”條件下(即模型首次嘗試的得分),Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表現(xiàn)也略低于 OpenAI 的 o1 模型在“中等計算”設(shè)置下的得分。然而,xAI 仍在宣傳 Grok 3 為“世界上最聰明的 AI”。
巴布什金在 X 平臺上辯稱,OpenAI 過去也曾發(fā)布過類似的誤導性基準測試圖表。盡管這些圖表是用于比較其自身模型的表現(xiàn)。
在這場爭議中,一位中立的第三方重新繪制了一張更為“準確”的圖表:
但正如 AI 研究員內(nèi)森?蘭伯特(Nathan Lambert)在一篇文章中指出的,或許最重要的指標仍然未知:每個模型達到最佳分數(shù)所需的計算(和金錢)成本。這恰恰表明,大多數(shù) AI 基準測試在傳達模型的局限性和優(yōu)勢方面仍然存在很大的不足。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904174
- 2 今年最強臺風來襲 7809623
- 3 澳加英宣布承認巴勒斯坦國 7713627
- 4 長春航空展這些“首次”不要錯過 7618607
- 5 43歲二胎媽媽患阿爾茨海默病 7521370
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7425342
- 7 老奶奶去世3年 鄰居幫打掃門前落葉 7331845
- 8 三所“零近視”小學帶來的啟示 7236423
- 9 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7141458
- 10 英國航母從南?!傲锪恕?/a> 7042247