
埃隆馬斯克也認(rèn)為用于訓(xùn)練AI的真實世界數(shù)據(jù)所剩無幾 未來只能靠合成數(shù)據(jù)
聲明:該文章來自(藍(lán)點(diǎn)網(wǎng))版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
埃隆馬斯克的觀點(diǎn)與其他人工智能行業(yè)專家的觀點(diǎn)基本相同,那就是用于訓(xùn)練人工智能模型的真實世界 (區(qū)別于機(jī)器生成) 數(shù)據(jù)已經(jīng)所剩無幾。
本周埃隆馬斯克與 STAGWELL 董事長在 X/Twitter 進(jìn)行直播時埃隆馬斯克表示,我們現(xiàn)在基本上已經(jīng)耗盡人類在人工智能訓(xùn)練方面積累的全部知識,這基本上發(fā)生在 2024 年。
有鑒于人類自己產(chǎn)生的數(shù)據(jù)已經(jīng)被耗盡,所以埃隆馬斯克認(rèn)為合成數(shù)據(jù)也就是由人工智能模型本身生成的數(shù)據(jù)是未來的發(fā)展方向,補(bǔ)充的唯一方法就是使用合成數(shù)據(jù),有了合成數(shù)據(jù)后人工智能就會自我評分并經(jīng)歷自我學(xué)習(xí)的過程。
值得注意的是由于無法獲取到最后多的真實世界新數(shù)據(jù),包括埃隆馬斯克的 xAI、微軟、Meta、OpenAI 和 Anthropic 等科技巨頭都已經(jīng)開始使用合成數(shù)據(jù)訓(xùn)練 AI 模型。
市場調(diào)查公司 Gartner 的預(yù)計則是在 2024 年用于人工智能和分析項目中的數(shù)據(jù)可能有高達(dá) 60% 都是合成的而非人類產(chǎn)生的真實數(shù)據(jù)。
微軟在最新推出的 Phi-4 系列模型中也同樣使用合成數(shù)據(jù)和真實數(shù)據(jù)進(jìn)行訓(xùn)練,谷歌開源的 Gemma 模型同樣如此,都是靠合成數(shù)據(jù)才完成模型的最終訓(xùn)練。
使用合成數(shù)據(jù)的優(yōu)點(diǎn)很多,包括獲取方式相對來說比較容易、節(jié)省成本還可以規(guī)避某些版權(quán)問題等。但缺點(diǎn)也很明顯,某些研究表明合成數(shù)據(jù)可能會導(dǎo)致模型崩潰,即模型的輸出不那么有創(chuàng)意而且會更加偏頗。
如果用于訓(xùn)練的合成數(shù)據(jù)本身存在偏見和局限性,那么訓(xùn)練出來的人工智能模型也同樣會存在這樣的缺點(diǎn)或受到影響,最終影響到人工智能模型的質(zhì)量。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904121
- 2 央視曝光直播間“高端四件套”貓膩 7808135
- 3 以總理:絕不會有巴勒斯坦國 等著瞧 7713187
- 4 長春航空展這些“首次”不要錯過 7619313
- 5 9月23日晚8點(diǎn)將上演“龍收尾”天象 7521711
- 6 今年最強(qiáng)臺風(fēng)來襲 7424460
- 7 43歲二胎媽媽患阿爾茨海默病 7328534
- 8 租客長租15年不到1年就被勸退 7232429
- 9 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7136001
- 10 馬斯克特朗普鬧掰后首次同框 7042599