
維基媒體基金會:為 AI 訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲正帶來運營開支壓力
維基百科運營方維基媒體基金會在當(dāng)?shù)貢r間 4 月 1 日的一份博文中表示,為 AI 訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲正對這家非營利性組織帶來運營開支上的壓力。
維基百科的姊妹項目維基共享資源(IT之家注:Wiki Commons)存儲著大量可用于 AI 模型訓(xùn)練的多媒體資料集。根據(jù)統(tǒng)計數(shù)據(jù),自 2024 年 1 月以來從維基共享資源下載多媒體內(nèi)容的帶寬增長了 50%,而這一變化趨勢主要由自動化程序而非人類操作導(dǎo)致。
維基媒體基金會此前有能力應(yīng)對突發(fā)事件導(dǎo)致的人類用戶的流量激增,但 AI 時代自動爬蟲活動的日益頻繁正不斷侵蝕該組織現(xiàn)有的冗余度,讓基金會將大量時間和資源用于響應(yīng)非真人流量。
維基媒體基金會的數(shù)據(jù)存儲的模式是低使用頻率內(nèi)容僅存放在核心數(shù)據(jù)中心,而高頻請求的數(shù)據(jù)則將在更鄰近的數(shù)據(jù)中心提供備份。
自動爬蟲的“遍歷式”查詢方式意味著其有更多的流量發(fā)送到核心數(shù)據(jù)中心,這帶來了更高的流量成本。根據(jù)維基媒體基金會的統(tǒng)計,機(jī)器人以 35% 的總體瀏覽量消耗了 65% 的核心數(shù)據(jù)中心流量資源。
此外,自動爬蟲甚至還去訪問了維基媒體基金會開發(fā)環(huán)境關(guān)鍵系統(tǒng)(如代碼審查平臺、錯誤跟蹤器)的 URL。
維基媒體基金會表示雖然該組織是非營利的,各項目的內(nèi)容是免費提供的,但其基礎(chǔ)設(shè)施卻不是免費獲得的,應(yīng)建立一個負(fù)責(zé)任、可持續(xù)的基礎(chǔ)設(shè)施使用規(guī)范,勿重演“公地悲劇”。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904866
- 2 加沙已變“死城” 7809011
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7714525
- 4 近距離感受“大國重器” 7617564
- 5 美國大豆中國訂單量仍為零 7522444
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7429053
- 7 女子婚后起訴父母返還18萬彩禮 7328761
- 8 美國男子坐時速100km過山車身亡 7239100
- 9 女童20樓墜至13樓雨棚 被業(yè)主拽住 7136353
- 10 穿始祖鳥是為親近自然而非看它炸山 7046816