
維基百科附屬的維基媒體被AI爬蟲轟炸 超過65%的昂貴網(wǎng)絡(luò)流量由AI爬蟲消耗
維基百科附屬的媒體資源共享項(xiàng)目維基媒體目前正在被 AI 爬蟲轟炸,維基媒體項(xiàng)目托管著 1.44 億張圖片、視頻和其他文件,這些寶貴的媒體文件被人工智能公司盯上用于訓(xùn)練 AI 模型。
這些 AI 爬蟲數(shù)量非常多且抓取方式與正常人類訪問不同,這消耗了維基媒體大量昂貴的服務(wù)器帶寬,為了解決這些問題維基媒體正在采取行動(dòng),避免被 AI 爬蟲持續(xù)性的消耗資源。
非人類訪問導(dǎo)致帶寬增加 50%:
維基媒體在博客中表示,自 2024 年 1 月以來用于下載多媒體內(nèi)容的帶寬增長(zhǎng) 50%,這些增長(zhǎng)并非來自人類讀者,而是由自動(dòng)化程序造成的,這些自動(dòng)化程序也就是爬蟲會(huì)抓取 Wikimedia Commons 圖像目錄中公開許可的圖像,用來訓(xùn)練 AI 模型。
維基媒體的基礎(chǔ)設(shè)施旨在承受高關(guān)注事件期間人類流量的突然激增,但抓取機(jī)器人產(chǎn)生的流量是前所未有的,并且?guī)砹嗽絹碓酱蟮娘L(fēng)險(xiǎn)和成本。
自 2024 年年初以來維基媒體的基本帶寬需求穩(wěn)步增長(zhǎng)并且沒有放緩的跡象,基線使用量的增加意味著當(dāng)流量激增時(shí),維基媒體將沒有足夠的空間來應(yīng)對(duì)可能發(fā)生的異常事件:大量時(shí)間和資源用于應(yīng)對(duì)非人類流量。
最昂貴的帶寬中有 65% 被爬蟲消耗:
維基媒體通過全球數(shù)據(jù)中心網(wǎng)絡(luò)為用戶提供加速訪問,當(dāng)某個(gè)內(nèi)容被多次訪問時(shí)維基百科會(huì)將其緩存到離用戶最近的數(shù)據(jù)中心,如果某個(gè)內(nèi)容是冷門內(nèi)容訪問次數(shù)不高則不會(huì)被緩存,當(dāng)被人類訪問時(shí)需要從核心數(shù)據(jù)中心拉取數(shù)據(jù),同時(shí)將數(shù)據(jù)緩存在區(qū)域數(shù)據(jù)中心供該區(qū)域的其他用戶訪問。
通常情況下人類讀者傾向于關(guān)注特定的主題,這些主題通常還是相似的,而 AI 爬蟲則傾向于批量讀取大量頁(yè)面并且包含大量不是那么受歡迎的頁(yè)面,這意味著機(jī)器人發(fā)出的請(qǐng)求更有可能被轉(zhuǎn)發(fā)到核心數(shù)據(jù)中心并從核心數(shù)據(jù)中心里拉取數(shù)據(jù)。
核心數(shù)據(jù)中心的帶寬是非常昂貴的,在進(jìn)行系統(tǒng)遷移時(shí)維基媒體團(tuán)隊(duì)注意到消耗核心數(shù)據(jù)中心帶寬的請(qǐng)求中有 65% 來自機(jī)器人,也就是人類用戶的訪問比例被擠占到只有 35%,爬蟲帶來的高流量甚至?xí)绊懭祟愑脩舻恼鎸?shí)訪問。
維基媒體在年度計(jì)劃草案中提到 WE5 負(fù)責(zé)任的使用基礎(chǔ)設(shè)施,維基媒體認(rèn)為他們的內(nèi)容是免費(fèi)的但基礎(chǔ)設(shè)施不是,現(xiàn)在必須采取行動(dòng)重新建立健康的平衡,避免 AI 爬蟲消耗維基媒體項(xiàng)目、貢獻(xiàn)者和讀者所需的時(shí)間和資源。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904754
- 2 今年最強(qiáng)臺(tái)風(fēng)來襲 7809700
- 3 澳加英宣布承認(rèn)巴勒斯坦國(guó) 7714396
- 4 長(zhǎng)春航空展這些“首次”不要錯(cuò)過 7619424
- 5 43歲二胎媽媽患阿爾茨海默病 7519993
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7427762
- 7 女子花10萬(wàn)云養(yǎng)豬生重病難退錢 7328632
- 8 中國(guó)消失的森林正“全盤復(fù)活” 7232683
- 9 三所“零近視”小學(xué)帶來的啟示 7144065
- 10 老奶奶去世3年 鄰居幫打掃門前落葉 7040808