
維基百科向AI公司推出免費數(shù)據(jù)集 只求不要再無止境抓取
此前維基百科關聯(lián)站點維基媒體發(fā)布消息稱由于被 AI 爬蟲轟炸,導致大量昂貴的服務器資源被 AI 爬蟲消耗,一方面維基媒體工程師疲于使用技術手段應對這些爬蟲,另一方面也給維基媒體造成運營成本上的損失。
維基媒體是個托管圖片、視頻和其他文件的免費站點,目前該網(wǎng)站托管的文件數(shù)量高達 1.44 億個,因此大量 AI 爬蟲瘋狂抓取維基媒體的內(nèi)容用來整理為數(shù)據(jù)集訓練人工智能模型。
除了維基媒體外,維基百科內(nèi)容也被各種爬蟲瘋狂抓取,有鑒于技術手段已經(jīng)無法應對這些 AI 爬蟲,現(xiàn)在維基百科主動制作并發(fā)布針對訓練 AI 模型且經(jīng)過優(yōu)化的數(shù)據(jù)集,這些數(shù)據(jù)集托管在谷歌旗下的數(shù)據(jù)科學社區(qū)平臺 Kaggle 上,希望這些 AI 公司直接去谷歌下載數(shù)據(jù)集不要再對維基百科進行抓取。
本次發(fā)布的數(shù)據(jù)集在設計時就充分考慮機器學習的工作流程,讓 AI 開發(fā)者能夠輕松訪問機器可讀的文章數(shù)據(jù),以進行建模、微調、基準測試、對齊和分析,其中的數(shù)據(jù)內(nèi)容為已公開授權。
數(shù)據(jù)集時間截止至 2025 年 4 月 15 日,內(nèi)容包括研究摘要、簡短描述、圖像連接、信息框數(shù)據(jù)和文章章節(jié),但不包含參考文件或音頻文件等非書面元素,首次發(fā)布的數(shù)據(jù)集包含英語和法語版本。
維基百科認為結構良好的 JSON 格式維基百科內(nèi)容應該比直接抓取或解析維基百科原始內(nèi)容更有吸引力,不過最終這能否解決維基百科面臨的 AI 爬蟲轟炸還有待觀察。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 中華民族偉大復興勢不可擋 7904248
- 2 香港10余悍匪搶走65公斤黃金 7808009
- 3 沈陽9路18街仿佛“時間靜止”了 7713468
- 4 吾輩自強 勿忘九一八! 7616112
- 5 《731》上映首日打破10項紀錄 7524480
- 6 何雷:絕不許外敵再染指中國領土半步 7425597
- 7 點名鄧超等人 北京影協(xié)尋失聯(lián)會員 7329572
- 8 董軍:隨時準備挫敗任何外部武力干涉 7233983
- 9 攜程被約談 7141828
- 10 四川一男子在林中發(fā)現(xiàn)“劍陣” 7048099