黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標簽
我們會為你匹配適合你的網(wǎng)址導航

    確認 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 技術
    新聞分類

    維基百科向AI公司推出免費數(shù)據(jù)集 只求不要再無止境抓取

    技術 PRO 稿源:藍點網(wǎng) 2025-04-18 23:02

    此前維基百科關聯(lián)站點維基媒體發(fā)布消息稱由于被 AI 爬蟲轟炸,導致大量昂貴的服務器資源被 AI 爬蟲消耗,一方面維基媒體工程師疲于使用技術手段應對這些爬蟲,另一方面也給維基媒體造成運營成本上的損失。

    維基媒體是個托管圖片、視頻和其他文件的免費站點,目前該網(wǎng)站托管的文件數(shù)量高達 1.44 億個,因此大量 AI 爬蟲瘋狂抓取維基媒體的內(nèi)容用來整理為數(shù)據(jù)集訓練人工智能模型。

    除了維基媒體外,維基百科內(nèi)容也被各種爬蟲瘋狂抓取,有鑒于技術手段已經(jīng)無法應對這些 AI 爬蟲,現(xiàn)在維基百科主動制作并發(fā)布針對訓練 AI 模型且經(jīng)過優(yōu)化的數(shù)據(jù)集,這些數(shù)據(jù)集托管在谷歌旗下的數(shù)據(jù)科學社區(qū)平臺 Kaggle 上,希望這些 AI 公司直接去谷歌下載數(shù)據(jù)集不要再對維基百科進行抓取。

    本次發(fā)布的數(shù)據(jù)集在設計時就充分考慮機器學習的工作流程,讓 AI 開發(fā)者能夠輕松訪問機器可讀的文章數(shù)據(jù),以進行建模、微調、基準測試、對齊和分析,其中的數(shù)據(jù)內(nèi)容為已公開授權。

    數(shù)據(jù)集時間截止至 2025 年 4 月 15 日,內(nèi)容包括研究摘要、簡短描述、圖像連接、信息框數(shù)據(jù)和文章章節(jié),但不包含參考文件或音頻文件等非書面元素,首次發(fā)布的數(shù)據(jù)集包含英語和法語版本。

    維基百科認為結構良好的 JSON 格式維基百科內(nèi)容應該比直接抓取或解析維基百科原始內(nèi)容更有吸引力,不過最終這能否解決維基百科面臨的 AI 爬蟲轟炸還有待觀察。

    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

    圖庫
    公眾號 關注網(wǎng)絡尖刀微信公眾號
    隨時掌握互聯(lián)網(wǎng)精彩
    贊助鏈接