黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標簽
我們會為你匹配適合你的網址導航

    確認 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 安全
    新聞分類

    人體3D模型網站遭OpenAI爬蟲瘋狂抓取引起癱瘓

    安全 PRO 稿源:藍點網 2025-01-12 18:05

    搜索引擎或其他爬蟲高頻次抓取網站導致服務器癱瘓的案例并不少見,包括藍點網在內的多個網站都曾遇到過這類爬蟲引起網站無法正常訪問。

    現在人工智能公司的爬蟲替代搜索引擎成為整個互聯網上抓取頻率最高的爬蟲,對某些網站來說如果沒有規(guī)范設置 robots.txt 文件進行阻止那可能就會出現服務器癱瘓的情況。

    例如最新的案例是烏克蘭網站 Trilegangers,該網站提供海量的人體 3D 模型數據供 3D 藝術家、視頻游戲開發(fā)商以及任何需要以數字方式重新真實人類特征的人購買。

    盡管該網站已經在使用協議里注明未經授權禁止抓取和使用網站的所有數據,但 Trilegangers 并未正確設置 robots.txt 文件阻止包括 GPTBot 在內的爬蟲。

    本周六該網站癱瘓并且癥狀類似于 DDoS 分布式拒絕服務攻擊,經過檢查后發(fā)現罪魁禍首是 OpenAI 用于抓取數據訓練人工智能的 GPTBot 爬蟲。

    Trilegangers 工作人員檢查服務器日志后發(fā)現,OpenAI 派出的 GPTBot 爬蟲以 600 多個不同的 IP 地址發(fā)起數以萬計的請求,這些并發(fā)請求直接讓服務器無法處理流量導致癱瘓。

    根據 OpenAI 公布的爬蟲說明,如果網站不想被 GBTBot 爬蟲抓取內容,則需要在 robots.txt 里使用規(guī)范命令進行阻止,Trilegangers 網站并未設置該文件。

    robots.txt 屬于行業(yè)的約定俗成并非法律規(guī)范,但即便沒有設置 robots.txt 文件,GPTBot 抓取數據再由 OpenAI 使用數據訓練 AI 也是違法行為,因為 Trilegangers 網站本身已經禁止未經授權的使用。

    另一方面 Trilegangers 使用 AWS 的服務器,由于 GPTBot 的瘋狂抓取導致消耗的帶寬和流量也在增加,因此 Trilegangers 也需要支付更高的服務器費用。

    目前 Trilegangers 已經設置正確的 robots.txt 文件并通過 Cloudflare 阻止 GPTBot 和其他爬蟲包括字節(jié)跳動的 Bytespider 爬蟲的抓取,這應該可以臨時解決問題。


    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關注數據與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/

    圖庫
    公眾號 關注網絡尖刀微信公眾號
    隨時掌握互聯網精彩
    贊助鏈接