
Cloudflare推出AI爬蟲紅黑榜 字節(jié)跳動因不遵守抓取協(xié)議直接墊底
網(wǎng)絡(luò)服務(wù)提供商 Cloudflare 日前推出 AI 爬蟲紅黑榜,通過四個維度對人工智能公司的爬蟲進(jìn)行驗證、識別和統(tǒng)計,首批被評測的爬蟲包括 OpenAI、Google、Meta、Anthropic、xAI 和字節(jié)跳動。
目前評價比較優(yōu)秀的只有 OpenAI 的 ChatGPT 系列爬蟲,而墊底的則是 xAI Grok 爬蟲和字節(jié)跳動爬蟲,其中字節(jié)跳動爬蟲因各種項目全部沒有達(dá)標(biāo)而排在末尾。
接下來這個紅黑榜網(wǎng)站還會記錄 RAG 和搜索引擎爬蟲并給出得分,后續(xù)也會陸續(xù)增加更多爬蟲的識別和評分,而網(wǎng)站則可以根據(jù)紅黑榜決定是否要通過更激進(jìn)的手段屏蔽這些爬蟲 (畢竟 robots.txt 已經(jīng)沒啥用)
點擊這里查看最新的紅黑榜排名:https://goodaibots.com/
四個維度如下:
爬蟲 IP 是否已驗證:AI 公司是否已經(jīng)公布爬蟲的 IP 地址段,公布后有助于準(zhǔn)確識別避免其他爬蟲冒充
是否通過 WebBotAuth 驗證:WebBotAuth 是一種通過加密簽名驗證爬蟲身份的協(xié)議,比通過 IP 識別更準(zhǔn)確
爬蟲是否分離:分離爬蟲很重要,因為網(wǎng)站可以根據(jù)不同類型的爬蟲做出相應(yīng)處理,例如有爬蟲專門為了抓取數(shù)據(jù)就可以直接屏蔽,而有些爬蟲則為了搜索引擎使用可能可以提供流量,這種爬蟲可以被保留抓取。
是否遵守 robots.txt 協(xié)議:該協(xié)議用來指示爬蟲是否允許抓取以及允許抓取哪些路徑,這是個行業(yè)約定俗成的規(guī)范,部分爬蟲完全不遵守該協(xié)議
字節(jié)跳動的爬蟲每天會在整個互聯(lián)網(wǎng)上抓取數(shù)據(jù)但卻不遵守 robots.txt 協(xié)議,字節(jié)跳動也沒有公開 IP 地址段導(dǎo)致網(wǎng)站管理員無法判斷自稱 Bytespider 是否真的來自字節(jié)跳動。
藍(lán)點網(wǎng)此前就因為字節(jié)跳動的爬蟲高頻次抓取內(nèi)容且不遵守 robots.txt 協(xié)議而不得不直接在服務(wù)器配置文件中阻斷 UA 包含任何 Bytespider 字符串的請求以減少服務(wù)器開支。
不過除了字節(jié)跳動外其他爬蟲也好不到哪去,例如 Anthropic 和 xAI Grok 的爬蟲可能也不遵守 robots.txt 協(xié)議,由于這些公司都沒有提供 IP 地址段可以用來驗證爬蟲,所以 Cloudflare 無法判斷它們是否遵守 robots.txt 協(xié)議。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時掌握互聯(lián)網(wǎng)精彩
- 1 重農(nóng)固本是安民之基、治國之要 7903968
- 2 廣東部分商超被搬空 只有辣椒被剩下 7808319
- 3 樺加沙強(qiáng)度接近地球上限?回應(yīng)來了 7713288
- 4 和古人一起沉浸式收割曬谷 7616090
- 5 59歲大爺放下百萬生意演短劇 7523818
- 6 全球最強(qiáng)臺風(fēng)明日登陸廣東 7428867
- 7 護(hù)網(wǎng):社交賬號不受控制?木馬在作祟 7331466
- 8 臺風(fēng)將至 居民家中“米”字玻璃就位 7235290
- 9 深圳宣布停工停業(yè)停市停課停運(yùn) 7138956
- 10 268萬翡翠標(biāo)錯價按26.8萬賣出 7043951