
人體3D模型網(wǎng)站遭OpenAI爬蟲瘋狂抓取引起癱瘓
聲明:該文章來(lái)自(藍(lán)點(diǎn)網(wǎng))版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁(yè)加速服務(wù)。
搜索引擎或其他爬蟲高頻次抓取網(wǎng)站導(dǎo)致服務(wù)器癱瘓的案例并不少見,包括藍(lán)點(diǎn)網(wǎng)在內(nèi)的多個(gè)網(wǎng)站都曾遇到過(guò)這類爬蟲引起網(wǎng)站無(wú)法正常訪問。
現(xiàn)在人工智能公司的爬蟲替代搜索引擎成為整個(gè)互聯(lián)網(wǎng)上抓取頻率最高的爬蟲,對(duì)某些網(wǎng)站來(lái)說(shuō)如果沒有規(guī)范設(shè)置 robots.txt 文件進(jìn)行阻止那可能就會(huì)出現(xiàn)服務(wù)器癱瘓的情況。
例如最新的案例是烏克蘭網(wǎng)站 Trilegangers,該網(wǎng)站提供海量的人體 3D 模型數(shù)據(jù)供 3D 藝術(shù)家、視頻游戲開發(fā)商以及任何需要以數(shù)字方式重新真實(shí)人類特征的人購(gòu)買。
盡管該網(wǎng)站已經(jīng)在使用協(xié)議里注明未經(jīng)授權(quán)禁止抓取和使用網(wǎng)站的所有數(shù)據(jù),但 Trilegangers 并未正確設(shè)置 robots.txt 文件阻止包括 GPTBot 在內(nèi)的爬蟲。
本周六該網(wǎng)站癱瘓并且癥狀類似于 DDoS 分布式拒絕服務(wù)攻擊,經(jīng)過(guò)檢查后發(fā)現(xiàn)罪魁禍?zhǔn)资?OpenAI 用于抓取數(shù)據(jù)訓(xùn)練人工智能的 GPTBot 爬蟲。
Trilegangers 工作人員檢查服務(wù)器日志后發(fā)現(xiàn),OpenAI 派出的 GPTBot 爬蟲以 600 多個(gè)不同的 IP 地址發(fā)起數(shù)以萬(wàn)計(jì)的請(qǐng)求,這些并發(fā)請(qǐng)求直接讓服務(wù)器無(wú)法處理流量導(dǎo)致癱瘓。
根據(jù) OpenAI 公布的爬蟲說(shuō)明,如果網(wǎng)站不想被 GBTBot 爬蟲抓取內(nèi)容,則需要在 robots.txt 里使用規(guī)范命令進(jìn)行阻止,Trilegangers 網(wǎng)站并未設(shè)置該文件。
robots.txt 屬于行業(yè)的約定俗成并非法律規(guī)范,但即便沒有設(shè)置 robots.txt 文件,GPTBot 抓取數(shù)據(jù)再由 OpenAI 使用數(shù)據(jù)訓(xùn)練 AI 也是違法行為,因?yàn)?Trilegangers 網(wǎng)站本身已經(jīng)禁止未經(jīng)授權(quán)的使用。
另一方面 Trilegangers 使用 AWS 的服務(wù)器,由于 GPTBot 的瘋狂抓取導(dǎo)致消耗的帶寬和流量也在增加,因此 Trilegangers 也需要支付更高的服務(wù)器費(fèi)用。
目前 Trilegangers 已經(jīng)設(shè)置正確的 robots.txt 文件并通過(guò) Cloudflare 阻止 GPTBot 和其他爬蟲包括字節(jié)跳動(dòng)的 Bytespider 爬蟲的抓取,這應(yīng)該可以臨時(shí)解決問題。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 像石榴籽一樣緊緊抱在一起 7904760
- 2 殲-35完成在福建艦上彈射起飛 7808217
- 3 深圳:建議準(zhǔn)備至少3天的應(yīng)急物資 7714396
- 4 唱著民歌迎豐收 7617982
- 5 日本“蘋果病”流行達(dá)歷史頂點(diǎn) 7521740
- 6 孩子的數(shù)學(xué)邏輯比運(yùn)算結(jié)果重要 7426837
- 7 背簍老人等公交被拒載 司機(jī)被開除 7328594
- 8 苑舉正:中國(guó)重回盛世 7236156
- 9 榴蓮降至15元一斤 7140222
- 10 波蘭宣布聯(lián)手瑞典 同天俄官宣:征兵 7044158