
GitHub實(shí)施更嚴(yán)格的風(fēng)控規(guī)則阻止中文用戶訪問(wèn) 疑似是為了反爬蟲(chóng)和反抓取
早前 GitHub 因?yàn)槭д`部署了屏蔽所有中國(guó) IP 地址的規(guī)則,中國(guó) IP 地址訪問(wèn)時(shí)會(huì)出現(xiàn)禁止訪問(wèn)提示,隨后 GitHub 更新規(guī)則并解釋是部署錯(cuò)誤,更新規(guī)則后中國(guó) IP 地址可以重新訪問(wèn)。
如果之前是失誤那現(xiàn)在肯定就是故意的了,GitHub 部署的新規(guī)則會(huì)對(duì)用戶語(yǔ)言進(jìn)行檢查,如果用戶使用的是中文 (僅限 zh_CN) 則可能會(huì)觸發(fā)限制而被限制訪問(wèn),不過(guò)從情況來(lái)看 GitHub 應(yīng)該是為了反爬蟲(chóng)的 (例如某 SDN 無(wú)差別拉取 GitHub 上的項(xiàng)目搬到自家平臺(tái))。
從測(cè)試情況來(lái)看 GitHub 將多個(gè)條件整合用來(lái)觸發(fā)限制,例如首先檢查 GitHub 的常規(guī)規(guī)則 (包括黑名單 IP 和 UA),然后檢測(cè) IP 地址質(zhì)量,以上兩個(gè)條件全部通過(guò)后再檢查第三個(gè)條件,也就是瀏覽器請(qǐng)求頭的語(yǔ)言部分是否包含 zh_CN,如果檢測(cè)到用戶使用的中文則會(huì)返回錯(cuò)誤。
也就是說(shuō) GitHub 并沒(méi)有針對(duì)特定區(qū)域的 IP 進(jìn)行封禁,如果用戶 IP 質(zhì)量沒(méi)問(wèn)題的話則不會(huì)觸發(fā)語(yǔ)言檢測(cè),因此如果用戶使用企業(yè)代理軟件訪問(wèn) GitHub 的話就可能因?yàn)?IP 地址質(zhì)量差 (臟 IP) 而觸發(fā)語(yǔ)言檢測(cè)。
從這些情況來(lái)看 GitHub 大概率是為了反爬蟲(chóng)和反抓取,目前大量 AI 爬蟲(chóng)對(duì) GitHub 瘋狂抓取用來(lái)訓(xùn)練模型,這種抓取行為不僅會(huì)給 GitHub 服務(wù)器造成負(fù)擔(dān),也會(huì)浪費(fèi)大量流量造成 GitHub 成本增加。
如果用戶并非爬蟲(chóng)并且訪問(wèn)受到影響,那也可以進(jìn)行針對(duì)性的解決:
1. 簡(jiǎn)單方法就是直接修改請(qǐng)求頭將語(yǔ)言修改為 en_US 等其他未被限制的語(yǔ)言
2. 更換質(zhì)量更好的 IP 地址避免觸發(fā)風(fēng)控,當(dāng)然更換 IP 地址可能會(huì)增加潛在使用成本
不過(guò)針對(duì)語(yǔ)言的檢測(cè)很容易被繞過(guò),接下來(lái) GitHub 很有可能會(huì)觀察情況并對(duì)修改語(yǔ)言的行為進(jìn)行檢測(cè),畢竟反爬蟲(chóng)是個(gè)長(zhǎng)期工作,GitHub 也只能根據(jù)爬蟲(chóng)的情況進(jìn)行針對(duì)性的策略調(diào)整實(shí)現(xiàn)封禁。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 情暖天山氣象新 7904133
- 2 殲-35完成在福建艦上彈射起飛 7808155
- 3 中國(guó)航母又一突破 7714075
- 4 國(guó)慶中秋臨近 文旅部發(fā)出游提示 7617003
- 5 港珠澳大橋主橋?qū)⒎忾] 7520123
- 6 萬(wàn)豪酒店承認(rèn)拖鞋循環(huán)多次使用 7427439
- 7 中方回應(yīng)“金正恩稱絕不放棄核武” 7331076
- 8 福建艦電磁彈射宣傳片震撼發(fā)布 7233066
- 9 廣東或大范圍停工 7136109
- 10 背簍老人等公交被拒載 司機(jī)被開(kāi)除 7047426