Toy box for grapefruit623
紀錄碰到的技術問題 個人隨筆
2015年4月26日 星期日
python 網路爬蟲避免被阻擋的方法
最近手癢寫一小支網路爬蟲,但是會碰到被伺服器擋下的問題
主要原因就是對方伺服器知道當前連線的程序是機器人
處理方式就是讓爬蟲偽裝成真人
python網路爬蟲常利用urllib2模組來實現, 但是預設的user-agent會註明這是一支python程式
因此需要修改成常見到的瀏覽器
例如:
即可讓本次的Request被視為是linux系統經由Firefox瀏覽器所送出
要注意:如果連線過於頻繁仍有可能被視為惡意攻擊
較新的文章
較舊的文章
首頁
訂閱:
文章 (Atom)