2015年4月26日 星期日

python 網路爬蟲避免被阻擋的方法

最近手癢寫一小支網路爬蟲,但是會碰到被伺服器擋下的問題

主要原因就是對方伺服器知道當前連線的程序是機器人
處理方式就是讓爬蟲偽裝成真人


python網路爬蟲常利用urllib2模組來實現, 但是預設的user-agent會註明這是一支python程式
因此需要修改成常見到的瀏覽器

例如:
即可讓本次的Request被視為是linux系統經由Firefox瀏覽器所送出

要注意:如果連線過於頻繁仍有可能被視為惡意攻擊