本文主要介绍如何在scrapy项目中接入IPProxyPool项目的代理服务
添加代理中间件
首先必须先对scrapy的中间件有过了解,这里主要是添加一个中间件,动态获取IPProxyPool提供的代理,指定访问次数阈值后切换新的代理,使得代理池保持最新的状态
1 | class ProxyMiddleware(object): |
在settings.py中设定
1 | DOWNLOADER_MIDDLEWARES = { |
开启IPProxyPool项目后台运行
1 | #clone项目到本地 |
总结
经过实际使用,所获得的代理在可用性上还是存在问题,会出现很多的4xx错误,后续还会再考虑其他代理方式.