希望下次写代码的时候可以严格按照这个步骤进行调试,写可维护的代码
1.创建一个项目
scrapystartprojectdemo
1.根据需要设计字段
items.py
***************
2.数据提取spiders.py
根据网站的规则:设置相应的策略
1)针对没有ban且没有动态数据的网站
无需设置相应得策略:设置UserAgentMiddleware即可
2)针对没有ban有动态数据的网站
在1的基础上,设置代理IP池(变IP采集),动态数据获取可以根据浏览器响应的方式发请求
3)针对有ban和有动态数据的网站
在1的基础上,设置代理IP池,设置Cookies池,使用selenium的plantomjs插件
THE END