这个库是配合一些驱动去爬取动态渲染网页的库
importseleniumfromseleniumimportwebdriver
importosfromseleniumimportwebdriverfromselenium.webdriver.common.keysimportKeysfromselenium.webdriver.chrome.optionsimportOptionsimporttime
driver.close()
这个是为XPATH的使用准备的库
frompyqueryimportPyQueryaspq
这个库是py操纵Mysql的库
importpymysql
importpymango
importredis
flask在后期使用代理的时候可能会用到
fromflaskimportFlask
在分布式爬虫的维护方面可能会用到django
网页端记事本
(1)爬虫是什么
爬虫就是请求网页并且提取数据的自动化工具
(2)爬虫的基本流程
2.获取响应内容
3.解析内容
4.保存数据
(3)请求的基本元素
1.请求方法
2.请求URL
3.请求头
4.请求体(POST方法独有)
(4)请响应的基本元素
1.状态码
2.响应头
3.响应体
1.请求网页数据
importrequests
print(res.status_code)print(res.headers)print(res.text)
2.请求二进制数据
(6)解析方式
1.直接处理
2.转化成json对象
3.正则匹配
4.BeautifulSoap
5.PyQuery
6.XPath
(7)response的结果为什么和浏览器中的看到的不同
(8)如何解决JS渲染的问题
1.分析Ajax请求
3.splash
4.PyV8、Ghostpy
(9)如何存储数据
1.纯本文
2.关系型数据库
3.非关系型数据库
4.二进制文件
这个库是python的内置的一个请求库
urllib.request—————–>请求模块
urllib.error——————–>异常处理模块
urllib.parse——————–>url解析模块
urllib.robotparser————>robots.txt解析模块
(1)函数调用原型
importurllib.request
importurllib.requestimporturllib.parsefrompprintimportpprint
(6)request对象
fromurllibimportrequest,parsefrompprintimportpprint
(1)代理
(2)Cookie
1.获取cookies
2.将cookie保存成文本文件
3.使用文件中的cookie
(3)异常处理
fromurllibimportrequestfromurllibimporterror
fromurllibimportrequest,error
importsocketimporturllib.requestimporturllib.error
(4)URL解析工具类
1.urlparse
fromurllib.parseimporturlparse
2.urlunparse
fromurllib.parseimporturlunparse
3.urljoin
fromurllib.parseimporturljoin
4.urlencode
fromurllib.parseimporturlencode
(1)获取响应信息
2)各种请求方法
(3)带参数的get请求
(4)解析json
(5)获取二进制数据
(6)添加headers
(7)POST请求
(8)response属性
(9)响应状态码
(1)文件上传
(2)获取cookies
(3)会话维持
实例代码:
(4)证书验证
1.忽略证书验证
importrequestsfromrequests.packagesimporturllib3
2.手动指定本地证书进行验证
(6)超时设置
(7)Basic认证
importrequestsfromrequests.authimportHTTPBasicAuth
(8)异常处理
(1)常规匹配
importre
(2)泛匹配
(3)匹配具体内容
(4)贪婪与非贪婪模式
(12,13)7
(6,13)1234567
(5)匹配模式
(6)转义字符
frombs4importBeautifulSoup
(1)选择元素
python爬虫简单小示例
Python万能代码模版:爬虫代码篇
代理ip服务商推荐:使用流程:(点击下方对应产品前往官网→注册账号→联系客服免费试用→购买需要的套餐→前往不同的场景使用代理ip)