@11什么是爬虫？张缤分|1.什么是爬虫_宠物驱虫

本节课程的内容是介绍什么是爬虫？爬虫有什么用？以及爬虫是如何实现的？从这三点来全面剖析爬虫这一工具。

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

市场分析：电商分析、商圈分析、一二级市场分析等

市场监控：电商、新闻、房源监控等

商机发现：招投标情报发现、客户资料发掘、企业客户发现等

一个网站的网址一般由域名+自己编写的页面所构成。我们在访问同一网站的网页时，域名一般是不会改变的，因此我们爬虫所需要解析的就是网站自己所编写的不同页面的入口url，只有解析出来各个页面的入口，我们才能开始我们的爬虫。

在网页中右键点击查看网页源码，可以查看到网页的源代码信息。源代码一般由三个部分组成，分别是：

以chrome浏览器为例，在网页上点击鼠标右键，检查（或者直接F12），选择network，刷新页面，选择ALL下面的第一个链接，这样就可以看到网页的各种请求信息。

请求头（RequestHeaders）信息详解：

响应头（ResponseHeaders）信息详解：

从浏览器输入网址、回车后，到用户看到网页内容，经过的步骤如下：

（1）dns解析，获取ip地址；

（2）建立TCP连接，3次握手；

（3）发送HTTP请求报文；

（4）服务器接收请求并作处理；

（5）服务器发送HTTP响应报文；

（6）断开TCP连接，4次握手。

1.挑选种子URL；

2.将这些URL放入待抓取的URL队列；

3.取出待抓取的URL，下载并存储进已下载网页库中。此外，将这些URL放入待抓取URL队列，从而进入下一循环；

4.分析已抓取队列中的URL，并且将URL放入待抓取URL队列，从而进入下一循环。

THE END

@11什么是爬虫？张缤分