爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。
下面用一个图来解释一下调度器是如何协调工作的:
1、安装BeautifulSoup
打开cmd(命令提示符),进入到Python(Python2.7版本)安装目录中的scripts下,输入dir查看是否有pip.exe,如果用就可以使用Python自带的pip命令进行安装,输入以下命令进行安装即可:
THE END