采集Content:京东商品名称、价格、链接
注意:在这种情况下,京东搜索有独立的网址。对于有独立网址的页面,最简单的方法是构造每个关键词搜索网址,然后将线索网址导入到规则中,就可以批量采集,而不是设置一个连续的动作,可以参考《如何构造URL”和“如何管理线索规则”。
第一步:定义一级规则
1.1打开极手客网络爬虫,输入网址回车,加载网页后点击“定义规则”按钮,会看到一个浮动窗口,称为工作台,在上面可以定义规则;
注:这里的截图和文字说明均为极手客网络爬虫版本。如果你安装的是火狐插件版本,那么就没有“定义规则”按钮,但是你应该运行MSMuseum。
1.2在工作台中输入一级规则的主题名称,然后点击“检查重复”,提示“此名称可以使用”或“名称已被占用,可编辑:是”,您可以使用此主题名称,否则请重命名。
1.3这层规则主要是设置连续动作,所以排序框可以随意抓取一条信息,用它来判断是否为爬虫执行采集。双击网页上的信息,输入标签名称,勾选确认,然后勾选关键内容,输入第一个标签的排序框名称,标签映射完成。
提示:为了准确定位网页信息,点击定义规则会冻结整个网页,无法跳转到网页链接。再次点击定义规则,返回正常网页模式。
第2步:定义连续动作
点击工作台的“ContinuousAction”选项卡,点击New按钮新建一个action,每个action的设置方法都是一样的,基本操作如下:
2.1,输入目标学科名称
这里的目标主题名称是填写二级主题名称,点击“谁在使用”查看目标主题名称是否可用,如果已经被占用,只需更改一个主题名称即可。
2.2,创建第一个动作:回车
创建一个新动作并选择动作类型作为输入。
2.2.1,填写定位表达式
首先点击输入框,定位输入框的节点,然后点击“AutoGenerateXPath”按钮,可以选择“Preferenceid”或者“Preferenceclass”,就可以得到输入的xpath表达式框,然后单击“搜索”按钮,检查这个xpath是否可以在输入框中唯一定位,如果没有问题,将xpath复制到定位表达式框中。
注意:定位表达式中的xpath是锁定动作对象的整个有效操作范围。具体是指鼠标可以点击或输入成功的网页模块。不要在底部找到text()节点。
2.2.2,输入关键词
输入关键词填写你要搜索的关键词,可以输入一个关键词,也可以输入多个关键词,输入多个关键词使用双分号;;把每个关键词Separate,免费版只支持关键词5以内,旗舰版可以使用爆弹功能,支持关键词10000以内
2.2.3,输入动作名称
告诉自己这一步是做什么的,以便你以后可以修改。
2.3,创建第二个动作:点击
参考2.2的操作,创建第二个action,选择type为click,定位搜索按钮,然后自动生成xpath检查是否锁定到唯一节点,如果没有问题,填写定位表达式。.
2.4,保存规则
点击“保存规则”按钮保存完成的一级规则
第3步:定义二级规则
3.1,新建规则
创建二级规则,点击“定义规则”返回正常网页模式,输入关键词搜索结果,再次点击“定义规则”切换到规则制定模式,点击“左上角规则”菜单->“新建”,输入主题名称,其中主题名称是在第一级规则的连续动作中填写的目标主题名称。
3.2,标记你想要的信息采集
3.2.3、设置“关键内容”选项,让爬虫判断采集规则是否合适。在排序框中,选择网页上不可避免的标签,并勾选“关键内容”。这里选择“名称”作为“关键内容”。
3.2.4,只要在前面标注一个产品,就可以得到一个产品信息。如果你想采集下整个页面上的每一个产品,可以做一个样例拷贝,没有如果你看懂了,请参考基础教程“采集表数据”
3.3,设置翻页路线
在爬虫路由中设置翻页,这里是标记提示,不明白的请参考基础教程《设置翻页采集》
3.4,保存规则
点击“测试”以检查信息的完整性。如果不完整,重新标记可以覆盖之前的内容。确认没有问题后,点击“保存规则”。
第4步:捕获数据
4.1,连续动作是连续执行的,所以只要运行一级主题,二级主题就不需要运行了。打开DS计数器,搜索一级主题名称,点击“单一搜索”或“采集”,可以看到在浏览器窗口中自动输入并搜索关键词,然后调用二级主题自动采集搜索结果。
4.2,一级话题没有采集到有意义的信息,所以我们只看二级话题文件夹,可以看到采集的搜索结果数据,搜索关键词是默认记录在xml文件的actionvalue字段中,这样可以一一匹配。