我所使用的是火车采集器7.6企业破解版
1.多任务、多线程
2.数据在采集时自动保存到关系数据库中,数据结构自动调整。
3.信息收集任务可以在停止后继续从断点收集信息。
5.将采集到的二进制文件(如图片、音乐、软件、文档等)下载到本地
6.可以根据规则用定义的内容替换收集的结果。
7.软件可根据用户设置和实际情况自动删除重复内容和重复网址。
8.通过定义的接口,将收集到的结果数据发布到任何内容管理系统和指定的数据库。
我这里采集的是国漫网站:满客栈
选择它的原因是因为好采集,找了这么多网站就它好采,没有分页,没有Ajax,没有麻烦的采集规则对萌新来说真的非常友好
当你下载好软件,也解压好了,发现找不到火车头采集器.exe,那是因为它叫LocopyPlaform.exe,不要傻乎乎的以为下错东西了,确实没有下错东西,还是找不到LocopyPlaform.exe,那就看看你解压的时候,是不是被防火墙给拐走了
测试文件下新建了一个名为满客栈的任务
这里分为四个部分:
点进任务,在起始网址栏目选择添加选项,如图示:
根据步骤2,填写你所要采集的起始网址
在这一个网址中,里面包含了很多漫画内容,每一部漫画里面又有独自的页面,一个总览的页面涵盖很多所属内容,我将它定义为大页面。
但是你可以发现实际上我写的是这个网址:
采集漫画可不止一个页面吧,只采集一个页面,那多没劲啊。你试试按下翻页按钮,翻页的时候发现网址除了page后面的数字有变化,其他都没变,这种有规律的变化,你不用修改过多的东西,只需要将数字用通配符*通配一下,就可以采取多个页面
我这里设置的是5页,所以预览里面出现了5个页面网址,按你需求设置多少页,但是测试前期最好页数越少越好,不然测试过程很煎熬(主要是慢)
点击添加
进入之后选择手动填写链接地址规则
这里写的脚本规则,应该要跑回去你的大页面(起始网址),里面有很多部漫画内容,这里我们只选择其中一部就好了
鼠标指向漫画名,右键点击检索,就会弹出网页元素(如下图)
把需要的内容用参数代替,按右边的参数键
这里的参数是和上面规则的参数是一一对应的
这就显示,你已经采集到每一部漫画的url了(如果不确定自己采集到的url是否正确,把它复制过去看看网页能不能打开,能打开那就是成功了)
参照手册的火车头api来写表单字段
先黏贴需要用到手册的内容,如下:(详情还是请你看手册)
先来写第一个表单字段:漫画名
选择一部漫画,进入当前漫画的url,检索漫画名,找到它的元素位置
把上面的p标签内容复制放到正则匹配内容里面,如下图
#将原先的p标签内容:
简单解释一下多页原理(解释的很乱,可能听的一头雾水)
这里有点像回溯,当前找不到目标就返回上一层。
对,没错。看着手册有这么多字段,你都要逐个逐个写进去,不过如果你只是纯属玩玩,有些字段可以不写进去,但是别自定义新增字段,我用的这个cms版本还不支持自定义字段,不然到时候你死活发布不成功
因为很多操作都是相同的,会一个,基本剩下的都可以自行搞定,我这里就挑几个来写,要全写,啊,打咩
我挑tags,end和images
手册要求:
tags分类,多个分类用|隔开
按照之前采集的方法,得到的结果是这样的:
完全不符合官方的要求,这里只需做一点修改即可
在当前字段下,按添加按钮,选择内容替换选项,将空格符改为|就好了
end字段要求:1代表完结,0代表连载中
解决问题,用替换内容就好了,把采集到的关键字,如”完结“,”连载中“,”已完结“,”未完结“,替换成对应的1和0
具体操作还是和tags分类操作相似,这里就不赘述了
images字段要求,将采集到的图集链接作进一步修改,改成这样:
这是一个巨大的坑!我当前使用的5.0版本就是这个坑!搞得我后面发布一直不成功!
我特意跑去看了images的对应代码,发现,改成这个样子才是正确的:
等所有字段都填写好之后,接下来就是第三步分啦!
首先这里需要写web发布配置,还记得官方手册的那10几个字段吗,就是让你写规则写到手软的那几个
这里又要用上它们了
再说一次(好麻烦啊!)
先放6个步骤:
新建web发布配置就不多说了,简单,第5步骤这里的地址后缀,直接复制官网的api地址上去就好
/api.php/postbot/save第6步,它来了,点击新建表单项
对着表单字段说明来写,注意表单名千万别写错,只要一一对应了,后面发布都不是问题!
#就是这个表单名1.book_name漫画名2.nick_name漫画别名3.tags分类.......写好之后保存模块
点击开始任务
愉快的采集发布之旅就要开始啦!放着让它采集就好了,因为它采集真的非常慢非常慢,如果你想测试是否能发布成功,把当初设置的5个翻页改为1个,尽量减少采集数量,这样它虽然是慢,但是减少一定的数量,还是会相对快一些些的(bushi)
我当时就是不知道哪里来的稚气,喜欢折腾,遇到困难不去问,而是去啃源码,草