后端小浣熊cms—用火车采集器采集漫画个人文章|小浣熊cms3.0_宠物出国

我所使用的是火车采集器7.6企业破解版

1.多任务、多线程

2.数据在采集时自动保存到关系数据库中，数据结构自动调整。

3.信息收集任务可以在停止后继续从断点收集信息。

5.将采集到的二进制文件(如图片、音乐、软件、文档等)下载到本地

6.可以根据规则用定义的内容替换收集的结果。

7.软件可根据用户设置和实际情况自动删除重复内容和重复网址。

8.通过定义的接口，将收集到的结果数据发布到任何内容管理系统和指定的数据库。

我这里采集的是国漫网站：满客栈

选择它的原因是因为好采集，找了这么多网站就它好采，没有分页，没有Ajax，没有麻烦的采集规则对萌新来说真的非常友好

当你下载好软件，也解压好了，发现找不到火车头采集器.exe，那是因为它叫LocopyPlaform.exe，不要傻乎乎的以为下错东西了，确实没有下错东西，还是找不到LocopyPlaform.exe，那就看看你解压的时候，是不是被防火墙给拐走了

测试文件下新建了一个名为满客栈的任务

这里分为四个部分：

点进任务，在起始网址栏目选择添加选项，如图示：

根据步骤2，填写你所要采集的起始网址

在这一个网址中，里面包含了很多漫画内容，每一部漫画里面又有独自的页面，一个总览的页面涵盖很多所属内容，我将它定义为大页面。

但是你可以发现实际上我写的是这个网址：

采集漫画可不止一个页面吧，只采集一个页面，那多没劲啊。你试试按下翻页按钮，翻页的时候发现网址除了page后面的数字有变化，其他都没变，这种有规律的变化，你不用修改过多的东西，只需要将数字用通配符*通配一下，就可以采取多个页面

我这里设置的是5页，所以预览里面出现了5个页面网址，按你需求设置多少页，但是测试前期最好页数越少越好，不然测试过程很煎熬（主要是慢）

点击添加

进入之后选择手动填写链接地址规则

这里写的脚本规则，应该要跑回去你的大页面（起始网址），里面有很多部漫画内容，这里我们只选择其中一部就好了

鼠标指向漫画名，右键点击检索，就会弹出网页元素（如下图）

把需要的内容用参数代替，按右边的参数键

这里的参数是和上面规则的参数是一一对应的

这就显示，你已经采集到每一部漫画的url了（如果不确定自己采集到的url是否正确，把它复制过去看看网页能不能打开，能打开那就是成功了）

参照手册的火车头api来写表单字段

先黏贴需要用到手册的内容，如下：（详情还是请你看手册）

先来写第一个表单字段：漫画名

选择一部漫画，进入当前漫画的url，检索漫画名，找到它的元素位置

把上面的p标签内容复制放到正则匹配内容里面，如下图

#将原先的p标签内容：圣祖

#改为：[参数]

多页属性：先放测试结果：

简单解释一下多页原理（解释的很乱，可能听的一头雾水）

这里有点像回溯，当前找不到目标就返回上一层。

对，没错。看着手册有这么多字段，你都要逐个逐个写进去，不过如果你只是纯属玩玩，有些字段可以不写进去，但是别自定义新增字段，我用的这个cms版本还不支持自定义字段，不然到时候你死活发布不成功

因为很多操作都是相同的，会一个，基本剩下的都可以自行搞定，我这里就挑几个来写，要全写，啊，打咩

我挑tags，end和images

手册要求：

tags分类，多个分类用|隔开

按照之前采集的方法，得到的结果是这样的：

完全不符合官方的要求，这里只需做一点修改即可

在当前字段下，按添加按钮，选择内容替换选项，将空格符改为|就好了

end字段要求：1代表完结，0代表连载中

解决问题，用替换内容就好了，把采集到的关键字，如”完结“，”连载中“，”已完结“，”未完结“，替换成对应的1和0

具体操作还是和tags分类操作相似，这里就不赘述了

images字段要求，将采集到的图集链接作进一步修改，改成这样：

这是一个巨大的坑！我当前使用的5.0版本就是这个坑！搞得我后面发布一直不成功！

我特意跑去看了images的对应代码，发现，改成这个样子才是正确的：

等所有字段都填写好之后，接下来就是第三步分啦！

首先这里需要写web发布配置，还记得官方手册的那10几个字段吗，就是让你写规则写到手软的那几个

这里又要用上它们了

再说一次（好麻烦啊！）

先放6个步骤：

新建web发布配置就不多说了，简单，第5步骤这里的地址后缀，直接复制官网的api地址上去就好

/api.php/postbot/save第6步，它来了，点击新建表单项

对着表单字段说明来写，注意表单名千万别写错，只要一一对应了，后面发布都不是问题！

#就是这个表单名1.book_name漫画名2.nick_name漫画别名3.tags分类.......写好之后保存模块

点击开始任务

愉快的采集发布之旅就要开始啦！放着让它采集就好了，因为它采集真的非常慢非常慢，如果你想测试是否能发布成功，把当初设置的5个翻页改为1个，尽量减少采集数量，这样它虽然是慢，但是减少一定的数量，还是会相对快一些些的（bushi）

我当时就是不知道哪里来的稚气，喜欢折腾，遇到困难不去问，而是去啃源码，草

THE END

后端小浣熊cms—用火车采集器采集漫画个人文章

后端小浣熊cms—用火车采集器采集漫画个人文章

SpringBoot整合WebSocket使用记录IT小浣熊

小浣熊采集：淘宝采集软件的佼佼者，助力商家多平台爆款挖掘都能云上