后端小浣熊cms—用火车采集器采集漫画个人文章

我所使用的是火车采集器7.6企业破解版

1.多任务、多线程

2.数据在采集时自动保存到关系数据库中,数据结构自动调整。

3.信息收集任务可以在停止后继续从断点收集信息。

5.将采集到的二进制文件(如图片、音乐、软件、文档等)下载到本地

6.可以根据规则用定义的内容替换收集的结果。

7.软件可根据用户设置和实际情况自动删除重复内容和重复网址。

8.通过定义的接口,将收集到的结果数据发布到任何内容管理系统和指定的数据库。

我这里采集的是国漫网站:满客栈

选择它的原因是因为好采集,找了这么多网站就它好采,没有分页,没有Ajax,没有麻烦的采集规则对萌新来说真的非常友好

当你下载好软件,也解压好了,发现找不到火车头采集器.exe,那是因为它叫LocopyPlaform.exe,不要傻乎乎的以为下错东西了,确实没有下错东西,还是找不到LocopyPlaform.exe,那就看看你解压的时候,是不是被防火墙给拐走了

测试文件下新建了一个名为满客栈的任务

这里分为四个部分:

点进任务,在起始网址栏目选择添加选项,如图示:

根据步骤2,填写你所要采集的起始网址

在这一个网址中,里面包含了很多漫画内容,每一部漫画里面又有独自的页面,一个总览的页面涵盖很多所属内容,我将它定义为大页面。

但是你可以发现实际上我写的是这个网址:

采集漫画可不止一个页面吧,只采集一个页面,那多没劲啊。你试试按下翻页按钮,翻页的时候发现网址除了page后面的数字有变化,其他都没变,这种有规律的变化,你不用修改过多的东西,只需要将数字用通配符*通配一下,就可以采取多个页面

我这里设置的是5页,所以预览里面出现了5个页面网址,按你需求设置多少页,但是测试前期最好页数越少越好,不然测试过程很煎熬(主要是慢)

点击添加

进入之后选择手动填写链接地址规则

这里写的脚本规则,应该要跑回去你的大页面(起始网址),里面有很多部漫画内容,这里我们只选择其中一部就好了

鼠标指向漫画名,右键点击检索,就会弹出网页元素(如下图)

把需要的内容用参数代替,按右边的参数键

这里的参数是和上面规则的参数是一一对应的

这就显示,你已经采集到每一部漫画的url了(如果不确定自己采集到的url是否正确,把它复制过去看看网页能不能打开,能打开那就是成功了)

参照手册的火车头api来写表单字段

先黏贴需要用到手册的内容,如下:(详情还是请你看手册)

先来写第一个表单字段:漫画名

选择一部漫画,进入当前漫画的url,检索漫画名,找到它的元素位置

把上面的p标签内容复制放到正则匹配内容里面,如下图

#将原先的p标签内容:圣祖

#改为:[参数]

多页属性:先放测试结果:

简单解释一下多页原理(解释的很乱,可能听的一头雾水)

这里有点像回溯,当前找不到目标就返回上一层。

对,没错。看着手册有这么多字段,你都要逐个逐个写进去,不过如果你只是纯属玩玩,有些字段可以不写进去,但是别自定义新增字段,我用的这个cms版本还不支持自定义字段,不然到时候你死活发布不成功

因为很多操作都是相同的,会一个,基本剩下的都可以自行搞定,我这里就挑几个来写,要全写,啊,打咩

我挑tags,end和images

手册要求:

tags分类,多个分类用|隔开

按照之前采集的方法,得到的结果是这样的:

完全不符合官方的要求,这里只需做一点修改即可

在当前字段下,按添加按钮,选择内容替换选项,将空格符改为|就好了

end字段要求:1代表完结,0代表连载中

解决问题,用替换内容就好了,把采集到的关键字,如”完结“,”连载中“,”已完结“,”未完结“,替换成对应的1和0

具体操作还是和tags分类操作相似,这里就不赘述了

images字段要求,将采集到的图集链接作进一步修改,改成这样:

这是一个巨大的坑!我当前使用的5.0版本就是这个坑!搞得我后面发布一直不成功!

我特意跑去看了images的对应代码,发现,改成这个样子才是正确的:

等所有字段都填写好之后,接下来就是第三步分啦!

首先这里需要写web发布配置,还记得官方手册的那10几个字段吗,就是让你写规则写到手软的那几个

这里又要用上它们了

再说一次(好麻烦啊!)

先放6个步骤:

新建web发布配置就不多说了,简单,第5步骤这里的地址后缀,直接复制官网的api地址上去就好

/api.php/postbot/save第6步,它来了,点击新建表单项

对着表单字段说明来写,注意表单名千万别写错,只要一一对应了,后面发布都不是问题!

#就是这个表单名1.book_name漫画名2.nick_name漫画别名3.tags分类.......写好之后保存模块

点击开始任务

愉快的采集发布之旅就要开始啦!放着让它采集就好了,因为它采集真的非常慢非常慢,如果你想测试是否能发布成功,把当初设置的5个翻页改为1个,尽量减少采集数量,这样它虽然是慢,但是减少一定的数量,还是会相对快一些些的(bushi)

我当时就是不知道哪里来的稚气,喜欢折腾,遇到困难不去问,而是去啃源码,草

THE END
1.小浣熊漫画CMS3.0仿土豪漫画完美版源码/附搭建教程亲测小浣熊漫画CMS3.0仿土豪漫画完美版源码,完美无错的仿土豪漫画源码,无数据,需要自行采集。这款漫画源码需要 redis 支持,php环境为 7.3,搭建较为简单,但是需要注意一些细节,具体请看源码内安装说明。下载链接:https://pan.baidu.com/s/1gS5ZfApHVvmzkoG9A2rc3A?pwd=iaah 以下是截图:https://bbs.csdn.net/ccloud/topics/611606374
2.小浣熊袋鼠分类https://download.csdn.net/download/qq_37879432/10395712解压后的animal.h5放在跟目录下。使用 python predict.py -c config.json -i /path/to/imag进行预测 /path/to/imag 为图片或者视屏的路径请放入有关小浣熊袋鼠的图片 小浣熊袋鼠 2018-05-06 上传 大小:221.00MB 所...https://www.iteye.com/resource/qq_37879432-10395732
1.分享Python采集66个PHP影音娱乐源码,总有一款适合您程氏舞曲管理系统CMSPHP V3.0 GBK 免费飞飞影视蓝色大气模板2013 蓝叶音乐欣赏网站 黑色幻想舞曲程序 光线清爽简洁电影整站 搜一次CMS电影程序PHP版 V1.6 20130129 云点播网页版 舞曲程序 DEDECMS内核 V2.1 阳子音乐管理系统 PiPiCMS皮皮影视采集程序 V1.3h 正式版 UTF8 Build20130101 ...https://blog.51cto.com/u_16077447/6211927
2.GitHub小浣熊漫画CMS5.0 程序特色 完善的会员系统,带支付系统,带VIP功能,带推广功能 完善的APP接口 完善的火车头API 阅读页可以选择一页几图,为网站增加PV 章节预加载,在阅读下一章时不需要再等待载入 三端并存:PC端,移动端,MIP端,MIP端可以跳转到移动端的阅读页,解决MIP不能放广告的问题(MIP做引流,移动端做真正变...https://github.com/cdlaimin/raccoon5
3.零食大盘点:关于味觉的美好记忆想当年,多少臭美的小女孩想用妈妈的口红把自己扮的美美的,一种糖果的出现圆了无数小女孩的梦,那就是口红糖,常常还非常幼稚地在嘴上抹好一圈再舔着嘴唇吃。 5. 小浣熊干脆面 不管男孩女孩,总有过那么些个为了收集卡片吃小浣熊吃到吐的不堪回首的经历。当年一张稀有的卡片可以换了多少小伙伴羡慕嫉妒恨的目光。https://www.rbc.cn/17liuyiliwu/2017-05/26/cms584624article.shtml