语文不行,排版不行,写这些话的时候我自己都在想:“那你写这东西干嘛?直接放代码不是更方便?”。人嘛,总是要试试的,不试过怎么知道你自己就是不行。
最后,本篇讲的是微博爬虫的基础实现,适用范围:小规模使用
现在市面有很多大数据或者做舆情分析的公司。这些公司难免都要用到爬虫,自然也涉及到微博爬虫了。虽然微博有自己的商业接口可以提供数据,但是里面有很多限制,比如:频次、字段缺失、不满足需求。尤其是频次,我之前的公司里就几个商业接口,大家共用频次限制死死的,采集量大的时候完全用不过来。
用cookie爬容易被冻结账号,所以要有很多小号;不用cookie,就是SinaVisitorSystem页面,根本爬不到内容。我手头没小号,所以我只能研究如何跳过这个机制。
SinaVisitorSystem(新浪访客系统),在请求微博页面判断有没有微博cookie?有,就跳转,没有且不是爬虫,就创造一个游客cookie,以便访问。
我们稍微比较一下两个“1087030002_2975_2017_0”请求的区别,请求头信息都差不多。最大的不同是,第一次请求是set-cookie,也就是没有cookie的值,第二次多了cookie,里面有三个值YF-Page-G0、SUB、SUBP。也就是说,这个cookie就是我们需要获取的游客cookie。
以谷歌浏览器为例。想看到这些请求先清空缓存(主要是cookie,F12打开开发者模式,在Network下面勾选Preservelog,最后ctrl+R重新加载
接下来,我们具体讨论下,他是怎么设置cookie的。先将第二个请求复制出来,在Postman中SEND一下。你会发现这个就是SinaVisitorSystem(新浪访客系统)。而且他还用中文注释,这是赤果果的挑衅(`⊿′)。
我们一眼就能看到,incarnate()方法是给用户赋予访客身份的。它发送了一个get请求,一对比,发现这是上面的第6个请求。也就是说,我们能成功发送第6个请求,就能成功获取cookie。
通过js我们可以知道,发送第6个请求,有以下几个参数:
a、t、w、c、gc、cb、from、_rand。其中a、cb、from是定值,_rand是随机数。
我们再看下第6个请求的详情,gc是空的,也就是说,我们只需要知道t(tid)、w(where)、c(conficence)三个参数就可以了
我测试过,发送请求时gc填不填无所谓,一样能成功
但是tid是什么呢?这三个参数又是在哪赋值的?经过仔细的查找,我发现它在body标签中,导入了一个js文件,一对比发现是我们的第三个请求
如图:w(where)->recover,看来w(where)在这里等价于recover
接下来,就是整理源码。为了方便截图,我改变了js部分代码的位置,但具体实现是没变的。
往下翻一下,我们可以找到这个方法,这个明显就是获取tid的方法。跟Network里的请求比对一下,发现这就是第5个请求。
这是一个POST请求,传了两个值,一个是cp,定值为:gen_callback;另一个是fp,他是通过getFp()方法生成,我看了下大致是获取浏览器类型,窗口大小,字体之类的常量。应该是为了判断是否为爬虫设置的。也就是说,只要不改浏览器配置这些值不会变的。测试的时候,直接复制进去就可以了
{ "retcode":20000000, "msg":"succ", "data":{ "tid":"O8DdOkekzzLgrDM2e0HhvBRePB8ZVty6FeowFyc7IR0=", "new_tid":true }}tid就找到了,只剩w(where)和c(conficence),我们继续看源码,发现他在后面回调的时候进行了处理。w(where)在"new_tid"为true的时候是3,false的时候是2。
c(conficence)可能有,可能没有,没有默认为100
虽然我这里没有,但是data下面有几率出现一个叫“conficence”的字段,我测试的时候他的值都是95
上面是原理,因此没有放代码。下面给大家放一个用java实现的版本。爬虫一般用Python比较合适,但这次选用java。没有什么理由,就是懒。java版本的之前完成需求的时候就已经写好了,ctrlcv就够了。python还得从头开始写,太懒了~~
不过,要是光学爬虫。那我还是推荐使用python
接下来的代码,都是从原有项目里拆分的,我稍微改造了下,有些冗余我就不优化了。不用照抄,有些实现完全就是无用的
只要调用getCookie(),就能获取完整的游客cookie。然后就能获取页面数据
我想你们已经发现了,这几个方法都是我以前做测试留下的测试文件,实在懒得改就随意了。下列代码>的运行结果,上面已经发了,就不再发了。
博主曾经开过8个线程,一天大致能爬200w左右的数据量。这方面的话,等什么时候保密协议过了,我还记得的话,再继续更新吧。
转贴,留个全尸就可以了,标明出处和作者,,其余随意有什么问题可以联系我,或者有什么错误。欢迎斧正。最后妇女节快乐
1、根据步骤也看不到请求跳转的,没有302重定向直接到200的。
那是因为你cookie可能没清干净。可以试试F12——Appllication——展开storage下的cookies——右键clear
2、有时候tid会返回带符号的例如+或者/这些把这些符号去除之后就会提示tid错误,不去除也是。
这种情况只能重新获取cookie
3、cookie中不加入YF-Page-G0也能成功
我测试的时候cookie中不加入YF-Page-G0无法获取到值。请自行斟酌