JAVA微博爬虫高级篇——自动获取微博cookie（无须账号每日百万量级）文章这东西写起来是真的麻烦。我语文特不好，什|爬虫????_宠物驱虫

语文不行，排版不行，写这些话的时候我自己都在想：“那你写这东西干嘛？直接放代码不是更方便？”。人嘛，总是要试试的，不试过怎么知道你自己就是不行。

最后，本篇讲的是微博爬虫的基础实现，适用范围：小规模使用

现在市面有很多大数据或者做舆情分析的公司。这些公司难免都要用到爬虫，自然也涉及到微博爬虫了。虽然微博有自己的商业接口可以提供数据，但是里面有很多限制，比如：频次、字段缺失、不满足需求。尤其是频次，我之前的公司里就几个商业接口，大家共用频次限制死死的，采集量大的时候完全用不过来。

用cookie爬容易被冻结账号，所以要有很多小号；不用cookie，就是SinaVisitorSystem页面，根本爬不到内容。我手头没小号，所以我只能研究如何跳过这个机制。

SinaVisitorSystem(新浪访客系统)，在请求微博页面判断有没有微博cookie？有，就跳转，没有且不是爬虫，就创造一个游客cookie，以便访问。

我们稍微比较一下两个“1087030002_2975_2017_0”请求的区别，请求头信息都差不多。最大的不同是，第一次请求是set-cookie，也就是没有cookie的值，第二次多了cookie，里面有三个值YF-Page-G0、SUB、SUBP。也就是说，这个cookie就是我们需要获取的游客cookie。

以谷歌浏览器为例。想看到这些请求先清空缓存（主要是cookie，F12打开开发者模式，在Network下面勾选Preservelog，最后ctrl+R重新加载

接下来，我们具体讨论下，他是怎么设置cookie的。先将第二个请求复制出来，在Postman中SEND一下。你会发现这个就是SinaVisitorSystem（新浪访客系统）。而且他还用中文注释，这是赤果果的挑衅(｀⊿′)。

我们一眼就能看到，incarnate()方法是给用户赋予访客身份的。它发送了一个get请求，一对比，发现这是上面的第6个请求。也就是说，我们能成功发送第6个请求，就能成功获取cookie。

通过js我们可以知道，发送第6个请求，有以下几个参数：

a、t、w、c、gc、cb、from、_rand。其中a、cb、from是定值，_rand是随机数。

我们再看下第6个请求的详情，gc是空的，也就是说，我们只需要知道t（tid）、w（where）、c（conficence）三个参数就可以了

我测试过，发送请求时gc填不填无所谓，一样能成功

但是tid是什么呢？这三个参数又是在哪赋值的？经过仔细的查找，我发现它在body标签中，导入了一个js文件，一对比发现是我们的第三个请求

如图：w（where）->recover，看来w（where）在这里等价于recover

接下来，就是整理源码。为了方便截图，我改变了js部分代码的位置，但具体实现是没变的。

往下翻一下，我们可以找到这个方法，这个明显就是获取tid的方法。跟Network里的请求比对一下，发现这就是第5个请求。

这是一个POST请求，传了两个值，一个是cp，定值为：gen_callback；另一个是fp，他是通过getFp()方法生成，我看了下大致是获取浏览器类型，窗口大小，字体之类的常量。应该是为了判断是否为爬虫设置的。也就是说，只要不改浏览器配置这些值不会变的。测试的时候，直接复制进去就可以了

{ "retcode":20000000, "msg":"succ", "data":{ "tid":"O8DdOkekzzLgrDM2e0HhvBRePB8ZVty6FeowFyc7IR0=", "new_tid":true }}tid就找到了，只剩w（where）和c（conficence），我们继续看源码，发现他在后面回调的时候进行了处理。w(where)在"new_tid"为true的时候是3，false的时候是2。

c（conficence）可能有，可能没有，没有默认为100

虽然我这里没有，但是data下面有几率出现一个叫“conficence”的字段，我测试的时候他的值都是95

上面是原理，因此没有放代码。下面给大家放一个用java实现的版本。爬虫一般用Python比较合适，但这次选用java。没有什么理由，就是懒。java版本的之前完成需求的时候就已经写好了，ctrlcv就够了。python还得从头开始写，太懒了~~

不过，要是光学爬虫。那我还是推荐使用python

接下来的代码，都是从原有项目里拆分的，我稍微改造了下，有些冗余我就不优化了。不用照抄，有些实现完全就是无用的

只要调用getCookie()，就能获取完整的游客cookie。然后就能获取页面数据

我想你们已经发现了，这几个方法都是我以前做测试留下的测试文件，实在懒得改就随意了。下列代码>的运行结果，上面已经发了，就不再发了。

博主曾经开过8个线程，一天大致能爬200w左右的数据量。这方面的话，等什么时候保密协议过了，我还记得的话，再继续更新吧。

转贴，留个全尸就可以了，标明出处和作者，,其余随意有什么问题可以联系我，或者有什么错误。欢迎斧正。最后妇女节快乐

1、根据步骤也看不到请求跳转的，没有302重定向直接到200的。

那是因为你cookie可能没清干净。可以试试F12——Appllication——展开storage下的cookies——右键clear

2、有时候tid会返回带符号的例如+或者/这些把这些符号去除之后就会提示tid错误，不去除也是。

这种情况只能重新获取cookie

3、cookie中不加入YF-Page-G0也能成功

我测试的时候cookie中不加入YF-Page-G0无法获取到值。请自行斟酌

THE END

JAVA微博爬虫高级篇——自动获取微博cookie（无须账号每日百万量级）文章这东西写起来是真的麻烦。我语文特不好，什

爬虫是什么意思爬虫的解释是什么

爬虫是什么？常见问题

爬虫是什么意思？爬虫的功能有哪些

常见的网络爬虫有哪些–PingCode

python高级——从趟过的坑中聊聊爬虫反爬反反爬，附送一套高级爬虫试题Eeyhan

JAVA微博爬虫高级篇——自动获取微博cookie（无须账号每日百万量级）文章这东西写起来是真的麻烦。我语文特不好，什