关于文本舆情数据的6个分析方法

用户舆情信息包括文本、音频、图片等各种各样的形式,在实际工作中,我们应用较多的还是文本类的用户舆情。综合考虑数量、丰富性、易获得性、信息匹配度等方面因素,文本之于音视频、图片而言的信息价值、性价比都是相对比较高的。

当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量和调研目标相匹配的用户舆情文本后,具体应该如何应用?其中可能包含哪些对用研有价值的内容?可以通过什么方法提炼分析?能实现什么预期效果?根据以往项目经验,文本舆情分析的价值和具体应用如下图所示:

这些信息既描述说明了“是什么”的问题,也可以表明属性、关系、喜好,说明是“怎么样”的,还能在一定程度上分析表象背后的原因,分析“为什么”,可以挖掘出包含其中的焦点、趋势、关联,帮助我们了解产品的市场反馈和用户需求,为方向聚焦、策略引导、价值判断提供依据。

分析文本舆情数据,主要用到的是文本分析的方法。因为文本数据是非结构化的,拿到文本舆情之后的一个关键问题是要把数据转化为能被计算机理解和处理的结构化数据,然后才可能进一步对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼出有意义的部分。

过程中需要用到的工具有:

数据爬虫工具

文本分析工具

文本数据可视化工具

我们还应根据需要对数据进行重新编码。例如在网易云课堂的某次舆情分析中,用户大量提及了中国大学MOOC,但表达方式有多种(如中M、中国大学慕课、慕课)。为了便于分析,统一编码是非常必要的。

分词就是把一段中文文本切割成一个个单独的词。中文分词的难点在于书写中文时字词之间并没有明显的间隔或划分,不像英文那样可以根据自然书写的间隔实现基本的分词(如“wearefamily”可以直接拆分出“we”“are”“family”)。

汉字书写表达时没有明显的分隔符,再加上汉语博(那)大(么)精(复)深(杂),大大增加了中文分词的难度。这里举一个经典的例子:短语“南京市长江大桥”中由于有些词语存在歧义,计算机的分词结果可能是“南京市/长江/大桥”,也可能是“南京/市长/江大桥”。我们显然知道第一种情况是正确的,但如果算法还不够完善计算机就可能出错,毕竟两种结果基于汉语构词和语法规则都是说得通的。可见具体在实际进行分词的时候,结果可能存在一些不合理的情况。基于算法和中文词库建成分词系统后,还需要通过不断的训练来提高分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷很容易影响分词的准确性。

词频就是某个词在文本中出现的频次。简单来说,如果一个词在文本中出现的频次越多,这个词在文本中就越重要,就越有可能是该文本的关键词。这个逻辑本身没有问题,但其中有一些特殊情况需要留意。

最关键的一点就是在关于自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义,假设我对文本进行分词处理并统计了词频,发现词频排名TOP3的三个词分别为“的”、“是”、“它”,那么“的”出现频率应该约为“是”的2倍,约为“它”的3倍。结果就可能会是词频排名靠前的高频词占去了整个语料的大半,其余多数词的的出现频率却很少。

所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关键词,词频最高的其实是中文中的常用字,而非对当前文本最有代表性的关键词。如下图的词频曲线所示,只有出现在曲线中间区域的词才是真正在当前文本中出现频率高,并且在其他文本中很少出现的,这些词语就是当前文本的关键词,对当前文本具有重要性和代表性。前端的高频词和靠后的长尾低频词都可排除在考虑范围之外。

基于这个原理,在词频统计之前需要过滤掉文本中的停用词(stopword)。出现在词频曲线头部的那些高频词,就多数是停用词。停用词还包括实际意义不大但使用频率高的功能性词汇,比如“啊”、“的”、“在”、“而且”这样的语气词、介词、连词等等。过滤停用词还是为了减少信息冗余,提高分析的效率和准确性。过滤停用词需要的停用词表,词库都可以在网上下载。实际应用的过程中我们还可以在停用词表中添加或删减特定的词汇,使之更加完善或具有针对性,符合当前研究的实际需要。

包括分词、过滤停用词、统计高频词在内的这些操作,都可以通过ROST的分词工具完成。我们可以在ROST中导入经过完善或自定义的词库词表,替换掉ROST自带的默认词库。

根据分词结果和词云图,我们基本能做出如下判定:

但如果想要进一步知道具体内容之间的关系,就还得要继续挖掘分析这些关键词之间的结构关系。

语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值化处理,再以图形化的方式揭示词与词之间的结构关系。基于这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度进行分析。

其基本原理是统计出文本中词汇、短语两两之间共同出现的次数,再经聚类分析,梳理出这些词之间关系的紧密程度。一个词对出现的次数越多,就表示这两个词之间的关系越密切。每个词都有可能和多个词构成词对,也会有些词两两之间不会存在任何共线关系。关键词共现矩阵就是统计出共现单词对出现的频率,将结果构建而成的二维共现词矩阵表。

再经聚类分析处理,将关键词共现矩阵转化为语义关系网络,揭示出各节点之间的层级关系、远近关系。需要特别强调的是,语义网络分析只是根据节点的分布情况来揭示他们之间关系的紧密程度,并不能表示节点之间存在因果关联。基于共现矩阵的关键词语义网络分析,同样也可以通过ROST中的语义分析工具来完成,生成语义网络结构图供我们进行分析。

在这个语义网络图中,次级节点基本以核心节点为中心向周围辐射分布,但其中也存在局部的簇群关系,揭示出主要问题之间的潜在关联:

优惠券

移动端

支付渠道

对用户舆情进行情感分析,主要是分析具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。还可以综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向。

ROST同样也可以完成对文本情感的分析。但目前不少文献、研究认为中文情感分析的准确性不够高,因为中文除了有直接表达各种极性情感的形容词(高兴、生气),还有用于修饰情感程度的副词(很好,非常、太),有时候其中还会夹杂表示否定的词(非常不好用,很不方便)。分词处理文本时,要对形容词、副词、否定词都有正确的分词;分词后,要基于情感词库、否定词库、程度副词库对这些情感词汇进行正确的赋值;最后进行情感值加权计算,才能最终分析出总的情感类别。

总的来看,用户舆情具备有优势特点:

覆盖面广,信息量大

真实客观

获取成本低

在用研工作中,用户舆情分析能让我们在特定的研究背景下,以更小的代价了解到产品的市场反馈,用户的态度认知和需求痛点,有效的达到研究目的。

作者:曾玫媚,网易产品发展部用盐一枚。目前对接网易中小学教育产品网易100分的用户研究工作,正在努力为浇(zhé)灌(mó)祖国的花朵添砖加瓦。

THE END
1.爬虫是什么爬虫是指网络爬虫,一种按照设定好的程序抓取网络信息的程序或者脚本。网络爬虫又被称为网页机器人或者网络蜘蛛,是一种按照开发者设定好的既定程序对万维网上的信息进行自动抓取的程序或者脚本,与之类似的还有自动https://edu.iask.sina.com.cn/jy/hn4mu1dNVb.html
2.劲旅网的微博【#民宿回应5999元一晚房间满是爬虫#:暴雨所致,已赔礼】#5999元一晚民宿满是爬虫蜘蛛# 据潇湘晨报:“住了个5999元一晚的民宿,半夜屋里全是虫子、蜘蛛……甚至有拇指大小的爬来爬去。”7月27日,有女子发布视频称,在江西望仙谷,入住悬崖民宿,结果“踩了个大雷”。此事引发关注。视频显示,床单、 ?...https://www.weibo.com/ctcnn?refer_flag=1005055013_
1.不知道爬虫是什么?那就快来看看这篇吧,带你彻底了解Python爬虫1.爬虫是什么 网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。 这里还需要注意的是:爬虫并不是Python语言的专利,Java、Js、C、PHP、Shell、Ruby等等语言...https://blog.csdn.net/m0_59162248/article/details/123068354
2.什么是爬虫Python爬虫的原理是什么腾讯云开发者社区二、爬虫的基本流程: 用户获取网络数据的方式: 方式1:浏览器提交请求--->下载网页代码--->解析成页面 方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中 爬虫要做的就是方式2; 1、发起请求 使用http库向目标站点发起请求,即发送一个Request ...https://cloud.tencent.com/developer/article/1934685
3.爬虫系列1什么是爬虫,玩爬虫的正确姿势有哪些事实上,爬虫在法律中是不被禁止的。但是如果如果利用爬虫获取数据确实是有一定的违法风险。这就好比我们生活中使用的刀,削水果切菜这都没事,但是如果用刀故意伤人这性质就不一样。 我们该如何规避爬虫的风险呢? 1、遵守Robots协议。 Robots协议又称为君子协议,就好比过马路的时候,遇到红灯,我们都知道会停止。但是你...https://blog.51cto.com/u_15081058/2594658
4.Python爬虫(一)什么是爬虫?什么是爬虫 百度词条上对于爬虫的定义是:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 说的简单一些,爬虫就是模拟客户端(浏览器)发送网络请求,获取网络响...https://www.jianshu.com/p/cd6977510dc8
5.肛门口痒像有爬虫是什么原因患者肛门口痒像有爬虫是肛周湿疹的原因,也有可能是肠道寄生虫的原因引起的,患者需要遵医嘱服用药物进行治疗。1、肛周湿疹:肛周湿疹通常是由于不良生活习惯、遗传等因素导致的,患病后患者会出现肛门潮湿、疼痛等症状,部分患者还会出现肛门口痒像有爬虫的现象,患者可以https://www.miaoshou.net/article/WGoM5mDQ07E2PERV.html
6.数据采集复习题爬虫python代码(urllib,bs4库) 正则表达式基础 书p129规范化变换数据的三个计算。 传感器节点结构 如何运用传感器节点构造一个数据采集系统?(第二章作业) 6.常用的数据采集命令行:hadoop命令行 ** 第一章作业 ** 1.数据采集系统主要实现哪些基本功能? https://www.skycaiji.com/aigc/ai1303.html
7.Python实现考试自动答题的脚本分享python1)爬虫实现思路 一. 数据来源分析 --> 通过浏览器 开发者工具 抓包分析 1. 明确需求: - 明确采集的网站是什么 题目答案页面: https://tiba.jsyks.com/Post/2c15b.htm 2. 分析这两个数据怎么获取 数据来自于 --> 答案页面 第一题: https://tiba.jsyks.com/Post/2c15b.htm ...https://m.jb51.net/article/278199.htm
8.苏宇:网络爬虫的行政法规制这些机制从客户端或服务端采取不同策略进行反爬,主要可以分为以下几大类:(1)识别机制,即发现非人类操作行为的机制,主要是对网络请求的传输信息分析(Headers字段识别)和操作规律进行分析,致力于从爬虫活动的各种痕迹中识别出爬虫。其中,最常见就是验证码,验证码可以被认为是一种“区分人与计算机的全自动公共图灵测试...http://fzzfyjy.cupl.edu.cn/info/1035/13584.htm
9.非结构化数据提取技术在统计工作中的应用②网络爬虫的主要作用是获取互联网上的信息,大多数信息都可以通过HTTP协议检索,利用主页中的超文本链接遍历Web,通过URL实现从一个HTML文档爬行到另一个HTML文档的目的。图1是一个简单的网络爬虫结构图。 图1 ?网络爬虫结构图 ③URL是Uniform Resource Locator统一资源定位器的缩写,它是WWW中统一资源唯一的定位标志...https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html