达观数据：知识图谱与语义分析技术介绍（附前沿论文解读）什么是知识图谱?知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在... |知识图谱的表现形式_宠物造型

知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在的实体(entity)，每条边表示实体和实体之间的关系(relationship)。日常生活中很多场景都可以用知识图谱来表示。比如在一个社交网络里面，人与人的关系可以是朋友，父母，兄弟等等。下面用一个实际的例子来阐述知识图谱是什么样子的。

从上图中可以看到，图中每一个人都是一个实体，每个人都或多或少会和其他人产生关系。比如，雍正的兄弟是果郡王，雍正的妃子是甄嬛。这些关系在知识图谱中的存储形式为(雍正，兄弟，果郡王)，(雍正，妃子，甄嬛)。知识图谱的构建过程就是通过导入一系列这样的数据，最后以图的形式展示给用户，并且支持简单的查询，推理等操作。

知识图谱的发展

知识图谱的发展可以从两个方面进行追溯。

另一方面，随着互联网的发展，数据相比过去有了海量的增加，由于没有能够完成上述高级任务的方法，无法在一些商业智能决策方面进行应用。于是人们提出了语义网，通过引入知识使得原始数据能够支持复杂的任务。

知识图谱主要应用

知识图谱在日常生活中主要用于搜索，推荐，问答等业务场景。知识图谱最重要的任务是满足用户的信息需求并且提供个性化服务。

其中，能够回答人们各种类型的问题并且返回所需要的信息是最典型的任务之一。如上图中所搜索的问题“奶茶妹妹是谁？”，如果没有知识图谱，传统的方法只能返回包含一些具体时效性的网页，需要人工过滤来得到想要的答案。知识图谱的搜索问答相比较于传统的搜索方式有很大的优势，因为已经在系统中已经存好了两个实体之间的对应关系，所以在搜索的时候只要通过关键词提取--实体识别就可以直接返回答案。

如上图所示，当用户搜索范冰冰的男友时，基于知识图谱的问答能够迅速给出答案--李晨，并且知识图谱还能李晨的个人信息。另外，知识图谱还可以做一些简单的推论，回答用户提出的问题，比如图中所询问的问题“父亲的大哥的女儿叫什么”等。

问答系统可以分为多种类型：

单文本问答系统：比如斯坦福问答测试平台SQuAD固定语料非结构化文本问答系统：系统从预先给定的文本语料中检索并抽取答案网络问答系统：从互联网中查找问题答案知识库问答系统：从预先建立好的结构化知识库中查找问题答案。

本文主要讲述基于知识图谱的问答系统，面向知识图谱的问答系统的技术方法分为以下两类：

语义解析型：把自然语言问句自动转化为结构化查询语句

排序搜索型：通过搜索与实体有联系的实体作为候选，然后用问句和候选答案提取的特征进行对比，对候选答案进行排序得到最优解。

一、StrongBaselinesforSimpleQuestionAnsweringoverKnowledgeGraphswithandwithoutNeuralNetworks

近来关于基于知识图谱的简单问答变得越来越火，一些问题可以通过找寻问题中的实体并且加以分析得到答案。

在最近的研究中，关于简单QA任务的工作使用了越来越复杂的神经网络架构，然而这些架构产生的效果相比最先进的技术提升很有限，并且对特定神经网络架构的有效性究竟有多少并不了解。例如，经过适当调优后的LSTM模型比一些最新的模型效果更佳好；使用复杂的编码器-解码器加上注意力机制的模型所产生的效果和仅仅使用注意力机制模型的效果没有太大区别。

论文中作者提出了采取剥离不必要的复杂性的方法，直到得出最简单且效果好的模型。在SIMPLEQUESTIONS数据集上，作者发现使用基本的神经网络架构再加上简单的启发式算法可以产生接近现有技术水平的精度。另外，不涉及神经网络的简单技术的组合仍然可以实现合理的准确性。因此作者认为虽然神经网络的确可以在这些任务上产生一定的提升效果，但是一些模型包含了不必要的复杂性并且相比基准线产生的提升效果并不大。

实现方式：

论文作者把简单的QA问题分解成4个任务：实体识别(entitydetection)，实体链接(entitylinking)，关系预测(relationprediction)和证据整合(evidenceintegration)。

(一)实体识别

给出一个问题，实体检测的目标是识别被查询的实体。这通常被当做成一个序列标注问题，标记每一个token是不是实体。这类问题最常用的模型就是RNN，首先把输入问题映射成词向量，然后分别使用了双向LSTM和GRU，把得到的隐藏状态h拼接起来，通过线性层，batchnormalization，ReLu函数，dropout等一系列变换，把结果映射到标注空间中。

具体的实现方式如下：

接下来让我们验证一下模型能不能检测出实体。实验使用了达观数据的投资关系示例图谱：

总共实验数据为13929条，选取其中的2/3作为训练数据，其中包含了一句短语和标签，标签中I代表句子中当前位置是实体。关系类型为3种：投资，收购和管理。

训练数据中选取了5575条数据，数据中包含实体名称，一个短问句和标签对应当前词语是不是实体。

模型选用2层双向GRU，词嵌入维度和隐藏层维度都是300维，dropout的比例选择0.3，损失函数选择NLLLoss。

预测时通过把问题中的文字映射成对应的index，模型计算的结果是当前句子中的词为实体的概率，每次选取最大的一个概率的index作为预测的标签类型。

然后句子经过模型后得到的得分和对应的index为：

通过index就可以知道当前这句话中每一个词的类别。

模型预测的结果为：

我们再从百度新闻中随便摘取一句短语来验证一下模型的效果，输入为“高端制造业投资势头良好”，模型返回的输入如下：

这里看到模型把良好也划分成了实体，这是因为训练数据规模比较小，没有覆盖到不同样式的句子类型所导致的。

从输出结果来看，只要提供更多不同类型的短句来训练模型，模型可以准确的识别出一句句子中的实体。

(二)实体链接

实体识别的输出是一系列候选的实体，需要被连接到知识图谱中的节点中。作者使用了模糊字符串匹配来代替神经网络。此外，作者从候选实体生成所有相应的n-gram，并在所有匹配的倒排索引中查找它们。

(三)关系预测

关系预测的目的是识别被查询的关系，论文中将其视为分类问题，并提出了三种不同的架构。

1.循环神经网络：具体结构和实体识别类似，使用双向LSTM和GRU，根据最后一层的隐藏状态来做分类。

pytorch实现如下：

2.卷积神经网络：使用单通道的CNN，使用宽度为2到4的特征映射应用于输入矩阵，该输入矩阵包括转换为词嵌入的输入tokens，随后连接最大池化层，全连接层和softmax，输出最终预测。

3.逻辑回归

在问题上具体使用了两种特征集合：

一元和二元的tf-idf词嵌入+关系词：把句子中每一个token的词嵌入取平均值，然后和关系名称中最常用的300个术语组成的独热向量做拼接。作者认为这种混合表示可以将词嵌入捕获语义相似性的优点和独热向量能清楚地区分关系名称中的强“提示”tokens相结合

我们在这里使用和之前相同的数据来验证一下模型。

我们这里同样使用双向GRU，训练结果如下：

给定测试数据“中证投资投资北京郁金香伙伴科技有限公司”，模型的预测结果为：

第一列为预测的类别，第二列为得分。得分越高说明模型认为这条数据所属于这一类别的概率越大。从图中可以看出，模型认为“中证投资投资北京郁金香伙伴科技有限公司”这条数据属于投资类，符合我们的预期。

(四)证据整合

给定前面组成部分的前m个实体和r个关系，最后的任务是整合证据以得出单个(实体，关系)预测。首先生成m×r(实体，关系)元组，其得分是实体和关系的乘积。由于实体检测/链接和关系预测都是独立执行的，因此许多组合都没有意义需要，需要被删除。图谱中很多具有相同标签的节点具有相同的分数，通过使用知识图谱中实体的传入边数可以将这些点重新排序。

总结

至少对于简单QA而不是知识图的任务，在急于探索复杂的深度学习技术时，还没有以严谨的方式充分研究简单，强大的基线非神经网络方法值得考虑，深度学习虽然效果很好，并且肯定会提升现有技术水平，但实际的改进却没有那么大科学的最终目标是知识，而不是应该沉迷于排行榜上的排名

二、KnowledgeGraphEmbeddingBasedQuestionAnswering

基于知识图谱的QA问答是使用已经存在于知识图谱中的事实(facts)来回答基于自然语言的问题。它可以帮助用户轻松访问图谱中的知识并且不需要用户了解其背后的原理。因为捕获语句中的情感信息对机器来说不是一件容易的事情，很多基于知识图谱的词嵌入方法被提出来解决这个问题。其核心思想是把句子中所有的谓语(predicate)和实体(entity)映射到一个低纬度的向量空间使得知识图谱能保存句子中的信息关系。这些向量还可以用于知识图谱的填充和推荐系统中。然而由于谓语可以以多种形式来表达，并且实体名词(entityname)和部分名称(partialname)之间通常容易混淆，以至于候选回答数量很多。

针对这些难点，百度提出了KnowledgeEmbeddingbasedQuestionAnswering(KEQA)框架能够针对简单的问题——只包含一个头部实体和一个谓语的问答。其核心思想是在图谱嵌入空间(KGembeddingspaces)中识别出一个问句的头部实体(headentity)，谓语和尾部实体(tailentity)，并且通过联合距离评价准则(JointDistanceMetric)在知识图谱中找到一个和这三个向量最接近的事实来当做问题的回答。

KEQA具体包含以下三个步骤：

2.由于KG中的实体数量通常很大，因此KEQA采用头部实体检测模型来减少候选头部实体。主要目标是将问题中的多个tokens识别为预测的头部实体名称，然后将搜索空间从所有实体减少到具有相同或相似名称的多个实体。

(一)知识图谱嵌入层

知识图谱嵌入方法的核心是：

1.对所有在图谱中的(h,l,t)，其嵌入表示为(eh,el,et)。首先嵌入算法随机或者根据预训练好的词向量来初始化eh,pl,et。

2.定义测量嵌入空间中事实(h，l，t)的关系的函数f，使得et≈f(eh,pl)。例如，TransE算法定义et≈eh+pl，TransR算法定义etMl≈ehMl+pl，其中Ml是谓语l的变化矩阵。

3.词嵌入算法最小化et和f(eh,pl)之间的距离。最常见的方法是定义一个关于距离的评价准则并且在正负样本上都进行训练，例如存在于图谱中的事实和人工合成不存在于图谱的事实。

(二)谓语和头实体的模型

模型构架图

基于神经网络的谓语表示学习模型：

通过给定一个指定长度L的问题，首先把L映射成一系列的词向量{xj}，j=1,….,L，比如Glove等预训练的词向量。然后使用双向LSTM把正向和反向的隐藏状态h拼接起来。

第j个token的注意力机制权重αj的计算公式如下：

接着把注意力机制的权重αj应用于hj，并且把结果和词嵌入向量x拼接，生成一个新的隐藏状态sj=[xj;αjhj]。最后再接一个全连接层产生一个形状为d*1的rj表示目标向量的第j个token。预测的谓语表示^pl可以通过所有tokens的目标向量的平均值来得到：

用pytorch实现的代码如下：

基于神经网络的头实体学习模型：

使用了和基于神经网络的谓语表示学习一致的模型，给定一个问题，目标是恢复其在图谱嵌入空间中的表示，而不是直接推断头部实体。因此，头实体学习模型的目标是计算尽可能接近该问题的头实体嵌入表示的向量eh。然而，知识图谱中的实体数量通常很大，并且当将^eh与所有实体嵌入表示进行比较时，计算开销昂贵且效果会受到噪声干扰。于是KEQA部署了一个头实体检测模型来减少候选的头实体从而提高模型学习的效率和效果。

(三)头实体检测模型

模型架构图

头实体检测模型的结构和前两个模型的结构类似，除了没有注意力机制，并且将其转换成了一个二分类的问题：预测目标单词是不是实体。具体步骤如下：首先把问题映射成词向量{xj}，然后通过双向LSTM学习到xj的正向和反向的隐藏状态拼接得到hj。最后通过全连接层和softmax函数可以将hj转换为一个形状为2*1的目标向量vj，向量vj中的两个值代表了是不是实体名称的概率。

(四)联合距离评价准则

公式中的前三项度量了一个真实事件(h,l,t)和预测值的距离，论文中还使用了f(eh,pl)来表示尾实体的嵌入向量替代了et，这是因为在知识图谱中可能存在多个事实具有相同的相同头实体和谓语但是具有不同的尾实体，所以仅仅依靠一个尾实体et无法回答所有的问题。等式中的后两项确保了选择一个事实的头部实体名称与HEDentity完全相同，并且具有问题所提到的谓词名称。

(五)整体训练流程

输入：一个知识图谱G，谓语名称P和实体名称E，一个简单的问题Q

输出：头实体h*和谓语l*

首先训练谓语识别模型在问题集合Q中，对所有的Qi：把Qi的L个token当做输入，把它的谓语l当做标签来训练模型更新权重矩阵{W}，w，{b}和bq来最小化目标函数：

训练头实体识别模型在问题集合Q中，对所有的Qi：把Qi的L个token当做输入，把它的头实体h当做标签来训练模型更新权重矩阵和偏置项来最小化目标函数：

训练HED模型在问题集合Q中，对所有的Qi：把Qi的L个token当做输入，把它的头实体名称的位置当做标签来训练模型更新权重矩阵和偏置项给定输入Q，通过谓语识别模型来学习pl给定输入Q，通过头实体识别模型来学习eh给定输入Q，通过HED模型学习得到HEDentity和HEDnone根据HEDentity，在图谱G中找到候选的事实集C在C中所有的事实中，计算(h*，l*，t*)使得目标函数最小

1.通过基于KG嵌入执行问答，KEQA能够处理与训练数据中的所有谓词和实体不同的谓词和实体的问题。

2.通过利用嵌入表示中保留的结构和关系信息，KEQA可以共同执行头部实体，谓词和尾部实体预测，并且这三个子任务能够互相补充。

3.KEQA可以推广到不同的KG嵌入算法，因此更复杂的KG嵌入算法可以进一步提高KEQA的性能。

三、VariationalReasoningforQuestionAnsweringwithKnowledgeGraph

尽管最近一些基于神经网络的端对端架构在QA问答的基础数据上取得了不错的进展，然而这些神经方法将知识图谱视为分项知识记录的扁平化表，使得难以利用图中的结构信息，因此对逻辑推理很弱。当问题的答案和主题实体不相邻时需要对知识图谱进行逻辑推理，而在这个方面神经网络往往表现不佳。例如当问到这样一个问题‘Whowrotethepapertitled…’，传统的基于语义解析的方法可以通过查询知识图谱记录中的三元组(paper_title,authored_by,author_name)来得到答案。

然而对问题‘Whohaveco-authoredpaperswith…’由于缺乏co-authored这个关系从而导致传统方法无法转换成合适的查询语句。常见的解决方法是为知识图谱中的非邻居实体对创建新的关系。另一个对于传统方法的挑战是如何在知识图谱中找到主题实体。传统方法通过简单的字符串匹配来定位所讨论的主题实体，然而实际场景中用户的输入可能是通过语音识别或者用户打字而来的，因此会带来一定的噪声，例如拼写错误或者问题的描述含糊不清等。在具有噪声的场景下，问句中的实体则很难直接准确的匹配到知识库上。因此作者提出了一个端到端的知识库问答模型来解决以上两个问题。

1.建了一个概率建模框架，用于端到端QA系统，可以同时处理不确定主题实体和多跳推理(multi-hopreasoning)。例如问题’whoactedinthemoviePassengers’中，我们把主题实体是电影名称’Passengers’定义为y，并将该实体与问题qi的兼容性建模为概率模型Pθ1(y|qi)，表示知识图谱中实体y在问题qi中被提及的概率。

2.在知识图上提出了一种新颖的类似传播的深度学习架构，以在概率模型中执行逻辑推理。给定问题qi中的主题实体y，需要在知识图谱上推理从而得到答案ai。具体做法为模拟一个答案ai在给定实体y和问题qi的可能性Pθ2(ai|y,qi)。由于问题中的主题实体没有被标注，因此通过将主题实体y视为潜在变量来自然地制定问题。模拟问题qi被答案ai回答正确的概率可以通过累加潜在变量的所有可能性得到：

给定一个包含N对问题答案的训练集Dtrain，参数θ1和θ2，目标函数为：

模型框架图：

(一)识别问句实体的概率模型：

如问句whoactedinthemoviePassengers我们希望能将Passengers识别出来。但由于训练数据中的实体没有被标注出来，因此这个识别的实体将被看成一个隐变量。识别的具体步骤如下：

1.用神经网络fent先将输入的问句q进行编码，将问句q转换为一个维度是d的向量。

2.随后将图谱中每个实体都转化为一个向量。

3.通过softmax计算在q下图谱中每个实体y是q中实体的概率

(二)在知识图谱上做逻辑推理的概率模型

在推理这部分的工作中给出了上一步识别的实体和问句希望系统能给出答案。然而用参数化推理模型具有非常大的挑战，因为检索答案需要在巨大的图表上进行多步遍历。因此作者提出了一个推理图嵌入体系结构(reasoning-graphembeddingarchitecture)，其中所有的推断规则及其复杂的组合在向量空间中表示为非线性嵌入并将被学习。

我们假设算法已知逻辑推理的最大步数(或跳数)T。从主题实体y开始，我们根据知识图对T跳中的所有实体执行拓扑排序(忽略原始边缘方向)，然后可以得到一个有序的实体列表a1，a2，...，am与知识图的关系。

下图为一个跳数为2的示例，其中实体用它们与源实体的拓扑距离标记。

由于在整个系统的学习过程中没有人来标注在问答时使用的推理规则，因此在问答时使用的规则将被学习出来。整个推理过程如下所示：

1.通过另一个网络fqt对问句q进行编码，将q转化为一个维度是d的向量

2.通过一个Reasoninggraphembedding：给定范围Gy中的潜在答案a，我们将Gy→a表示为包含从y到a的所有路径的最小子图，对y的相邻实体进行编码。

3.通过softmax计算通过y推理找到实体是问题q答案的概率

4.如果推理没有达到限定的步数则返回第二步，将原来y相邻的实体转换为y进而进行推理

使用嵌入推理图Gy→a和范围Gy来计算答案a的正确性的概率为

(三)端对端的学习

EM算法通常用于学习潜变量模型，然而对于式(1)中的目标函数难以执行执行精确的EM更新，因为后验概率不能以封闭的形式计算。所以在论文中作者使用变分推理并优化变分下限(evidencelowerbound)：

其中，变分后验概率Qφ(y|q,a)是和模型共同学习得到的。因此，为了减少近似误差，需要一组强大的后验分布概率。Qφ计算主题实体y以及答案a的附加信息对于问题q的的可能性。论文中作者定义答案a的范围Ga，反推理图(inversereasoninggraph)Ga→y，以及反嵌入架构(inverseembeddingarchitecture)来有效地计算嵌入g(Ga→y)。最终，变分后验概率由两部分组成：

为了减少梯度的方差，其中

作者把A(y,q,a)归一化并减去基线函数b(q,a)，于是梯度可以近似转化为

论文作者给出的具体的算法流程如下：

(四)推断

来找到答案。然而这种计算实体的方式开销太过昂贵，于是论文中作者使用了束搜索(beamsearch)的方式来近似的求解。作者根据得分从Pθ1(y|q)中选择了k个候选实体y1,y2,…,yk，最后的答案为：

在实验中，作者发现当k=1时效果已经表现的足够好。

当人们提问带来的很多噪声(例如，文本中的拼写错误，或发音的变化)，会影响QA系统将这些提到的实体与知识图匹配。另外，许多问题需要在知识图上进行多跳逻辑推理以检索答案。为了解决以上问题，论文中提出了一种新颖的深度学习架构，和一种端到端的变分学习算法用来处理问题中的噪声，并且能同时处理多跳逻辑推理。该方法在最近的基准数据集上表现出了最先进的性能。

四、结论

知识图谱在业界还算是一个较为新颖的技术，其主要作用还是在于分析关系，尤其是深度的关系。知识图谱与传统的知识表示不同，以三元组为统一的表达形式，不仅更加容易被人接受，而且在储存，推理和搜索方面也更加高效。

但是目前定义的知识图谱只能表示实体和关系的知识。以符号表示为基础的知识图谱和以数值计算为基础的深度学习在不同领域中各有优势。知识图谱领域一个最重要的话题是知识的推理。基于符号的推理可以从一个已有的知识图谱利用规则推理出新的实体间关系，还可以对知识图谱进行逻辑的冲突检测。

在多数推荐场景中，物品包含丰富的信息，物品端的知识图谱为推荐提供了丰富的参考价值，更能为推荐结果带来额外的多样性和可解释性。推荐系统是对用户和物品之间的交互的建模，而知识图谱则提供了物品之间复杂的语义关系。

由于传统的企业级文件系统基于关键词的检所无法满足数据量日益增长的业务需要，企业需要一种方法将业务数据转化为生产力。而使用知识图谱可以快速的构建实体三元组，定义时序、事件、事理等语义网络，并且结合使用神经网络的智能搜索和智能推荐等功能帮助企业挖掘数据中的重要信息。

THE END

达观数据：知识图谱与语义分析技术介绍（附前沿论文解读）什么是知识图谱?知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在...

知识图谱产品视角下的知识图谱构建流程与技术理解梁思成知识库算法

网络反恐网络涉恐信息的识别发现与治理路径

人工智能入门基础概念—教你正确打开人工智能世界的大门

知识图谱——知识框架老教授的得意门生

论新一代人工智能与逻辑学的交叉研究

旅游安全论文范文

科技传播论文赏析八篇

法律知识图谱构建及应用.docx

知识图谱是什么(开放共享的统一数据模型)

债券业务风险防控(精选5篇)

图书情报论文样例十一篇

一文了解知识图谱常见的知识表示，图谱存储和查询方法

达观数据：知识图谱与语义分析技术介绍（附前沿论文解读）什么是知识图谱?知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在...

达观数据：知识图谱与语义分析技术介绍（附前沿论文解读） 什么是知识图谱?知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在...

达观数据：知识图谱与语义分析技术介绍（附前沿论文解读）什么是知识图谱?知识图谱是一种基于图数据结构的语义网络，由节点(Point)和边(Edge)组成，每个节点表示现实中存在...