融合图结构与元素信息:实体对齐技术的新突破科技导报翻译算法大模型神经网络

实体对齐技术是知识图谱研究中的重要方向,旨在将不同知识图谱中指向同一现实对象的不同实体进行连接,从而实现知识图谱的扩充。目前主流的研究思路有两种:一是针对知识图谱的结构特征进行分析,二是针对知识图谱的元素信息(实体名、关系名、属性名等)进行分析。然而,尚未有模型同时针对结构特征与元素信息进行分析。本文提出了一种实体对齐模型EAFF(entityalignmentbasedonfeaturefusion),该模型从图结构与元素信息两个角度,对知识图谱进行特征分析。实验结果显示,EAFF取得了相对较好的成绩,优于目前的主流算法。

1研究现状

目前,实体对齐技术有两种主流研究方向。一是利用非语义信息的方法:传统的基于翻译的模型以及基于图神经网络的系列模型。二是利用图谱元素的语义信息,仿照人类的认知逻辑,对图谱中的对齐实体进行学习的方法:基于词嵌入的方法以及基于Bert的方法。

1.1基于非语义信息的实体对齐模型

基于非语义信息的实体对齐模型主要有两种类型:翻译模型、图神经网络的结构嵌入模型。

1)翻译模型:最经典的是TransE模型,将关系三元组{h,r,t}嵌入使h+r=t,后续还有TransH、TransR和TransA等模型改进。

2)图神经网络的结构嵌入模型:如EASAE通过累加相邻实体和关系嵌入更新实体嵌入,RSNs通过生成额外三元组并利用VR-GCN方法对齐,还有HGCN、MuGNN、RREA和NMN等模型,分别从不同角度改进实体对齐方法。

1.2基于语义信息的实体对齐模型

基于语义信息的模型也可以分为两种:基于普通词嵌入的方法及基于Bert的方法。

1)基于普通词嵌入的方法:包括MultiKE基于实体名称、图形结构和实体属性嵌入实体,CEAFF融合多种信息用于表示学习。

2)基于Bert的方法:是目前效果较好的一类方法,如HMAN和BERT-INT使用多语言Bert弥补跨语言知识图差距,HMAN结合多方面信息学习实体嵌入,BERT-INT利用实体描述边信息但忽略结构信息。

然而,目前缺乏一种能够综合运用知识图谱图结构与元素信息的模型。针对这一现状,本文设计了一种综合图结构与元素信息的实体对齐模型EAFF。

2问题定义

本研究将知识图谱表示为G={E,R,A,V},E、R、A、V分别表示实体、关系、属性和值的集合。图谱由关系三元组{h,r,t}和属性三元组{h,a,v}构成,关系三元组{h,r,t}中h表示头实体,t表示尾实体,r表示关系,h,t∈E,r∈R;属性三元组{h,a,v}中h表示实体,a表示属性,v表示属性值,h∈E,a∈A,v∈V。

给定两个知识图谱G1和G2,还有一组已经完成对齐的种子实体对I={(ei,ei')|ei∈G1,ei'∈G2,i∈(0,n)}。目的是让模型对种子实体对进行学习,从结构特征以及元素信息两个角度分析出对齐实体的特点,使模型能够针对图谱G1中的任意实体,找出对应G2中的候选实体。

3模型架构

3.1总体架构

如图1所示,模型EAFF可以分为5个部分,分别是:输入模块、结构学习模块、元素信息学习模块、特征融合模块及输出模块。

图1EAFF总体架构图

输入模块为整个模型提供数据,数据分别流向结构学习模块和元素信息学习模块。结构学习模块利用GAT+GCN学习结构,经邻域对齐与嵌入重置实现实体对齐学习;元素信息学习模块学习种子实体对的元素信息。特征融合模块用委员会机制和排序思想融合两种特征,输出模块给出候选对齐实体集。

3.2结构学习模块

1)结构嵌入模块:结构嵌入模块的目的是学习对齐实体的结构嵌入,该模块本质上是3层图神经网络结合而成:1层GAT加2层GCN。利用highway网络减少噪声干扰,公式(1)-(4)分别为GAT和GCN层的数学表达式。

3)邻域嵌入模块:通过中心实体与候选实体邻域相互作用得到邻域对齐嵌入,公式(7)-(10)为其数学表达,其中涉及注意力权重计算、邻域矫正嵌入和利用门控神经网络聚合等操作。

4)嵌入重置模块:将门控神经网络聚合的邻域对齐嵌入与结构嵌入模块的图嵌入结合,公式(11)为拼接操作,最后通过公式(12)计算实体与候选实体的曼哈顿距离选择候选实体。

3.3元素信息学习模块

针对知识图谱元素信息(实体名、邻居名、关系名和属性名)学习,使用基于Bert训练的词向量。元素信息学习模块分为4部分,分别是实体名融合模块、邻居名融合模块、关系名融合模块和属性名融合模块。模块架构如图2所示。

图2元素信息学习模块架构图

1)实体名融合模块:将待对齐实体的实体名词向量进行融合,计算余弦相似度。

2)邻居名融合模块:对齐实体的邻居的实体名称进行融合,得到邻居聚集矩阵,并进行双向融合操作。

3)关系名融合模块与属性名融合模块:与邻居名融合模块的操作一致,分别将关系名和属性名进行融合。将四种信息的融合结果拼接,得到对齐实体的总相似度,表示对齐概率。

3.4特征融合模块

由于结构学习模块和元素信息嵌入模块得到的候选实体的评价指标计算逻辑不同,不能直接计算相似度。因此,设计了一个排序算法,将两组候选实体进行融合。

算法思路如下:针对每个实体,结构学习模块和元素信息嵌入模块分别选出10个候选实体。然后,设计一个排序算法,将两组候选实体集合并,并基于它们的对齐概率进行排序,得到最终的候选实体集。值得注意的是,结构学习模块和元素信息模块的损失函数是一致的。

4实验设计与结果分析

4.1实验设置与参数确定

实验使用的语料是跨语言知识库DBP15k,该语料可分为三组:ZH-EN、JA-EN、FR-EN。选择Hits@1和Hits@10作为评价指标,设置结构学习模块和元素信息学习模块参数,硬件设施为IntelCorei7-11800H、RTX3060及GoogleColab辅助计算,语言基于Python在Windows环境下运行。

4.2基线模型对比实验

为了验证本模型EAFF相较于之前的工作的提升效果,实验结果如表1所示。

表1各基线模型效用对比

结果显示EAFF在多数情况下优于基线模型,指标平均值更高,证明其在实体对齐研究中的良好效果及图结构与元素信息融合的促进作用。

4.3总体结构消融实验

分三组实验,Lab1消融图学习结构,Lab2消融元素信息学习结构,Lab3为原始对照组。3组实验结果如表2所示。

表2总体结构消融实验

结果表明,在EAFF中图结构和元素信息学习模块对实体对齐均有促进作用,且当元素信息结构将实体对齐达到一个相对较高的程度时,图结构对于元素信息结构的补充作用将大大降低。

4.4结构嵌入模块网络结构效用实验

本实验测试不同网络结构对结构学习模块获取候选实体准确性的影响。结果证明1层GAT加2层GCN的网络结构效果最优,网络层数非越深越好,GCN与GAT结合使用能更好学习知识图谱图结构。

5结论

本文设计了一种基于图结构与元素信息融合的实体对齐模型,该模型通过图结构学习模块和元素信息学习模块对知识图谱的图结构与元素信息进行学习,并利用基于排序思想的算法对学习到的特征进行融合。基线实验证明了本模型相较于此前研究的提升,消融实验证明了本模型中的各个组件对实验效果的必要性。通过进一步的分析可以确定,未来实体对齐领域的研究将聚焦于图结构学习与元素信息学习的融合。

作者简介:马浩然,中国电子科技集团公司第三十二研究所,硕士研究生,研究方向为知识图谱、自然语言处理;王金华(通信作者),中国电子科技集团公司第三十二研究所,正高级工程师,研究方向为知识图谱、自然语言处理。

论文全文发表于《科技导报》2024年第18期,原标题为《基于图结构与元素信息融合的实体对齐技术》,本文有删减,欢迎订阅查看。

内容为【科技导报】公众号原创,欢迎转载白名单回复后台「转载」

THE END
1.知识图谱包括哪些要素常见问题知识图谱的要素有五种:实体、属性、关系、语义类型和元数据。实体表示现实世界中的对象或概念,属性描述实体的特征,关系表示实体之间的联系,语义类型描述实体或属性的类别,元数据提供有关知识图谱本身及其内容的信息。 知识图谱的要素 知识图谱是由若干要素组成的复杂结构,这些要素共同作用,表示和组织现实世界中的知识。https://m.php.cn/faq/814137.html
2.音乐《喜洋洋》的教案20篇图谱,运用一些符号来表现音乐的性质,帮助幼儿去解读音乐、理解音乐。在活动前的探讨中,我跟师父在图谱的表现上花了很大的功夫,如何运用符号,运用哪些符号能够将音乐的性质表现出来,又能帮助幼儿进行后面的动作创编。最后我们设计出来的图谱的表现形式还是很不错的。但在活动中,我却没有充分地将它利用起来,效率不高,...https://www.fwsir.com/jiaoan/html/jiaoan_20230131142555_2314101.html
3.知识图谱01:知识图谱的定义在客观世界里,知识图谱是什么知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间的关系的知识库。2012年,谷歌提出了知识图谱的概念,自此,知识图谱得到了广泛的关注和应用研究,现已发展成为语义搜索、智能问答、决策支持等智能服务的基础技术一。 知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系的知...https://blog.csdn.net/u013230189/article/details/108933491
4.非物质文化遗产的可视化图谱表示据此定义,非遗图谱首先是一种图谱, 既可表 现为非遗活动中形成的图形记录的汇编,也可 表现为非遗传承演化的谱系图示,还可表现为 非遗分布地图,非遗项目间关系网络图等. 不 同的图谱形式有着不同的表现能力,具体使用 哪一种图谱形式,需要视实际工作的需要. 非遗是文化表现形式和文化空间的有机 结合体,非遗图谱...http://jirm.whu.edu.cn/jwk3/xxzyglxb/CN/article/downloadArticleFile.do?attachType=PDF&id=4635
5.音乐活动策划方案(通用20篇)为了提高学生对音乐的兴趣,提升学生的音乐素质,我和五年级班主任经过商讨决定通过演唱、舞蹈、演奏、主持等多种音乐表现形式开展一次音乐会活动,让孩子们没有任何压力的表现自己,在愉悦身心的同时,也能够达到增强学生自信,激发学生的音乐兴趣,提高学生合作能力的目的。https://www.unjs.com/huodongfangan/202111/4362682.html
6.幼儿园小班语言活动教案《奇怪的汽车》含反思(通用12篇)3、翻开《创意美术绘画篇》第11页,引导幼儿欣赏"艺术角的作品",感受作品中小画家们独特、大胆的`想象,以及多样的表现形式。 三、创作表现 教师交代要求,幼儿自由创作绘画,教师巡回指导。 1.要求: (1)将汽车神奇的地方画出来。启发幼儿将未来车的外形联系其本领进行创作。 https://mip.wenshubang.com/jiaoan/2667945.html
7.开放图谱(OpenGraph)是什么?作用及如何添加?开放图谱(OpenGraph或 OG),是用来分享网页内容到社交媒体上使用的富媒体标签。我们分享一个网页通常有两种方式,一是直接把 url链接发出去,二是使用开放图谱的富媒体形式展现。 1、什么是 OpenGraph? 前几天遇到一个朋友询问网页源代码中 og:title 与 title 的内容完全相同,想知道对 SEO 有没有坏处。如下图所示:...https://www.vpsss.net/26477.html
8.幼儿园中班教案《奥尔夫音乐》这首乐曲改编自《王老先生有块地》,旋律欢快活泼,节奏鲜明,“咿呀咿呀哟”乐句反复出现,此活动重在让幼儿学会辨别该句的节奏,通过不同的形式表现乐曲,演奏中注重培养大班幼儿的分工、合作意识。活动中教师先让幼儿欣赏、熟悉乐曲,然后师幼共同观察图谱,让孩子比较自主的学习表现曲目的节奏,进行小小的律动,最后通过奥尔...https://www.yuwenmi.com/jiaoan/youeryuan/4537687.html
9.(集合)《朝花夕拾》读后感1500字15篇教师组织幼儿在区角活动时,将歌曲的内容以绘画的形式表现出来。 《朝花夕拾》读后感1500字5 活动目标 1、借助图谱理解、记忆歌词,学唱歌曲。 2、认真倾听歌曲,初步理解歌曲情境和歌词内容。 3、体验与同伴一起游戏、一起唱歌的快乐。 重点难点活动的重点是:借助图谱,学唱歌曲。 https://www.yjbys.com/duhougan/1500zi/4504089.html
10.大班音乐《胆小鬼》活动反思(共17篇)所以我们让幼儿不仅用口唱或用耳听,而且采取了综合动作、舞蹈、语言、游戏、表演等丰富的表现形式。但很多活动设计过于“丰富”,以至在一个音乐欣赏活动中,孩子们一会儿在听故事,一会儿在角色表演,一会儿又跟着图谱打节奏,甚至又去用笔作画等。殊不知,用动作、舞蹈或语言来表达,是孩子们在欣赏音乐作品时最自然的情感...https://www.hrrsj.com/wendang/qitafanwen/725770.html
11.中班活动吹泡泡教案(通用21篇)1、师:“这个故事还用音乐的形式表现了出来”,名字叫《小和泡泡糖》,让我们一起听一听吧! 师:“音乐听完了,小朋友们听完后有什么感觉?这是一首什么样的曲子?” 2、随图谱完整欣赏音乐第二遍。 师:“这么好听的.乐曲老师还用图谱表现了出来,我们一起来看着图谱再来完整的欣赏一遍音乐!” ...https://teacher.ruiwen.com/jiaoxueziliao/jiaoan/325288.html
12.超全面的数据可视化设计指南:风格篇优设网大家可能会觉得科技感只针对于一些特殊的场景,或者说是深色场景,比如一些实景地图和卫星地图又该如何去表现科技感的元素呢?那么如果是浅色可视化我们又该如何去做科技感呢?科技感风格应用于不同的场景,那么表现科技感的方式也是有很大的不同的。3. 三维的表现形式,是否真的跟科技感提升成正比?https://www.uisdc.com/visual-design-style
13.中班美术《瓢虫》教案(通用17篇)1、在观察图片、与老师的交流中用绘画的形式表现七星瓢虫的外形特征。 2、用红色来涂七星瓢虫的的身体,用树叶添加背景,初步让感受画面的完整性。 活动准备: 黑色蜡笔,红色、绿色蜡笔用黑色蜡笔画七星瓢虫的外形与黑点,用红色蜡笔色涂瓢虫。 活动过程: https://www.jy135.com/ziyuan/jiaoan/565223.html
14.幼儿园歌唱教学研究(精选十篇)这一环节是在幼儿学会演唱歌曲之后, 鼓励幼儿通过多种形式对歌曲进行拓展表现, 创新歌曲的表现形式。一般来说可以在歌曲演唱形式、歌曲动作、歌曲歌词三个方面进行创新表达。在歌曲演唱形式方面, 可以采取独唱、对唱、领唱与齐唱、轮唱、分声部合唱等演唱形式;歌曲动作表达方面, 就是要为歌曲创编动作, 让幼儿一边唱歌,...https://www.360wenmi.com/f/cnkeyftd2429.html
15.什么是闭环控制,闭环控制的知识介绍1.闭环控制的概念 2.闭环控制原理 3.闭环控制的表现形式 4.闭环控制应用 推荐器件 相关推荐 电子产业图谱 申请入驻 产业图谱 闭环控制2023/06/15 作者:eefocus_3781508 6376 阅读需 3 分钟 加入交流群 闭环控制是一种控制系统的运行方式,它通过监测反馈信号并根据其与设定值之间的差异进行调节,从而实现对系...https://www.eefocus.com/baike/1549137.html
16.知识图谱与图数据库的关系,终于有人讲明白了在与机器学习的联系更多地表现在知识表示学习这一方面,应用较多的场景为知识推理。 ① 知识表示学习 知识表示学习的背景是基于?络形式的知识表示存在数据稀疏问题和计算效率问题。 知识表示学习(representation learning)主要是?向知识图谱中的实体和关系进?表示学习,使?建模?法将实体和向量表示在低维稠密向量...https://www.51cto.com/article/717917.html
17.艾瑞发布《营销趋势解读:AI+营销的发展及落地》信息流广告作为移动广告的主要形式之一,相较弹窗广告和视频贴片广告而言表现形式更自然,让用户更易接受。而信息流广告的关键点之一便是准确识别用户需求。结合了AI技术的信息流广告可以根据用户近期行为准确定位用户偏好,推送最恰当的内容给用户。同时AI还可以让信息流广告走出“信息茧房”,拓宽营销角度,将“对的信息”...https://www.digitaling.com/articles/98027.html
18.幼儿园中班科学教案《风》含反思(通用14篇)1、通过带幼儿观察风,利用图片,表演等形式,帮助幼儿理解古诗内容,激发幼儿学习古诗文的兴趣。 2、能初步体验古诗文内在情趣的美。 3、引导幼儿创造性表现古诗。 4、通过视听讲结合的互动方式,发展连贯表述的能力。 5、萌发对文学作品的兴趣。 活动准备: https://m.cnfla.com/jiaoan/2257062.html
19.中班教师节教案12篇(全文)中班幼儿的思维具体形象,图谱形式形象生动,较适宜中班幼儿的经验和理解水平。活动过程以图谱方式表示,有助于幼儿的自主学习和探究,如一些必须通过规定的程序进行的科学小实验、观察特定现象的活动,可以尝试使用该方法,也可以用图谱展示问题。 六、激情法 探究活动不仅是师幼之间知识信息的传递,更有师幼之间的情感交流。https://www.99xueshu.com/w/fileze27w1b5.html