美团知识图谱问答技术实践与探索

针对不同问题,美团的智能问答系统包含多路解决方案:

实际落地应用时,KBQA系统面临着多方面的挑战,例如:

下面将详细讲述我们是如何设计高准确、低延时的KBQA系统,处理场景、上下文语境等信息,准确理解用户、捕捉用户意图,从而应对上述的挑战。

对于KBQA模型,目前的主流解决方案有两种,如下图2所示:

基于语义解析的方法可解释性更强,但这种方法需要标注大量的自然语言逻辑表达式,而信息抽取式的方法更偏向端到端的方案,在复杂问题、少样本情况下表现更好,但若子图过大,会显著降低计算的速度。

因此,考虑到两者的优势,我们采用将两者结合的方案。如下图3所示,整体的流程分为四大步骤,以“故宫周末有学生票吗”为例:

下面将介绍我们对于重点模块的建设和探索。

Query理解是KBQA的第一个核心模块,负责对句子的各个成分进行细粒度语义理解,其中两个最重要的模块是:

实体识别是句法分析的重要步骤,我们先基于序列标注模型识别实体,再链接到数据库中的节点。对于该模块我们主要做了以下优化:

最终,该模块会输出句子中各个重要成分的类型,如下图4所示:

依存分析是句法分析的一种,它的目的是识别句子中词与词的非对称支配关系,在输出的结果中用有向弧表示,该弧线由从属词(dep)指向支配词(head)。对于KBQA任务,我们定义了五种关系,如下图5所示:

依存分析主要有两种方案:基于转移的(Transition-based)和基于图的(Graph-based)。基于转移的依存分析将依存句法树的构建建模为一系列操作,由模型预测每一步的动作(shift、left_arc、right_arc),不断将未处理的节点入栈并赋予关系,最终构成句法树。基于图的方法则致力于在图中找出一棵最大生成树,也就是句子整体依存关系的全局最优解。考虑到基于图的方法是对全局进行搜索,准确率更高,我们采用较为经典的“DeepBiaffineAttentionforNeuralDependencyParsing”模型,它的结构如下图6所示:

该模型先通过BiLSTM对词与词性的拼接向量进行编码,之后采用对用两个MLP头分别编码出h(arc-head)和h(arc-dep)向量,去除冗余信息。最终将各个时刻的向量拼接起来得到H(arc-head)和H(arc-dep),且在H(arc-dep)上拼接了一个单位向量,加入中间矩阵U(arc)进行仿射变换,得到dep与head的点积分数矩阵S(arc),找到每个词依存的head。

有了依存分析的结果,我们可以更好地识别关系、复杂问题,具体的特征使用方法将在下文进行介绍。

关系识别是KBQA中另一个核心模块,目的是识别出用户Query所问的关系(Predicate),从而与主实体(Subject)联合确定唯一子图,得到答案(Object)。

随着大规模预训练语言模型的出现,BERT等大模型在匹配任务上取得了SOTA的结果,通常业界通用的方法主要归类为以下两种:

为了充分利用BERT的语义建模能力,同时考虑实际业务的线上延时要求,我们在推理加速、数据增强、知识增强方面做了以下三点优化:

经过上述一系列迭代后,模型的速度、准确率都有了大幅的提升。

在真实场景中,大部分问题可以归为以下四类(绿色为答案节点),如下图8所示:

下面介绍针对不同类型的复杂问题,我们所进行的一些改进。

通过对线上日志的挖掘,我们将约束分为以下几类,如下图9所示:

对于带约束问题的回答涉及两个关键步骤:约束识别和答案排序。

通过KBQA系统中的依存分析模块,我们可以识别出用户在实体或关系信息上所加的约束限制,但约束的说法较多,且不同节点的约束类型也不一样,因此我们在构造数据库查询SQL时先保证召回率,尽量召回实体和关系路径下的所有候选节点,并在最终排序模块对答案约束进行打分排序。

进行复杂条件优化后,先通过前置模块识别到实体、关系和约束,组成约束文本,再与当前召回子图的Key值候选进行匹配,得到最终的答案。

多跳问题是天然适合KBQA的一类问题,当用户询问商户中的设施、服务、商品等实体的信息时,我们只需要先在图谱中找到商户,再找到商户下的实体,接着找到下面的基本信息。如果使用FAQ问答的解法,就需要为每个复杂问题都设置一个标准问,比如“健身房的位置”、“游泳馆的位置”等。而在KBQA中,我们可以很好地对这类问题进行压缩,不管问什么实体的位置,都问的是“位置”这条边关系,只是起始实体不同。

在KBQA系统中,我们先依赖依存分析模块对句子成分间的依赖关系进行识别,之后再通过关系识别模块判断句子所询问的关系跳数以及关系,具体流程如下图12所示:

借助实体识别的类型,我们可以将句子中的重要成分进行替换,从而压缩候选关系配置的个数、提升关系识别准确率。在对句子进行了充分理解后,系统会基于主实体、关系、跳数对子图进行查询,并输入给答案排序模块进行更细粒度的约束识别和打分。

为了自动化地批量挖掘用户观点,我们拆解了两步方案:观点发现和Evidence挖掘,如下图14所示。

在上文中,我们针对多跳、带约束等复杂问题设计了不同的方案,虽然可以在一定程度上解决问题,但系统的复杂度也随之提高。基于关系识别模块的预训练思路,我们对通用的、端到端的解决方案进行了更多的探索,并在今年的EMNLP发表了《Large-ScaleRelationLearningforQuestionAnsweringoverKnowledgeBaseswithPre-trainedLanguageModels》论文。

经过上述任务预训练后,BERT模型对于Query和结构化文本的推理能力显著提升,并且在非完全KB的情况下有更好的表现,如下图17所示:

经过一年多的建设,当前KBQA服务已经接入美团的旅游、酒店、到综等多个业务,辅助商家及时回答用户问题,并提升了用户的满意度和转化率。

酒店是用户出行的必备需求之一,但一些中小商家没有开通人工客服入口,无法及时回答用户信息。为满足用户对详情页内信息的快速查找,智能助理辅助未开通客服功能的酒店商家进行自动回复,提升用户下单转化率。用户可询问酒店以及房型页的各类信息,如下图18所示:

门票地推致力于帮助旅游商家解决主要的卖票业务,在景区高峰时段,线上购票相比于排队更加便捷,然而仍有很多用户保持着线下购票的习惯。美团通过提过二维码以及简单的交互,提升了商户卖票以及用户购票的便捷程度。同时,我们通过在购票页内置「智能购票助手」,解决用户购票过程中的问题,帮用户更快捷地买到合适的门票,如下图19所示:

回到技术本身,虽然目前我们的KBQA已能解决大部分头部问题,但长尾、复杂问题才是更大的挑战,接下来还有很多前沿技术值得探索,我们希望探索以下方向:

也欢迎对KBQA感兴趣的同学加入我们团队,一起探索KBQA的更多可能性!简历投递地址:wangsirui@meituan.com。

如寐、梁迪、思睿、鸿志、明洋、武威,均来自搜索与NLP部NLP中心知识图谱组。

THE END
1.周报医疗大降投融资速递Vol.133B轮融资A轮融资生物技术投...脉兴医疗是国内首家提供重症监护(ICU)的人工智能整体解决方案供应商。凭借在临床医疗大数据整合、处理和挖掘以及算法上的强大优势,同时构建了ICU行业知识图谱,将人工智能技术与临床应用场景深度结合,研发了ICU智能辅助决策平台MaxAide(AI+CDSS),持续推动人工智能技术在临床应用的发展。https://www.cn-healthcare.com/articlewm/20201014/content-1152966.html
1.猫医圆桌探秘:泌尿系统常见病一病例精解新闻课程特色之一在于丰富的病例分析和小组讨论环节,组织学员参与泌尿道疾病问题的分析讨论,鼓励学员结合检验、影像等多学科知识进行综合诊断,从而更好的理解猫科疾病的复杂性和重要性。学员们纷纷表示,此次课程收获颇丰,让他们对猫科疾病治疗有了更深入的了解,获得了宝贵的实践经验。https://www.cauvet.com/index.php/shows/7/607.html
2.狗狗降检查指南:必检项目一览(涵盖体格评估到脏器功能监测)适用...粪便检查主要是判断狗狗是否患有消化道菌群失调、寄生虫感染或消化道紊乱等疾病。如果狗狗平时饮食正常,没有消化不良状况,此项检查可以酌情选择。收费大约80元左右。 X光检查可以通过影像学检查狗的内脏和骨骼。根据狗的具体尺寸和身体部位,通常需要拍摄两部影片,费用在160元到240元之间。 https://m.tijian8.com/post/651081BC665F.html
3.宠物行业市场现状发展历程产业链知识图谱及未来发展趋势预测...宠物产业百科作为宠物产业一站式系统化研究工具,全面归纳了宠物产业知识信息,内容涵盖宠物产业的定义、分类、政策、产业链、竞争格局、发展趋势等,并依靠信息技术建立智能互链的行业知识图谱,为行研从业者及相关投资者提供深入的洞察力和全面的信息。 智研咨询以“用信息驱动产业发展,为企业投资决策赋能”为品牌理念。为...https://www.shangyexinzhi.com/article/20790977.html
4.基于neo4j的宠物知识图谱问答系统动物知识图谱构建项目的主要目标是开发一个无需登录的宠物关系图谱问答系统,该系统能够展示宠物知识图谱,支持图谱的检索,以及通过自然语言处理技术实现智能问答。 系统架构设计 数据存储 本系统选择Neo4j作为关系图谱数据的存储方案,优质的宠物知识图谱数据存放于此。Neo4j是一个高性能的NoSQL图形数据库,专为存储和处理复杂关系的数据而设计...https://blog.csdn.net/2401_82881413/article/details/136127282
5.宠智灵宠物AI大模型服务平台快速分析并给出疾病诊断和建议 查看详情 智能图片识别 宠物各疾病部位识别分析 智能健康管理 档案管理宠物健康,风险预警 智能用药分析 宠物医疗药物建议,用药分析 智慧知识库 宠物医疗数据库,知识图谱 智能AI在线问诊 通过对话智能分析,精准关联宠物症状,助力医生迅速锁定病因,有效短问答流程,显著提升接诊效率。 http://gjpet.com/
6.宠智灵AI宠物医生在线咨询宠物医院兽医问诊全面解答养宠疑问,化解养宠困扰。宠智灵采用先进的自然语言处理和知识图谱技术,结合权威的宠物百科全书和专家知识库,为您提供全面、专业的宠物知识解答。我们的知识库涵盖了猫狗、鼠兔、鸟鱼等多种常 见宠物,内容包括宠物饲养、宠物喂食、宠物训练、宠物医疗、宠物美容、宠物托运等各个方面。 https://www.chongzhiling.com/
7.支付宝蚂蚁新村答案支付宝蚂蚁新村答案汇总大全11月2日:为人工智能“塑造大脑”是以下哪种职业的工作内容?知识图谱工程师 11月1日:非遗小常识:我国名砚中唯一的陶砚是?澄泥砚 10月31日:“打通全链条,寻求最优解”是对哪种职业的贴切描述?供应链管理师 10月30日:有“百灯之首”称号的国家级非遗是?奉贤滚灯 ...https://app.ali213.net/mip/gl/713775.html
8.关于我们宠智灵1、 基于AI的宠物智能问诊系统,提供专业、高效的在线诊断 2、智能宠物健康测评,定期生成全面健康报告 3、宠物图片智能分析,包括品种识别、情绪分析和疾病检测 4、基于知识图谱的宠物养护问答系统 我们承诺不断创新,为您的爱宠带来更科学、更贴心的呵护,共同缔造美好的宠物生活。 https://www.ack-pet.com/about.html
9.泡面早报阿里云公布数据抄袭结果宁德时代正式起诉中航锂电...6、知识图谱赛道领军企业柯基数据近日完成数千万 A 轮融资 新冠疫情 1、印度新增新冠确诊超4.2万例,累计确诊逾3121万例 2、英国新增确诊46869例 新增死亡近百例 创四个多月以来新高 3、美国新增确诊44232例,累计确诊35081719例,创近期单日新增新高 4、印尼新增确诊33772例,累计确诊2983830例 ...https://maimai.cn/article/detail?fid=1644739571&efid=-4bk9DHAzK0e2V7Q-o_lKg
10.宠物犬根据体型的大猩分为()()()()()五大类,根据用途可...A. 知识图谱 B. 推理技术 C. 机器学习 D. 深度学习 查看完整题目与答案 耳内疼痛,甚者有跳痛,牵拉耳廓、压迫耳屏时疼痛无变化,可伴有发热、...【单选题】白内障是( )类型的疾病。 查看完整题目与答案 【单选题】下列中不能用食品容器盛放的是( ) 查看完整题目与答案 【单选题】...https://www.shuashuati.com/ti/fa409bdc1fb34ecca1cc4fed2ceb50a0.html?fm=bd33421cd651dd932433e4f408fc6cd30a
11.21私募投融资周报(7.31众智维科技主营网络安全和大数据业务,聚焦金融、公安、政府、制造、企业级信息安全业务,为客户提供高质量网络安全服务、大型攻防演练协同平台和基于知识图谱的安全解决方案。公司已经在北京、上海、山东、深圳设立子公司或办事处,拥有70%的技术研发人员,多项核心专利,近30项软件著作权。主营网络安全和大数据业务,聚焦金融...https://finance.eastmoney.com/a/202308072804936574.html
12.基于pyqt5的原神桌面宠物:打造一个桌面端的原神语音智能助手...打造一个桌面端派蒙小助手,通过大规模的文本数据训练原神领域的文本预训练模型, 利用收集到的三元组数据搭建原神知识图谱,通过预训练模型进行语音识别和智能问答,通过语音合成技术来帮助回答用户问题。如有侵权请告知,请勿涉及商业用途,否则后果自负!!!注:绿幕素材来源于B站UP:皮皮虾米锅巴 感谢大佬!!! https://gitee.com/fg_slash/yuanshen-desktoppet
13.知识图谱泛谈如我们想知道:谁认识有宠物的人? 知识图谱的构建是一项耗时的工作,主要流程如下。 首先要收集数据,一方面从结构化数据(比如公司数据库)中直接提取,一般是应用于垂直特定领域;一方面可以爬取网页并解析,从非结构化数据中心提取内容。 这里就用到实体抽取等技术,比如NER的方式,属性和关系抽取在技术上类似,针对实体-实体...https://www.jianshu.com/p/0e37215a7f76
14.知识图谱赋能金融科技,看这一篇就够了AI浪潮愈演愈烈,知识图谱赛道也从鲜有问津到缓慢升温,随着更多入局者的出现,未来这条赛道将会越来越拥挤。 数据是数字经济时代的新型生产资料。 基于数据的生产变革和业务模式创新正驱动着全球范围内经济社会各个领域的数字化、智能化转型。金融行业因与数据的高度相关性,成为人工智能最先应用的行业之一,而知识图谱作为...https://www.iyiou.com/news/2018102383869
15.南昌大学软件学院附件1: 南昌大学 2024 届本科生毕业论文(设计)分组答辩安排公示表 学院:软件学院 附件2 南昌大学24届本科生毕业论文(设计)答辩信息公示表 学院:软件学院专业:软件工程班级:软件工程20级1-15班,卓越计划201班 附件2 南昌大学24届本科生毕业论文(设计)答辩信息公示表 ...https://soft.ncu.edu.cn/xydt/tzgg/9119084d425840818cc659473d9e2305.htm
16.一宠(上海)降科技有限公司怎么样宠物医生 人事经理 产品经理 人事主管 区域销售经理 人事行政专员 前台 医生助理 Android 医疗顾问 开发工程师 宠物医院助理 宠物医院医生 宠物美容师 知识图谱算法工程师 运营主管 硕士岗位人才需求分析(更多) 持平 增长速度 2024年较2023年 硕士历年招聘:2024年与2023持平 ...https://www.jobui.com/company/16932312/
17.智慧之网观点的交织与共鸣在这个信息爆炸的时代,人们面临着海量数据和各种各样的观点。如何高效地筛选出真正有价值的信息,成为了一项挑战。而这正是“观点网”的出现为我们提供了可能。这是一个基于人工智能技术构建的人类知识图谱,它能够自动地分析和整理来自互联网上的各种不同观点。 https://www.gkklenewvt.cn/chong-wu-gou/266636.html