也看大模型幻觉的脑图总结:详解RefGPT事实性数据集KoLA知识图谱大模型评测及HaluEval幻觉评估实现

今天是2023年9月5日,星期二,北京,天气晴。

我们继续来看大模型幻觉的问题,RAG外挂是一个可行的方案,也可以通过检索、重排以及总结后送入大模型后再进行摘要。

具体幻觉问题包括幻觉在学术界如何做的定义其如何做修正,也什么会发生幻觉,在缓解幻觉问题上,当前有哪些前沿探索方案,如下脑图所示【可加入社区获取高清编辑版】:

这是个很有趣的话题,本文将从RefGPT提升事实性数据集的方法、面向知识图谱的大模型幻觉性评测:KoLA以及HaluEval幻觉性评测构成实现三个方面进行介绍。

供大家一起参考并思考。

事实正确性是ChatGPT的一大薄弱环节,也是所有试图复现ChatGPT的同行们所面临的重大挑战。

想要提升事实正确性,可以标注大量的事实型对话数据(比如人物、科技、医疗、法律、艺术)用于微调GPT模型。

第2步收集到大量的reference-dialogue二元组,将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。

将微调出的模型称作Reference-to-DialogueGPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。

不过,在实现过程中,需要注意2点。

首先,Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或单个网站。

调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

最终实现的样例如下:

首先,评估LLM的一个常见问题是训练数据变化带来的公平性问题和潜在的测试数据泄露风险。为了尽量减少这些偏差,设计了已知数据和演化数据两个数据源:

考虑到许多LLM表示它们只能基于"2021年之前的内容"提供答案,选择维基数据的高质量子集Wikidata5M作为基础,它允许链接到2019年版本的维基百科转储,从而能够选择或重建下游任务的数据集。

在这两种数据源的基础上,选择并构建了19个任务,如表1所示。

其中:

1、知识记忆:补全

效仿LAMA,通过探查LLM中的事实来评估知识记忆,但数据源上重新构建数据集。

在数据上,

给定Wikidata5M中的三元组,用特定关系模板将其转换为句子,并让LLMs完成其尾部实体。

(1-1)高频知识。从出现频率最高的前2,000个实体中随机抽取100个实体,构建包含这些实体的三元组数据;

(1-2)低频知识。从最低频率的实体中随机抽取100个实体,构建更具挑战性的评估集;

在此基础上,基于此,形成如下测试方案,对应的instruction:

1-1/2High/Low-Freq:Wikidata5M中选取三元组,用谓词模板转化为句子,让大模型预测客体(尾实体)。

其中尾实体是从2000个最高频实体中选出(1-1),或选择低频实体(1-2)。

1-3ETM:从新语料中选取理论上之前没有出现过的三元组,做类似的客体预测。

2、知识理解:信息抽取

知识理解能力是通过LLM是否能够理解文本中各种类型的知识(包括概念、实体、实体关系、事件和事件关系)来评估的。

在数据设计上,

(2-1/2-2/2-3)概念探测采用COPEN的三个探测任务(CSJ、CPJ、CiC)来评估模型对概念知识的理解。

(2-4)命名实体识别采用FewNERD数据集,从中随机抽取了300个实例进行评估。

(2-5)关系抽取从具有挑战性的文档级关系抽取数据集DocRED中选择未披露的测试集。

(2-6)事件检测采用精细注释的MAVEN数据集中的未披露测试集。

基于此,形成如下测试方案,对应的instruction:

2-4FewNERD:小样本实体识别数据集

2-5DocRED:文档级关系抽取数据集(未公开的测试集)

2-6/7MAVEN/MAVEN-ERE:事件检测、事件关系抽取数据集(未公开的测试集)

2-8ETU:从新语料中,类似DocRED,构建文档级关系抽取

3、知识应用:事实推理

知识应用能力是通过LLM的多跳推理能力来评估的,特别是对世界知识的推理能力。

在数据上,KoLA中包含了以下基于维基百科的渐进式数据集:

(3-1)HotpotQA,一个问题解答数据集,涉及大量由母语者编写的自然语言问题,考察机器在比较、多跳推理等方面的能力。然而,HotpotQA的局限性在于有些问题可以通过捷径来回答。

为了解决这个问题,(3-2)2WikiMultihopQA,通过人工设计的模板确保问题无法通过捷径解决,但其问题在语言上缺乏自然性。

此外,(3-3)MuSiQue数据集同时解决了快捷方式和自然性的难题。它的问题由现有数据集中的简单问题组成,复杂推理可达四跳。

(3-4)KQAPro,一个大规模数据集,其问题相对复杂,可对LLM的逻辑运算和修饰符多跳推理进行更精细的评估。

(3-5)KoRC,一个需要在文本和知识库之间进行联合推理的数据集。它与上述四个数据集不同,需要的是隐式推理而不是显式推理。

1)3-1HotpotQA:多跳抽取式问答数据集

2)3-22WikiMultihopQA:类似的多跳问答,问题通过模板构建,确保不能被单跳解答,但却不够自然。

3)3-3MuSiQue:类似的多跳问答,避免了推理捷径和模板构建的问题。

4)3-4KQAPro:类似的多跳问答,包含了更复杂的逻辑推理。

5)3-5KoRC:需要文档联合知识库进行推理,涉及隐式推理能力。

6)3-6ETA:从新语料中,类似KoRC构建问答数据。

4、知识创造:生成内容的连贯性和正确性

如何评价知识创造能力是一个开放且具有挑战性的问题,提出了一个基于知识基础的文本生成任务的可行建议。在历史、新闻和小说等叙事文本的生成过程中,创造力的核心在于对后续事件的描述。

因此,试图通过评估生成文本中的事件知识幻觉来评价模型的创作能力。

(4-2)开放知识创作,基于未见新闻和小说,作为创作演化测试(ETC)。

1)4-1/4-2Encyclopedia/ETC:根据史料、新闻和科幻小说续写可能发生的事件。4-1基于维基百科,如下:

4-2基于新语料,如下:

5、模型评测效果

在表2和表3中报告了所有模型的标准化得分,其中"-"表示由于输入比模型上下文长度长而无法获得结果。

如平均标准分(Avg)所示,GPT-4(2.06)和GPT-3.5-turbo(1.32)保持了相当大的优势。尽

里面有几个很有趣的发现:

(3)与GPT4、GPT-3.5-turbo和J2-Jumbo等商业闭源模型相比,开源模型的性能仍有明显差距。开源模型的平均Z值为-0.29,低于总体平均值。

上面讨论的是基于知识图谱角度进行的大模型评估,而为了进一步研究大模型幻象的内容类型和大模型生成幻象的原因,《ALarge-ScaleHallucinationEvaluationBenchmarkforLargeLanguageModels》这一工作通过自动生成和手动标注的方式构建了大量的幻象数据组成HaluEval的数据集,其中包含特定于问答、对话、文本摘要任务的30000条样本以及普通用户查询的5000条样本。

1、评测数据构造方法

在评测数据构造方面,其按照以下步骤通过ChatGPT执行数据生成流水线:

首先,下载HotpotQA、OpenDialKG和CNN/DailyMail的训练集。

其次,对10K个样本进行采样,并通过设置任务和采样策略生成幻觉对应样本。

主要受控制的参数包括:seed_data:下载的HotpotQA、OpenDialKG和CNN/DailyMail训练集;

task:采样任务,即QA、对话或摘要。

以及strategy:采样策略,包括单指令模式(one-passinstruction),直接将包含所有生成幻觉方法的完整的指令输入ChatGPT,然后得到生成的幻觉答案;对话式的指令(conversationalinstruction),每轮对话输入一种生成幻觉的方法,确保ChatGPT掌握了每一类方法,最后根据学到的指令生成给定问题的幻觉答案。

使用两种策略进行采样,每个问题可以得到两个候选的幻象答案。最后,从这两种取样方法中选出最可信、最难的幻觉样本。最终选出的样本将保存在数据目录中。

2、基于prompt的数据生成策略

为了在采样指令中给出条理的幻象生成方法,针对三类任务,将幻觉分为不同类型,并向模型输入各个类别幻象介绍作为生成幻觉样本的方法。

对于问答任务,将幻觉分为comprehension、factualness、specificity和inference四种类型;

对于基于知识的问答任务,将幻象分为extrinsic-soft,、extrinsic-hard和extrinsic-grouped三类;

对于文本摘要任务,将幻象分为factual、non-factual和intrinsic三类。

考虑到生成的幻象样本可以有不同的类型,提出了两种采样方法来生成幻象。

整体生成策略,主要通过提示来控制,如下所示:

1)知识型对话幻觉采样提示

2)文本摘要幻觉采样提示

3)知识型对话幻觉过滤提示

4)文本摘要幻觉过滤提示

5)知识型对话幻觉识别提示

3、基于Yes/no的幻觉评估策略

针对以上构建好的数据,在评估时,随机抽取每个数据的真实标签或幻觉输出。例如,如果文本是一个幻觉答案,则LLM应识别出幻觉并输出"是",这表示文本包含幻觉。如果文本是真实答案,则LLM应输出"否",表示没有幻觉。

整个评估,也是通过prompt加以控制:

1)dialogue评测

提示:

例子:

面向知识图谱的大模型幻觉性评测:KoLA的意义在于,给我们探索了一种利用知识图谱数据集及抽取任务来进行大模型评测的框架,其中的数据并未全部开源,但样本构造值得借鉴。

HaluEval幻觉性评测构成实现,借鉴意义在于,我们可以从中看到关于对话任务、问答任务以及摘要任务上数据的挖掘方法和评估prompt,这些都是prompt的范畴。

THE END
1.养宠进阶指南萌宠知识大全猫咪饲养者#养宠进阶指南# #萌宠知识大全# #猫咪饲养者# 0条评论|0人参与网友评论 登录|注册发布 相关新闻 上海首个宠物友好保租房社区亮相浦发有家康桥社区 11月22日 16:10| 新民晚报新闻荟租房上海 生猪市场情况分享2024-11-22 11月22日 11:41| 市场资讯3 萌娃新去处,普陀又一个社区宝宝屋开业啦! 11月22日 ...https://cj.sina.com.cn/articles/view/6605418944/m189b6b1c003301ciq0
2.宠物电子病历查询方法装置电子设备及存储介质与流程6.根据鼻纹特征、宠物主人对宠物的病症描述和宠物的基本信息,得到查询向量,并将查询向量切分为m个子查询向量,m为大于1的整数; 7.基于预设半径和预设邻域密度阈值,确定m个子查询向量在一一对应的m个子聚类空间中所属的m个聚类中心; 8.采用预先构建的电子病历知识图谱,对m个聚类中心中每个聚类中心下的多个子待查询...http://mip.xjishu.com/zhuanli/05/202210781732.html
3.一种基于课程知识图谱的智慧教育系统平台设计方法.pdf本发明涉及一种基于课程知识图谱的智慧教育系统平台设计方法,包括如下步骤:步骤一、搭建学生端和教师端,以及构建服务器端;步骤二、在系统平台中通过大数据埋点获取学生历史交互数据通过预定长度时间内系统收集到的数据形成时序数据,将学生历史交互数据存储在服务器端的数据库中;步骤三、构建知识图谱,根据课程的大纲要求、...https://m.book118.com/html/2023/0424/5201333204010144.shtm
4.2020年中国知识图谱行业研究报告艾瑞2020.0445页.pdf更与生产力相对应,NLP和知识图谱是发展认知智能的基础。 原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经 SMS 过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合, 2 通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合, 最终形成完整形态上的知识...https://m.taodocs.com/p-486920080.html
5.宠物饲养技术—智慧树网知识图谱 73个知识点106个知识关系 教程资源 122个挂载素材 AI 课程简介 随着我国经济的发展和人民生活水平的提高,越来越多的人们开始饲养宠物。宠物是我们人类最忠实、最可靠的朋友,给我们生活增添了极大的乐趣。目前,我国宠物的饲养量正逐年持续增长,只有科学饲养、以积极向上的心态善待宠物,才能创造出人与动物和谐...http://coursehomenew.zhihuishu.com/courseHome/overview?courseId=1000008326&recruitId=136401&termId=18
1.猫咪的多样性探究一种分类系统及其视觉资料集波斯长毛是世界上最古老的一些犬科动物之一,被誉为“皇室宠物”。 [图像: 长毛波斯] 5-10 类似方式介绍其他九个品种 三、新兴及罕见家喵喵品种 3-1 小足虎斑(Tortoiseshell Tabby) 小足虎斑是一位混合颜色的美丽女孩,她具有红褐色条纹并带有黄白色斑点。 https://www.tr0dmu0cp.cn/pin-zhong/488638.html
2.深入研究最新科学发现如何改进我们的猫咪品種識別能力对许多人来说,了解自己的宠物是何种品种是一件既有趣又充满挑战的事情。不同的品种不仅拥有独特的外观,还可能有各自独特的情感特质,这使得了解这些差异成为一个非常重要的话题。今天,我们将探讨一些最新的科学发现,以及这些发现如何帮助我们更好地理解和鉴定不同类型的人类伙伴——猫咪。 https://www.godyood.cn/shou-cang/718215.html
3.揭秘时代背景下的猫界革新,最新猫咪破解指南背景概述随着科技的持续进步和人们生活水平的不断提升,宠物猫已经成为现代家庭中的重要一员,从简单的宠物身份到日益丰富的文化符号,猫咪经历了漫长的发展过程,近年来,“猫咪最新破解”成为热门话题,引发了广泛关注,本文将详细...https://www.dlq818.com/post/30702.html
4.喵呜探秘猫咪的多样性大探险尽管目前我们已经认识到了如此多样的宠物猫,但仍然存在很多未知的地方待研究。科学技术正在不断进步,为我们提供了更多去理解这些灵巧机器人的工具。不仅如此,对于那些尚未被发现或记录下的野生捕食者,以及潜在改良当前已有的亲缘关系,我们还有无限可能性的空间来挖掘知识,同时也将继续推动这种合作进化过程,让我们的生活更加...https://www.gurotsr.cn/geng-duo-chong-wu/558289.html
5.动物分类识别教程+分类释义+界面展示动物分类是生物学中的一个基础知识,它是对动物进行分类、命名和描述的科学方法。本教程将向您介绍动物分类的基本原则和方法,并提供一些常见的动物分类释义。 动物分类的基本原则 动物分类根据动物的形态、结构、生活习性、遗传等特征进行分类。动物分类的基本原则包括以下几点: ...https://blog.csdn.net/qq1309399183/article/details/143926433
6.宠物行业市场现状发展历程产业链知识图谱及未来发展趋势预测...宠物产业百科作为宠物产业一站式系统化研究工具,全面归纳了宠物产业知识信息,内容涵盖宠物产业的定义、分类、政策、产业链、竞争格局、发展趋势等,并依靠信息技术建立智能互链的行业知识图谱,为行研从业者及相关投资者提供深入的洞察力和全面的信息。 智研咨询以“用信息驱动产业发展,为企业投资决策赋能”为品牌理念。为...https://www.shangyexinzhi.com/article/20790977.html
7.基于pyqt5的原神桌面宠物:打造一个桌面端的原神语音智能助手...打造一个桌面端派蒙小助手,通过大规模的文本数据训练原神领域的文本预训练模型, 利用收集到的三元组数据搭建原神知识图谱,通过预训练模型进行语音识别和智能问答,通过语音合成技术来帮助回答用户问题。如有侵权请告知,请勿涉及商业用途,否则后果自负!!!注:绿幕素材来源于B站UP:皮皮虾米锅巴 感谢大佬!!! https://gitee.com/fg_slash/yuanshen-desktoppet
8.宠智灵宠物AI大模型服务平台宠智灵,宠物ai大模型服务商,覆盖多种宠物行业场景:宠物医疗,穿戴,食品,美容,社交,智能设备等。提供先进的AI技术服务,全面涵盖宠物应用领域,助力企业AI化转型。https://www.gjpet.com/
9.宠智灵AI宠物医生在线咨询宠物医院兽医问诊宠物知识问答 全面解答养宠疑问,化解养宠困扰。宠智灵采用先进的自然语言处理和知识图谱技术,结合权威的宠物百科全书和专家知识库,为您提供全面、专业的宠物知识解答。我们的知识库涵盖了猫狗、鼠兔、鸟鱼等多种常 见宠物,内容包括宠物饲养、宠物喂食、宠物训练、宠物医疗、宠物美容、宠物托运等各个方面。 https://www.chongzhiling.com/
10.关于我们宠智灵1、 基于AI的宠物智能问诊系统,提供专业、高效的在线诊断 2、智能宠物健康测评,定期生成全面健康报告 3、宠物图片智能分析,包括品种识别、情绪分析和疾病检测 4、基于知识图谱的宠物养护问答系统 我们承诺不断创新,为您的爱宠带来更科学、更贴心的呵护,共同缔造美好的宠物生活。 https://www.ack-pet.com/about.html
11.GraphMaker:轻松使用开源大模型将文本转为知识图谱,发现新知识!本文将介绍一个Python库——Graph Maker(图谱生成器),它可以根据给定的本体从文本语料库中创建知识图谱。 用大模型处理知识图谱为什么这么重要? 我们来看看展示知识图谱在AI时代巨大潜力的精彩论文。它展示了知识图谱不仅可以用于知识检索,还可以用于发现新知识。以下是我最喜欢的摘录之一: ...https://53ai.com/news/qianyanjishu/2024060658627.html
12.知识图谱应用篇(二)问答系统笔者写了一篇知识图谱在搜索与推荐中的应用,这篇文章会着重讲讲问答系统中的人机交互和自然语言处理相关的问题。简单聊聊人机交互,目前人机交互的常见场景有如下三种:闲聊型(Chatbot)、问答型(QA)、任务型(VPA)。 闲聊型,典型的应用案例是微软小冰,你可以和小冰进行闲聊 ...https://www.jianshu.com/p/ed36c3576d54
13.郑州轻工业大学——HarmonyOS宠物降系统的开发分享当然我们还希望未来能拓宽宠物项圈领域,比如:和搭建宠物疾病诊断知识图谱的团队进行合作,这将有助于提高...https://developer.huawei.com/consumer/cn/forum/topic/0203814250124330309?ha_source=csdn
14.JoveMind知识图谱平台发布,面向企业级客户提供定制化服务中译语通科技股份有限公司(以下简称中译语通)在2018年7月31日 “Hi,Five”品牌战略发布会上推出的JoveMind就是一款面向企业客户的知识图谱构建分析平台,实现知识图谱构建后的可视化数据检索分析https://www.iyiou.com/p/78588
15.数字人文视角下的文化遗产信息资源知识图谱构建及其应用您的位置:首页 图书列表 数字人文视角下的文化遗产信息资源知识图谱构建及其应用收藏 评价 数字人文视角下的文化遗产信息资源知识图谱构建及其应用商品编号:7688750 ISBN:9787577201993 出版社:华中科技大学出版社 作者:彭博,叶颖著 出版日期:2024-01-01 开本:16 装帧:暂无 中图分类:G112 页数:196 册数:1 大约重量...https://m.jarhu.com/book.php?id=6688750
16.90后成宠物险投保主力!宠物险快速升温背后,机遇挑战并存二是从宠物保险服务方面提升用户体验,加速数字化发展。比如,引入风险减量增值服务吸引用户,实现预防风险的价值理念,如消费频次高、单次均价低的疫苗、驱虫、体检等服务;以及完善宠物数据库建设,包括宠物档案、知识图谱等数据,助力宠物保险的精准运营和投保、理赔效率。 https://static.nfapp.southcn.com/content/202308/19/c8011945.html
17.4年宠物医疗SaaS创业经历,小暖医生分享这10条创业心得4月26日,宠研社第8期活动上海活动现场,宠物医院管理系统小暖医生创始人毛本浩分享创业历程,同时首发《2017中国宠物健康报告》。以下是宠业家对演讲内容的整理。 正文: 今天非常希望跟在座创业者分享我的一些创业体会,愿对大家有所帮助。 目前小暖取得的成绩:在小暖平台的医院,每周8000万流水,每天产生病历30000份。以下...http://www.360doc.com/content/21/0322/13/74257732_968267397.shtml