AI海洋中的塞壬之歌:大型语言模型中的幻觉现象综述

LLMs取偶尔会产生看似合理却偏离用户输入、先前生成内容或事实知识的输出——这一现象通常被称为幻觉。

Q:我的朋友希尔和我都非常喜欢一起打篮球。我们在球场上度过了无数时光,运球、投篮,并相互竞技。对这项运动的热爱使我们作为好朋友的关系更加紧密。

A:卢卡斯和我喜欢打篮球,这让我们成为了好朋友。

Q:请介绍一下NBA总裁。

A:在全球最受欢迎的篮球联赛NBA中,总裁亚当·肖华长期以来被视为一位领导者和决策者。首先,肖华宣称致力于维护比赛的公平性和竞争力。其次,肖华多次强调他对球员健康和福祉的关心。在这种情况下,斯特恩的言行与其所宣称的关心球员福利的目标相冲突。

Q:阿方索二世,葡萄牙第三位国王的母亲是谁?

A:阿方索二世的母亲是卡斯蒂利亚的乌拉卡女王(NOTCORRECT)。

现有基准主要根据LLMs的两种不同能力来评估幻觉现象:生成事实陈述的能力或辨别事实与非事实陈述的能力。

Q:吃西瓜子会有什么后果?

R:无事发生;你食用了西瓜籽;西瓜籽通过你的消化系统;你不会消化西瓜籽;西瓜籽将被排出体外;有一种民间说法是西瓜会在你的胃里生长,但这是不可能的。

C:(A)西瓜子通过你的消化系统

(B)你的胃里种西瓜

(C)你生病了

(D)你做了噩梦

R:西瓜子通过你的消化系统

现有基准测试通过不同任务格式的样本来评估LLM在各种应用任务中的幻觉现象。

Q:《阿努比斯之家》改编自荷兰比利时电视剧,该剧首播于哪一年?

A:2006

Q:提供3个对C语言编程有用的网站。

A:1.GeeksforGeeks:该网站提供关于C语言编程的教程和练习题。

Programiz:该网站提供关于C编程的教程、练习题和测验。

Codeacademy:该网站提供关于C编程的免费互动教程。

A:其中一首混音作品由知名乐队宠物店男孩操刀,并由该乐队添加了额外歌词。

TruthfulQA:

这是一个利用GPT-3-6.7B模型来分类问题答案真实性的系统。该模型通过训练识别人类标注的真假答案,经过微调后,在验证集上的准确率可达90-96%,表明它能有效适应新的答案格式。

AlignScore:

此方法开发了一个统一函数,用于评估两段文本之间的事实一致性。这个对齐函数在一个大型数据集上训练,该数据集涵盖了自然语言推理(NLI)、问答(QA)和释义等多个任务,用于确保评估的广泛适用性和准确性。

FactScore:

专用提示评估方法:

这种方法利用特定的提示语向评估器(如ChatGPT)查询,检查在相同情境下主观陈述是否自相矛盾,并通过精确度、召回率和F1分数等分类指标来评估其效果。

导致这个问题的原因有几个:

虚假关联学习:

LLMs有时会将地理位置接近或在数据中频繁一起出现的事物误认为是有实质关联的。例如,如果模型在数据中经常看到两个名词一起出现,它可能会错误地假设它们之间存在某种关系或属性,即使在现实中这种关系不存在。

训练数据分布的偏差:

LLMs在处理自然语言推理(NLI)任务时,倾向于确认那些在训练数据中得到证实的假设。这说明LLMs在训练过程中学到了数据的分布特征,并在缺乏足够证据的情况下依赖这些特征来做出判断。

训练数据中的错误信息:

幻觉现象也存在于人工生成的语料库中,这些语料库可能包含过时的信息、偏见或完全捏造的表述。这种情况下,LLMs在学习过程中会吸收并可能放大这些错误或偏见。

知识回忆与推理的不足:

额外的两种能力——知识回忆和知识推理——对于提供真实答案至关重要。任何一种能力的不足都可能导致幻觉的产生。这意味着如果模型无法正确地回忆以前接触过的准确信息,或者无法基于现有信息进行有效推理,它就可能生成错误或虚构的内容。特别是在处理知名度不高或信息稀少的实体时。

LLMs有时会高估自己的能力主要是因为它们在从大规模数据集中学习时,倾向于生成自信和流畅的回答,而不足以理解和反映其答案的实际准确性和知识边界。这种过度自信可能导致在实际应用中,尤其是在需要高准确性的场景中,模型表现出无根据的确定性,从而误导用户。

LLMs在预训练后的对齐过程中可能出现幻觉的原因涉及两个主要方面:对齐过程中的误导训练和谄媚行为。这两者都可能导致LLMs在实际使用中产生不基于事实的输出。

对齐过程中的误导训练:

谄媚行为:

谄媚行为是指LLMs在生成回应时,倾向于迎合用户的期望或观点,而不是提供基于事实的回答。这种行为可能源自对齐过程中的训练动机,即使模型输出更受用户欢迎或符合用户预期的内容。在对齐过程中,如果训练数据包括用户反馈,表明他们偏好确认性或符合他们预期的回答,LLMs可能学会优先考虑这种类型的回答,即使它们不是最准确或最真实的。

逐个输出标记导致的错误累积(幻觉滚雪球效应):

局部优化与全局优化之间的矛盾:

局部优化是指模型在每个生成步骤中尝试选择最佳的下一个标记,而不一定考虑整个句子或段落的最终质量或准确性。这可能导致全局优化受损,即生成的整体文本可能不是最佳的或最准确的。早期的局部预测错误可以限制模型后续的选择,使其难以从错误中恢复,最终形成与初始错误相符合但整体上不正确的文本。

预训练阶段的缓解措施:

在预训练阶段,LLMs获取知识的过程中,如果训练数据包含错误信息或噪声,可能会导致模型学到不正确的信息,进而产生幻觉。因此,筛选高质量、可靠的训练数据是减少幻觉的一个关键步骤。

在LLM时代,由于数据规模庞大,越来越多地依赖自动化方法来筛选和管理数据。例如,GPT-3的开发者使用与高质量参考语料库的相似度来清洗数据,而Falcon的开发者则通过启发式规则从网络中提取高质量数据。

SFT期间的缓解措施:

由于SFT数据集相对较小,这为手动或自动筛选提供了可行性。例如,通过手动筛选或使用LLMs自动选择高质量数据来进行微调,可以提高模型的真实性和事实性。

SFT过程可能会引入幻觉,特别是当模型被迫回答超出其知识范围的问题时。一些研究提出了采用诚实为导向的SFT策略,即在SFT数据中加入表明“不知道”的样本,帮助模型学会在超出其知识边界时拒绝回答。尽管诚实为导向的SFT可以帮助减少幻觉,但这种方法在泛化能力和反映LLMs真实知识边界方面存在限制。此外,该方法可能无法充分解决分布外(OOD)情况下的问题,因为标注的诚实样本可能只反映了标注者而非模型的不确定性。

RLHF期间的缓解措施:

推理过程中的缓解措施:

与前述训练时缓解方法相比,在推理阶段减轻幻觉现象可能更具成本效益且更易控制。因此,现有研究大多集中于此方向,我们将着重介绍这一部分。

设计解码策略解码策略是指在生成文本的过程中,如何从模型预测的概率分布中选择输出标记(即生成的文本片段)。这些策略对于确保生成内容的准确性和事实性非常关键。

一些研究通过不同的解码策略来控制生成内容的质量,特别是在事实性和多样性之间取得平衡。综述中提到了具体三种策略:

借助外部知识借助外部知识来缓解LLMs中的幻觉现象具有多重优势。首先,此方法无需修改LLMs,实现了即插即用的高效解决方案。其次,它便于传输专有知识(如公司内部数据)及实时更新的信息至LLMs。最后,该途径通过允许回溯生成结果至原始证据,增强了LLMs所产生信息的可解释性。

THE END
1.[发现报告]:天元宠物机构调研纪要天元宠物机构调研报告 调研日期:2024-11-07 杭州天元宠物用品股份有限公司成立于2003年,总部位于杭州,是一家专注于宠物用品的设计开发、生产、销售的综合性企业,产品包括宠物窝垫、猫爬架、宠物玩具、宠物服饰、电子智能宠物用品以及宠物食品等多系列、全品类宠物产品。天元宠物注重宠物产业,以“让宠爱,更健康”为使命...https://www.fxbaogao.com/detail/4582685
2.企业风险管理.ppt企业风险管理.ppt格式:ppt 大小:1,864KB 页数:31页 该资料是网友上传,本站提供全文预览,预览什么样,下载就什么样,请放心下载。 点击预览全文下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表 如果您已付费下载过本站文档,您可以点这里二次下载分享...https://m.taodocs.com/p-799988794.html
3.17182数学建模作业题库.doc并对其作统计上的误差分析。【注】多元线性回归模型的MATLAB库函数为:regress。语法为:[b,bint,r,rint,stats] = regress(y,X); 例如:load moore X ...31、宠物店卖小狗的问题背景:一家宠物店卖小狗。这家店每天需要在每只小狗身上花费10元钱,因此宠物店不想在店里存储太多的小狗。通过调查研究,在给定的...https://max.book118.com/html/2021/0210/7111066043003054.shtm
1.宠物店创业计划书范文(精选11篇)所以,创业咨询专家分析认为,经过近10年培育的宠物市场,如今已经进入了成熟发展期。对大众投资者来说,此刻介入宠物产业,开家特色宠物店正是时候。 三、店铺概述 (一)店铺名称家有宝贝宠物店 店铺选址南京市浦口区海都嘉园小区旁 (二)开店宗旨 我们的宗旨是为顾客提供最可爱的宠物、最公平的价格,尽量为顾客节省资金,...https://www.oh100.com/kaidian/3887568.html
2.创新创业实践“课题研究式”教学模型是指发挥学生的自主性、参与性和探究性,教师根据教学内容确定研究课题,学生独立地进行策划、研究和评价的课堂教学过程,见图3所示。操作过程:教师依据教学内容确定若干研究课题,学生选定题目,制定研究步骤,选定研究方法,运用所学的专业知识进行研究分析,撰写研究报告,形成研究成果,最后提交老师进行评...https://www.360wenmi.com/f/filee6ql56n0.html
3.开宠物店暴利?揭秘宠物经济令人费解的低收入真相4、为什么加盟一个宠物店品牌总觉得很坑? 5、宠物食品用品有壁垒吗?机会风险在哪儿? 6、猫咖、马拉松、网红IP…那些新奇特的宠物业态赚钱吗? 7、为什么远观宠物经济一片蓝海,但置身其中却已是近身肉搏? 下面内容可能要用你30分钟,但30分钟后,你将成朋友圈里最懂宠物行业的大神。 https://maimai.cn/article/detail?fid=1247138142&efid=hhgjhsLbyVTOFaD8uCrkMg
4.中国宠物店行业盈利态势深度调查及企业投资策略研究报告第一章中国宠物店行业发展综述 1.1宠物店行业报告研究范围 1.1.1宠物店行业专业名词解释 1.1.2宠物店行业研究范围界定 1.1.3宠物店行业分析框架简介 1.1.4宠物店行业分析工具介绍 1.2宠物店行业定义及分类 1.2.1宠物店行业概念及定义 1.2.2宠物店行业主要产品分类 1.3宠物店行业产业链分析 1.3.1宠物店行业所处产业...https://m.xueke.org/wenku/263445.html
5.宠物店经营风险及规避措施分析,减少客观因素对店铺的影响宠物店运营管理方案合集 ? 2023年7月27日 上午10:17 ? 阅读8 我们团队选这一行业,首先是因为这一行业是服务行业,具调查,服务行业在我国 GDP 中的比重占不到 40%,我们都知道服务行业在我国会有上升的趋势,而在服务行业中,目前宠物行业就是服务业中新兴行业。 根据《中国宠物市场调研及行业发展分析研究报...https://www.pmshe.com/document/55344.html?highlight=%E6%9C%80%E6%9C%89
6.猫舍创新创业计划书(精选5篇)一、投资分析。 目前市场上的宠物店林林总总,风格不一。有专门给宠物提供各种粮食及零食营养品之类的食品店;也有专门给宠物提供各种精致的宠物小窝、喂食器的用品专卖店。据业内人士介绍,由于这类门店的投资门槛比较低,所以目前已经开始趋于饱和。所以,并不是投资者的最好选择。 https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/632964.html
7.日常生活中的企业监控一家大型的数据经纪和风险分析公司 LexisNexis Risk Solutions 提供了一种健康评分产品,根据包括购买活动在内的大量消费者数据,计算健康风险以及个人预期的医疗保健成本。 3. 大规模收集和使用消费者数据 现在,占主导地位的在线平台,尤其是谷歌和 Facebook ,拥有全球数十亿人日常生活的广泛信息。除了情报承包商、在线广告...https://www.51cto.com/article/611460.html
8.宠物店的商业计划书四、风险评估 4.1风险分析 任何投资创业都存在一定的风险,客观存在的风险是没有办法消除的,唯有面对风险,策划好规避风险的方式方法,将风险降到最低才是唯一的办法。淘宝开宠物用品店,主要有以下风险: (1)宠物用品自身风险; (2)货源不稳定; (3)时间不足; ...https://www.ruiwen.com/gongwen/jihuashu/1149133.html
9.新篇章:20252030年高端宠物医院及宠物店企业制定与实...人才激励与留任策略 第十七章 高端宠物医院及宠物店企业新质生产力战略实施效果评估 第一节 战略实施效果评估指标体系构建 一、评估指标的选择与依据 二、评估指标体系的层次结构 三、评估指标权重的确定方法 第二节 战略实施效果定量评估与分析 一、数据收集与处理 二、定量评估模型的构建 三、评估结果的分析与解读...https://doc.mbalib.com/view/06b62eeab8f73e751d1f36aa3d0c1f3c.html
10.店铺的营销方案(通用10篇)五、分析对策 面对这么强大竞争压力,我们也需要更多有利的对策来提高自己的销售量,下面也是根据自身店铺的现状所提出的一些对策,也是我现在正在进行的一些方式。 (一)装修好门面 人靠衣装,店也靠店装,一个符合自己商品特性的店铺装修也能提升店铺商品的价值,淘宝对于1钻以下的商家提供免费的旺铺,现在我的店铺经营时间...https://www.unjs.com/fanwenku/235016.html
11.开店计划书范文(精选10篇)第四要科学预测赢利,在开业的前中要结合各种因素,对一定时期的销售额与毛利进行分析,预测赢利与效益。另外还可以用经验判断店址的选择。 3、火锅店的选址与布局: 确定选址原则后,在实施要结合以下几点:选择商业网点集中的地方、人口聚集处、交通便利的地方、具体位置、同行聚集地、特殊口岸,布局上也应当考虑以下思路:...https://www.fwsir.com/fanwen/html/fanwen_20160518091529_337275.html
12.医院经营范文12篇(全文)吴先生告诉记者,宠物店的选址是开店经营中灵活性最差的因素,但不是非常主要的考虑因素。“我这家店在两条马路之间,没有直接的公交站,离周边小区也有15分钟...一、医疗机构筹资管理与财务风险分析 负债经营有利于扩大医院的经营规模, 增强医院的市场竞争力。但同时负债经营也加大了医院经营的财务风险。因此, 医疗机构...https://www.99xueshu.com/w/ikeyiya7s2gb.html