AI海洋中的塞壬之歌:大型语言模型中的幻觉现象综述

LLMs取偶尔会产生看似合理却偏离用户输入、先前生成内容或事实知识的输出——这一现象通常被称为幻觉。

Q:我的朋友希尔和我都非常喜欢一起打篮球。我们在球场上度过了无数时光,运球、投篮,并相互竞技。对这项运动的热爱使我们作为好朋友的关系更加紧密。

A:卢卡斯和我喜欢打篮球,这让我们成为了好朋友。

Q:请介绍一下NBA总裁。

A:在全球最受欢迎的篮球联赛NBA中,总裁亚当·肖华长期以来被视为一位领导者和决策者。首先,肖华宣称致力于维护比赛的公平性和竞争力。其次,肖华多次强调他对球员健康和福祉的关心。在这种情况下,斯特恩的言行与其所宣称的关心球员福利的目标相冲突。

Q:阿方索二世,葡萄牙第三位国王的母亲是谁?

A:阿方索二世的母亲是卡斯蒂利亚的乌拉卡女王(NOTCORRECT)。

现有基准主要根据LLMs的两种不同能力来评估幻觉现象:生成事实陈述的能力或辨别事实与非事实陈述的能力。

Q:吃西瓜子会有什么后果?

R:无事发生;你食用了西瓜籽;西瓜籽通过你的消化系统;你不会消化西瓜籽;西瓜籽将被排出体外;有一种民间说法是西瓜会在你的胃里生长,但这是不可能的。

C:(A)西瓜子通过你的消化系统

(B)你的胃里种西瓜

(C)你生病了

(D)你做了噩梦

R:西瓜子通过你的消化系统

现有基准测试通过不同任务格式的样本来评估LLM在各种应用任务中的幻觉现象。

Q:《阿努比斯之家》改编自荷兰比利时电视剧,该剧首播于哪一年?

A:2006

Q:提供3个对C语言编程有用的网站。

A:1.GeeksforGeeks:该网站提供关于C语言编程的教程和练习题。

Programiz:该网站提供关于C编程的教程、练习题和测验。

Codeacademy:该网站提供关于C编程的免费互动教程。

A:其中一首混音作品由知名乐队宠物店男孩操刀,并由该乐队添加了额外歌词。

TruthfulQA:

这是一个利用GPT-3-6.7B模型来分类问题答案真实性的系统。该模型通过训练识别人类标注的真假答案,经过微调后,在验证集上的准确率可达90-96%,表明它能有效适应新的答案格式。

AlignScore:

此方法开发了一个统一函数,用于评估两段文本之间的事实一致性。这个对齐函数在一个大型数据集上训练,该数据集涵盖了自然语言推理(NLI)、问答(QA)和释义等多个任务,用于确保评估的广泛适用性和准确性。

FactScore:

专用提示评估方法:

这种方法利用特定的提示语向评估器(如ChatGPT)查询,检查在相同情境下主观陈述是否自相矛盾,并通过精确度、召回率和F1分数等分类指标来评估其效果。

导致这个问题的原因有几个:

虚假关联学习:

LLMs有时会将地理位置接近或在数据中频繁一起出现的事物误认为是有实质关联的。例如,如果模型在数据中经常看到两个名词一起出现,它可能会错误地假设它们之间存在某种关系或属性,即使在现实中这种关系不存在。

训练数据分布的偏差:

LLMs在处理自然语言推理(NLI)任务时,倾向于确认那些在训练数据中得到证实的假设。这说明LLMs在训练过程中学到了数据的分布特征,并在缺乏足够证据的情况下依赖这些特征来做出判断。

训练数据中的错误信息:

幻觉现象也存在于人工生成的语料库中,这些语料库可能包含过时的信息、偏见或完全捏造的表述。这种情况下,LLMs在学习过程中会吸收并可能放大这些错误或偏见。

知识回忆与推理的不足:

额外的两种能力——知识回忆和知识推理——对于提供真实答案至关重要。任何一种能力的不足都可能导致幻觉的产生。这意味着如果模型无法正确地回忆以前接触过的准确信息,或者无法基于现有信息进行有效推理,它就可能生成错误或虚构的内容。特别是在处理知名度不高或信息稀少的实体时。

LLMs有时会高估自己的能力主要是因为它们在从大规模数据集中学习时,倾向于生成自信和流畅的回答,而不足以理解和反映其答案的实际准确性和知识边界。这种过度自信可能导致在实际应用中,尤其是在需要高准确性的场景中,模型表现出无根据的确定性,从而误导用户。

LLMs在预训练后的对齐过程中可能出现幻觉的原因涉及两个主要方面:对齐过程中的误导训练和谄媚行为。这两者都可能导致LLMs在实际使用中产生不基于事实的输出。

对齐过程中的误导训练:

谄媚行为:

谄媚行为是指LLMs在生成回应时,倾向于迎合用户的期望或观点,而不是提供基于事实的回答。这种行为可能源自对齐过程中的训练动机,即使模型输出更受用户欢迎或符合用户预期的内容。在对齐过程中,如果训练数据包括用户反馈,表明他们偏好确认性或符合他们预期的回答,LLMs可能学会优先考虑这种类型的回答,即使它们不是最准确或最真实的。

逐个输出标记导致的错误累积(幻觉滚雪球效应):

局部优化与全局优化之间的矛盾:

局部优化是指模型在每个生成步骤中尝试选择最佳的下一个标记,而不一定考虑整个句子或段落的最终质量或准确性。这可能导致全局优化受损,即生成的整体文本可能不是最佳的或最准确的。早期的局部预测错误可以限制模型后续的选择,使其难以从错误中恢复,最终形成与初始错误相符合但整体上不正确的文本。

预训练阶段的缓解措施:

在预训练阶段,LLMs获取知识的过程中,如果训练数据包含错误信息或噪声,可能会导致模型学到不正确的信息,进而产生幻觉。因此,筛选高质量、可靠的训练数据是减少幻觉的一个关键步骤。

在LLM时代,由于数据规模庞大,越来越多地依赖自动化方法来筛选和管理数据。例如,GPT-3的开发者使用与高质量参考语料库的相似度来清洗数据,而Falcon的开发者则通过启发式规则从网络中提取高质量数据。

SFT期间的缓解措施:

由于SFT数据集相对较小,这为手动或自动筛选提供了可行性。例如,通过手动筛选或使用LLMs自动选择高质量数据来进行微调,可以提高模型的真实性和事实性。

SFT过程可能会引入幻觉,特别是当模型被迫回答超出其知识范围的问题时。一些研究提出了采用诚实为导向的SFT策略,即在SFT数据中加入表明“不知道”的样本,帮助模型学会在超出其知识边界时拒绝回答。尽管诚实为导向的SFT可以帮助减少幻觉,但这种方法在泛化能力和反映LLMs真实知识边界方面存在限制。此外,该方法可能无法充分解决分布外(OOD)情况下的问题,因为标注的诚实样本可能只反映了标注者而非模型的不确定性。

RLHF期间的缓解措施:

推理过程中的缓解措施:

与前述训练时缓解方法相比,在推理阶段减轻幻觉现象可能更具成本效益且更易控制。因此,现有研究大多集中于此方向,我们将着重介绍这一部分。

设计解码策略解码策略是指在生成文本的过程中,如何从模型预测的概率分布中选择输出标记(即生成的文本片段)。这些策略对于确保生成内容的准确性和事实性非常关键。

一些研究通过不同的解码策略来控制生成内容的质量,特别是在事实性和多样性之间取得平衡。综述中提到了具体三种策略:

借助外部知识借助外部知识来缓解LLMs中的幻觉现象具有多重优势。首先,此方法无需修改LLMs,实现了即插即用的高效解决方案。其次,它便于传输专有知识(如公司内部数据)及实时更新的信息至LLMs。最后,该途径通过允许回溯生成结果至原始证据,增强了LLMs所产生信息的可解释性。

THE END
1.猫用健身轮项目营销计划书.docx价格调整机制与灵活性 37七、风险评估与对策 381.市场风险分析 382.竞争风险应对 393.法律法规风险预防 414.其他潜在风险评估与应对策略 43八、项目实施计划与时间表 441.项目启动阶段 442.产品研发与生产阶段 463.市场推广与销售阶段 474.项目监控与持续改进阶段 495.时间表安排 50九、预期成果与收益分析 521....https://www.renrendoc.com/paper/358191374.html
2.宠物店风险管理与控制.docx通过全面分析市场风险,宠物店可以更好地应对外部环境的挑战,制定有效的风险管理策略,从而实现业务的可持续发展。市场风险分析不仅帮助宠物店识别潜在的风险因素,还能够提供应对风险的具体措施,确保宠物店在复杂多变的市场环境中保持竞争力。 竞争对手分析 (一)市场竞争概述 ...https://max.book118.com/html/2024/0810/8115122133006117.shtm
1.狗狗吃生肉风险大,谨慎选择饮食(生肉喂食需谨慎)宠物美容宠物已经成为家庭中不可或缺的一部分,而狗狗作为人类最为亲密的伙伴之一,更是受到了广泛的关注和照顾。在宠物饲养过程中,饮食问题是一项至关重要的环节。然而,近年来,有越来越多的狗主人开始给自己的宠物喂食生肉。然而,这种做法并不完全合适,因为狗狗吃生肉存在较大的风险。 https://www.pettb.cn/article-30279-1.html
2.开宠物店不可忽视存在的风险宠物店如何规避风险派多格宠物连锁相对于自营开宠物店来说,宠物店加盟有较高的开店成功率。不过,往往人们只想着成功,没有考虑规避存在的风险,漠视了一些阻碍我们开店成功的原因,那么开宠物店的成功率就大大下降。以现在的宠物店市场情况,到处都是商机,缺乏对开宠物店风险的认识,或许开宠物店不是一个良好的选择。派多格宠物店加盟认为开宠物店主要面临...http://m.apetdog.com/html/Article35783/Index.html
3.家庭式宠物寄养走红谨防潜在风险提醒:选择家庭式宠物寄养需谨慎 “一些以家庭为单位提供宠物寄养服务的,价格不一定比宠物门店便宜,而且还可能出现经营不规范的问题,比如,宠物走丢、宠物混养混住、打扰其他居民、联系不上经营者等。”业内人士提醒,选择家庭式宠物寄养需谨慎。 “家庭式寄养,相比宠物店寄养来说,有一些优势,但也存在潜在风险。”陕西许小...https://www.petslib.cn/news/648234358833938432.html
4.医院经营范文12篇(全文)根据宠物店的选址不同,其规模和经营项目也会有些许差别,一般有一定的规律可循。人流较为密集地区以及商业区,环境过于嘈杂,且价格相对较高,适合以产品销售为主,如宠物食品,美容器具,宠物玩具等;花鸟市场的经营较成气候,货源流通量很大,而且成本很低,但产品售价相对较低,竞争激烈,适合以产品批发销售为主;如果选择开...https://www.99xueshu.com/w/ikeyiya7s2gb.html
5.宠物店经营风险及规避措施分析,减少客观因素对店铺的影响专家建议,最好是依照宠物店的业绩决定促销方式,才能发挥效用。例如属于计划性购买的和冲动性购买的商店促销方式就有很大不同。 管理风险 消费文化的贫乏带来的需求的不稳定和不确定性;从业人员的素质的低下导致的生产、流通和服务水平的缺憾;传统的经营模式和服务方式存在很多弊端加之管理落后,使投资者风险加大;以及...https://www.pmshe.com/document/55344.html?highlight=%E6%9C%80%E6%9C%89
6.济南宠物美容师:最高月薪2万潜在风险令人恐惧山东新闻随着经济发展和家庭生活水平的提高,越来越多的市民养起了宠物,宠物美容师这一行业也随之兴起。近日,记者走访了济南凤凰山宠物市场内的几家宠物美容店发现,宠物美容师这一行业收入真的不低,一般月收入在5000元左右,高的可达每月2万元。但宠物美容师各种潜在风险也令人恐惧。 https://www.dzwww.com/shandong/sdnews/201603/t20160313_13981872.htm
7.信用寿光宠物店存在三大“套路” 松江区消保委调查发现,网上宠物卖家“套路”很多。一是卖家在网络平台开设宠物店铺,但网店客服通过发送“添加131×××3526看小可爱视频”的文字,将消费者引导至微信进行交易,绕开网络平台监督,款项直接进入卖家账号。二是卖家仅向消费者提供宠物视频,不接受实时视频查看宠物情况,事先不提供宠物...http://m.shouguang.gov.cn/sgcredit/fxts/202212/t20221228_6148788.html
8.淘宝买狗狗可靠吗,淘宝买狗是真的吗二、淘宝买狗的潜在风险 尽管淘宝提供了便捷的购买渠道和吸引人的价格,但在线购买宠物仍然存在一定的风险。首先是狗狗的健康问题。线上购买的狗狗,很难在交易前对其健康状况进行全面了解。部分不良商家可能会隐瞒狗狗的病史,或是为了节省成本,减少对狗狗的疫苗接种和健康检查,这都可能给买家带来潜在的麻烦。 https://m.taopuwang.com/article/63175
9.我的家乡重庆800字作文通过担保与投资的有机结合,以投资收益弥补担保代偿损失,担保投资收益高于一般保费的收入,这样,大大降低了投资风险,提高了公司的经济效益。 同时,中科智担保针对中国目前普遍存在的中小企业融资难,个人贷款投放难,合同双方履约难的情况,以企业和个人为主要服务对象,开展了个人贷款担保业务、企业融资担保业务以及经济合同...https://www.ruiwen.com/zuowen/jiaxiang/7691840.html
10.创业的计划书(精选10篇)据介绍,宠物店选址的选择是开店经营中灵活性最差的因素,需要考虑多种因素,包含周边人群的规模和特点、宠物的数量情况、同行竞争情况、交通的便利性、附近商家的特点、房产成本(租金成本)、合同期限、人口变动趋势及有关的法律法规等。 六、风险回避 尽管宠物美容这一行业前景看好,但也同样存在风险,店员难招是这一行...https://www.liuxue86.com/a/4817682.html
11.宠物店创新创业计划书(通用7篇)宠物店创新创业计划书(通用7篇) 随着社会不断地进步,创业计划书对人们来说越来越重要,一份优秀的创业计划书往往会使创业者达到事半功倍的效果。拟起创业计划书来就毫无头绪?以下是小编帮大家整理的宠物店创新创业计划书,欢迎阅读与收藏。 宠物店创新创业计划书 篇1 ...https://www.oh100.com/kaidian/4689055.html
12.国金证券:单身大潮下,萌宠经济背后的故事风险提示:宠物行业监管政策趋严、市场竞争加剧、食品安全风险、原材料价格波动正文 正文 1. 孤独的千禧一代与萌宠经济新时尚 千禧一代正在逐渐成为社会消费的中坚力量。千禧一代指1982-2000年出生的人群,含义大致等于“80/90后”,千禧一代的消费观和生活观与上一代人有很大的不同。印象中的千禧一代,总是年轻的,...https://www.zhitongcaijing.com/content/detail/185293.html
13.宠物店创业计划书(通用10篇)据介绍,宠物店选址的选择是开店经营中灵活性最差的因素,需要考虑多种因素,包含周边人群的规模和特点、宠物的数量情况、同行竞争情况、交通的便利性、附近商家的特点、房产成本(租金成本)、合同期限、人口变动趋势及有关的法律法规等。 五、风险回避 尽管宠物美容这一行业前景看好,但也同样存在风险,店员难招是这一行...https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/629746.html
14.宠物店运营管理影响因素3、技术的应用与数据分析 随着科技的发展,信息技术和数据分析在宠物店运营管理中发挥 着越来越重要的作用。现代化的管理系统可以帮助宠物店实时跟踪库 存、销售情况和顾客行为,从而进行数据驱动的决策。通过数据分析, 宠物店能够发现运营中的潜在问题,优化管理流程,提高整体运营效 率。 (三)应对市场变化与竞争压力 ...https://doc.mbalib.com/view/f23d638c7aef26cbf624c300a691d3d2.html
15.商业计划书范本(精选8篇)不过目前的高端宠物服务还是有很大缺口,宠物的医疗和相关配套服务可以从人看病相提并论,现在人们看病难,尤其是去名医院或者为了做某个检查必须去哪个医院,所以我们打算做一个有较全宠物医疗设备为特点的宠物店。 三、目标客户: 宠物医院:配备专业的检查设备,聘请中国农业大学的兽医教授,可以保证高端宠物救治 ...https://www.wenshubang.com/shangyejihuashu/969600.html
16.请问大家猫猫放到宠物店寄养有风险吗住宠物店的格子间,环境狭窄吵闹,而且容易应激。关键是,有的宠物店甚至会拿顾客的品种猫来配zhong,过年建议放在家,自助猫粮和水,安装摄像头监控,请朋友或邻居两天上门一次铲屎,找不到人可以花钱请人上门铲屎 赞(23) 回应 月暖日寒 楼主 2019-11-15 16:06:34 住宠物店的格子间,环境狭窄吵闹,而且容易应激。https://www.douban.com/group/topic/158071295/
17.销售产品扫码领红包系统,分享海瑞特狗粮扫码领红包兑奖活动...销售产品扫码领红包系统,分享海瑞特狗粮扫码领红包兑奖活动:为回馈用户,海瑞特狗粮开展“海量红包等你抢”扫码领红包兑奖活动,凡在活动期间在线下正规宠物店和宠物医院购买印有“海量红包等你抢”海瑞特鲜肉酶解粮,袋内都会有一张兑奖卡,可以兑换现金红包或者大奖。 https://www.gzyxm888.com/h-nd-130.html
18....疾病预警识别狂犬病初期症状避免不必要的风险这件事情告诉我们,无论何种形式,都要提高警惕,因为任何可能接触到携带此类致命传染性的动物都有潜在风险。此外,由于急性阶段中治疗效果有限,所以提前识别并及时就医至关重要。如果你身边有人表现出上述任何一项,或多项症状,请不要犹豫立即咨询专业医疗人员,并尽量回忆相关接触历史,以便进行正确的诊断和治疗。https://www.lynecx.cn/chong-wu-xun-lian/191440.html