人工智能价值对齐的哲学思考|价值嵌入与价值对齐:人类控制论的幻觉人工智能新浪财经

吴静,南京师范大学公共管理学院哲学系教授、博士研究生导师,南京师范大学数字与人文研究中心主任

在大模型技术狂飙突进的今天,随着数据规模和算力的不断提高,以及模型调整对于场景-价值多元化的适应,人工智能的性能持续跃迁,涌现不再是偶发的技术意外,数智应用的泛化性、通用性和界面友好性都有了质的提升,成为架构人类社会发展当之无愧的技术基底。如何建设安全有效的数智设备,避免人工智能因其自身的技术特征或外在原因的滥用产生危及人类的后果,已成为AI行业研发和应用过程中的核心议题之一。一方面,数智技术的全面嵌入和良好的交互性使得用户对人工智能的期许和信任度不断推高;另一方面,可解释性陷阱的存在以及技术-社会两者发展逻辑在本质上的异质性使得“AI威胁论”从未真正消失,对AI可能带来的风险和挑战进行防范的研究方向之一就是探索引导和操控“超智能”AI系统的新方法。其中的一种路径就是通过价值对齐的方式确保人工智能追求与人类价值观相适配的目标,敦促AI以对人类和社会有益的方式行事,不侵害人类的价值和权利。

这无疑是一个看起来很美好的目标。它寄希望于在意图和价值观方面对人工智能进行“类人驯化”,以使其达到从意义上理解人类行为和选择并予以遵从的目的。简单来说,就是使建立在庞大的、多元化数据集基础上的大模型预训练结果既合法又合乎道德。从业界在这方面的努力来看,2023年7月,AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队,这个超级对齐团队(superalignment)的目标是在4年内让超级AI系统实现价值对齐和安全。为此,OpenAI承诺将投入20%的计算资源用于对齐超级智能,而项目的核心则是训练出一个大致与人类智识水平相当的AI自动对齐研究员,再借助自动对齐研究员找出对齐超级智能的方法。除此之外,谷歌、微软等公司也都纷纷跟进,成立了类似团队,将价值对齐作为寻求人工智能安全性和一致性的重要途径之一。一时之间,价值对齐的口号风头无两。

2024年7月,OpenAI宣布解散超级对齐团队。表面上看,这是OpenAI内部发展不同方面优先级之间竞争失衡和资源分配的结果,但从另一个角度也展现出价值对齐的推进难度。然而,笔者的目的并不在于从技术角度解析现有的价值对齐工具的有限性及其模型风险,而是躬身进入价值对齐理念背后的技术观,揭示其潜在的控制论色彩,解读它所可能导致的对于人机关系的狭隘误读,进而在技术哲学批判的基础上探究它所面对的挑战。因为,恰恰只有抛弃简单乐观的价值移植,重回技术-社会自身发展逻辑,直面其复杂性,才有可能在数智高速飞跃的时代重新为人工智能的发展划定边界和准则,并建构起新型的人机交互和融合的健康模式。

一、“科学”与“价值”的虚假对立:人工智能责任的不对称性

就某种意义而言,这种对立倾向是技术崇拜意识形态的延续。自近代以降,当自然科学从整体性的学术体系中分离出来之后,“科学”与“社会”就被置于严格二分的状态中。长期以来,人们理所当然地认为,科学事实和其所言说的对象性实体作为自在之物,在被科学家发现之前就存在于这个世界上,任何社会的、文化的、意识形态的因素并不能影响或改变其存在。正因为如此,与后者的易变性和价值的情境性不同,科学排除了价值判断,呈现出“中立”和“客观”的超然。“在理性的控制之下引起人与自然物质转换的某种全球统一社会秩序形成的可能结构”,科学意识形态正是担当了这种提供连续性的秩序基础。马克斯·舍勒将实证科学及其结果与形而上学及宗教知识看作平行且分离的两个互不干扰的领域,认为后者是终极目标和价值旨归。

如果遵循这一路径来探讨价值对齐问题,就不难发现其话语背后隐藏着深刻的人类中心主义的控制幻想。价值嵌入和价值对齐的说法假设了一种整体性解决的方案,它将对(假想的)去道德化的人工智能进行拯救的责任赋予人类,相信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则,而全然忘记了不但算法的设计本身就带有伦理性,人类同时也在被数字技术和人工智能设备所改变。

可见,人工智能技术从来不是一个独立于人类智能之外的系统,相反,它从开发、形成到测试及至运用的整个过程都浸润在人类的行为和经验之中。这些经验和事实未必只受到数字化或互联网的左右,它们是人类社会内部所包含的历史、文化、习俗乃至偏见或冲突的投射。完全“责任主体”的认定在人工智能技术的实施过程中难以确定,这也就使得价值“嵌入”或“对齐”的目标是否可以通过研发团队一揽子解决本身就是存疑的。从结果上来看,当谷歌试图为确保Gemini避免过去图像生成技术的陷阱而进行调整时,显然因为某种忽视而造成了过度输出或过度保守的后果。

当然,批评这一点并不意味着人工智能系统本身不存在与人类社会价值取向不一致的地方。事实上,数据技术逻辑与人类社会逻辑本质上存在着极大的异质性。这里既有具有规律性的可压缩的数据信息流和具有混沌性的不可压缩的经验信息流之间的区别,也有技术理性的效率原则、增长伦理和人类价值体系之间的差异,同时还关乎对于可能因此产生的社会风险的界定和判别方式。经由这些复杂性因素而建立起的关联,实在难以被纳入价值嵌入或价值对齐的框架。

二、价值对齐:赛博乌托邦的控制论话语

菲利普·K.迪克在《仿生人会梦见电子羊吗》中描写了一个人性与非人性追逐与转化的故事。在男主人公里克对仿生人的追捕中,他所依赖的辨别依据是移情测试。因为人们相信移情是人类与仿生人之间的唯一差别,其原理是人类的群体本能所导致的情感投射,会对除自己以外的生物产生关爱。仿生人作为“独居的捕食者”,无法体会甚至无法假装出这种情感。这种预设出来的对立有其内在逻辑上的悖论:人类的移情反应被相信会投射到动物身上,但却不包括仿生人,尽管后者在外形上和人类一样,甚至也可以在其他方面表现出与人类相似的行为。这也就意味着,作为人性核心特征的移情能力既排除了仿生人作为其对象,也杜绝了被仿生人获得的可能。仿生人作为人类智能科技发展的卓越成果(甚至可以实现对仿生人的记忆植入),却在大前提上被设置了一个禁区。探究其背后真正的原因,可以发现,人类制造他们本来就是为了奴役,对仿生人的移情将使得工具式的利用和猎物式的追捕难以进行。可见,从心理层面来说,制造移情“缺位”不是因为技术的障碍,而是出于奠定人类的优越感和控制感。一个缺乏移情的行动体无论怎么与人相似,都因为没有“人性”(移情)而丧失被平等对待的资格。

科幻小说的结局并非如好莱坞同类电影那样以智能人发展出移情/情感作为大团圆式的融合,相反,菲利普·迪克表达了传统人工智能叙事中对关于人机差别和共生的、想象贫乏的质疑和不满。其根源在于“人工智能威胁论”的恐惧被反转式地改写为对其进行奴役的故事。在这个意义上,小说开始处关于仿生人在火星的劳作状态的描写也不难被解读为早期殖民主义的科幻版。仿生人被人类主体放置于移情共鸣的对象之外的时候,“他们”成为不予考虑的他者,被悬置性地排除在人类情感-价值体系之外。这和数个世纪之前发生在性别话语以及更早的种族话语中的情形是同构的。因此,如果把《仿生人会梦见电子羊吗》看作带有反殖民控制色彩的文本,就可以从中看到价值对齐论真正的问题所在。

三、直面人机系统生态:从具身认知到开放性网络

人工智能日益广泛的应用,在日常生活领域悄无声息地掀起了一场革命,无数的在线服务和应用程序将处于不同地区的人类基本活动的每一个细节联系起来,不但几乎所有的社会关系被在线技术重构,而且同时伴随的还有一些关系的消亡和另一些新型关系的形成。作为数字实体运营的网络平台拥有的活跃用户数量有可能超过很多国家的人口。然而,与这种技术上的连续性形成鲜明对照的是,观点、价值、立场的多元化和冲突也更加以显性的方式得到展现,它们甚至超越了前数字时代的地缘界限。“聚集在流行网络平台上的大量用户群体比政治地理意义上的群体边界更为分散,而且网络平台运营主体的利益可能与国家利益产生分歧”。人工智能装置的出现只是在已经足够复杂的多元化和冲突之间增加了一些新的维度而已,技术的连续性从来就不是也不可能是价值一致性的形式保证。

尽管数字理性本身具有基于技术特征而呈现出来的共性,但它和复杂的人类价值体系仍然处于不对称的状态,因此,希望对人工智能实现基于技术连续性的价值一致性改造本身是难以实现的。这涉及人工道德的想象和设计的问题。即便是在激进科幻小说中,建立一种普遍性的人工道德不但是难以令人信服的,也是在伦理上被诟病的。仅有的实践性尝试也只限于在电子游戏和特定的虚拟现实中,因为这两者的设置都是抽离了一切复杂性的环境简化,并且也不需要随着环境的改变做出判断适应。但真实的数字环境哪怕是在最基本的条件下也必须处理诸如有偏见的数据、算法不透明以及奖励功能无法表征复杂的伦理规范等问题。即便有学者提出以强化反馈学习的机制、允许机器通过观察人类的实际行为来内化偏好模式从而采取行动的方式,也依旧不能打破以偏概全的数据鸿沟。事实上,价值对齐所暗含的人类中心主义价值观早在生态主义理论中就引起了相当大的争议,环境伦理学家区分了以人类为中心的观点和以生态系统为中心的观点之间的差别。因此,相当多反对价值对齐的研究者对于人工智能实现对齐(姑且不考虑技术上的现实性)之后是否会造成生态灾难表示担忧。

反观人类自身的基于道德判断的行为,就会发现,具身认知和知觉能力是形成完整价值判断的基础。因为具身认知是有机体适应环境、对多种感觉刺激进行辨别并形成综合理解的活动,在此基础上形成的情感、道德和价值判断以及相应的行动和具身认知,是不可分离的。这种具身主义的观点对认知主义是一种否定。后者相信,人类的心智实际上是一种特殊的信息处理系统,可以理解为根据某些特定的逻辑规则或者某种形式的数理算法对于无意义的抽象符号所进行的计算;而具身主义则强调了身体及其感官系统的重要性,认为它们的特殊体验造成了认知和情感-价值判断的差异。

对此的一个佐证是对一些基于误判而出现的机器人事故的解读。各国都曾出现过机器人因将人体误判为作业对象而使其致残或致死的事故。这是“回形针假设”的现实版。究其原因,机器只根据预先的算法设计行事,而不是根据传感装置获得的对象的特殊信息进行判断。后者正是智能认知具身化的要求。事实上,早在1986年,布鲁克斯已经从控制论角度出发,强调智能是具身化和情境化的,他认为传统以信息表征为核心的经典AI进化路径是错误的,而要消除表征的局限性,就要制造基于行为获取信息的机器人。苏黎世大学人工智能实验室前主任罗尔夫·普菲弗与加拿大佛蒙特大学的乔希·邦加德则在合著的《身体的智能:智能科学新视角》一书中进一步提出,智能行为可以通过加强智能体的“身体”与外部环境交互的方式实现新的学习反馈机制,从而形成更能应对世界复杂性的智能。而在业界方面,英伟达创始人黄仁勋就曾在2023年表示,具身智能是能理解、推理,并与物理世界互动的智能系统,是人工智能的下一个浪潮。

结语

在技术的原初设定中,价值对齐作为一种人工智能治理方法,彰显的是技术设计者企图通过人类价值嵌入机器体系的方式获得更加可靠的人工智能产品的信心。然而,在面对技术-社会的复杂互动关系时,价值对齐却无法真正有效付诸实践。一方面,潜藏于价值对齐背后的人类中心主义的控制幻想假设了一种以人类现有道德水平和认知为基准的整体性解决方案,坚信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则。这无疑是一种人类在面对人工智能时的“造物主式”的傲慢。另一方面,围绕着价值观差异所引发的冲突、斗争等长久地存在于人类社会发展始终,历史性和多元性构成了价值观本身的特质。那么,在面对人工智能的治理问题时,人类何以能够空前地达成一种价值观念上的统一并将其附加于人工智能之中?如若不能,一种更加危险的趋势或许正酝酿于价值对齐的设计之中:人工智能技术的掌握者是否会以特定的价值实现对AI的“对齐”,进而诱使无所不在的人工智能产品以技术无意识的方式实现对人类群体的普遍性对齐?

因此,人工智能的价值对齐问题从本质上来说,既涉及对智能应用过程中出现的问题和风险的评估,也涉及对所谓“人类价值原则”及其规范可能的理解。后者至今仍然停留在争议之中,而前者则是整个社会的智能化转型所面对的挑战。今天,简单化的人机关系理解模式已经无法理解泛在的人工智能对人类社会的整体性重塑,在现有实践和未来趋势中,人机协作智能是进一步回答“人类如何面对人工智能时代到来”问题的基础性认识。人类智能和人工智能具有不同的特点和优势,这也就意味着人机协作和融合在不同的程度和场景中可以有个性化的应用。与单纯强调人工智能的超越性相比,协作智能的类型和开放性具有更广阔的前景和潜力。重新连通效率与公平、性能与价值、情境性与普遍性、全球性与地方性,这也是后人类知识图谱生成的方式之一。

参考文献

[1][加]威廉·莱斯.自然的控制[M].岳长龄,译.重庆:重庆出版社,)1996:6.

[2][法]布鲁诺·拉图尔.我们从未现代过:对称性人类学论集[M].刘鹏,安涅思,译.上海:上海文艺出版社,)2022.

[3][德]乌尔里希·贝克.风险社会——新的现代性之路[M].张文杰,何博闻,译.上海:译林出版社,2021:23.

[4][美]朱迪斯·巴特勒.身体之重:论“性别”的话语界限[M].李军鹏,译.上海:上海三联书店,2011:10.

[5]贾开,)赵静.技术嵌入、价值倾向与算法分类治理[J].经济社会体制比较,)2023(4):101-111.

[6]刘永谋.技术治理通论[M].北京:北京大学出版社,2023:579.

[7]郭全中,)张金熠.AI向善:AI大模型价值观对齐的内容与实践[J].新闻爱好者,)2023(11):19-24.

[8][印]阿卡普拉沃·包米克.机器意识[M].王兆天,李晔卓,译.北京:机械工业出版社,2023.

[9]RatoffWilliam.Canthepredictiveprocessingmodelofthemindamelioratethevalue-alignmentproblem[J].Ethicsandinformationtechnology,)2021,)23(4):739-50.

[11][德]彼德·斯洛特戴克.资本的内部[M].北京:社会科学文献出版社,)2014:275.

[12][美]亨利·基辛格,)埃里克·施密特,)丹尼尔·胡滕洛赫尔.人工智能时代与人类未来[M].胡利平,风君,译.北京:中信出版集团,2023:117.

[13]JamesGips.Towardstheethicalrobot[M]∥Androidepistemology.Cambridge,)MA:MITPress,)1994:284.

[14]吴冠军.从Midjourney到Sora:生成式AI与美学革命[J].阅江学刊,)2024(3):85-92.

THE END
1.中小城市流动摊贩管理的困境与对策研究公平理论的实践表明,高度重视保障民生,关心照顾弱势群体,提高收入水平,能够增强他们的公平感。王洛忠等人认为,对流动摊贩的管理要努力提高城市弱势群体的基本收入,为他们提供就业培训上岗的渠道,政策上给予免税、贷款的优惠。姜震在《街头摊贩占道经营治理的问题分析和对策研究》一文中,从人类需求层次理论、社会外部性等...https://m.wydbw.com/show.asp?Id=199217
2.75公平理论:绝对公平是乌托邦!墨菲定律欢迎收听蜻蜓FM墨菲定律专辑下的音频节目75公平理论:绝对公平是乌托邦!,主播:。在这里“75公平理论:绝对公平是乌托邦!”免费在线听,而且您可以下载蜻蜓FM,该音频节目对应墨菲定律mp3全集都可下载和收藏,随时随地在线收听。更多“75公平理论:绝对公平是乌托邦!”https://www.qtfm.cn/channels/323359/programs/13315846
3.属于顾客满意测评研究基础的是()。D 期望理论与综合激励理论 点击查看答案 第3题 下列哪个理论是建立在对努力——绩效——奖酬的研究? A.强化理论 B.公平理论 C.期望理论 D.双因素理论 点击查看答案 第4题 下列属于行为改造理论的是() A.需要层次理论 B.期望理论 C.双因素理论 D.强化理论 E.公平理论 点击查看答案 第5题 注重三种关系...https://m.shangxueba.com/ask/66624802.html
4.自考大专07481管理学基础总复习复习资料2、在管理理论创立与发展的早期,管理理论主要是沿着两个方向发展的:一是将科技成果应用于管理之中,而形成的(组织技术流派);二是强调人的作用,注重对人的行为与人群关系的研究,而形成的(人际关系流派)。 3、古典管理理论强调组织技术的作用,以提高(生产效率)和(组织的有效性)为目标。 http://www.mdgs-edu.com/fxzl/1730.html
1.当领导,公正比公平更重要领导者管理笔记公平与公正是管理者应记住的管理要诀 01 公正,即“公正地评价员工” 公正,共同的价值观是对员工做出公正评价的基础;为每个员工提出明确的、具有挑战性的目标和工作,是对员工绩效做出公正评价的依据。 公正比公平更重要 公平是处理冲突的最佳境界。但在实际工作中,管理者很难做到公平这一点,因为不同的人有不同的公...https://www.shangyexinzhi.com/article/22998829.html
2.公平公正可持续:人类计算的伦理原则约翰·罗尔斯的正义理论:罗尔斯提出了两个正义原则,即平等自由原则和差异补偿原则。这些原则提供了评估决策过程是否公正的框架。 德行论:德行论认为,公正性取决于个人的品德和行为,强调道德修养在决策过程中的作用。 结果论:结果论认为,决策的公正性取决于结果的公平性,即最终结果应尽可能公平。 https://blog.csdn.net/universsky2015/article/details/143670527
3.组织公平理论对高校教师激励的启示论文公平感是一种主观感受,每一个人的价值评判标准是有差异的,学校公平感的形成,最终取决于个人价值的优化。因此,要在全校内部营造公平、公开、公正氛围的同时,也要注重教师教育工作,引导其树立正确的公平观,鼓励提倡奉献精神,从而推动公平感的改善。 四、组织公平理论对高校教师激励的探索和讨论 ...https://www.yjbys.com/bylw/lunwenfanwen/154548.html
4.公平理论又称社会比较理论,它是美国行为科学家亚当斯提出来的一种...【单选题】公平理论注重的是() A. 程序公平 B. 分配公平 C. 过程公平 D. 评估公平 查看完整题目与答案 管理学>现代管理考试题目 【判断题】公平理论的公式是:IP/OP=Or/IR。() A. 正确 B. 错误 查看完整题目与答案 【多选题】行为科学理论的代表理论有: A. 人际关系理论 B...https://www.shuashuati.com/ti/c989f460249a4a1bbac1c32a8d760c6a.html?fm=bdbds963a2c7731b32823e0d787fdf1b3aece
5.管理心理学论文三、激励理论在企业中的应用 (一)薪酬和评价方案要科学合理 薪酬方案和绩效考评非常重要,可起到杠杆作用,有效激励员工投身于工作。因此,管理者制定目标合理与否尤为关键,应当考虑以下几点:①薪酬设计要突出绩效和技能,强调多劳多得、多才多得,按对企业贡献程度的大小制定不同的薪酬;②注重公开公平公正,避免制造矛盾,...https://www.unjs.com/lunwen/f/20220804130913_5391731.html
6.基于管理心理学视角的激励问题研究三、激励理论在企业中的应用 (一)薪酬和评价方案要科学合理 薪酬方案和绩效考评非常重要,可起到杠杆作用,有效激励员工投身于工作。因此,管理者制定目标合理与否尤为关键,应当考虑以下几点:①薪酬设计要突出绩效和技能,强调多劳多得、多才多得,按对企业贡献程度的大小制定不同的薪酬;②注重公开公平公正,避免制造矛盾,...https://m.lunwendata.com/show.php?id=106722
7.绩效作用(精选十篇)首先,分配公平促进员工对结果的满意。公平理论指出,组织成员很注重对其投入及产出的比值与参考对象相比较,若与参考对象比值相当,则认为公平,否则就认为不公平。如果是公平的,就会增强其对于结果的接受程度,从而乐意继续在工作中进行投入。由分配公平感所激发出来的对结果的满意会增加员工对于未来结果分享公平性的信心,强化...https://www.360wenmi.com/f/cnkey9v7q3s8.html
8.关于公平理论的说法,错误的是()中级经济师考试题库根据公平理论,不同的人对同样的情形会有不同的公平性判断。一般说来,薪资水准、教育水平较高的员工,视野较为开阔,依据的信息比较全面,常常以他人为比较对象,进行横向比较;而薪资水准、教育水平较低的员工则常常做自我的纵向比较。 您可能感兴趣的试题 https://www.bkw.cn/tiku/wX8kw.html
9.《墨菲定律》公平理论:绝对公平是根本不存在的乌托邦世上没有绝对的公平,公平永远是相对的。所以对于我们个人来说,不要刻意去为点滴的不公而大动干戈,也不要为过于追求效率而无视施加于大家头上的不平等。一个优秀的团体,总能做到效率与公平的兼顾,并知道何时需要注重公平,何时需更注重效率。同样,一个聪明的人在处理事务时,也总会在公平与效率之间找到完美的平衡点...https://www.jianshu.com/p/f284f2ad6be6
10.激励理论在管理中的应用10篇(全文)近年来激励理论的整合模型发展主要有: (1) 期望理论与目标设置理论加以整合 (G a r l a n d 1 9 8 4, Lockeetal1984) ; (2) 洛克借Bandula的“自我效能”概念, 于1991年提出包括期望、目标及自我效能知觉的最新聚合模型等等。 二、公平理论和激励理论在企业薪酬管理中的应用...https://www.99xueshu.com/w/filemnnmnepg.html
11.激励理论在公共部门管理的应用激励因素主要包括认可、成就、发展、责任等内在因素,本质是注重工作本身的内容,借此提高工作效率,促进人的进去心,起到持久的激励作用。 (三)亚当斯的公平理论 公平理论是美国行为科学家亚当斯在《工人关于工资不公平的内心冲突同其生产率的关系》、《工资不公平对工作质量的影响》、《社会交换中的不公平》等著作中提出...https://www.wenshubang.com/gonggongguanlibiyelunwen/432039.html
12.社会心理学笔记2.公平理论 : 主要观点:工作动机不仅受到绝对报酬的影响,而且受到相对报酬的影响,人们倾向于把自己的待遇与他人/自己过去工作待遇相比较,出现任何不公平性都会带来心理上的不平衡,从而产生激励意义。 : 分配公平:薪酬数额分配的公平性 : 程序公平:薪酬或其他结果的决定方式公平性 ...https://www.douban.com/note/758152516/
13.管理学概念汇总61.双因素理论 ①能消除人们不满情绪的因素叫做保健因素;②能产生工作满意感的因素叫激励因素。 62.期望理论 ①在预期自身行为将有助于实现某个目标的情况下,人们将受到激励而去做某些事,以实现这个特定目标;②激励力=效价×期望值。 63.公平理论 公平理论认为一个人在自己因工作或做出业绩而取得报酬后,并只关心...https://www.haomeiwen.com/subject/oyrfrktx.html
14.公平理论的基本内容(2) 人们的评估是把自己的境况和他人进行比较 , 从 而判 断自己的境况是否公平。 人们将他们的遭遇和他 人的作比较 , 这影响 着他们对公平性的看法。2. 公平理论的模型。公平理论认为 ,个人在 组织中注重的不是他所得 到的报酬的绝对值 , 而是 与别人比较的相对值。 人们往往喜欢与他人 进行比较,并对...https://m.renrendoc.com/paper/189048393.html