人工智能价值对齐的哲学思考｜价值嵌入与价值对齐：人类控制论的幻觉人工智能新浪财经|公平理论注重的是_宠物酒店

吴静，南京师范大学公共管理学院哲学系教授、博士研究生导师，南京师范大学数字与人文研究中心主任

在大模型技术狂飙突进的今天，随着数据规模和算力的不断提高，以及模型调整对于场景-价值多元化的适应，人工智能的性能持续跃迁，涌现不再是偶发的技术意外，数智应用的泛化性、通用性和界面友好性都有了质的提升，成为架构人类社会发展当之无愧的技术基底。如何建设安全有效的数智设备，避免人工智能因其自身的技术特征或外在原因的滥用产生危及人类的后果，已成为AI行业研发和应用过程中的核心议题之一。一方面，数智技术的全面嵌入和良好的交互性使得用户对人工智能的期许和信任度不断推高；另一方面，可解释性陷阱的存在以及技术-社会两者发展逻辑在本质上的异质性使得“AI威胁论”从未真正消失，对AI可能带来的风险和挑战进行防范的研究方向之一就是探索引导和操控“超智能”AI系统的新方法。其中的一种路径就是通过价值对齐的方式确保人工智能追求与人类价值观相适配的目标，敦促AI以对人类和社会有益的方式行事，不侵害人类的价值和权利。

这无疑是一个看起来很美好的目标。它寄希望于在意图和价值观方面对人工智能进行“类人驯化”，以使其达到从意义上理解人类行为和选择并予以遵从的目的。简单来说，就是使建立在庞大的、多元化数据集基础上的大模型预训练结果既合法又合乎道德。从业界在这方面的努力来看，2023年7月，AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队，这个超级对齐团队（superalignment）的目标是在4年内让超级AI系统实现价值对齐和安全。为此，OpenAI承诺将投入20%的计算资源用于对齐超级智能，而项目的核心则是训练出一个大致与人类智识水平相当的AI自动对齐研究员，再借助自动对齐研究员找出对齐超级智能的方法。除此之外，谷歌、微软等公司也都纷纷跟进，成立了类似团队，将价值对齐作为寻求人工智能安全性和一致性的重要途径之一。一时之间，价值对齐的口号风头无两。

2024年7月，OpenAI宣布解散超级对齐团队。表面上看，这是OpenAI内部发展不同方面优先级之间竞争失衡和资源分配的结果，但从另一个角度也展现出价值对齐的推进难度。然而，笔者的目的并不在于从技术角度解析现有的价值对齐工具的有限性及其模型风险，而是躬身进入价值对齐理念背后的技术观，揭示其潜在的控制论色彩，解读它所可能导致的对于人机关系的狭隘误读，进而在技术哲学批判的基础上探究它所面对的挑战。因为，恰恰只有抛弃简单乐观的价值移植，重回技术-社会自身发展逻辑，直面其复杂性，才有可能在数智高速飞跃的时代重新为人工智能的发展划定边界和准则，并建构起新型的人机交互和融合的健康模式。

一、“科学”与“价值”的虚假对立：人工智能责任的不对称性

就某种意义而言，这种对立倾向是技术崇拜意识形态的延续。自近代以降，当自然科学从整体性的学术体系中分离出来之后，“科学”与“社会”就被置于严格二分的状态中。长期以来，人们理所当然地认为，科学事实和其所言说的对象性实体作为自在之物，在被科学家发现之前就存在于这个世界上，任何社会的、文化的、意识形态的因素并不能影响或改变其存在。正因为如此，与后者的易变性和价值的情境性不同，科学排除了价值判断，呈现出“中立”和“客观”的超然。“在理性的控制之下引起人与自然物质转换的某种全球统一社会秩序形成的可能结构”，科学意识形态正是担当了这种提供连续性的秩序基础。马克斯·舍勒将实证科学及其结果与形而上学及宗教知识看作平行且分离的两个互不干扰的领域，认为后者是终极目标和价值旨归。

如果遵循这一路径来探讨价值对齐问题，就不难发现其话语背后隐藏着深刻的人类中心主义的控制幻想。价值嵌入和价值对齐的说法假设了一种整体性解决的方案，它将对（假想的）去道德化的人工智能进行拯救的责任赋予人类，相信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则，而全然忘记了不但算法的设计本身就带有伦理性，人类同时也在被数字技术和人工智能设备所改变。

可见，人工智能技术从来不是一个独立于人类智能之外的系统，相反，它从开发、形成到测试及至运用的整个过程都浸润在人类的行为和经验之中。这些经验和事实未必只受到数字化或互联网的左右，它们是人类社会内部所包含的历史、文化、习俗乃至偏见或冲突的投射。完全“责任主体”的认定在人工智能技术的实施过程中难以确定，这也就使得价值“嵌入”或“对齐”的目标是否可以通过研发团队一揽子解决本身就是存疑的。从结果上来看，当谷歌试图为确保Gemini避免过去图像生成技术的陷阱而进行调整时，显然因为某种忽视而造成了过度输出或过度保守的后果。

当然，批评这一点并不意味着人工智能系统本身不存在与人类社会价值取向不一致的地方。事实上，数据技术逻辑与人类社会逻辑本质上存在着极大的异质性。这里既有具有规律性的可压缩的数据信息流和具有混沌性的不可压缩的经验信息流之间的区别，也有技术理性的效率原则、增长伦理和人类价值体系之间的差异，同时还关乎对于可能因此产生的社会风险的界定和判别方式。经由这些复杂性因素而建立起的关联，实在难以被纳入价值嵌入或价值对齐的框架。

二、价值对齐：赛博乌托邦的控制论话语

菲利普·K.迪克在《仿生人会梦见电子羊吗》中描写了一个人性与非人性追逐与转化的故事。在男主人公里克对仿生人的追捕中，他所依赖的辨别依据是移情测试。因为人们相信移情是人类与仿生人之间的唯一差别，其原理是人类的群体本能所导致的情感投射，会对除自己以外的生物产生关爱。仿生人作为“独居的捕食者”，无法体会甚至无法假装出这种情感。这种预设出来的对立有其内在逻辑上的悖论：人类的移情反应被相信会投射到动物身上，但却不包括仿生人，尽管后者在外形上和人类一样，甚至也可以在其他方面表现出与人类相似的行为。这也就意味着，作为人性核心特征的移情能力既排除了仿生人作为其对象，也杜绝了被仿生人获得的可能。仿生人作为人类智能科技发展的卓越成果（甚至可以实现对仿生人的记忆植入），却在大前提上被设置了一个禁区。探究其背后真正的原因，可以发现，人类制造他们本来就是为了奴役，对仿生人的移情将使得工具式的利用和猎物式的追捕难以进行。可见，从心理层面来说，制造移情“缺位”不是因为技术的障碍，而是出于奠定人类的优越感和控制感。一个缺乏移情的行动体无论怎么与人相似，都因为没有“人性”（移情）而丧失被平等对待的资格。

科幻小说的结局并非如好莱坞同类电影那样以智能人发展出移情/情感作为大团圆式的融合，相反，菲利普·迪克表达了传统人工智能叙事中对关于人机差别和共生的、想象贫乏的质疑和不满。其根源在于“人工智能威胁论”的恐惧被反转式地改写为对其进行奴役的故事。在这个意义上，小说开始处关于仿生人在火星的劳作状态的描写也不难被解读为早期殖民主义的科幻版。仿生人被人类主体放置于移情共鸣的对象之外的时候，“他们”成为不予考虑的他者，被悬置性地排除在人类情感-价值体系之外。这和数个世纪之前发生在性别话语以及更早的种族话语中的情形是同构的。因此，如果把《仿生人会梦见电子羊吗》看作带有反殖民控制色彩的文本，就可以从中看到价值对齐论真正的问题所在。

三、直面人机系统生态：从具身认知到开放性网络

人工智能日益广泛的应用，在日常生活领域悄无声息地掀起了一场革命，无数的在线服务和应用程序将处于不同地区的人类基本活动的每一个细节联系起来，不但几乎所有的社会关系被在线技术重构，而且同时伴随的还有一些关系的消亡和另一些新型关系的形成。作为数字实体运营的网络平台拥有的活跃用户数量有可能超过很多国家的人口。然而，与这种技术上的连续性形成鲜明对照的是，观点、价值、立场的多元化和冲突也更加以显性的方式得到展现，它们甚至超越了前数字时代的地缘界限。“聚集在流行网络平台上的大量用户群体比政治地理意义上的群体边界更为分散，而且网络平台运营主体的利益可能与国家利益产生分歧”。人工智能装置的出现只是在已经足够复杂的多元化和冲突之间增加了一些新的维度而已，技术的连续性从来就不是也不可能是价值一致性的形式保证。

尽管数字理性本身具有基于技术特征而呈现出来的共性，但它和复杂的人类价值体系仍然处于不对称的状态，因此，希望对人工智能实现基于技术连续性的价值一致性改造本身是难以实现的。这涉及人工道德的想象和设计的问题。即便是在激进科幻小说中，建立一种普遍性的人工道德不但是难以令人信服的，也是在伦理上被诟病的。仅有的实践性尝试也只限于在电子游戏和特定的虚拟现实中，因为这两者的设置都是抽离了一切复杂性的环境简化，并且也不需要随着环境的改变做出判断适应。但真实的数字环境哪怕是在最基本的条件下也必须处理诸如有偏见的数据、算法不透明以及奖励功能无法表征复杂的伦理规范等问题。即便有学者提出以强化反馈学习的机制、允许机器通过观察人类的实际行为来内化偏好模式从而采取行动的方式，也依旧不能打破以偏概全的数据鸿沟。事实上，价值对齐所暗含的人类中心主义价值观早在生态主义理论中就引起了相当大的争议，环境伦理学家区分了以人类为中心的观点和以生态系统为中心的观点之间的差别。因此，相当多反对价值对齐的研究者对于人工智能实现对齐（姑且不考虑技术上的现实性）之后是否会造成生态灾难表示担忧。

反观人类自身的基于道德判断的行为，就会发现，具身认知和知觉能力是形成完整价值判断的基础。因为具身认知是有机体适应环境、对多种感觉刺激进行辨别并形成综合理解的活动，在此基础上形成的情感、道德和价值判断以及相应的行动和具身认知，是不可分离的。这种具身主义的观点对认知主义是一种否定。后者相信，人类的心智实际上是一种特殊的信息处理系统，可以理解为根据某些特定的逻辑规则或者某种形式的数理算法对于无意义的抽象符号所进行的计算；而具身主义则强调了身体及其感官系统的重要性，认为它们的特殊体验造成了认知和情感-价值判断的差异。

对此的一个佐证是对一些基于误判而出现的机器人事故的解读。各国都曾出现过机器人因将人体误判为作业对象而使其致残或致死的事故。这是“回形针假设”的现实版。究其原因，机器只根据预先的算法设计行事，而不是根据传感装置获得的对象的特殊信息进行判断。后者正是智能认知具身化的要求。事实上，早在1986年，布鲁克斯已经从控制论角度出发，强调智能是具身化和情境化的，他认为传统以信息表征为核心的经典AI进化路径是错误的，而要消除表征的局限性，就要制造基于行为获取信息的机器人。苏黎世大学人工智能实验室前主任罗尔夫·普菲弗与加拿大佛蒙特大学的乔希·邦加德则在合著的《身体的智能：智能科学新视角》一书中进一步提出，智能行为可以通过加强智能体的“身体”与外部环境交互的方式实现新的学习反馈机制，从而形成更能应对世界复杂性的智能。而在业界方面，英伟达创始人黄仁勋就曾在2023年表示，具身智能是能理解、推理，并与物理世界互动的智能系统，是人工智能的下一个浪潮。

结语

在技术的原初设定中，价值对齐作为一种人工智能治理方法，彰显的是技术设计者企图通过人类价值嵌入机器体系的方式获得更加可靠的人工智能产品的信心。然而，在面对技术-社会的复杂互动关系时，价值对齐却无法真正有效付诸实践。一方面，潜藏于价值对齐背后的人类中心主义的控制幻想假设了一种以人类现有道德水平和认知为基准的整体性解决方案，坚信人类所形成的价值体系和原则足以为人工智能技术的发展植入更好的目标和原则。这无疑是一种人类在面对人工智能时的“造物主式”的傲慢。另一方面，围绕着价值观差异所引发的冲突、斗争等长久地存在于人类社会发展始终，历史性和多元性构成了价值观本身的特质。那么，在面对人工智能的治理问题时，人类何以能够空前地达成一种价值观念上的统一并将其附加于人工智能之中？如若不能，一种更加危险的趋势或许正酝酿于价值对齐的设计之中：人工智能技术的掌握者是否会以特定的价值实现对AI的“对齐”，进而诱使无所不在的人工智能产品以技术无意识的方式实现对人类群体的普遍性对齐？

因此，人工智能的价值对齐问题从本质上来说，既涉及对智能应用过程中出现的问题和风险的评估，也涉及对所谓“人类价值原则”及其规范可能的理解。后者至今仍然停留在争议之中，而前者则是整个社会的智能化转型所面对的挑战。今天，简单化的人机关系理解模式已经无法理解泛在的人工智能对人类社会的整体性重塑，在现有实践和未来趋势中，人机协作智能是进一步回答“人类如何面对人工智能时代到来”问题的基础性认识。人类智能和人工智能具有不同的特点和优势，这也就意味着人机协作和融合在不同的程度和场景中可以有个性化的应用。与单纯强调人工智能的超越性相比，协作智能的类型和开放性具有更广阔的前景和潜力。重新连通效率与公平、性能与价值、情境性与普遍性、全球性与地方性，这也是后人类知识图谱生成的方式之一。

参考文献

[1][加]威廉·莱斯.自然的控制[M].岳长龄，译.重庆:重庆出版社，）1996:6.

[2][法]布鲁诺·拉图尔.我们从未现代过：对称性人类学论集[M].刘鹏，安涅思，译.上海:上海文艺出版社，）2022.

[3][德]乌尔里希·贝克.风险社会——新的现代性之路[M].张文杰，何博闻，译.上海:译林出版社，2021:23.

[4][美]朱迪斯·巴特勒.身体之重：论“性别”的话语界限[M].李军鹏，译.上海:上海三联书店，2011:10.

[5]贾开，）赵静.技术嵌入、价值倾向与算法分类治理[J].经济社会体制比较，）2023（4）:101-111.

[6]刘永谋.技术治理通论[M].北京:北京大学出版社，2023:579.

[7]郭全中，）张金熠.AI向善：AI大模型价值观对齐的内容与实践[J].新闻爱好者，）2023（11）:19-24.

[8][印]阿卡普拉沃·包米克.机器意识[M].王兆天，李晔卓，译.北京:机械工业出版社，2023.

[9]RatoffWilliam.Canthepredictiveprocessingmodelofthemindamelioratethevalue-alignmentproblem[J].Ethicsandinformationtechnology，）2021，）23（4）:739-50.

[11][德]彼德·斯洛特戴克.资本的内部[M].北京:社会科学文献出版社，）2014:275.

[12][美]亨利·基辛格，）埃里克·施密特，）丹尼尔·胡滕洛赫尔.人工智能时代与人类未来[M].胡利平，风君，译.北京:中信出版集团，2023:117.

[13]JamesGips.Towardstheethicalrobot[M]∥Androidepistemology.Cambridge，）MA:MITPress，）1994:284.

[14]吴冠军.从Midjourney到Sora：生成式AI与美学革命[J].阅江学刊，）2024（3）:85-92.

THE END

人工智能价值对齐的哲学思考｜价值嵌入与价值对齐：人类控制论的幻觉人工智能新浪财经

人工智能价值对齐的哲学思考｜价值嵌入与价值对齐：人类控制论的幻觉人工智能新浪财经

《现代管理学》总复习题3

微观经济学的经济现象范文

薪酬管理通用12篇

心理学在管理中的应用（谢沛霖）深圳心理学培训

经典例题2020年初级经济师考《人力资源》考前模拟四模拟试题人力资源

小班教育论文(精选5篇)

尚之管理学堂

价值理性是指行为人注重行为本身所能代表

文化的民族性与多样性模板(10篇)