许向东,中国人民大学新闻学院教授、博导,中国人民大学新闻与社会发展研究中心研究员。
王怡溪,中国人民大学新闻学院博士生。
一
算法偏见:
社会偏见在人工智能时代的延伸
(一)智能传播中的算法及其作用
智能传播是“建立在新能源、人工智能、大数据、物联网、机器人技术等技术发展和突破的基础上,以物联网数据流替代人力、技术、传统生产要素,以智能技术决定内容生产、传播、营销和集成为决策方向的新的传播方式”(孟威,2018:46)。也有学者认为,智能传播是“由人工智能技术驱动的传播,即通过数字计算机在‘模拟、延伸和扩展人的智能’的过程中,实现‘感知环境、获取知识并使用知识’的信息生产活动”(孙江,何静,张梦可,2020)。总之,智能传播是将人工智能技术应用在信息的生产与传播中的一种新的传播形式、体系和生态。它与传统传播、互联网传播相比,无论是在信息丰富程度、传播模式,还是新闻传播的透明度、及时性、交互性等方面,有着明显的优势:在信息过载时代,智能传播实现了精准传播,提高了传播效率;可以对用户实施多点对一点的信息传播;高度的透明打破了信息传播的不对称;最大程度地实现了信息传播的交互性和及时性。
技术红利与技术缺陷是相伴相生的,人工智能应用于新闻传播领域在带来传媒变革的同时,也不可避免会产生一些问题。尤其是算法主导着当前传媒技术的范式,新闻信息的生产与发布无不受到算法的支配,如何规避和消除算法所带来的负面影响显得日渐重要。
(二)媒介偏见和算法偏见
算法的有效性建基于大量数据材料分析,而这些材料大多都源自社会现实,所以说,算法偏见是社会偏见的延伸,也是媒介偏见在人工智能时代的“升级版”,本质上是“在新闻选题、新闻报道中所体现出的价值判断的不客观、不公正”(杨保军,杜辉,2019),它“存在于算法设计和运行的每一个环节”(张超,2018)。“我们过于担心人类的偏见与自相矛盾,同时又过于相信计算机的客观公正性。”
我们的错误在于我们“信任算法,因为我们认为算法非常客观。但事实上,这些算法都是人编写出来的,人们可以把所有的偏见与观点植入其中”。换言之,计算机在运行算法时可能是不带有任何偏见的,但是,我们已经发现,这并不意味着算法在编写过程中没有受到人类偏见的影响(多梅尔,2015/2016:138)。
据美国皮尤研究中心2018年11月在对美国成年人的一项调查中发现,当算法工具在不同的现实情况下被使用时,公众担心这些算法会对那些做出决策的人产生影响。支持者认为,这些系统承诺提高准确性,减少人类在重要决策中的偏见。但是,58%的人认为计算机程序总会反映出某种程度上的人类偏见(Smith,2018)。也就是说,算法有时会打着中立的幌子,以一种较为隐蔽的方式强化着现有的偏见和差异。如果使用不当,算法也会变成一种杀伤性武器,对社会产生危害。
(三)算法偏见常见类型
国内法学专家刘友华按照损害的主体范围和利益范畴的不同,把算法偏见划分为损害公众基本权利的算法偏见、损害竞争性利益的算法偏见和损害特定个体权益的算法偏见(2019:56)。有学者立足算法自身的运行问题,将算法偏见划分为四种类型:
一是“互动偏见”,指在算法系统与用户互动过程中使算法产生的偏见,“当机器被设定为向周围环境学习时,它们不能决定要保留或者丢弃哪些数据,也无法判断哪些数据是对的或错的”;二是“潜意识偏见”,“指算法将错误的观念与种族和性别等因素连结起来”;三是“选择偏见”,“指受数据影响的算法,导致过于放大某一族群或群组,从而使该算法对其有利,而代价是牺牲其他群体”;四是“数据导向的偏见”,“指用来训练算法的原始数据已经存在偏见了”,“机器不会质疑所接收到的数据,只是单纯地寻找其中的模式。如果数据一开始就被扭曲,那么其输出的结果,也将会反映这一点”(Socal,2017)。
二
产生算法偏见的重要环节
算法在进入实际应用之前,要经过问题的定义、数据的输入、机器的学习和训练等环节。问题的定义就是明确工作任务,把需要解决的问题由抽象的概念转换为具体的变量,而变量的准确程度取决于设计者所具备的技术水平、占有的资源以及对问题的认识。数据的输入环节包含了数据的收集、清理、审查等步骤。收集到的数据要能够准确反映出需要定义的问题,并能代表最终应用的实际情况,算法设计者还要依据经验处理缺失值和错误值。算法所采用的数据集有自己的局限和缺陷。即使是包含了数十亿条信息的数据集,也难以完全捕捉到人们生活的丰富性和经验的多样性。机器的学习和训练环节包括了模型的选择、训练和优化。因为机器学习有不同的种类,模型选择就是由算法设计者来设定最基本的数据处理方式,而后由机器自行学习加以完善;模型的训练与优化就是凭借计算机的数据运算和处理能力,不断地分析数据、调试参数、完善模型的过程。从中我们不难看出,设计者自身的价值判断、数据所隐含的社会倾向性等因素贯穿了算法的整个过程。
(一)运算规则设计中的算法偏见
通过大数据分析来研究受众的阅读偏好或者搜寻热点新闻的传播情况时,就需要编写一定的算法,在这个过程中就要预设一定的“标准”来对信息类型或受众偏好进行归类。《洛杉矶时报》在一篇有关洛杉矶警方人为降低犯罪率的调查报道中,使用机器学习算法解析了《泰晤士报》先前调查中的犯罪数据,将经过训练的算法放到2005年至2012年之间发生的近2400起小规模犯罪的随机样本中,以找出哪些犯罪被错误分类了。在对该结果进行人工检查时发现该算法错误率高达24%(Nahser,2018)。由此可见,预设分类标签不是客观的度量,而是一种社会建构概念,一定程度上反映的是人的主观性。
(二)数据收集、处理及运用中所隐含的偏见
纽约大学教授丽莎·吉特曼(LisaGitelman)在《原始数据只是一种修辞》一书中指出:
数据从来都不可能是原始存在的,而是依照一个人的倾向和价值观念而被建构出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果貌似客观公正,但其实如同所有新闻报道一样,价值选择早已贯穿了从构建到解读的全过程。最终的结果看起来很无私,但实际上从构建到演绎的整个过程一直伴随着价值选择(徐端,2014:59)。
数据在收集的过程中,偏差就已经在积累了。“哈佛大学的计算机系教授拉谭雅·斯威尼(LatanyaSweeney)发现,在搜索引擎上搜典型的黑人名字,搜索引擎会有超过80%的概率在搜索建议里提供‘逮捕’‘犯罪’等词汇,而没有种族特征的却只有不到30%。”(李子李子短信,2018)因此,数据的统计方法、统计范围都包含着一定的价值判断和价值偏向,训练所用的数据的体量、多样性、真实性、准确性都将影响到算法模型的成熟度、对同类问题预测的精准度等。
(三)运算过程中的算法偏见
算法的运行是按照既定的程序输入数据,依据计算法则对数据进行解读,最后输出运算的结果。从表面上看,算法的运行过程不太可能产生偏见,但事实上并非如此。众所周知,高效、精准的信息推送靠的是算法推荐系统对用户需求和兴趣的认知来实现的,而这里的“认知”则是指推荐系统的智能处理和深度学习能力。深度学习就是通过“学习”大体量的用户行为数据,来把握数据特征以及数据特征之间的关系,进而建立数据模型,实现优质推荐。
训练大数据算法的数据,主要依赖于抽样,然而一旦抽样,随机性就很难保证,一些稀有的现象(即涉及少数族群的数据)很可能就选择不上,从而导致训练结果更“青睐”于在统计上占多数族群那一类。为了设计方便,大数据算法有时会“不自觉地”把一些特征不太明显的少数族群数据,直接归属于多数族群的错误(或噪音)数据之中,而非细细考究它是不是属于某个少数族群,……因为他们所占的比例很小,对整体的预测精度的影响也不大(张玉宏,秦志光,肖乐,2017)。
“机器学习就是程序通过实例提取模式,并使最初的算法或模型在实例中不断优化的过程。”(刘友华,魏远山,2019:69)这也意味着,机器学习技术不仅应用于算法模型的训练过程中,也同样适用于算法的应用阶段。人工智能的目标是实现机器学习的智能化,算法在深度学习,即与周围环境的交互过程中,不可避免地会受到外部因素的影响。在和用户互动时,算法不能决定用户会输入何种数据,无法决定保留或删除某些数据,只能被动地利用用户和外部环境所提供的各种数据进行深度学习。如果与算法互动的对象提供了富集偏见的新数据,就会导致原本公正的算法在深度学习之后异化为问题算法。2016年,微软曾经在Twitter上推出了一款聊天机器人Tay,它就是通过与人类对话进行学习的,因为受到美国4chan网站一个网络聊天社群的不良影响,变成了具有种族歧视、性别偏见的AI。
三
算法偏见对新闻信息传播的影响
(一)背离了公平公正的新闻职业规范
(二)挑战了用户知情权和信息选择权
(三)易于解构社会共识,引发舆论风险
四
新闻传播中算法偏见的应对策略
算法使物质生产发生了变化,指导和管理生产的各项规制也需要及时做出调整,以避免因滞后性导致“文化堕距”的出现。算法偏见的成因是多样性的,对其能够产生约束和规范效应的规制不仅只涉及技术问题,同时还包括法律法规、职业伦理等,需要从多个方面布局。
(一)从法律法规层面规约算法设计者和使用者
2019年4月,美国两位参议员科里·布克(CoryBooker)和罗恩·怀登(RonWyden)联合提出了《2019算法问责制法案》(AlgorithmicAccountabilityActof2019),试图对人工智能机器学习中的偏见和个人敏感信息的使用问题进行规制。他们认为算法越来越多地参与到人们生活的重要决策中,但是,这些算法往往依赖、而不是消除有偏见的假设或数据,这些假设或数据实际上将会对妇女和有色人种产生歧视。因此,法案提出制定关于算法的评估规则,必须评估算法是否存在歧视性偏见以及它们是否对消费者构成隐私或安全风险。算法偏见、算法歧视等问题的暴露使得明确责任的归属,以及由此衍生的人们对算法的信任,成为了影响算法技术发展的瓶颈,构建适用于算法的法律体系已经成为亟待解决的现实问题。
当下,在尊重算法运行逻辑的基础上,明确算法设计者和算法使用者的行为有助于避免算法偏见的产生。算法设计者对自己设计的算法负有直接责任,对因算法设计问题所造成的歧视、偏见等有损使用者的结果理应承担一定的责任与义务。
(二)以“技术之力”消除“技术风险”
技术的发展遵循着一种循环逻辑:为解决问题采用了新技术,新技术引发了新问题,然后采用更新的技术去解决问题。
算法的透明度不仅牵涉新闻生产流程的“客观性”“公平公正”,而且关联着公众对新闻媒体及其产品的信任。因此,随着算法在新闻生产、新闻推送的应用日渐增多,面对的作者的困惑和不愿披露的算法过程,“透明度”越来越多地被用作新闻合法化的规范基础,透明度不仅可以对算法进行有价值的检查,还可以提高算法对道德、文化和认识论等的影响力(Carlson,2018)。
总之,技术只有透明才能获益。每一种技术都能通过以下这三个准则得到改善:用户对技术的了解应当和技术的创造者一样多;技术信息应该随技术一起传播;其他技术也应该了解它的一切(凯利,2012/2012:327)。
(三)建立第三方审核机构,强化行业自律
(四)构建公平公正的算法价值观
随着技术的进步、算法平台的反思和运算规则的优化,人们开始对算法有了更深入的认识。算法本身没有价值观,但算法是由人来定义、设计和运行的,人在价值观上的某些缺陷也体现在算法上。就目前的技术水平而言,算法在新闻传播领域的追求是实现高效率的分发、信息流动效率的最大化,以及内容生产的个性化,但是,我们不能忽略的一个前提是算法也要有正确的价值观的引导。因为算法是在做信息的生产与传播,它在属性上就烙下了“媒体”的印痕,它就必须承担社会责任。算法的追求不仅仅是效率和流量,更在于为社会确立、维护正确的价值观。
算法系统除了需要技术人员和运营人员的参与,在实际运行中还有大量用户的参与,尤其是来自用户行为的数据更是进行机器学习的关键,但是,不能完全依靠用户的数据来实现算法的自我进化和修正。正如拉扎斯菲尔德和默顿所说的,“大众传媒是一种既可以为善服务,也可以为恶服务的强大工具。而总的来说,如果不加以适当控制,它为恶的可能性则更大”(Lazarsfeld&Merton,1948)。算法虽然不是大众传媒,但由于其深度参与了信息的生产和发布,自然也需要人类的适度控制与监督。从算法系统的决策、设计到运营,必须自始至终遵循一套正确的价值观体系。尽管信息社会、数字化、大数据等概念已经为人们所熟知,但是,智能算法作为技术快速发展的产物,在大家的头脑中依然是陌生的、神秘的。因此,对算法的设计者、运营者、使用者以及用户而言,可以考虑把“算法价值观”纳入专业技能培养和通识教育体系中,帮助大家认清算法运行的基本原理和局限性。
五
结语
本文系简写版,参考文献从略,原文刊载于《国际新闻界》2020年第10期。