本文系国家社科基金一般项目《人工智能时代的传播伦理与治理框架研究》(项目编号:20BXW103)阶段性成果。
作者简介:
赵瑜,浙江大学传媒与国际文化学院教授。
张亦弛,浙江大学传媒与国际文化学院博士研究生。
摘要
计算机图形处理、数字虚拟拍摄、CG特效制作等多个影视生产领域都已嵌入自动内容生成因素,而随着2022年末ChatGPT等生成式人工智能的爆发性涌现,AIGC助力影视产业发展的想象空间被进一步拓展。本文通过分析目前自动文本生成和自动图影像生成的技术、作品和发展方向,系统思考AIGC的优势与影响、局限性与问题,从而探索其在影视产业的运用方式和影响机制,为人工智能更好地推动影视产业发展提供参考信息与实践指引。
关键词
AIGCChatGPT自动文本生成自动影像生成影视产业
一直以来影视行业对生成式人工智能的态度相对友好,计算机图形处理、数字虚拟拍摄、CG特效制作等多个领域都已嵌入自动内容生成因素。目前行业已经在哪些领域应用生成式人工智能?使用的效果如何?从艺术本身带有的复杂性来看,智能机器是否可以替代人类,生产出有温度、有创造力的作品?本文将通过行业典型案例分析,为解答上述问题提供智识资源与实践指引。
一、生成式人工智能
及其在影视行业的应用
图1.短片《阳春》(Sunspring)剧照
(一)自动文本生成
导演OscarSharp和艺术家RossGoodwin在2016年运用AI“本杰明”编剧了短片《阳春》(Sunspring)。“本杰明”是一个神经网络模型,根据标题、对话、道具与动作等“提示”深度学习了大量的科幻剧本之后进行自动创作。与此同时“本杰明”还生成了一首歌的歌词,最后成为影片的配曲。从影视叙事和美学特质分析,剧本中大部分的台词缺乏逻辑性和连贯性,时常让人不知所云。例如,影片的结尾是女主角的独白特写长镜头,喃喃地说着:“我的意思是,他是虚弱的。我以为我可以改变我的想法。他疯狂地要把它拿出来。这是很久之前了。他有些迟了。我将要成为一个时刻。我就是想要告诉你,我比他好很多……”不仅台词含糊,《阳春》的故事结构也较为混乱,没有学习到经典剧作叙事规范。这一方面是“本杰明”的参数不够以致深度学习效果不佳所导致的,另一方面也客观上显现出当时的人工智能技术水平仍不能胜任长段落的写作。
2020年美国查普曼大学影视制作专业的两名学生使用基于GPT-3的AI编剧ShortlyRead,续写了电影剧本并拍成短片《目击者》(Solicitors)。人类创作者给了AI编剧一个由两三句话组成的“激励事件”(IncitingIncident),之后AI续写了接下来的故事情节。最终成片除了前20秒,所有内容均由ShortlyRead软件编剧。虽然部分语句存在歧义和不通顺的情况,但总体的故事走向明朗而富有悬念,尤其令人类创作者惊讶的是ShortlyRead居然在剧作中埋入了两个欧·亨利风格的转折。该片的导演JacobVaus表示:“从故事的角度来看它踩准了情节点,虽然是以一种有些奇异的方式。”8也许以此来判断AIGC已经产生了独特的创造性仍然为时过早。不过相比令人不明就里的《阳春》,《目击者》在故事连贯性和台词写作上都有了质的提升。
2022年12月,ChatGPT“自编自导”了电影短片《安全地带》。创作团队先让ChatGPT进行“头脑风暴”,自主生成多个故事想法。随后制片人挑选了其中一个选题并让ChatGPT完善具体的情节。当系统生成离题或是不合理的情节时,创作团队会给出新的提示以进行修正。11最后ChatGPT生成了一个4分钟左右的剧本以及导演分镜表,通过人机互动ChatGPT甚至提供了灯光、镜头焦段、相机运动、演员服装等一系列建议12,如同一个人类导演一样,参与了影片创作各个方面。当然,这个作品的目的是展示人机合作的创作成果,这其中包含着大量的人类反馈与智慧。而且如果将ChatGPT的电影“处女作”与经典科幻作品相比,质量和深度仍无法与人类比肩。
总体而言,虽然自动文本生成在近些年有了实质性的进步,大参数模型如GPT-3已能够生成更加多元的文本,甚至在ChatGPT的应用中产生准社会互动,但影视剧本不仅关乎语言结构的完整、连贯,也关乎意义和情感的生成,目前人工智能写作系统对于情感和叙事结构的学习和理解仍然需要人类创作者的辅助。
(二)自动影像生成
在自动图像生成领域,最受人瞩目的莫过于OpenAI的自动图像生成产品达利(Dall·E2)。该系统功能强大,可以基于输入的自然语言文本生成图片,甚至能够通过语义判断探索不同的艺术风格。
而在与影视有着直接关联的影像生成领域,也有了不少突破。2016年8月,IBM的“沃森”系统为21世纪福克斯的悬疑恐怖片《摩根》创作了一支预告片。为此“沃森”深度学习观摩了100个恐怖片的预告片,并进行了视觉、听觉和场景构成的分析。随后“沃森”挑选出电影《摩根》6分钟的情节,人类剪辑师再对这些场景进行剪辑,形成最终版的预告片。13所以这同样是一个人机互补合作的应用,人工智能没有独立完成所有的剪辑工作,但也迈出了理解影像叙事结构的第一步。
2018年,AI“本杰明”创作了第三部科幻短片《神游天外》(ZoneOut)。不同于以往两部短片,“本杰明”不仅写作了剧本,还演出并导演了这部短片。由于AI系统并没有实体形象或者摄像机,人类创作者让它学习了《阳春》演员在绿幕前录制的个人视频以及所有公域(PublicDomain)影片作为创作素材。系统生成的剧本仍然和《阳春》一样没有逻辑性和故事性,影像的“换脸”也并不成功:公域电影演员的脸与《阳春》三位主演的脸重叠在了一起,闪烁不清。时长为6分钟的短片《神游天外》基本上是对公域电影素材的剪辑重组,这使得所谓的自编、自导、自演更像是一次自动剪辑的尝试,而没有生成真正意义上的新影像。
目前应用自动拍摄和剪辑系统较为成熟的是短视频领域,因为这一领域对模式化的叙事结构和影像风格接受度更高。2020年新华智云研发推出了国内首个Vlog机器人。这套设备“集合了360°环视高清摄像机、专业摄影机和超高算力边缘计算节点,通过激光视觉多传感器混合定位导航、人物识别追踪等技术,能自由移动、自主采集视频、自动识别人物、自行生成专属VLOG”。14它采集的资料能实时上传,在云端剪辑、处理,最终形成短视频。通过深度学习,机器人生成的Vlog具有合乎情理的故事情节和多模态的内容类型。15
在由文本生成影像(Text-toVideo)的领域,Netflix与作家、喜剧演员KeatonPatti合作,模仿机器人的语气创作了一系列剧本,再由AI生成动画,形成系列短片。这批短片在Youtube的“网飞是个笑话”(NetflixisaJoke)频道上播出。16网飞已经从多个维度尝试文本生成动画的技术,如2021年的《谜题先生希望你少活一点》(Mr.PuzzlesWantsYoutoBeLessAlive),不但叙事流畅,保持了情节、人物、场景的连贯性,且画面的镜头语言达到了一定水准。2023年,网飞又与日本AI软件公司Rinna合作制作了三分钟的动画短片《犬与少年》(TheDogandTheBoy),并用AI生成了动画片的背景。17网飞的官方新闻表示,动画行业的人才短缺是推动其使用AI绘制背景的原因。18
如果说网飞主要聚焦动画生成,那么2022年的谷歌文本生成影像模型Phenaki则在真实影像的自动生成上有了突破。Phenaki生成的影像最大的特点是“有故事,有长度”。19它能根据要求智能生成不同的景别和镜头运动模式,且能处理一定程度的变形,如让泰迪熊流畅地转变为大熊猫。20
图2.动画短片《犬与少年》(TheDogandTheBoy)剧照
二、AIGC对影视产业的影响
根据美国国会研究服务部(CongressionalResearchService)于2021年发布的《人工智能:背景、选择性问题和政策考量》,自从2015年起,全球范围内投入人工智能的私人和公共基金一直在持续增长。对AI企业的投资从2015年的128亿美元增长到了2020年的678亿美元。21研发了ChatGPT与Dalle·E的OpenAI截至2023年1月,已经筹资110亿美元。可以预测,随着全球在AI和AIGC领域的不断投入,将涌现出更多、更完善的影视自动内容生成产品,它们对影视行业的影响也将涉及全产业链。
(一)全周期赋能影视制作
在影视制作的前期,AIGC可以协助人类创作者进行剧本创作、概念图描绘以及分镜。即使目前自动剧本生成仍然处于初级阶段,存在着诸如缺乏情节连贯性、故事合理性、台词逻辑性等问题,但是随着技术迭代与经费持续投入,AIGC的质量会越来越接近于人的创作。例如叙事连贯性是一直困扰文本自动生成领域的老问题,近年来就出现了诸多新模型以优化技术方案。2019年研究者推出了“奖励—塑造”技术来引导模型朝着一个已知目标行进,最终的测试结果显示这种技术可以生成一个稳定且目标完成度较高的故事情节,同时人类的评估者也觉得如此生成的故事有更可靠合理的事件顺序。22同年,另一批研究者探索了“计划与写作”(PlanandWrite)的方式,测试结果显示,静态计划模式(把整个故事线都计划出来后再生成故事)比动态模式(生成故事线的一个单词,紧接着生成故事中的一句话)更加有效,生成的故事更加连贯而多样化。23这为之后的研究者提供了思路指引,有助于新的自动编剧软件生成更加符合人类阅读习惯的剧本。
在影视拍摄和制作后期,从摄影、导演、表演,到剪辑、声音和配乐,AIGC的潜力也不容小觑。现阶段,我们已经有了像Phenaki这样文本生成影像的突破性模型,但系统目前只能处理非常简单的句子。目前该领域的研究集中在通过文本简化等语言学转换规则来进一步优化系统性能。24此外,虽然《神游天外》这样的作品十分粗糙,但也显示了人工智能自导、自演并配音、配乐的可能性,影视生产的各个环节都有了智能化生产系统介入的空间甚至应用尝试。
图3.CHATGPT
(二)人机协同触发灵感
虽然艺术创作被更多地归于人类独特的精神活动,但当下的技术发展让人机协同突破艺术探索的边界成为可能。Dalle·E等自动图像生成软件不但可以直接应用于概念设计、服装设计,也可以为制片人和导演提供前期概念图,减少用于雇佣场景设计师、概念设计师和分镜设计师等工种的成本。英伟达开发的GauGAN智能工具,也在科幻电影的原画创作中发挥了日益重要的作用。
人工智能系统同样被运用于预视动画和分镜图创作。2021年韩国研究者开发了ASAP系统,该系统可以让用户在3D动视场景模拟他们的故事,为电影制作者自动生成分镜和动画预览。用户首先使用专业剧本软件FinalDraft写作剧本,剧本随后被ASAP系统分解为动作、角色和对话。通过深度学习、数据驱动和规则驱动,系统快速生成虚拟人及其物理动作、同声姿势,模拟出剧本中的行为和对话场景。用户可以观看自动生成的预视动画,截取播放场景制作分镜图。25人机协同让人类从曾经耗时耗力的工种中极大地解放出来,更为重要的是人类的创作模式和自动化生成内容互相触发,进一步激发了灵感、扩增了创作空间。随着智能系统的日益完善,它们也将超越一般意义的工具角色,成为人类创意的重要助手。
(三)降低成本,提升效率
在自动文本生成研发领域,惯常的做法是人类创作者输入简单的提示或开篇,就能得到一个不完美但至少篇幅达标的剧本。ChatGPT也进一步向人类展现了智能系统在互联网数据和知识沉淀的基础上,在各个领域迅速生成综述类文本的能力,甚至在交互性上达到全新的高度,具有重塑传播、交互和知识结构的可能性。这些带有自动化生成因素的系统是否能被视作完全独立的创作者,在当下仍然需要审慎的观察,但即便是作为一种辅助工具,这些技术对于克服人力短缺和提升效率,都有明显的优势。
自动影像生成需要克服的技术难题更多也更加复杂,但现有的技术突破也至少显示了AI创作者在生产数量和速度上超越人类的效能。特别是目前的自动影像生成在短视频领域的进展十分迅速,视听产业借助自动化生产系统能够更加有效率地生产不同定位、不同风格的作品,至少能给人类创作者提供有益的参考,让人机协同发挥出更大效能。
三、AIGC的问题和完善重点
(一)缺乏连贯性,需要人机互补
2019年以前,自动故事生成采取的模式就是从一个语言模型中采集样本,从而推测出加入故事的下一个角色、单词或句子来构建剧情。但是通过这种方法创作的故事往往没有一个清晰的行进线索。28这个问题在“本杰明”创作的三个剧本中体现得非常明显,几乎丧失了故事的最基本价值。这个问题到现在都没有被根本性的解决。2022年的一个研究指出,自动写作模型仍然缺乏语义连贯性,这在很大程度上限制了它们从事更长篇幅的创意写作能力。29
由于AIGC会输出不合故事逻辑的情节或自相矛盾的陈述,很多自动生成的作品采用了人机互补的形式。例如前文所述的《这不是游戏》《人工智能:当一个机器人写剧本》以及恐怖悬疑片《摩根》的预告片均是AI和人类的创意性合作。这种合作首先迫于AI创作的局限性,但也显示了机器与人类创意结合的增强效应。
AI创作的人机互补还出现在演员或观众诠释剧本的环节。当《阳春》被拍成影片,在诠释最后一段不知所云的独白时,女演员的眼中逐渐噙满泪水。然而,剧本原文中并没有对角色情感方面的描述,从某种角度上而言,这里的表演缺乏足够的剧本支撑,仿佛是人类适应人工智能,而非人工智能适应人类的主客体倒置。如果目前所有的创作人员均完全采用AI创作的剧本,而不加以人工干预,可以想见,这对于演员将会是巨大的挑战。《目击者》的演员在接受采访时说:
“对于我而言,在一个大部分都是由人工智能编剧的影片中表演,最大的挑战是试图去找到我角色的动机以及对话中的意图。”30在人工智能无法真正习得(也许永远无法习得)人类情感之时,人机协同交互是产生艺术作品的前提。至此,人类似乎还垄断着意义的生产和再生产,并且独有对情感的理解和表达权利。
此外观众会对AI生成的内容存在过度解读,虽然这也是某种意义上的“人机互补”,但这种过度解读也可能引起人类的不适感。例如,戏剧《人工智能:当一个机器人写剧本》中有一个场景,人类角色让机器人给他讲笑话,机器人说:“当你死了,你的孩子死了,你的孙子也死了,我还会活着。”这乍听之下似乎是AI对人类的讽刺,让人隐隐恐慌,但这也许仅是人类对此的过度解释而并非AI的本意。恰如人工智能专家德汉特所言,AI并不能真正理解句子的含义。31连句子含义都无法理解,更不用说刻意讽刺人类了。
(二)艺术性和生命力有待提高
目前机器创作生成的故事虽然有偶尔的“灵光乍现”33,但大体总是遵循着传统的编剧模版,故事老套落俗,乏善可陈,并不具备创新的能力,“难以呈现个体的叙事、记忆和生命历程”。34然而,也有部分模型显示出创造的能动性,比如前文提到的谷歌的Phenaki在处理场景转换上似乎有自己的想法:在处理一段宇航员在蓝色房间里敲打键盘到宇航员身后出现蓝色海洋的场景转换上,宇航员的身后依次出现了橘色的光、透着高楼大厦的两扇窗户等,没有出现在输入文本里的画面。虽然这样的场景变化没有令人信服的逻辑,但是做到了丝滑连贯、画面和谐。连贯性是Phenaki生成视频的一大优势,但并非每个视频都能处理得尽善尽美。比方说在泰迪熊浮出水面和走上沙滩这两个行为的衔接上,Phenaki无法让画面保持连贯,而是出现了卡顿以及场景的突然跳跃。35
艺术性并不完全取决于叙事的连贯性,更在于对情感的触动能力,后者是机器创作更大的危机。在追求独异性的晚现代,创作需要追求阐释、叙事、审美、乐趣或者伦理的价值36,正是这些维度闪现着人类的智慧和灵性,也正是这些维度的创新和价值真正打动了受众。未来AIGC是否有可能达到这样的高度,还是艺术作品的“灵韵”会和本雅明认为的那样在机械生产的过程中凋谢37,这不仅仅是留给技术的问题,更是留给艺术之所是的根本性议题。
(三)触发法律风险
机器给人以中立客观的印象,但无监督学习模式也可能让人工智能嵌入偏见。有研究者在对三种流行的语言模型生成的文本进行检测后发现,在职业、性别、种族等多个领域,机器生成文本都比人类编写的维基百科文本呈现出更大的社会偏见。38
图4.短片《安全地带》(TheSafeZone,2023)
结语
2023年3月OpenAI发布了GPT-4,人工智能进一步实现多模态的输入和输出,对人工信息生产、加工和传播的能力也获得了更大的提升。自GPT-2以来,大参数模型已经多维度介入自动剧本生成、自动图片和影像生成,影视行业固有的生产流程和创作逻辑面临来自机器自动化生产的冲击。
毫无疑问,人工智能已经在多个领域成为一个能力出众的行动者,但它是否能被赋予行动主体的地位,仍遭遇以人为中心的伦理观的顽强抵抗。所以人工智能不仅是个技术问题,同时也是哲学问题。44在艺术领域,承认自动化系统为创作主体将是一个更加具有冒犯性的问题,毕竟艺术长期被认为是独属于人的精神活动。但也许于此更加务实的立足点是承认人机协同的现实和前景,世界再也不可能认可破坏机器的卢德主义。当然这不是放弃人类的自主性,而是从实践意识上切实思考如何引导智生产的发展方向。
当科学家在不断优化人工智能系统的性能之时,人文艺术学者更加应该深入思考哪些人类长久以来珍视的价值被写入智能系统,使技术成为追求至善生活的助力而非解构性力量。我们不能等到思想的列车行驶到站之后再用炸药改变其方向45,而是应该在其行驶途中就担负起引导者的职能。
【注释】
science.org/content/article/breakthrough-2022.
2[德]黑格尔——哲学科学百科全书Ⅲ精神哲学[M].杨祖陶译.北京:人民出版社,2015:325-330.黑格尔认为,艺术属于永恒存在着的绝对精神,人在艺术中以直观的形式把握着绝对精神。
4傅丕毅,徐常亮,陈毅华.“大数据+人工智能”的新闻生产和分发平台——新华社“媒体大脑”的主要功能和AI时代的新闻愿景[J].中国记者,2018(03):17-20.
5YihanCao,SiyuLi,YixinLiu,etal.AComprehensiveSurveyofAI-GeneratedContent(AIGC):AHistoryofGenerativeAIfromGANtoChatGPT[J].J.ACM,2018,37(4):1-44.
6[俄]列夫·马诺维奇——新媒体的语言[M].车琳译.贵阳:贵州人民出版社,2020:49.
7SarahThorne.HeySiri,tellmeastory:DigitalstorytellingandAIauthorship[J].Convergence,2020,26(4):808-823.
28,has%20taken%20over%20the%20world.2023-1-4.
15张微,彭兰.示能、转译与黑箱:智能机器如何颠覆与再建内容生产网络[J].新闻与写作,2022(12):75-85.
18Netflix,Netflixcreatorsbase,jointproductionprojectbetweenRinnaandWITSTUDIO,animation“Dogandboy”isreleased.Onehandatthepossibilityofcreator
product/pdf/R/R46795.2021-5-19.
22TPradyumna,DMurtaza,JMLara,etal.ControllableNeuralStoryPlotGenerationviaRewardShaping[J].IJCAI,2019.
23LiliYao,NanyunPeng,RalphWeischedel,etal.Plan-andwrite:Towardsbetterautomaticstorytelling[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019,33(01).
24YeyaoZhang,EleftheriaTsipidi,SashaSchriber,etal.Generatinganimationsfromscreenplays[J].arXivpreprint,2019.
25HanseobKim,AliGhazanfar,Jae-InHwang.ASAP:AutogeneratingStoryboardAndPrevizwithVirtualHumans[J].2021IEEEInternationalSymposiumonMixedandAugmentedRealityAdjunct(ISMAR-Adjunct),2021.
shtml.2023-3-16.
28同22.
29PMirowski,K.W.Mathewson,JPittman,etal.Co-writingscreenplaysandtheatrescriptswithlanguagemodels:Anevaluationbyindustryprofessionals[J].arXiv
preprint,2022.
30同8.
31同10.
34同11.
35同20.
36[德]安德雷亚斯·莱克维茨——独异性社会:现代的结构转型[M].巩婕译.北京:社会科学文献出版社,2019:137.
37[德]瓦尔特·本雅明——机械复制时代的艺术作品[M].王才勇译.北京:中国城市出版社,2002:
87.
38JDhamala,TSun,VKumar,etal.Bold:Datasetandmetricsformeasuringbiasesinopen-endedlanguagegeneration[J].Proceedingsofthe2021ACMconference
onfairness,accountability,andtransparency,2021.
43赵瑜.人工智能时代新闻伦理研究重点及其趋向[J].浙江大学学报(人文社会科学版),2019,49(02):100-114.
44赵汀阳.人工智能“革命”的“近忧”和“远虑”——一种伦理学和存在论的分析[J].哲学动态,2018(4):5.
45[美]N.凯瑟琳·海勒——我们何以成为后人类:文学、信息科学和控制论中的虚拟身体[M].刘宇清译.北京:北京大学出版社,2017:394.
期刊简介
新版《电影新作》以“新”为先导,以跨界为内核,通过“电影+”的研究范式与学术界、产业界建立广泛的合作关系,从而建立产学研一体化的研究平台。