长期主义第255期智能说:PikaLabs创始人专访,黄仁勋最新演讲,比尔·盖茨访谈,谷歌CEOPichai访谈老虎社区美港股上老虎

2023年12月4日,新加坡发布国家AI策略2.0。2023年12月6日,英伟达创始人、CEO黄仁勋JensenHuang,在新加坡访问,出席记者会时,进行小范围演讲与交流。黄仁勋表示,此行与新加坡总理李显龙会晤,深入探讨英伟达如何帮助、支持、参与该策略。

正文:

全文25,423字

预计阅读52分钟

专访PikaLabs创始人:探索视频生成的GPT时刻

字数:10,682

每一代技术变迁,都会带来内容生产的繁荣:胶片技术,催生好莱坞与迪士尼黄金时代;数字化带来家庭录像技术,铺平YouTube兴起之路;移动与算法时代,TikTok强势崛起。这些代际迁移过程中,人们视频消费需求也在不断放大。

AI时代是否会催生新时代好莱坞?AI对视频制作的改造,可简单分为三类:视频生成Text-to-Generate、AI视频编辑AIEditor、数字人Avator,后两者从视频编辑切入,用AI提效,视频生成意味着内容创作极度民主化,有机会彻底改造传统工作流,也最让我们感到兴奋。

技术视角下,相对文本、代码、图片生成,视频生成Text-to-Video一直被认为是AIGC高地,面临庞大计算需求、高质量数据集短缺、可控性等挑战。

视频领域何时会迎来自己GPT时刻?过去1年,Text-to-Video领域进展远比想象中迅速:Runway先后发布Gen1、Gen2,上星期推出MotionBrush,在可靠性上向前一步;StabilityAI在上星期发布自己首个Text-to-Video模型StableVideoDiffusion。

2023年7月,PikaLabs在Discord推出服务器,并在几个月内收获50万用户,大家开始将视线转向这家被称为视频生成领域黑马的公司。

PikaLabs团队相当精简,目前仅4位全职成员,兼具学术与创意两个领域顶尖人才:DemiGuo、ChenlinMeng,同为StanfordAILab的博士研究人员,拥有顶尖的学术与科研经历;KarliChen作为团队第三位创始人与创始工程师,拥有CMU的ML&CV硕士学位,Karlin本科期间就在机器视觉公司SenseTime担任工程师;MatanCohen-Grumi是拥有丰富经验的创意领域。

PikaLabs最新官网

今天,PikaLabs正式推出最新一代视频生成模型Pika1.0。Pika1.0不仅对视频生成质量进行提升,还支持3D动画、动漫或电影等多种风格视频,用户还能通过Pika实现画布延展、局部修改、视频时长拓展等编辑需求。

PikaLabs目前累计完成3轮、共5,500万美元融资,最新估值2.5亿美元。NatFriedman、DanielGross与Lightspeed分别领投PikaPre-Seed、Seed、A轮融资,众多硅谷明星投资人、AI领域重要公司CEO或核心成员也参与投资,例如:EladGil、Quora创始人与CEOAdamD'Angelo、AndrejKarpathy、HuggingFaceco-founder与CEOClemDelangue、PerplexityCEOAravindSrinivas、ElevenLabsCEOMateuszStaniszewski、TomeCEOKeithPeiris等。

嘉宾简介

DemiGuo:PikaLabs创始人兼CEO,高中时期进入IMO(InternationalMathOlympiad)国家集训队,并在2015年IOI(InternationalOlympiadinInformatics)中获得银牌。

在哈佛大学获得数学学士学位时,Demi同时攻读计算机科学硕士学位,并转至Stanford攻读博士学位,师从RonFedkiw与ChrisManning教授,进行图形学与NLP交叉领域的研究。

Demi在大二gapyear时期成为MetaAIResearch最年轻的全职员工,也在Microsoft、GoogleBrain、EpicGames等公司实习,拥有很强工程与科研能力。

天才少女创业,抓住行业变化窗口期

海外独角兽:为什么选择创业做视频生成,当时看到什么样的机会?

Demi:我对创意行业与用AIempowercontentcreation一直很感兴趣,很有热情。我从小学画画,家里人也有不少是做艺术行业的,我也一直想往这个方向创业,读博选的也是AI与creation方向。

我在博士期间有两位导师,一位是做AI的ChristopherManning,现在是StanfordAI实验室主任。另一位是RonFedkiw,做创意、电影行业,得过两次奥斯卡奖,也参与过加勒比海盗、星球大战等电影特效,他现在也是我们公司advisor,我有时与老师开玩笑说,他在计算机图形学火起来的时候,改变了整个电影行业,我们现在想用AI再次改变行业,我觉得这个方向能做10年。

视频生成之前,我考虑过游戏行业,如果用AI去做contentcreation,游戏最易商业化,我在斯坦福读博期间专门去EpicGames实习,了解游戏行业痛点。后来发现视频行业比游戏更不成熟,更有机会。

2023年初,Runway举办第一届AImovieFestival,我找了几个Stanford的AI博士还有其他朋友,组成六、七人的团队,还请来一位得过两次艾美奖的编剧。

我当时以为这个团队一起制作电影应该不难,但实际制作过程中意识到,现在的视频工具非常复杂,想表达心中想法门槛很高。有时我们想做很小的事情,比如换个背景,几秒钟的内容也要消耗几小时,软件还经常crash。

海外独角兽:这个过程中,你感受到AI会在视频行业里起什么样的作用?

Demi:我们当时已经在用AI赋能,那时Runway还没发布Gen-1,我们用一些AI算法实现一个从realaction到liveaction、再到animation的电影作品。

那时制作视频的AI算法不少,但没有被嵌入到任何工具里。我个人认为当AI功能非常强大时,视频制作不可能再这么复杂,未来一定会有完全不同的体验。这件事非常确定,但当时好像没有很多人去做这件事。

我还意识到一件重要的事,AI无法替代艺术创作者。我们电影制作团队有这么多AIPhD,还找了很好编剧,但还是很难做很好的电影作品,做出来就是不够好看。

我意识到,AI能做的是高效生成内容,给创作带来无限可能,但要选择哪种可能,还是要有艺术家来导演。比如说,如果有一个visualguidance就能让AI生成任何东西,但我们不知道这个visualguidance应该怎么做,生成的东西可能景深有问题,可能灯光有问题,就是不好看。

很多艺术家会担心AI视频工具会替代他们,但我亲身感受是AI无法代替,它可以帮助艺术家更加效去实现创意性想法,并且让更广泛非专业人士更容易上手使用创意工具。AI只是帮助人们解放创造力的工具,减少琐碎工作,让人去导演AI,这是我们与AI的关系。

Pika1.0Text-to-Video效果,PikaLabs团队提供

海外独角兽:PikaLabs创始团队成员是什么背景,你们是怎么聚在一起的?

Demi:我Co-founder是Stanford本科,我是Harvard本科,留学圈很小,我们之前就认识。

后来我们都在Stanford读博,她刚好也想做这个方向,而且在图像生成方向发了30多篇顶会。

我们还有一个创始人,KarliChen,他是我高中同学,高中信息竞赛获得国家前12、是物理竞赛国际集训队成员,他主要做engineering方面工作。他之前与我们一起做了电影项目,对我们创业项目很感兴趣,公司还没成立他就来了。

我们最近加入一个专门做视频的成员,他之前在以色列自己经营一个productionstudio,现在准备到美国与我们一起做这个事情。

我们团队目前全职只有四个人,但我们有很多intern与part-time,大多是MIT、Stanford博士与本科生,大多都有竞赛经历或发了很多paper,团队技术背景很强。

高中时我在Quora实习,认识了QuoraCEO,与他catchup的时候聊到我们idea,他非常感兴趣,帮我们介绍了后来的领投NatFriedman。我们给NatFriedman展示了初步探索成果,他也很感兴趣就投了。

Chenlin:我对创业的热情,一直高于做学术,我与Demi在某些方面非常相似。

小时候我就想象,如果有工具可以让我把想法直接画出来,就像哆啦A梦工具箱一样该多好。这个想法一直延续到现在,成为我一直想实现的梦想。

我们俩最神奇的地方就是,都有很强技术背景,又都很喜欢艺术。创业之前,甚至独立参与一些相似的项目,这种巧合让我们感觉非常契合,她给我讲对未来产品的设想与规划,我一听就觉得,我也是这样想的。

海外独角兽:你从高中一直参加计算机竞赛,是国家队里少有的女性成员,这样的经历对你创业带来怎样影响?

Demi:当时打竞赛纯粹出于热爱,觉得计算机非常有意思。现在看来打竞赛的经历,让我在engineering方面比较有优势,写代码特别快,因为有些实时比赛,从读题到写对程序必须在5分钟内。我们现在也有些搞竞赛的实习生,他们也对scaling中的engineer工作很感兴趣。

Demi:我觉得行业内之前player没有很强技术背景,优势在于先开始做这件事情。Pika非常幸运的一点,也是占据先发优势,这也是我急着创业的原因,我看到AI视频生成技术进展迅速,其他人都没开始做。

1月,我们产生创业想法时,Runway还没发布视频生成模型。当时所有VC都不看好视频行业,从商业化角度,他们只看到现在视频生成模型还很不理想,但我们一直在做技术,我们知道速度的变化很快,进展非常promising。

现在随着技术发展逐渐显露出来,越来越多人开始做这件事。

所以创业时我非常着急,觉得视频生成行业可能很快要火了,要抓紧做。

过去几个月,AI视频生成已取得很大进步。如果看2022年AI生成视频的效果,再看2023年3月,再看最近一两个月,你会发现视频生成模型发展非常快。

可能在不久未来,也许2024年,就能达到AI图片生成效果。虽然现在视频模型没有那么完美,但图片模型在1年半前也不好,现在已经非常好。

Chenlin:现在Runway、Genmo、ImagenVideo等,生成的视频在质量上相差不大。

大家似乎都卡在一个瓶颈上,没有人真正冲破。宣传视频都不错,但实际使用有很多问题,比如存在不少artifact,流畅度、时长不够。

虽然Runway现在有extension功能,但效果一般,如果我想要复杂、有逻辑的动作,比如让一个机器人先往前走,再右转,再左转,Runway的extension功能做不到,行业里还没有人突破。

这也是让我们兴奋的原因,还有很多技术创新与突破空间。

Pika1.0Expand功能效果,PikaLabs团队提供

Demi:也许6个月前不会想到现在发展,我们发展的确比较顺利,四五月融了3轮,收获将近50万用户,每星期有上百万generation。

但对于现在的发展,我们并不意外,可能我们还觉得现在发展与预期中比起来,做得还不够好。

我们团队之前设立了非常ambitious目标,想在暑假发布新产品,实现百万用户,再融一轮。

海外独角兽:领投了你们Pre-Seed轮的投资人NatFriedman非常有名,你跟他接触过程中印象比较深的是什么?他给你们提过什么好的建议?

Demi:我们投资人非常founder-friendly,非常supportive。我们融资其实都是pre-empted,没有跟很多投资人聊。非常幸运的是,我们投资人非常友好,给了我们很多hands-onadvice,他给的建议很难列举,都是针对一些特定问题给我们非常具体的建议,他回复消息很及时。

他非常了解技术,有时还会写代码。比如说我们有时候要改一些代码,他就给我们提供了一个专门改code的plugin,还帮我们写过一个下载数据的脚本。

视频生成的GPT时刻

海外独角兽:如何更好理解视频生成技术,它与图像生成有什么相同与不同?

Demi:AI生成图片与AI生成视频的模型有共通之处,它们相比语言模型,就是完全两类模型,有专门生成图片或视频的模型,比如diffusionmodel。

视频有很多与图片不一样的问题,比如要确保视频流畅性、确保动作,视频比图像更大,需更大GPU内存,视频生成需考虑逻辑问题,还要考虑如何生成,是一帧一帧生成,还是一起生成,现在很多模型是一起生成,生成的视频就很短。但如果一帧一帧生成,又要怎么做,很多都是图片生成不会面临的新技术问题。

Chenlin:视频的每一帧都是一张图片,但比图片困难得多。每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是相当复杂的问题。训练时,处理视频数据时要处理多张图片,模型需适应这种情况。

比如,如何将100帧图片传输到GPU是一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对单张图片会更慢,计算成本也会增加。

控制视频生成更难,模型需生成每一帧发生的事情,用户不会希望为每一帧都提供详细描述。视频生成涉及到更多空间维度,让问题变得更复杂。再加上互联网上视频生成的训练数据集相对图像更少,也给获取高质量数据增加难度。

海外独角兽:现在视频生成,有哪些关键点需突破?

比如说我们可以做20秒走路视频,但它可能做不了比如说走路、翻滚、奔跑之类的一个体操系列。

视频清晰度,也需进一步提高。尽管清晰度方面已经有突破,但还没有提高到电影级水平,现在生成的视频一般是720p分辨率,视频流畅性不够理想,特别是一些细节的texture。还需考虑generalartifact的问题,比如说一个人有两个头,就是这种明显不符合常理的问题,也是需避免的。

海外独角兽:现在视频生成的技术收敛了吗?是否像语言模型那样有了确定的技术路线,通过scaling就能获得很大提升?

Chenlin:现在还没有收敛,大家都在往各种方向尝试,每个人都认为自己模型是最好的,可能有人认为autoregressive最好,有人认为MaskedModel最好。Pika也不能完全算Diffusionmodel,我们开发了很多新东西,是一种新的模型。

MaskedLanguageModeling(MLM):指通过让模型预测文本中某些被掩盖的词语来训练模型,帮助模型理解上下文与语法。相对autoregressive预测下一个Token,MLM更像是完型填空,BERT是MaskedModel典型代表。

现在语言模型路线很确定,有一个原因是OpenAI投入很多资金去试,为什么GPT没有用于视频,可能因为他们资源、人力都集中到文本模型上。如果有一个公司投入很多资金,也许diffusionmodel也能做出不错的语言模型。但大家既然已经看到OpenAI方法奏效,就觉得没必要花费大量资金去投入别的方法。

视频还没到那个阶段,我觉得未来往什么方向走都有可能,比如GPT方式可能在某种程度上适合,GPT可以捕捉上下文,视频中也需上下文,相当于每一帧都需考虑整个系统。

我觉得最终还是希望能利用每个模型最擅长的那一部分,视频可能每一帧仍然是一张图片,那是不是diffusionmodel可以生成得更好,是不是应该同时使用GPT与diffusion网络,我觉得最后会有很多方式可以构建这样的模型。

海外独角兽:你们看来,AI视频生成什么时候会迎来GPT时刻,如何去形容这样的GPT时刻?

Demi:我希望2024年就可以实现。给用户的感受就像ChatGPT、Midjourneyv5那样,有显著提升。各方面都需有改进,比如说视频生成模型的创新,engineering,包括数据、scaling等。

Chenlin:我觉得目前视频生成,处于类似GPT-2时期,很可能未来1年内有一个显著提升。如果回顾图像生成,我记得2018年时,我们实验室博士后提了一个酷的想法,如果以后维基百科的插图,都能根据维基百科描述来生成该多好。

我认为视频生成的突破,也会比想象中快,到那时,生成视频应该是非常可控的过程,我们应该能以更自由方式生成任意长度视频,而且生成的视频可以是任意长度,人们可以像导演一样控制主角行动,比如去咖啡馆喝咖啡,然后去学校上课,再运用我们产品把所有片段拼起来,成为完整的小短片。

Pika1.0AIChange效果,PikaLabs团队提供

海外独角兽:实现视频GPT时刻这件事上,创业公司会扮演什么样角色?在你们视角中,视频生成领域未来会呈现什么样格局?

Chenlin:我认为视频领域竞争,可能会类似语言模型竞争格局,一家公司发布新模型的时候,他们内部可能已经有更先进的模型,领先其他公司1~2年。我认为未来在视频领域,也会是一家公司领先1~2年,在冲锋,其他公司在追赶。

海外独角兽:形成这种差距的原因在哪里?

例如,数据是一个重要问题,处理一个数据集并不简单,比如我们要获取到10亿条数据,过滤与标注10亿条数据不是简单的事,团队要有能力处理整个流程,不会有特别多团队能把这个流程做得特别好。

海外独角兽:视频生成领域,什么样的数据算高质量的数据?

Chenlin:首先是像素,就是我们说的画质好不好,然后看审美与艺术构图,第三方面是要有动作,并且这些动作是有意义的,比如电影里其实有很多很漂亮的视频,但大部分动作都是人站在那边动嘴巴,虽然这些画面非常漂亮,也是很多著名导演专门设计出来的,但如果把它们用来训练模型,不一定能完全训好。

因为如果只用这些数据,而不用其他内容,训练出来的模型可能真的就学到后面所有人就只是在动嘴巴,也没有其他有意义的动作。

视频长度也很关键,如果模型都在1秒的视频上进行训练,想让模型生成30秒的视频难度就很大,要么需收集更多、更长的数据让模型学习,要么重新训练模型的算法,让它只通过学习1秒视频也能生成30秒视频,数据创新或算法创新必不可少。

海外独角兽:你认为视频生成与LLM相比,哪个领域人才与团队更稀缺?

Demi:长期看,视频行业的人才可能更稀缺。视频行业不能看现在,要看未来。我们发布第一个产品的时候,还没有开源模型,我们自己训练模型,然后发布。最近由于开源模型的出现,导致更多player进入这个行业,但这个现象是短暂的。

相较LLM发展已经有了比较明确的路线,只需不断提升Scaling,如果想要做出很好的视频模型,并且想投入商用,还需在模型架构与算法层面做出技术突破。

举例来说,视频都是SequenceofImages,现在方法是所有Images一起生成,受到GPU内存的限制,生成的视频都很短。我们需新的方法,才能生成更长的视频。

再比如,视频生成模型领域,还没有像LLM的ScalingLaws那么清晰的原则或规律出来。

视频生成模型还需模型的创新,也需很多engineering,这件事情不是所有人都能做成的。哪怕在LLM领域,OpenAI也掌握了技术壁垒,即使现在有了LLaMa这样的开源模型,有很多人能做很多事情,但只有OpenAI能做GPT-4。

海外独角兽:Pika有没有信心成为视频生成行业里技术最强的团队?

Demi:我们有这个信心,这也是我们想做的事情,我们想做技术最强的团队,之后我们可能还会招更多人。

海外独角兽:如果想要保持住先发优势行业领先地位,需做什么?如何建立公司的护城河

Demi:首先要有先发优势,要不断积累资源,包括用户资源、数据、GPU资源等。技术的发展与资源的积累,是一个滚动的过程,比如说积累更多用户,也会有助于我们训练模型。技术团队也非常重要,要招募更多技术人才。

Interface设计方面也很重要,最后很有可能一部分是技术,另一部分是设计与技术相结合,设计会为技术发展提供灵感,技术也可以支持设计,这个壁垒可能会越来越近。

海外独角兽:当年StableDiffusion发布时,由于模型较小,对算力需求较低,社区也做得很好。视频领域对算力需求较高,是否会因此导致开源贡献有限,有意思的东西更多由像你们这样专业公司完成?

Chenlin:我认为开源社区,可能没有足够算力来训练新的视频模型,因为训练一个新视频模型需非常多机器。

对StableDiffusion,有人可能用8张A100就能从头开始学习,并得到不错结果。但对视频模型,用8张A100可能不够,无法训练出好的模型。

而且视频模型本身的问题还没得到解决,大家会遇到一些瓶颈。首先,模型性能可能不够好,其次,一些算法方面问题也不够好。但是修改模型、架构,修改算法,都需从头开始转换模型。

我认为开源社区的人,甚至包括一些高校的人,没有这么多机器用来这些探索性工作。我理解是,开源社区会面临很大挑战,除非有一天像POTX或TAI这样的人有很多卡,愿意做慈善,开源一个模型。除了一些大公司开源模型外,普通开源社区很难进行探索性工作。

我们相信视频最终可能需像训练GPT那样的大规模算力,现在大家还没使用那么多算力,一方面是视频模型还没达到像GPT那样水平,另一方面是因为还有一些架构与技术上没解决的问题。我们相信这些问题改善后,未来会有新一代的视频模型达到类似GPT规模。

要做最好的技术,也做新一代Interface

海外独角兽:前阵子你们发布的花朵视频,效果非常惊艳,即将发布的新产品会有什么大的变化?

Demi:我们会发布新的模型,新产品与以前比会有很大变化,首先肯定是生成质量的提升,能生成的内容风格会更多,其次编辑上也会更加灵活,我们会提供画布延展、局部重绘、视频时长拓展等功能。

使用上,除了Discord之外,我们也会上线全新官网,用户可以直接在网页端进行内容生成与编辑。

我们计划2024年推出能投入商用的产品,可能暂时不能制作整部电影,会先做影片中一些素材或shortclips。

海外独角兽:你们模型现在是第一个,还是已经是第二个或第三个版本?

Demi:我们训练了很多模型,未来即将发布的是最新版本。

海外独角兽:为什么Pika的艺术家生成的视频效果很惊艳,普通用户在Discord里生成的视频效果没那么好,产品的使用门槛是否比较高?

Demi:一方面因为我们的艺术家用的已经是新模型,模型本身就提高很多。在生成花朵视频时,我们非常注重视频连贯性,有很多方法可以控制视频的连贯性,比如说prompt一致,或用seed,用图片去控制。

另一方面,我们也计划提高产品易用性,有时用户可能上传低分辨率的图片,或复制了其他prompt,在我们这里可能不适用,导致效果不佳。这些问题,在我们下一代版本中,都将得到改善。

海外独角兽:Pika团队现在是三个技术背景很强,还有一个视频行业的,那现在是谁主要负责产品设计,包括模型设计、整体产品交互,以及怎么定位,最大的产品经理是谁?

Demi:因为我们团队人特别少,工作职责划分比较模糊。最早的时候,我们三个一起写代码,当时没有分谁做谁的。

现在每个人都会有重心,比如说我高中同学主要做engineering,我co-founder主要做model。

我主要做任何其他项目的事情,operation、product、融资都会去做,这也是创业公司的常态。

不过这不是长期的事情,在有些事上,我不一定是最合适的人选,我们2023年底会开始多招人。

海外独角兽:是否可以谈谈你们对产品设想、产品设计与迭代的方式是什么样?你们与用户之间的沟通,是什么样的?

Demi:关于产品的想法,可以分为长期与短期。

长期,我们想做的不仅是一家公司,而是希望用AI改变视频行业,重新设计视频制作的interface,给视频创作者带来完全不一样的体验。如果做成这件事,我觉得它的影响力,会超越一家公司的影响力。

另一方面,我觉得,现在正处于AI发展过程中非常特殊的历史时刻,我们有机会用AI实现任何事情,我们希望给视频行业,乃至更广泛的内容创作行业的interface带来颠覆性改变。

我们对公司highlevel的想象是,未来我们不仅想做最好的技术,也想做非常好的interface,用技术去实现更好的interface,用interface来指导技术发展。

海外独角兽:你们理想中新的Interface会是什么样?

Demi:现在很难描述这个新的Interface会是什么样,我现在能想象出来的Interface,可能也不会是最好的,我们刚进入这个行业,这会是探索的过程。

Demi:未来不确定,短期会有比较具体目标,比如2024年上半年,我们目标主要是现在的AI用户。

比如Midjourney已经有几亿美元收入,上千万用户,这是非常确定已知的市场,我们刚开始,可能会偏向这一类对AI有热情、愿意尝试AI技术的用户群体,可能是同一批用户或比他们更多,这是我们短期未来几个月内的目标。

现在用户里,有出于兴趣的个人用户,也有处于工作目的的专业用户。AI发展得非常快,等未来技术更加成熟、我们有更加先进模型,可能会重新规划一下目标受众。

海外独角兽:现在Pika生成视频默认是3秒,这个时长可能很难商用,如果技术成熟到能给用户初步创造商业价值,还需多久?产品要做到什么样,才能达到这个第一阶段目标?

Demi:我们希望2024年能实现。现在不确定视频时长能达到多长,可能不能制作一个完整电影,但很多电影片段就是shortclips,我们希望2024年至少在一定程度上能进行商用,可以帮助用户生成一些可以使用的素材或片段,就像Midjourney图像生成工具给用户提供一些商业价值。

所以说,一方面我们会延长视频时长,我们也会注重改善视频生成质量,我们希望生成的视频中不要出现artifacts、视频要好看、要高清、动作要更完美,确保即使比较短也能用,也可以把它们拼接到一起。

海外独角兽:很多人认为Midjourney产品取胜的关键除了技术,还有数据与审美。Pika团队在这方面是怎么考虑的?内部会如何评估视频质量?

Demi:我们团队非常重视审美,我们意识到不是所有工程师都具备审美能力。团队现在有两位艺术家,最近也在面试更多艺术家专门做审美方面工作。我们团队很小,大家每天都在一起工作,在设计与技术方面的协作非常密切。艺术方面的人,可能会提出设计建议,我们学习,并进行测试,整个团队沟通非常紧密。

Chenlin:视频数据处理的工程量很大,我们雇佣了不少外包团队来标注数据。视频审美、评估的难度很大,需艺术家来把控。

我们虽然也有一些度量标准,但好看与否很难量化,最终取决于艺术家感觉。就像DavidHolz经常说,他们公司地位最高的人是艺术家,艺术家可以决定哪个模型被发布,决定要用怎样的数据训练模型。

模型生成的图像,实际上是训练数据集的缩影。如果训练数据集不够好看,模型学到的人物也不会好看,最终需具有艺术审美修养的人,他来选择数据集,把控标注的质量,并及时提供反馈。

海外独角兽:创意内容生成行业有不少创业公司,如何看待Midjourney、Genmo、Typeface等竞争对手?

Demi:我不是很喜欢去想竞争对手。可能很多人会问,我们怎么跟Runway竞争,但对我们来讲,我们想做的事情现在没有人能做成,这不是竞争的东西,现在我们是在跟这个技术、跟我们自己去竞争,我们不再想抢占市场,而是要先把事情做成。

另一方面,竞争对手也是动态变化。我们主要还是想做成AI视频生成这件事情,我们对这件事情充满热情,觉得它非常有意义,也非常有挑战性,如果竞争对手想要与我们合作,我们非常欢迎。

很多人会说,以后Midjourney可能会成为竞争对手,但Midjourney的Vision是想做3D实时的世界,Pika目标是做新的VideoMakingInterface。

海外独角兽:怎么看视频生成与视频编辑的关系?

Demi:视频生成本身也有编辑成分,我们如果做好基础模型,在基础模型上去做一些应用程序比较简单。就像在图片生成领域,有了基础模型,比如想做一个手绘生成照片的应用很简单。到最后,视频生成与编辑的边界可能会很模糊。

短期内,我们不会做特定类型的视频编辑,不会与剪映、Premiere之类工具走到一条赛道上,但我们可能会覆盖AdobeAfterEffect里一些功能,比如单个视频的内容编辑、特效编辑功能。

海外独角兽:未来1年里,公司在整体发展层面最关心的三个问题是什么?

Demi:第一是想招人,现在我们忙着做产品升级,但是因为现在人比较少,之后我们还是会招募更多成员。

第二,我们想去设计新的Interface。

第三,我们想做一些技术突破,希望2024年的技术,能至少在一定程度上达到商业化标准,能在简单的case上得到应用。

我们希望这个视频生成工具,可以让每个用户,包括更广泛的大众都能使用,都能生成好看的视频。

黄仁勋最新演讲:AI是必须拥有的东西,未来每个公司都有两个工厂,一个制造实物,一个生产智能

字数:7,816

2023年12月4日,新加坡发布国家AI策略2.0。2023年12月6日,英伟达创始人、CEO黄仁勋JensenHuang,在新加坡访问,出席记者会时,进行小范围演讲与交流。黄仁勋表示,此行将与新加坡总理李显龙会晤,深入探讨英伟达如何帮助、支持、参与该策略。

演讲内容:

未来每个公司都有两个工厂,一个制造实物,一个生产智能

今天我想谈论几个问题,首先,计算机行业正在发生的变化;其次,为什么生成式AI具有变革性;第三,各个行业与国家正在竞相拥有自己的AI,他们为什么这样做,他们是如何做到的,为什么这是非凡的机会。

一个被称为加速计算,与之相对的是通用计算,用一种通用处理器进行一切工作已不再具备成本或能源效率,数据中心必须尽可能加速所有工作负载,以实现更高的性能、能源效率、成本效益。

第二,加速计算使一种新的软件开发方式成为可能,推动软件平台转变,使以前无法实现的应用程序成为可能。

加速计算与生成式AI,一起推动广泛的平台转变,这不是经常发生的事,而且在我整个职业生涯中从未发生过。

IBMSystem360是在我出生后1年或2年内发明的,它描述了一种使用中央处理单元的计算机体系结构,它被划分为多层级的内存结构,高速缓存、系统内存、硬盘。

英伟达是通过发明新编程工具CUDA,以及GPU处理器来推动加速计算,卸载与加速CPU无法高效执行的工作负载。

我们本就应该使用正确工具做正确工作,以此提高性能,同时降低能源成本几个数量级。

经过近25年发展,加速计算取得广泛成功,现在已得到开发者、系统制造商、云服务提供商、技术制造商与他们用户生态系统的信任。

我刚描述基于CUDA的新计算机体系结构,一种称为加速计算的新计算方法,现在几乎无处不在,存在每个云中,存在每个系统制造商中,存在每个行业中。

这种情况在60年内从未发生过,这是非凡的情况,也是英伟达发现自己成为如此多技术变革与工业革命中心的原因之一。

加速计算推动深度学习与大型语言模型的进一步发展与扩展,引发生成式AI的崛起,许多人称为第四次工业革命。

我们知道智能是最有价值的东西,但假如智能可以批量化、自动化生产,是多么令人难以想象。

第二次工业革命,有一个建筑物,加入原料,加上火,就出现看不见的东西电,被传送数百英里,通过打开它,你拥有光,拥有热量,制造能源,制造电力,它改变一切。

今天同样有一个建筑物,里面有特殊仪器GPU,输入的原材料是表征数据的电子,输出的是更多电子,是token,这些token被称为智能。

我刚提到GPU,它可以非常大,看起来像工厂,事实上这就是新的工业,全新的工业已被创造出来,这不是过去的数据中心,而是AI工厂,我们现在生产、开发、精炼叫做数据的原材料,将其转化为世界上最有价值的东西智能,我们在高产量、大规模生产,我们正处于这个革命的开始。

生成式AI,已找到如何识别模式与关系,从你们提供的数字中,这些数字可以代表文本、图像、运动、流体、温度、声音、蛋白质、化学物质、氨基酸、基因等,它可以代表你想要的任何东西,并且可以发现其中关系与模式,从而理解它的含义。

去理解词汇的含义,并不是那么容易,非常神奇的是,计算机可以做到这一点,我们所有人都可以做到,这就是使我们聪明的原因。

但要理解氨基酸的含义,要理解基因的含义,并能从英语翻译到英语字幕或总结,从图像到文本,从视频到操控动作、自动驾驶汽车,从图像到信息的所有这些翻译,现在都是可能的,这都是生成式AI带来的,对行业影响非常深远。

让我简要介绍一下,你们知道,foundation模型现在是多模态,你可以同时理解文本与图像,实现高水平的语言与基本数学技能,以及一些基本推理。

多步推理还有很长的路要走,系统思考,慢思考,快思考。AI在慢思考方面非常出色,在快思考方面不太出色,那里有很多机会与突破。

全球最大的互联网与云服务提供商开始第一波浪潮,我们看到下一波浪潮正在迅速崛起,而这一波浪潮的核心是各个国家,各个国家正在建设主权AI基础设施,这将会被各个行业、各个公司所紧随,今天世界上每个公司,无论多大,都拥有传统工厂,它们可能制造汽车的工厂,飞机工厂,家具工厂,药物研发工厂。

但在未来,每个公司都将有两个工厂,一个负责制造实物,一个负责生产智能。

英伟达拥有世界上5台最大的超级计算机,24小时运行,没有他们,我们无法设计自己软件,无法设计自己芯片,无法做任何事,所以我们有两个工厂,一个工厂外包给TSMC制造芯片,一个智能工厂我们自己运营。

今天,每个公司,每个国家都将采用类似的方式。

AI是一种必须拥有的东西,它可以提高未来竞争力

主权国家已意识到,他们主权数据包含人民知识与文化,国家必须培训与拥有他们社会的AI,国家已觉醒,需要制定AI战略,正在评估AI研究与行业主权数据,以及AI计算基础设施与安全政策的投资。

我非常高兴看到新加坡已更新国家AI战略,我在抵达新加坡时,有幸下载新加坡国家AI战略2.0,如果你还没有机会阅读它,请务必阅读,这是一份非常出色的文件,非常明确的愿景与可操作的战略,嵌入了我认为很多智慧与未来抱负,强调了几个我非常赞同的事,首先是要扩大AI人才培养,建设AI计算基础设施。

在我们那一代软件工程师开始工作时,会拿到一个连接到主机的终端PC,那个终端实际上只是升级版的打字机。

我们整个职业生涯都在打字,但正如你们所知,现在再多的打字编程也无法为你创造出一款生成式AI,这在理论上对任何人来说都是不可能的,没有人可以打字得那么快,处理那么多数据。

今天,任何人进行任何类型的科研或工程,你都需要像我当年使用PC一样,使用一台AI超级计算机。

最后,要在各个行业推广AI,AI不是一种奢侈品,AI的投资不是一个机会,而是一种必须拥有的东西,这是一种战略性的迫切需求,可以提高未来竞争力。

我们与新加坡DSO、DSTA、SNEL、NCC、DBS等众多政府机构与企业有出色的合作关系,我们还与本地云服务提供商合作,我们正在全天候工作,以在新加坡建立GPU云,以便你们可以进行AI研究、建设AI基础设施,并支持国家AI战略。

我认为我们应回顾历史,意识到2022年很重要,2023年也很重要,就像生活中任何竞技运动或努力一样,每一点都不是同样重要的,每一年也不是同样重要的,但2023年确实很重要。

问答环节:

英伟达避免做其他人也能做的事,考虑与量子计算领域所有人合作

主持人:Jensen,你非常了解我们。今天在这个房间里,我们有AI生态系统的不同部分,研究人员、开发人员、产品构建者、初创公司、大型科技公司领导、大型跨国公司、新加坡大公司以及其他众多机构与企业代表。

我想先请国家超级计算集群主席吉穆发言,他一直与你团队在NVIDIA紧密合作,也许可以请他谈谈看法,同时也提出问题给你。

吉穆:早上好,Jensen博士,我对AI取得的成就感到非常惊叹。我曾与Jaie讨论过,从现在起6个月后会发生什么事,我不确定未来会发生什么,但今天早上我们刚看到谷歌Gemini发布,这真是令人惊叹。

我想问一个量子计算的问题,我了解NVIDIA有一个愿景,要成为领先的量子计算公司,即使没有建造量子计算机。

黄仁勋:我真的很感激你了解NVIDIA战略,即要成为世界领先的量子计算公司,而不必建造量子计算机。

我知道这听起来不合理,但这也深刻反映我们核心价值观。让我告诉你,我们策略是如何。

我们避免做任何其他人可以做的事,即使这些事可能会带来巨大财富、利润、名声。有许多不同类型量子计算机正在建造中,这表明世界并不需要我们来做。

问题是,我们如何推动这个行业发展?

要构建下一代计算机,也就是世界的下一代计算机,你需要世界上最强大的计算机,以此来实现。

这里有一些我们可以做的事,首先,为了模拟量子算法,我们需要量子计算机模拟器,而这个模拟器最好是一台快速的计算机。

NVIDIA的系统,是量子算法开发的全球领先模拟器。还有一些非常重要的算法需要开发,比如后量子加密算法,现在必须开发这些算法。

我们正在与许多不同行业合作,无论是在数字生物学、密码学、天气模拟、碰撞模拟,还是其他各种不同的模拟领域,都有合作。

第二个问题是,即使在量子计算机出现的时候,对某些问题,大数据小计算,量子计算机并不擅长。

世界上有许多问题是大数据小计算的,比如推理,量子计算机与经典计算机或加速计算机之间的关系是必要的,我们称之为量子经典架构。

我们正在帮助世界开发编程模型CUDAQuantum,我们正在开发编程架构与系统架构。

第三个问题是,量子计算机与经典计算机之间的交互界面非常复杂,很明显,其中一个对噪声非常敏感,它们之间的交互必须非常低延迟,我们在经典系统、经典量子系统架构方面做了很多工作。

我们正在与行业内几乎每个人合作进行研究,如果在新加坡需要进行量子计算工作,我们可以为此提供很大价值。

即便美国各种封锁技术,中国与新加坡的科技公司仍有很多机会

主持人:我们请Russell,他对这个领域有一些问题。Russell,请继续。

问:Jensen,欢迎来到新加坡。在21世纪10年代,你曾经来到我之前公司AppliedMaterials,我记得那时你的主题是,为什么你们不能帮助我们制造更大晶圆片,但那是一个不同的时代。

我还要感谢你,2022年11月中旬在我们会议上发表讲话,那是在ChatGPT发布之前10天左右。

我很喜欢你说的每个公司拥有两个工厂的概念,一个是产品工厂,一个是AI工厂。

我认为这个概念也适用于国家。我们新加坡需要拥有自己的AI工厂,我认为我们的国家战略就是这样。

另一方面,新加坡是小国家,有600万人口,但在AI时代,我们是否有可能解锁我们传统的劳动力与人才方面限制?包括Omniverse、数字孪生等这些能否结合起来,帮助解锁新加坡的一些限制?

黄仁勋:你既然非常明确提出问题,实际上你已知道答案。

我想举中国例子,虽然有监管等原因,中国科技公司依然有很多机会。

中国从非常小的汽车产业,发展到世界上最大的汽车出口国,它生产了最先进的汽车,如理想、小鹏等。这些伙伴都是英伟达合作伙伴,他们是了不起的公司,他们从0开始建造世界级汽车的速度真是惊人,今天的汽车非常复杂,完全由软件定义,基本上就是一台带四个轮子的计算机,但他们以如此快速度与卓越的水平完成。

这个速度与卓越的特点,可以应用到每个行业,我对中国能在计算技术领域成为世界一流充满信心。

NVIDIA正在构建非常重要的技术,如AI,产生智能的能力,显然对每个国家与每个公司都至关重要。

美国希望对我们技术进行监管,以确保我们最先进版本的技术不可用于中国,这不是我能参与决定的,但我们必须尊重它。

我们首先必须设计符合监管要求的产品,我们已在1年前监管出台时做到,现在监管再次出台,我们正在制定新产品线,这些产品线明确符合监管规定,我们将把这些产品提供给中国合作伙伴,他们迫切希望我们尽快完成这项工作,我们正在全力以赴,希望能尽快为中国市场提供服务。

任何旅程都需要退一步问自己,这次有何不同

问:如果你比较不同国家,你认为对国家在AI领域取得成功来说,最重要的两三个推动因素是什么?

黄仁勋:任何旅程中,你都需要退一步,问自己,这一次有什么不同。

12年前,当我们开始研究深度学习时,行业其他人100%的努力都集中在计算机视觉领域,每个人都在imagenet的新网络而努力。

但那时,世界各地一些研究人员联系我们,要求我们帮助他们,他们意识到CUDA实际上是普通人就可以拥有的超级计算机,让你可以在台式机上拥有超级计算机。只要他们学会如何以深度学习所必需的方式来编程CUDA,它将对他们非常有帮助。

我们发明了没有人谈论的东西,但它却是所有计算机科学家领域的特定语言,我对它着迷,但我们退一步问自己,这到底有什么意义,这将如何改变技术,这将如何改变计算,这将如何改变软件,这将如何改变我们公司,我们思考后得到答案:深度学习在极限状态下将改变一切,所以我们开始了这个旅程。

今天开发软件的方式已发生根本性变化,数据的重要性、数据策略的重要性、不同的数据策略等都不同。

现在对国家来说,你们必须做同样的事,必须问自己,这个情况有什么不同,我们必须采取哪些行动,必须制定哪些战略,为什么要建立资本结构、大学或其他一切都是有原因的,你需要一个环境,研究人员可以在其中受到启发,感受到被赋能,意识到有能力支持他们一生的工作。

尽管可能听起来有点自私,但我还是要说的,一件事的象征意义非常重要,必须有标志性的东西,可以吸引世界上最优秀的研究人员,释放创造。

计算机架构每10年就会有一次大变革

问:我们正在开发一种100%离线运行的开源版本ChatGPT,可以在笔记本或服务器上运行。我有两个问题,第一是你认为计算机架构在未来30年会如何发展?第二是计算机内存与计算机之间的界限是否会模糊?

黄仁勋:我想先回答第二个问题,计算机内存与计算之间的界限将永远存在。这是因为我们有工作内存、短期内存、长期内存、持久内存等各种内存层次,这种数据层次结构永远不会改变。

不同类型的数据,需要不同速度的内存访问,这与计算效率有很大关系,这种界限将永远存在。

计算机架构的核心部分,就是计算与内存之间的界面,这个界面将永远存在。计算机的性能与效率、与内存访问速度有很大关系,并且是计算机科学的核心部分。

第一个问题,计算机架构每隔10年左右会发生一次大变革。这个变革,通常涉及到计算机抽象层次的提升。

我们正在迈向一个阶段,原来的处理器可能不再占据主导地位,大型语言模型已成为下一代计算机CPU,但有趣的是,虽然是CPU,但它运行在不是CPU的处理器上。

我认为未来计算机架构的一个特点是,大型语言模型将成为大脑中枢,而它将被一系列其他语言模型所环绕,就像计算机被一系列外围设备所环绕一样。

你将拥有未来计算机的通用大型语言模型,它将被各种专业模型所包围,通过工作内存、上下文内存与存储进行连接。

你将不再使用过去的SDK来连接它们,而是像组装团队一样将它们组合在一起,创造拥有不同团队成员的AI,它们将围绕一个大型语言模型聚集,形成检索、增强、生成等不同团队,然后将它们串联在一起。

这就是我对未来计算机架构的看法,计算机架构已发生了正式的变革。

创建超级应用软件的门槛大幅降低,每个人都在积极尝试

黄仁勋:确实如你所说,如果回顾一下,Langchain何时真正崭露头角,各种Vector数据库何时开始出现,有很多不同的构建Vector数据库方法。

如何创建这些语义搜索引擎,如何对数据进行排名,如何分块,所有这些都需要一定智慧。但全球采用这种新型计算能力的速度之快,是非常不寻常的。

未来的计算架构,即语言模型,已民主化,实际上大幅降低了创建超级应用软件的门槛,这是有史以来第一次。

这就是为什么每个人都在这个领域积极尝试,我自己预测,6个月后,构建一个成功的ChatBot,只需要一下午。

英伟达的成功归功于同时考虑应用、算法、系统与芯片等跨领域研究

问:我是新加坡国立大学计算机科学系的一名助理教授。我刚从伯利大学获得博士学位,研究领域包括AI、AI安全性、网络安全与密码学。

我问题是,假设你现在20多岁年纪,处于当前世界中,你会有什么感觉,作为一名新毕业生,无论是硕士、本科生,还是新获得博士学位的UCS毕业生。回想起30年前,你当时在想什么?

黄仁勋:我首先回答你第一个问题。如果我现在20多岁,在当前世界中,我可能会考虑在大学或研究机构从事深度学习与AI研究,这个领域充满挑战与机会,对未来社会有巨大影响。

我也会考虑加入一家创新性技术公司,特别是专注推动技术前沿的公司,这些公司通常提供丰富的学习与发展机会。

我所在公司NVIDIA当时理念是,通过开发专用处理器来提高某些领域性能,如计算机图形。这种专用处理器,可显著降低计算成本或提高性能,推动新的应用领域发展。

第二个问题,我认为跨领域研究非常有价值。如果你在多个领域都有深入专业知识,你将能更全面看待问题,这对解决复杂挑战非常重要。

NVIDIA之所以成功,很大程度上归功于我们能同时考虑应用、算法、系统与芯片,这在行业中相对罕见。

对那些热衷在学术界为语言模型与AI研究做出重大贡献的研究者,我建议积极寻求跨领域合作与创新,并寻找合适合作伙伴,以获得必要资源与支持。

我们需意识到,当前的大学可能不具备进行此类研究所需的计算资源。解决这个问题,可能需要大规模投资,但这将有助于推动开放科学与知识的发展,使更多人能在这一基础上构建。

问:我们正在建造自主送餐机器人的小型创业公司。我们面临问题是,过去曾经发生芯片短缺,需求量大于供应量,而作为小公司,我们太小,没有人愿意向我们承诺任何东西。

如果几年后,我们变得很大,需要大量芯片,你是否有任何建议?NVIDIA是否有面向初创公司的计划?

如果你需要GPU基础设施,可以联系我们,我们有Inception计划,旨在帮助规模较小公司,帮助它们成长,以便有一天你们也能成为大公司。

我唯一要求是,如果有一天你们成为大公司,请不要忘记帮助过你们的小人物。

生物学是下一个巨大而激动人心的行业

我问题是,你提到GPU与计算资源重要性,不仅在国家层面,也在不同行业间竞争激烈。我想问一下,不同行业中,你认为医疗保健的地位如何?

新加坡作为一个国家,如何更具体为该地区基于AI的医疗保健服务提供支持?

黄仁勋:首先,我要感谢你问题,我们有Clara健康护理实践,涵盖从基因测序的软件定义到医学影像、电子显微镜、虚拟筛选分子动力学模拟等领域。

我们在这些领域都起到核心作用,拥有一个重要的平台BioNemo,我建议你查看一下,它是数字生物学的基础模型,数字生物学当然是不同于生物学的复杂领域,不同领域的数字生物学可能需要不同的基础模型。

我们与公司内部的大型团队合作,与研究人员合作,我们将这些大型语言基础模型用于数字生物学不同领域,作为云中的API功能,你可以发送请求,它将返回蛋白质、化学品、构象等。

如果你问我下一个巨大而激动人心的行业是什么,我会告诉你是生物学,因为这是第一次我们可以使用计算机来理解生命不可思议的复杂性。

如果我们能理解所有这些不同的语言,我们肯定会找到一种理解蛋白质、化学品、器官,以及人类的不同OMS方法。因此,我认为计算机架构已正式发生了变化。

盖茨最新采访:与马斯克与乔布斯的硬核相比,我觉得自己更随和

字数:2,237

我是个更随和的老板

在炉边聊天时,盖茨首先提到了特斯拉CEO埃隆·马斯克ElonMusk与苹果联合创始人史蒂夫·乔布斯SteveJobs。与他们比,他认为自己是个更容易让人感觉放松的好老板。

1975年,盖茨与儿时好友保罗·艾伦PaulAllen共同创立微软。当被问及在执掌微软期间,在塑造创新文化方面学到哪些经验教训时,盖茨回答说,像他这样的领导者在领导创新型公司时,必须考虑自己应该有多硬核。

每个人都有不同的领导风格。马斯克与乔布斯都是非常努力的人,但他们领导风格过于强硬。相比之下,我可以算是比较随和的老板。

乔布斯1976年与史蒂夫·沃兹尼亚克SteveWozniak共同创立苹果公司,马斯克是SpaceX、特斯拉、隧道挖掘公司TheBoringCompany创始人,同时还是OpenAI与脑机接口初创公司Neuralink联合创始人。

盖茨与马斯克、乔布斯关系都相当微妙。他与乔布斯之间纠葛持续数十年,从盟友到对手,又几度和好。他们反复的竞争精神,常常被认为是多年来推动微软与苹果进行重大创新的原因。2011年乔布斯去世后,盖茨表示,他尊重这位苹果创始人,并感谢他们之间的竞争。

近年来,盖茨与马斯克关系变得更加紧张。从太空旅行到气候变化,两人在公开场合相互指责,并经常在各种问题上产生分歧。

盖茨2022年告诉马斯克传记作者沃尔特·艾萨克森WalterIsaacson,马斯克对他超级刻薄。他解释说:他一听说我做空特斯拉股票,就对我很刻薄,但他实际上对很多人都很刻薄,你不能太往心里去。

盖茨在星期四讨论中承认,要成为成功的创新领导者,确实需某种程度硬核。他说:在我20多岁时,我偏执专注微软,几乎从来没有星期日或假期。

盖茨谈话中证实一则传闻:微软成立初期,他记住了所有员工车牌号,这样他就能知道谁在加班。盖茨似是而非说:没有那么多车牌,当时我们只有几百名员工。

他补充说:除此之外,我还可以告诉你,他们什么时候来,或什么时候走。

盖茨将他激情与他在微软的积极经历联系在一起,他说这些经历,至今仍然引导着他的思考,我从创新角度看待每一个问题。

我本以为互联网会更真实

盖茨表示,他原本希望互联网能让世界变得更基于事实、更理性,但现实让他认识到,互联网已成为虚假信息与疯狂想法聚集地。他说:我承认,推动数字革命的人,包括我自己,真的认为世界会变得更加理性。

盖茨谈到AI对世界影响,并反思自己在最初数字革命期间的预测。他说,随着互联网兴起,他相信互联网会让世界变得更加真实。

盖茨补充说,像他这样的互联网企业家希望推动苏格拉底式辩论。他说:我们希望人们能像苏格拉底那样,用事实与逻辑来辩论问题,而不是仅凭借情感与偏见。

盖茨没有预见到的是,世界上拥有疯狂想法的人会如何使用互联网。他说:世上有很多这样的人,他们以前很难找到彼此。如今,有了数字工具,我说:你觉得那很疯狂吗?我也是。让我们聚在一起,聚集一群疯狂的人。我们就叫我们QAnon吧。

盖茨说,他希望年轻一代能有足够创造力来解决当今虚假信息问题。

我对AI更乐观

盖茨承认对互联网现状感到不满,但他称对AI持积极态度,认为它可以帮助缓解劳动力短缺,让世界变得更富裕。他说:我对AI更乐观,因为它能带来短期好处。比如,AI可使医疗保健系统受益,帮助加快药物与疫苗开发。

盖茨称他对AI监管持开放态度,补充说,任何反对AI监管的人听起来都很愚蠢。他强调,推进AI方面,有必要确保坏人不会走在好人前面。

他说:我们需领先那些心怀不轨的人,比如那些试图利用这项技术进行网络犯罪、发动生物恐怖主义袭击的人。

微软研究人员曾表示,GPT-4已显示出与人类智能水平相当的火花。盖茨对此表示,这是这个时代最深刻变化,AI发展与微处理器、个人电脑、互联网、手机的发明一样重要。

盖茨警告,生成式AI已走到死胡同。他认为,从GPT-2到GPT-4的飞跃令人难以置信,但GPT技术现在已达到平台期,GPT-5不太可能比GPT-4更好,他承认自己判断可能出现失误。

学生迎来最幸福时代

这次访谈中,盖茨聊到教育领域翻天覆地的变化。现在学生真是有福,有那么多在线课程,还有全球顶尖教授上课,这些教授的专业知识特别广泛,这机会是前所未有。

盖茨也有担忧,觉得现在数学教育的差距蛮大。比尔与梅琳达·盖茨基金会一直在努力培训老师、引入新的教学方法,但盖茨承认,目前效果不是特别明显。

他说:我们孩子们,即使是在疫情前,他们数学能力有没有比20年前或30年前更好?答案是没有。我们仍然非常致力于这一领域,但我们没有像在卫生领域那样取得巨大成功。

盖茨承认基金会的项目推广起来有点难,但他并没有放弃,还在想办法解决这个问题,他觉得个性化的AI辅导或许能帮到学生。

专家们指出,美国学生的数学技能,相比全球学生来说还是差,这可能会影响到经济竞争力,甚至引发国家安全问题。而且,要在创新方面保持全球领先地位,也得有健全的教育体系。

专访谷歌CEOSundarPichai:Gemini只是起步,微调还能让它更强

字数:4,688

美国星期三,谷歌发布最新一代AI模型Gemini。这个新模型体现谷歌CEOSundarPichai多年努力的成果。

SundarPichai此前曾负责谷歌Chrome与安卓业务,向来以痴迷产品闻名。2016年,他就开始为谷歌AI发展定下基调。在他作为CEO首份创始人信中,他预测:我们将从移动优先的世界转向AI优先的世界。

那时起,SundarPichai开始逐步推动谷歌所有产品AI化,从安卓设备到云计算,无一不包。尽管谷歌在AI领域有着深厚基础,但风头近来逐渐被OpenAI盖过。

OpenAI2022年推出DALL-E与GPT-3.5、2023年GPT-4,在AI行业掀起巨大波澜,引发初创公司与科技巨头间激烈竞争。

Gemini诞生,使谷歌在这场竞争中重新获得有力地位。该系统由谷歌DeepMind推出,这是由DemisHassabis领导的新整合部门。

现在,用户可以在谷歌聊天机器人Bard中体验Gemini功能,谷歌预计将在2024年将其全面整合到自家产品线中。

专访全文:

SundarPichai:Gemini之所以令人瞩目,一个重要原因是它从根本上就是多模态模型。就像人一样,它不仅从文本中学习,还能通过视频、音频、代码进行学习。

这个模型天生具备更强大能力,我相信这将推动我们开发出更多新功能,并推动该领域进步,这确实令人振奋。

另一个令人感到兴奋的原因在于,在32个主要基准测试中,Gemini在30个中都是最佳表现,尤其是在多模态基准测试中。在MMLU大规模多任务语言理解测试中,它更是取得巨大进步。

我个人认为,作为领先基准之一的MMLU,Gemini跨越90%门槛,这是意义重大的里程碑。回想2年前,当时水平只有30%,然后是40%,这充分展示该领域所取得巨大进步。

57项测试中,Gemini表现有89%与人类专家相当,这是第一个达到这一标准的模型。我本人感到很激动,Gemini终于要应用于谷歌产品中,它将向开发者开放。AI是一个深刻的平台变革,比网络或移动变革还要深远,这对我们来说代表着迈出重要一步。

问:让我们来谈谈这些基准测试。虽然Gemini似乎在几乎所有测试中都领先于GPT-4,但领先优势并不明显。GPT-4本身就是巨大的飞跃。我们是否开始触及这些大语言模型技术极限,或你认为仍然存在巨大提升空间?

SundarPichai:展望未来,我们确实看到巨大提升空间,有些基准已经很高了。我们必须意识到,当你试图从85%开始突破时,你已经处于曲线末端。虽然看起来进展不大,但确实意味着我们仍在取得进展。

我们还需开发新的基准测试,这也是我们研究MMLU多模态基准的部分原因。对其中一些新的基准,目前技术水平仍然很低,未来还有很大提升空间。

比例定律依然有效:随模型扩大,我们会看到更多进展。整体来看,我真的觉得我们才刚刚开始探索AI的潜力。

问:Gemini关键创新是什么?这些创新将如何被实际应用?

SundarPichai:人们可能难以想象即将到来的种种突破。我们正在提供应用程序开发接口API,使人们能以前所未有方式体验它,我相信多模态基准将取得巨大进展。

随着我们教会这些模型进行更多推理,将会出现越来越大突破,而且更深远的突破还在后头。

GeminiPro为例,它在基准测试中表现非常出色。但当我们将其集成到Bard中时,我可以亲身感受到它的优势。

我们一直在对它进行测试,所有类别任务的好评率都有显著提升。我们将其称为迄今为止最大的升级之一。

当我们进行并行评估时,它的表现确实令人印象深刻。这些更好的模型在基准上不断改进,取得显著进步,我们将继续训练与学习。

我迫不及待想将Gemini应用于我们产品中,这些模型具有强大能力。接下来几个月里,设计出能充分利用这些模型优势的产品体验,将是令人兴奋的挑战。

SundarPichai:在我看来,这并不是零和游戏。想想看,向AI转变是多么深刻,我们还处于早期阶段,前方充满无限机会。

Gemini项目中,我们已学习并改进一些安全技术,这些技术是基于模型在现实世界中运作方式而改进,它表明微调等各种技术的重要性。

我们在Med-PaLM2中展示的一个例子是,采用像PaLM这样的模型,并对其进行微调以适应特定领域,结果表明它可以胜过最先进的模型,这就是我们学习到微调的方式之一。

问:当这些模型在现实世界中应用时,有时会出现产生幻觉或泄露训练数据中私人信息的情况。考虑到模型所使用的数据,如果这是不可避免的,这在技术中有多少是固有的?如果无法避免,你们会采取哪些措施来限制这种情况发生?

SundarPichai:你提出的问题非常关键,我们最近发表了一篇论文,揭示这些模型如何通过一系列提示泄露训练数据。

目前还没有解决幻觉问题的方案,我认为我们都在朝这个方向努力,只是还需做更多工作,我们需克服一些基本的限制。

举个例子,如果我们使用GeminiUltra,我们正在积极与外部第三方合作,他们是这些领域专家。

多模态等方面,我们希望能更大胆、更负责任。推出多模态模型时,我们会更加谨慎,因为错误用例的可能性更高。

你指出的问题,仍然是开发中技术所面临的挑战,它们并不适用于所有情况。在搜索中,我们会更加仔细考虑如何使用它、何时使用、在哪里使用、以及何时触发。这些模型具有惊人能力,也存在明显缺陷,这是我们所有人都需解决的艰巨挑战。

未来的AI系统,可能与我们今天所拥有的系统截然不同,就像有人曾认为计算机无法装进口袋一样。同样,对于这些系统,如果有人说无法设计出更好系统,我不同意这种观点。目前正在进行许多研究探索,思考如何解决这些问题。

SundarPichai:这是非常重要的问题,我从几个角度思考这个问题。

我们正在深入思考,如何将AI应用于对人们有益的用例中。以洪水预报为例,我们早期投入该领域的原因,是我们意识到可以探测到模式,并做得很好。我们也将AI用于翻译1,000种语言,我们现在确实在尝试用不同语言提供内容,否则你将无法访问这些内容。

这并不能解决你提到的所有问题,但我们要慎重考虑在何时何地专注解决什么样问题。

以AlphaFold等领域为例,我们为世界各地病毒提供开放的数据库。但是,谁会最先使用它?

AI不会神奇的让某些更困难的问题变得更好,比如不平等问题或它可能会加剧这种情况?

重要的是,确保每个人都能使用技术。在早期开发阶段,就让人们接触到技术,并参与到对话中,这样社会就可以帮助测试技术并适应它。在这方面,我们肯定比其他公司更早参与其中。

最近我们参加英国AI安全论坛,并与美国国会、政府合作,我们正在尝试建立更多的公私合作伙伴关系,以更早吸引非营利机构与学术机构参与进来。至于对就业等领域影响,还需深入研究,但我确实认为会带来惊喜。

我可以举很多例子,来说明手机带来的好处,我认为AI技术也是如此。我们已在糖尿病、视网膜病变等领域展示这一点,毕竟世界上许多地方没有足够医生来检测这种疾病。就像我觉得让世界各地人们都能使用谷歌搜索一样,我认为这是扩大AI使用范围的一种方式。

问:有些技术,如编程,明显提高了效率,但普及也对就业市场构成威胁,你如何看待这个问题?

SundarPichai:技术在推动效率提升,我们也不能忽视它对就业潜在影响。然而,问题的答案并非非黑即白。

问:对AI发展,人们看法出现分歧。有人支持安全第一,有人认为商业用例优先,有人支持加速开发,有人担心世界末日,你如何看待这种分歧?

SundarPichai:我是技术乐观主义者,我相信人类可利用技术来造福社会。AI确实具有两面性,但我们不能因为恐惧而停止前进脚步。我们需大胆向前迈进,同时也需社会制定相应框架来应对可能出现的问题,如深度造假、工作岗位被取代等。这将是我们未来10年,需努力解决的最大问题之一。

SundarPichai:并不是所有问题都有简单答案。AI之前,我们在开发搜索、YouTube等产品时,就一直在努力实现正确的价值交换。AI也是如此,我们将专注确保我们训练数据符合法律规定,同时让人们有机会选择退出。还有一个层面,是关于什么是合理使用。为原创内容的创造者创造价值,是很重要的。

问:许多人对网络未来的担忧,集中在搜索领域。当有一种技术,能根据网络信息为你提供答案时,有人担心人们可能不再需访问这些网站。这对谷歌会有影响吗?你是否在考虑自己的业务?

我们相信人们在搜索时,并不仅想要简单的答案,而是希望通过探索与学习,深入了解更多信息。我们一直致力提供高质量搜索结果,确保我们所做的事情是正确的。这个过程中,保持平衡至关重要。

问:随着这些产品逐渐进入市场,并开始与用户互动,你认为2024年人们体验会发生怎样变化?

SundarPichai:我认为,从现在开始的1年里,使用GoogleDocs的人将会期待一些不同的体验。如果我们给他们提供了全新的功能,再让他们回到2022年版本的GoogleDocs,他们会发现旧版本已过时。这就像我孩子们一样,如果他们使用的GoogleDocs没有拼写检查功能,他们就会认为出了问题。

与此同时,与其他公司相比,我们在搜索中融入更多AI技术,使得自动功能成为许多产品理所当然的存在。这也是我们多年来学到的重要经验:让用户相信这些功能的存在是理所当然的。

随着我们开发多模态能力,人们将能以一种以前无法做到的方式完成更复杂的任务,这将带来真正的用例与更强大的功能。

总的来说,我们将继续努力改进我们产品与服务,以满足用户需求与期望。

【长期主义】栏目每周六、与长假更新,分以下系列:

宏观说:全球各大国政要、商业领袖等

社会说:比尔·盖茨等

成长说:洛克菲勒、卡内基等

科学说:历年诺奖获得者、腾讯科学WE大会等

科技说:马斯克、贝索斯、拉里·佩奇/谢尔盖·布林、扎克伯格、黄仁勋、VitalikButerin、BrianArmstorng、JackDorsey、孙正义、华为、马化腾、张小龙、张一鸣、王兴等

投资说:巴菲特、芒格、BaillieGiffrod、霍华德·马克斯、彼得·蒂尔、马克·安德森、凯瑟琳·伍德等

管理说:任正非、稻盛和夫等

能源说:曾毓群等

汽车说:李想、何小鹏、王传福、魏建军、李书福等

智能说:DeepMind、OpenAI等

元宇宙说:Meta/Facebk、苹果、微软、英伟达、迪士尼、腾讯、字节跳动、EpicGames、Roblox、哔哩哔哩/B站等

星际说:中国国家航天局、NASA、历年国际宇航大会,SpaceX、Starlink、蓝色起源、维珍银河等

军事说:全球主要航空航天展等

消费说:亚马逊、沃尔玛、阿里、京东、拼多多、美团、东方甄选等

THE END
1.AI创作故事读本全攻略:从构思到成书的详细步骤解析随着人工智能技术的飞速发展写作助手已经成为创作者们的得力助手。本文将详细介绍怎样利用创作故事读本,从构思到成书的详细步骤,帮助您轻松驾驭写作助手,打造出引人入胜的故事。 ## 一、挖掘故事创意 1. 运用生成式:您可借助生成式工具如懒人快稿,快速生成一系列创意点子。这些工具可以依照您设定的主题、风格、情感等...http://www.slrbs.com/jrzg/aizhishi/757504.html
2.如何理解实物粒子的波动性波动性公式里面对应的能量是运动中的能量,但不是全部的能量,因为按照相对论,物体还有静止能量。运动的能量遵循波动性的公式,但总能量必须要考虑静止能量,所以不遵循微观公式,与微观公式有差异。 更多精彩资讯请关注七彩丝,我们将持续为您更新最新资讯! 查看全部...http://m.qicaisi.com/bk-2895463.shtml
3.吉光片羽~把脑子里的想法画出来,做成实物...来自Magical吉光片羽~把脑子里的想法画出来,做成实物给崽们穿上,感觉很神奇! #江山风月[超话]# #bjd[超话]# https://weibo.com/1703506432/LzHQa5VPp
1.自制创意没有工具也能激发自己潜力DIY思维的力量在这个快节奏、高科技的时代,我们常常被各种高级工具和设备吸引。它们似乎能够让我们的工作更高效,生活更加便捷。但是,当我们面对资源有限或者环境不佳时,有没有想过,没工具怎么顶自己? 在很多情况下,真正的创造力和智慧往往来自于那些看似简单、无需复杂设备的方法。比如,在野外生存中,你可能无法找到一把锋利的刀子...https://www.dzvj5vem.cn/re-dian-zi-xun/318240.html
2.人工智能革命科技创新驱动社会进步创意与实践:如何将想法转化成现实? 如果说科学是发现真理,那么创意就是发明未知之物。在这两者之间,有一个桥梁——工程学,它使得科学家们的理论得以变成实际可见的事物。这是一个充满挑战但又令人激动的事情,因为这里面蕴含着可能改变世界的大胆设想。 https://www.zuenw.cn/shou-ji/508676.html
3.挖掘创业想法:从灵感到行动(怎么进行创业想法)创业的第一步,往往是找到一个好的想法。一个好的创业想法可以解决市场上的痛点,提供独特的价值,甚至改变世界。以下是几个挖掘创业想法的步骤,以及如何将它们转化为实际行动。 观察市场 细心观察市场是发现创业想法的起点。注意日常生活中的不便、需求未被满足的领域,或是现有的产品和服务可以如何改进。保持好奇心和批...http://chuangye.zaixianjisuan.com/zhidao/wa-jue-chuang-ye-xiang-fa-cong-ling-gan-dao-xing-dong.html
4.揭秘AI绘画10大变现的黄金秘诀,会StableDiffusion居然还可以做副业...AI绘画作为一种新兴的艺术形式,正在逐渐渗透到商业领域的各个角落。 AI绘画的热度可谓如火如荼,不管你现在是打开小红书、B站,还是浏览朋友圈或微信群,你一定会看到许多人秀出自己使用AI绘制的作品。 AI绘画艺术与科技的邂逅,今天我们一起来揭秘AI绘画10大变现秘诀! https://blog.csdn.net/HJS123456780/article/details/143906365
5.大班手工制作玩教具(数学玩教具手工制作)你是否曾想过,孩子们在学习数学的过程中是否能够通过玩教具来轻松地理解和掌握其中的概念?据调查数据显示,手工制作玩教具在大班数学教学中发挥着重要的作用。本篇文章将介绍大班手工制作玩教具在数学教育中的应用和价值。 主体段落: 一、手工制作玩教具的种类和功能 ...http://www.etxzz.com/sgzz/8370.html
6.调整考试心态,提高学习效率的演讲稿12篇(全文)1、利用实物教具 充分利用实物演示,如讲平行四边形时,四边形具有不稳定性,三角形具有稳定性。从而引出本节课的主题。并且学生还掌握了平行四边形的性质。 2、问题导入 教师可根据本节课的内容,提出有关切合学生实际又能体现本节课内容的问题,使学生在体验自己的生活中进入新课学习。 https://www.99xueshu.com/w/filedb86bnhw.html
7.汉字的联想美术教案(共19篇)2、能主动参与创编活动,用连贯的语言大胆地表达自己的想法,发展语言,丰富联想。 3、在活动中充分体验创作的快乐,培养幼儿间的合作精神。 4、通过语言表达和动作相结合的形式充分感受故事的童趣。 5、领会故事蕴含的寓意和哲理。 活动准备: 1、实物:半个西瓜皮;半个西瓜皮的图片人手一张。 https://www.hrrsj.com/jiaoxuesheji/jiaoan/707851.html
8.心理操纵术1.将实物展示于人 最容易引人注意,并使之牢记不忘的莫过于将实物展示于人了。无论我们是在教导还是在销售,是劝告还是责备,让事实说话是能感动他人的最简单的方法。 2.用图画说服人 3.让故事自己说话 十五、隐藏自己真实想法的心理策略 1.放一个“烟幕弹” ...https://www.douban.com/note/121016836/
9.小班营养饮食活动教案(通用14篇)物质准备:各种常见水果的实物、情境小故事(视频) 经验准备:知道常见水果的名字 教学过程: 一、 出示实物的方式导入主题 教师将水果放在魔法袋中,请幼儿猜一猜是什么水果?(摸一摸,闻一闻)并请幼儿说一说这些水果的特征。比如:苹果闻起来香香的,摸起来圆圆的、很光滑,看起来红扑扑的,尝一口的话,甜甜的,脆脆的,...https://www.unjs.com/z/469582.html
10.《水果》美术教案(精选19篇)(二)实物展示,探究制作方法 1、现场做一个水果造型,视频展示。 2、教师指导幼儿如何运用工具,如何利用水果的形状进行切、削、剥等技法并注意安全。 (三) 制作水果造型。 活动反思: 此次活动主要采用自主探究的方法,引导幼儿仔细观察,发现水果造型的秘密,将拼、切、插、连接等有机结合,符合幼儿年龄特点,为了进一步...https://m.jy135.com/jiaoan/612010.html
11.《我知道的秋天》中班教案大全《我知道的秋天》幼儿园教学设计表演区:教师将实物和录音机摆放在表演区,幼儿自由活动是可以表演。 教学反思 通过本节情景表演,幼儿喜欢并很高兴参加角色表演;在教师的 支持和引导下,幼儿进行“秋天的聚会”的表演,气氛活跃;绝大部分幼儿能很流利的复述简单的语句,而个别汉语水平不太好的幼儿复述语句时不太流利,对这几名幼儿还需要多加练习提高汉...https://www.puchedu.cn/ziyuan/50887.html
12.大班社会领域活动方案7篇(一)实物导入: 出示利用废旧物品制作的玩具,让幼儿根据自己的生活经验说出这个玩具是用什么做成的?还能做成什么? (二)欣赏故事《由废纸到吸水纸》 1、结合挂图讲故事: 第一幅:画面上的人在干什么?写在纸上的字发生了什么变化? 第二幅:这么多的纸成了一堆什么?人们会怎样? https://www.yuwenmi.com/fanwen/huodongfangan/4354572.html
13.大班数学教学活动教案2、引导幼儿观察桌面上的实物,并提出要求:“请把桌上的实物分成一样多的两份,你一份,我一份。 (二)、第一次尝试:二等分各种实物 1、幼儿尝试操作:将桌上的实物分成一样多的两份,并把分好的实物放在各自的盒子里 2、尝试后讨论:你分的是什么东西?你是怎么分的? https://www.ruiwen.com/shuxuejiaoan/7094372.html
14.小学一年级数学教学方案14篇师可以提问:你想怎么补?来告诉大家你的想法! 画的时候,引导学生用行之间的关系来画砖缝。 方法二:学生直接用数砖块的方法,那就不用补了。 师:一行有几块砖块?第一行缺了几块? 师总结方法:数出每一行缺的砖块数,再加一加。 老师对于这两种或更多的方法予以肯定及表扬。 https://www.oh100.com/a/202305/6766025.html
15.中国教育专业学位研究生教育网为推进教育博士专业学位教学案例开发与案例教学工作,全国教育专业学位研究生教育指导委员会(以下称“教指委”)于今年2月向各院校征集教育博士专业学位教学案例选题,共收到27所院校提交的259个选题。经研讨论证,拟确立60个选题开展首批教育博士专业学位教学案例集中开发工作。现将相关事宜通知如下: ...https://edm.eduwest.com/viewnews.jsp?id=1345
16.幼儿园大班数学教案及反思(通用21篇)三、自由探索将3块饼干平均分给4个小朋友的方法,并进行记录 “3块饼干,要怎么分给4个小朋友,每人才会一样多呢?” 幼儿操作,记录结果,教师以实物投影仪展示记录结果,引导幼儿讨论出平均分的方法 师幼小结:3块饼干分给了4个小朋友,每人一样多可以用两块饼干进行二等分,一块饼干四等分的方法,也可以用每一块都...https://www.fwsir.com/jiaoan/html/jiaoan_20230305175950_2490395.html
17.大班社会活动教案(通用20篇)教师:想一想小猴拿着大象伯伯做的小船礼物会怎么表示? (2)出示小猪,实物西瓜皮PPT6教师:如果你是大象伯伯,你会把西瓜皮做成什么礼物? 出示西瓜皮帽ppt7,让幼儿戴一戴教师:你们喜欢这顶瓜皮帽吗?为什么? (3)出示狐狸、一包葡萄籽ppt8教师:小狐狸项用葡萄籽换礼物,这可难倒了大象伯伯,我们帮大象伯伯想象办法吧...https://www.wenshubang.com/jiaoan/2930904.html
18.中班科学马铃薯教案(合集16篇)3、教师将鸡蛋立起来,用手转动它,鸡蛋转动着站立起来。 4、教师:“鸡蛋是怎么站起来的?”“它在怎么动?” 幼儿讨论,说出自己的想法,再次尝试。 5、师小结:什么叫转动?转动就是绕着圈动,围绕着中心运动。 二:幼儿通过尝试体会转动的含义。 1、教师出示皮球,请个别幼儿上来让大皮球转动起来,并说说你是怎样让皮...https://www.gerenjianli.cn/jiaoxue/jiaoan/10043613.html
19.学校青少年科技活动总结(精选17篇)三、对于本次科技节的一些想法 虽然此次科技节活动开展的热热闹闹,轰轰烈烈,可以说全校师生大部分都投入了进来,但是从活动的开展和作品的质量来看,一些班级参与不够积极,整个科技节活动中有些班级上交的作品寥寥可数。一些班级对作品的要求不高,只停留在“完成”上,因此上交的作品在整体美观、细节方面、清洁程度上都...https://www.yjbys.com/huodongzongjie/3780976.html