AI写作绘画游戏编程音视频编辑……从十款AI应用一窥AIGC时代下APP的最新发展趋势AI新浪财经

面对这个刚刚开始的颠覆性变革,我们有太多问题想问,有太多问题值得思考。但本文将聚焦在:

1引子:为什么这次不一样

最近几乎所有大型人工智能的前沿突破,都来自巨头公司,因为他们拥有强大的资金和算力。ChatGPT与上一波人工智能产品苹果Siri、微软小冰的核心不同是,过去都是小模型,而如今是真正的大模型。

以前,小模型的人工智能中,其实包含了若干Agent(类似于执行具体任务的程序),一个专门负责聊天对话、一个专门负责诗词生成、一个专门负责代码生成、一个专门负责营销文案等等,如果想添加新功能,可以去训练新Agent。一旦用户的问题超出了这个范围,人工智能就会变成人工智障。

而如今的ChatGPT之所以被称为真正的人工智能,就在于采用了成百上千亿参数的大模型,比如GPT-3模型就有1750亿个参数。而GPT本身是一个单项模型,是从左到右进行阅读,所以更擅长“写作文”。与谷歌BERT不同,BERT是一个双向模型,可以联系上下文进行分析,更擅长“完形填空”,但GPT与人类的思维方式更接近,所以我们能看到基于ChatGPT的创意写作应用,或是制作绘本。

但大模型的高昂投入,让普通创业公司难以为继,因此参与者都是科技巨头。2022年OpenAI的收入为3000万美元,但净亏损总额预计为5.445亿美元。而GPT3训练一次的费用,大概是460万美元。当模型被训练好之后,仍然有使用成本,目前ChatGPT单轮对话的平均费用,大概在0.01-0.2美元之间。

并且先发优势会非常明显,因为这里有一个“数据和模型的飞轮效应”。在GPT-3之后,OpenAI所有的模型都没有开源,而是提供了API调用。在这个过程中,OpenAI可以借助ChatGPT建立真实用户调用和模型迭代之间的飞轮,OpenAI非常重视真实世界数据的调用,以及这些数据对模型的迭代。

对于AI的发展来说,工程的重要性不亚于科学,创建一个迭代反馈的闭环至关重要。这也将是后来者,赶超ChatGPT的重要难点。

那么,这股AI新浪潮对于创业公司来说,意味着什么?

2对创业公司来说意味着什么?

“将来应该会出现几个大型的基础模型,开发人员都将基于这些基础模型研发AI应用。但目前的情况依然是某一家公司开发出一个大型语言模型,然后开放API供他人使用。

我认为,将来在基础模型和具体AI应用研发之间会有一个中间层:出现一批专门负责调整大型模型以适应具体AI应用需求的初创企业。能做好这一点的初创公司将会非常成功,但这取决于它们能在「数据飞轮」上走多远。

创业公司会训练自己的模型,只不过不是从头开始。他们将采用基础模型,这些模型已经经过大量的计算和数据训练,然后在这些模型之上进行训练,为每个垂类创建模型。

将来承担模型训练角色的应该不会是初创公司,但这些企业可以在上述的中间层角色中发挥巨大价值。我认为中间那一层会创造很多价值。”

总结来说,这个产业生态可能会是:

1、基础设施层:在最底层,是提供芯片、云计算等基础能力的厂商。

2、模型层:大公司负责训练基础大模型,这种基础能力可能会逐渐走向开放。一种可能是,最终形成类似ISO和Android两大阵营,或是类似云计算的格局,一般这种量级的生态圈最终不会容纳太多家,但也不会被一家垄断。目前来看微软(OpenAI拔得头筹)vs谷歌(旗下有Deepmind)已经开战,但巨头的基础模型之间是否会形成差异?以及会形成怎样的差异性?这个问题也值得观察。但无论如何,这将会是继移动互联网之后,下一个史诗级的重大战略窗口,中国公司也需要积极加入战局。

3、应用中间层:在大模型的基础上,不同垂直领域会有各自的特殊情况,比如医疗、司法等等领域,这些特定领域的数据本身也是稀缺的。创业公司可以扎根各自的垂直领域,基于特定的数据集+行业knowhow,形成各自的商业化路径,并保护用户数据和隐私。

4、重构“AI应用”?此外,在SamAltman所说的应用中间层之上,在AI应用端本身,是否存在一个重构当下App的机遇?是现有玩家往AI转型,还是会涌现新玩家,这个问题也值得持续观察,还未达成市场共识。

而在新玩家中,涌现了一批AI绘画、AI编程、各类自动化工具等等方向的创新项目,类似当年移动互联网,这些新方向也有可能诞生一批优秀的新公司。

这个发展过程也许可以类比云计算。当年云计算最初通过便利性,来吸引用户把计算放在云端。然后随着计算逐渐迁移到云端,数据也开始搬迁到云上,然后再是整个公司的业务逻辑,都在云上运行。基于OpenAIGPT-3、DeepmindGopher等基础模型,各个应用层面的新老玩家,未来都会在“云”上提供更丰富的服务,最终形成庞大生态。

我们也非常想知道,基于ChatGPT,当下全球最流行、最有潜力的应用场景到底是什么?我们做了一个初步的研究,根据:

1)AI写作:JasperAI

2)AI写作:Copy.ai

Copy.ai也引入了人工修正,不断训练出更优秀的人工智能模型。Copy.ai的核心目标不是完全取代人工,而是通过AI的建议,将人类创作文案的构思阶段缩短80%,营销人员用自己的创造力来填补剩余的20%。Copy.ai提供了大量的场景模版,几乎涵盖了市场营销需要文案的所有场景。

3)AI声音:podcast.ai

Podcast.ai是一个完全由AI生成的播客,每周都会深入探讨一个新话题。

Podcast.ai的第一期节目引爆全网,Podcast.ai通过乔布斯的传记,和收集网络上关于他的所有录音,用Play.ht的语言模型大量训练,最终生成了一段美国知名播客主持人JoeRogan采访乔布斯的播客内容。在这期播客里,乔布斯的各种语音、语调都模拟的非常相似。

在这段20分钟的对话里,乔布斯“死而复生”,与JoeRogan讨论了关于曾经的大学时光、对计算机的看法、工作状态以及信仰等等。

Podcast.ai所采用的Play.ht,是一个AI文本转换语音生成器,模型覆盖了数千种说话的声音,还可以学习人类的情感、说话语气以及笑声等。从文本语言模型到音频语言模型时,音频数据速率增高是一个大难题,一个句子的几十个字符用音频波形表达,所包含的数值往往多达数十万个。此外,由于文本和音频之间的一对多关系,也即是一个语句可以有不同的说话风格、情感等,这也成为了语音模型研究中需要解决的问题。

4)AI绘图:Midjourney

如今,无数人都在用Midjourney生成图片。例如《经济学人》用Midjourney生成的图片做了杂志封面:

以及《空间歌剧院》,在美国科罗拉多州博览会上获得一等奖,随后其作者JasonAllen才透露,这幅作品是出自MidjourneyAI之手。

再比如英国艺术家DanielOxford,运用Maya、PS等软件配合AI辅助创作,一幅幅油画质感的CG从他手下产生:

又或者是当你输入“指环王”,Midjourney生成的是这样的:

这些问题都可独立,也可搭配在一起,看你想让AI画到什么程度。描述的越多,AI会以自己的理解,按权重优先级进行绘制;而如果描述的少,AI也会根据自己的理解绘画,也许能给出惊喜的创意。

建筑师也在使用来寻找灵感。例如芝加哥建筑师斯蒂芬·库拉斯(StephenCoorlas)使用Midjourney为芝加哥北岸地区设计的露天展馆。

基于这个概念图像进行简单的3D建模后,库拉斯将这些模型的图像反馈给Midjourney,并令其迭代建筑图纸。然后就得到了这个展馆的建筑图纸,虽然还缺乏细节。

扎哈·哈迪德建筑伦敦工作室的计算研究小组(ZHACODE)设计师TimFu,使用Midjourney设计的钢琴家的住宅:

这些进步,得益于生成扩散模型和多模态预训练模型等技术的快速发展,在图文生成效果上有了显著进步,让AI可以快速、灵活地生成不同模态的数据内容。

5)AI绘图:StabilityAI

与Midjourney类似,StabilityAI也是一个开放的AI绘图工具,用户输入描述图片的文字信息,来创建图像。

StabilityAI在训练自己的模型时,也花费了很高的成本。根据BusinessInsider的报道,StabilityAI目前拥有一个,在AWS中运行的由4000多个NvidiaA100GPU组成的芯片集群,用于训练Stability的各个AI模型,这导致其在运营和云服务方面的支出超过了5000万美元。AI公司在训练方面的确耗资巨大,此前微软对OpenAI的10亿美元投资,其中一半是用云计算等服务折算的。

由此也可以看出StabilityAI的野心,它并未聚焦于某个单一场景,而是通过开源来拓展场景,再去寻找具体的商业模式。当然,更大的想象空间,也需要更多的投入,所以StabilityAI在种子轮就拿了这么多钱。

Stability建立的社区,包括了全球各地的专家与合作伙伴,他们正在为图像、语言、音频、视频、3D和生物学等,开发最先进的开放式人工智能模型。

6)AI修图:Lensa

刚刚介绍了几款AI绘图应用,下面我们要介绍的,是一款AI修图产品。

Lensa的日常操作,其实与美图秀秀、VSCO类似,只不过后者需要手动,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒体上爆红,主要是它的MagicAvatars功能,可以供你生成魔法头像。用户需要上传10-20张自拍照,然后选择一个性别,MagicAvatars就会通过AI自动生成上百张不同风格的头像。

这些AI生成的照片风格各异,有动漫效果、科幻色彩、水彩感、或是油画风格等等,一下子形成了病毒式传播。此外,这是一个完全付费的产品,生成的这50/100/200张的价格分别为3.99/5.99/7.99美元。

Lensa引爆了C端,这也是对AIGC市场非常重要的价值。

7)AI音视频编辑:Descript

去年11月,Descript宣布了5000万美金的融资,这一轮由OpenAI旗下的OpenAIStartupFund领投。

Descript想结合AI实现的目标,是重新设计视频编辑器,让制作音视频的过程,像修改Word文档和做PPT一样简单。

第二个好用的功能是语音克隆,也就是用户先录好一段声音后,后续只需要写文本就能实现整个录制,AI会用克隆好的声音自动录制出来。也可以选择其模版库里的其它声音模版。当你对文本进行修改,录音也会自动调整。

第三是通过AI自动删除语气词或是重复的短句。剪辑过音频的朋友都知道,我们日常说话时其实会有大量的语气词或是重复词,说的时候没感觉,但在听录音的时候非常明显。但这种剪辑很麻烦,需要一点一点去抠。如今通过AI自动处理,很方便也令音视频更加专业。另外就是字幕处理,Descript会根据上下文自动调整字幕的停顿断句,也会自动补充各种日常习惯语法。

8)AI编程:GitHubCopilot

AI编程也是近几年新崛起的重要赛道,美国风投界认为2023年AI编程投资会非常火热。

GitHubCopilot是微软旗下代码托管平台GitHub推出的AI编程工具,Copilot的主要定位是提供代码补全与建议功能,可根据当前文件的内容和光标位置自动生成代码。

GitHubCopilot支持的编程语言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHubCopilot,软件开发人员可以在编辑器中使用内联注释来获取JavaScript、Python、TypeScript和Ruby等编程语言的代码建议。

然后只要用户给出提示,GitHubCopilot就可以根据上下文自动编写完整的函数,或实现完整的功能,包括docstrings、注释、函数名、代码。

在底层技术方面,GitHubCopilot就是基于OpenAI的文本生成技术。曾经有GitHubCopilot高管对其描述是:

“这就像有一个小机器人坐在你的肩膀上,你们坐在桌子的同一侧,目视同样的东西,当这个机器人可以‘出手’的时候,它会自动为你提供帮助。……最近一项研究的统计数据非常有趣,该研究要求程序员从头开始编写Web服务器代码,程序员在使用Copilot的情况下完成这一任务的速度要比不使用Copilot快50%以上。然后,我们从遥测中得知,在启用这一功能的情况下,在程序员编写新代码的过程中,例如Python等流行编码语言中,Copilot为程序员编写了多达40%的代码。这是个了不起的成就。”

9)AI笔记:Mem

Mem是一款专注于工作的应用程序,可以利用AI自动组织笔记。Mem也是OpenAI领投的,投资金额为2350万美元,投资后估值为1.1亿美元。

Mem由华裔工程师DennisXu和KevinMoody共同创办,他们曾表示,Mem与传统记事应用程序的不同之处在于它的“轻量级”。

当然,快速记录信息只是最开始的第一步,Mem如何将信息数据从其他平台快速同步整合到Mem上更为重要。Mem在背后形成了一个知识图谱,由一个个Node(节点)组成,每个节点都是一个Entity,这个Entity可以是一条Mem(笔记),也可以是某个具体的日程活动、一个联系人信息或者是一条任务等等。Mem会通过AI将这些不同节点上的Entity进行分析和连接,比如你在一条笔记中提到了某位朋友推荐的一家餐馆,这两个信息点都会在知识图谱中进行分析和归类,并自动形成关联,当外部条件触发时,这些信息就会自动呈现在用户的面前。

Mem也做了AIWriter的部分,可以说是基于个人信息数据的AI写作助理。比如一个可能的场景就是当你在写作中提到某个日程安排或者某条视频内容时,Mem会自动将这些信息自动同步到文档中,同时这个AIWriter还具备GPT-3的所有能力,可以将各种网上的信息比如最畅销的10本书等等进行自动搜集和补全。

10)AI游戏:AIDungeon

AIDungeon是一个由AI驱动的基于文本的RPG游戏,也可以说是由AI驱动剧情发展的游戏。通过AI应用,用户可以在能想象到的任何场景中,去进行角色扮演编写故事,与其他人物互动。

AI会根据故事大背景设定的世界观,来设计不同角色的性格和任务,并且实时根据用户的行动,回以新的事件和对话,对每个人都会反馈出不同的答案和行动,所以在剧情拓展方面,不可预测并且自由度空前。

AIDungeon目前使用GPT-3的模型来生成故事。

AIDungeon文本游戏虽然还很稚嫩,但AI应用于游戏代表了游戏业的未来。

AIDungeon代表了ChatGPT对游戏行业可能的颠覆性。当AI应用于游戏,游戏里的剧情将变得不可预测,而是会根据每个用户的选择,形成无限的可能性。并且游戏里的NPC都可以有各自的“生活”,或是影响游戏结局,从而给玩家带来独特的体验。

当然,当下的AI游戏大多数还是基于文本,所以其互动效果类似ChatGPT,事实上这块能力也是基于OpenAI的语言模型构建的。不同点在于游戏版会更具逻辑性,也能够保留对过去交互的记忆,并且是基于大的故事背景而做出的互动。

但在可以想见的未来,当游戏制作时,把游戏中的每一个人物都设计一个AI模型,那将是AIGC深度开发的巨大潜力与机会,制作出真正沉浸感的新游戏。

这10款应用只是AIGC领域的冰山一角,从GPT-3、Bloom的文本生成,DALL-E和StableDiffusion的图像生成,以及RunwayML、Make-A-Video的视频生成,各类生成式AI产品在近几年中如雨后春笋般涌现。

正如OpenAICEOSamAltman所说,AI将是移动互联网后新的基础平台,之后会出现新公司的爆炸式增长。

当然,目前的GPT-3.5,并不具备真正的推理能力,虽然ChatGPT能回答各种问题,但事实上对回答背后的意义,或是数学公式的理解、诗词背后的情感,ChatGPT还是没有概念的。GPT从1.0发展到3.5,迭代的是收集整合和语言组织能力,而非思维层面。

就像清华教授钱颖一曾经说的,未来人工智能在知识层面会做的很好,但“大学教育的价值不在于记住很多事实,而是训练大脑会思考。”

创造性思维=知识×好奇心和想象力,这在AIGC时代将尤为重要。

References:

3、Citipedia:AI与城市|Midjourney:建筑版ChatGPT设计的超现实世界

4、wuhu动画人空间:地表最强AI绘画工具?!Midjourney到底厉害在什么地方?

5、AI绘画Midjourney关键词输入全技巧

6、安信证券:AIGC与ChatGPT正掀起新一轮的产业浪潮

7、UBSEquities:美国互联网行业:ChatGPT揭示消费者AI的未来

8、MorganStanley:ChatGPT:WhatisitWhyitMattersIsitaGoogleThreat...andBroaderIndustryImplications

THE END
1.推荐一个AI绘图工具!将草图变成精美的图片要说2023 年科技圈什么最火,当属 ChatGPT!自从 ChatGPT 爆火之后,各种 AI 工具层出不穷。AI 对话、AI 写文案、AI 写代码...今天给大家介绍一个 AI 在线绘图工具!只要简单的绘制草图,加上简短的文字描述,就能帮我们生成一张精美的图片。我们先来体验一下!我们先画一个猫的草图,然后输入文字描述:img...https://www.jianshu.com/p/b967675bba8f
2.卷王都在用!100款宝藏级AIGC工具分享,强烈建议收藏!!在文本写作领域,以ChatGPT、文心一言等对话聊天式机器人为首的AIGC工具节省了人们检索信息的时间成本,以对话的方式就能完成一系列低效重复性工作,其他写作类工具还包括Notion AI、腾讯文涌、WPS智能写作等。在图像生成领域,AIGC也颠覆并重塑了以往的绘图方式,“以文生图”为创作者提供了风格迥异、源源不断的灵感来源...https://www.changbiyuan.cn/news/2023/news_0711/69335.html
3.图趣AIAI绘画*二次元世界:艺术与技术的结合可以创造出无限的可能,描述一段文字,输入图片,能制作二次元卡通风格照片,实现可爱、唯美、御姐不同风格。 *AI艺术字:张、王、李、赵,百家姓,用您的姓氏结合风景、人物生成惊艳的艺术字,还愁别人记不清您的贵姓吗?快来生成微信图片吧。 https://app.mi.com/details?id=com.lezhi.meitubao
4.AI灵感绘图使用指南帮助中心调整相机视角至合适角度后,点击底部【立即生成】,即可快速生成AI灵感图! 通过鼠标移动、调整右侧相机参数,可控制蓝框内的画面。 具体相机控制,可参看下方【二、进阶操作】 生成完成后,会显示如下界面,一次将会生成4张1k的图片。 如果对结果不满意,你可以点击右上角【再画一组】,用相同参数,快速生成一组新的图片(...https://www.kujiale.com/hc/article/3FO4K4WQ36WR
1.怎样系统的学习AI绘画?AI绘画速成看这篇就够了!一个有多种生图模式的AI绘画工具,它支持文生图、图生图、条件生图和姿势生图,还提供多种风格可选,有动漫、人物、游戏、设计等多种风格,直接收藏就能使用。 比较常用的就是文生图模式,在文生图功能中输入文字描述,选择风格、数量、尺寸和画质之后,就可以生成图片了,生成的图片可以直接下载,还可以选择HD画质下载。 https://blog.csdn.net/Eqiqi/article/details/144186708
2.输入文字自动产生图片,Google生成式搜寻变身AI绘图神器Google 搜寻引擎跟上微软 Bing 的脚步,实验性的生成式搜寻服务(Search Generative Experience,SGE)能够根据提示文字进行 AI 生成图片。 一旦用户在 Search Labs 登记加入 SGE,可在 Google 搜寻列输入提示文字,利用大型语言模型进行运算,...https://www.ayxayx.com/29406.html
3.chatgpt生成图片AI绘图方法怎么用ChatGPT生成图片chatgpt生成图片AI绘图方法 1、首先输入提示词: 接下来我会给你指令,生成相应的图片,我希望你用Markdown语言生成,不要用反引号,不要用代码框,你需要用Unsplash API,遵循以下的格式:source.unsplash.com/1600x900/?< PUT YOUR QUERY HERE >。你明白了吗? https://shouyou.3dmgame.com/gl/448243.html
4.图片转图片AI绘画怎么做?靠这7个工具!DALL?E 2 是一个智能 AI 绘画系统,可以根据自然语言的描述创建逼真的图像和艺术,只需要输入非常简短的描述,DALL?E 2 就能够帮助你自动识别并组合成高质量的图像,除了能够根据文字描述生成 AI 绘画,可能够实现图片转图片 AI 绘画。 4、NovelAI https://js.design/special/article/picture-to-picture-ai-painting.html
5.Midjourney玩上瘾了,免费AI绘图指令一键产生精美图片4. Midjourney 指令怎么输入? 5. Midjourney 图片版权问题 全球ChatGPT 聊天机器人和 AI绘图话题非常火夯,不管是否懂电脑绘图或AI绘图之间差异,一定要知道最热门免费线上 AI 绘图机器人“Midjourney”,只需要利用文字指令告诉 AI 人工智慧机器人,就能一键产生多张无版权的精美图片,而且还能够针对图片进行深入调整和...https://blog.51cto.com/ghostwritten/6163784
6.50个ai绘图网站推荐,免费好用的ai绘画,画图软件推荐,国内能直接...50个ai绘图网站推荐,免费好用的ai绘画,画图软件推荐,国内能直接打开的(上) 别摸鱼导航为大家精心整理了50个在国内可以直接打开的使用的免费ai绘画网站! ,内容较多,大家慢慢挑选尽情享受ai带来的乐趣! 1.吐司ai ...https://biemoyu.com/ai-huitu-tuijian.html
7.如何用AI绘图软件Midjourney以图生图–叶赛文MidJourney是一款AI创作图片的工具, 它根据Discord里的描述词,生成精美、创意十足的图片。 它的新版本,还可用来以图生图:导入你的图片,生成新的图片。 文章目录[隐藏目录] 准备工作 第一步:上传图片 第二步:复制图片链接 第三步:输入描述词,生成图片 http://yesaiwen.com/image-to-image-midjourney/
8.免费AI绘画,AI工具,AI做图AI文案AI商品图AI素材AI嘲图一张图,一句话 协助创意更快落地 面向专业领域的AI创意工具,提供多样化的、可控的图像 生成算法,满足插画、概念、素材、创意的快速表达 灵感绘图 新构思,新配色,新姿势,新视角 让AI拓展你的灵感边界! 开始创作 →Ai商品合成图 简化生产流程,智能合成背景 开始创作 → Ai文字生图 新构思,新配色,新姿势,新...https://m.sukoutu.com/ai
9.ai生成图片!全网强推的10大效率神器!基础版:10美元/月(200张/月;提供商业使用权) 4.Stable Diffusion 这是一款运用扩散模型的AI绘图生成器,具备高速生成富有丰富细节图像的能力。它运用了尖端的深度学习技术,只需根据用户提供的文本描述或参考图片,就能创作出与之相应的艺术风格图像。更令人振奋的是,它支持多种参数调节,赋予用户自定义生成图像的风格和...https://boardmix.cn/article/10-ai-art-generators/
10.打口水战不如比拼硬实力!文心一言VS科大讯飞VS360智脑谁更胜一筹?从两者生成的图片来看,文心一言的哭泣画面较为生动写实,360智脑则提供更多不同风格的选择。 提问:生成一张云计算的配图 360智脑: 文心一言: 显然,对科技词汇的理解上,文心一言更胜一筹。 值得一提的是,360专门发布了AI绘图应用360鸿图,除了一次能够生成四张不同的图片,还提供电脑壁纸、海报、头像等模式,并支持上...https://m.cls.cn/detail/1361570
11.腾讯平面设计实战!如何用AIGC提高200%的做图效率?优设网一、AI 绘图背景与趋势 随着互联网行业发展和技术的进步,设计师也有越来越丰富的手段来应对多种类型的产品需求;比如说 3D 渲染、各种自定义的插件已经成为设计师的工作日常,在不断的提高大家的工作效率;包括最近火热的 AI 绘图,也时常出现在设计师的讨论话题当中。 https://www.uisdc.com/aigc-design
12.挑选AI绘图工具,一篇文章就够!——主流工具推荐与指南微软推出的线上AI绘图工具,由DALL·E 3提供技术支持,助力用户轻松制作专业的图片。 只需要登入微创账户,在官网输入文本提示,此图像创建器将生成一组与提示相匹配的图像。 另外,在Bing Chat中,用户输入提示后,必应聊天机器人也可生成图像。 推荐指数:5(☆☆☆) 点击了解...https://www.digitaling.com/articles/1051826.html