AI写作绘画游戏编程音视频编辑……从十款AI应用一窥AIGC时代下APP的最新发展趋势AI新浪财经|输入一张图片ai绘图_宠物造型

面对这个刚刚开始的颠覆性变革，我们有太多问题想问，有太多问题值得思考。但本文将聚焦在：

1引子：为什么这次不一样

最近几乎所有大型人工智能的前沿突破，都来自巨头公司，因为他们拥有强大的资金和算力。ChatGPT与上一波人工智能产品苹果Siri、微软小冰的核心不同是，过去都是小模型，而如今是真正的大模型。

以前，小模型的人工智能中，其实包含了若干Agent（类似于执行具体任务的程序），一个专门负责聊天对话、一个专门负责诗词生成、一个专门负责代码生成、一个专门负责营销文案等等，如果想添加新功能，可以去训练新Agent。一旦用户的问题超出了这个范围，人工智能就会变成人工智障。

而如今的ChatGPT之所以被称为真正的人工智能，就在于采用了成百上千亿参数的大模型，比如GPT-3模型就有1750亿个参数。而GPT本身是一个单项模型，是从左到右进行阅读，所以更擅长“写作文”。与谷歌BERT不同，BERT是一个双向模型，可以联系上下文进行分析，更擅长“完形填空”，但GPT与人类的思维方式更接近，所以我们能看到基于ChatGPT的创意写作应用，或是制作绘本。

但大模型的高昂投入，让普通创业公司难以为继，因此参与者都是科技巨头。2022年OpenAI的收入为3000万美元，但净亏损总额预计为5.445亿美元。而GPT3训练一次的费用，大概是460万美元。当模型被训练好之后，仍然有使用成本，目前ChatGPT单轮对话的平均费用，大概在0.01-0.2美元之间。

并且先发优势会非常明显，因为这里有一个“数据和模型的飞轮效应”。在GPT-3之后，OpenAI所有的模型都没有开源，而是提供了API调用。在这个过程中，OpenAI可以借助ChatGPT建立真实用户调用和模型迭代之间的飞轮，OpenAI非常重视真实世界数据的调用，以及这些数据对模型的迭代。

对于AI的发展来说，工程的重要性不亚于科学，创建一个迭代反馈的闭环至关重要。这也将是后来者，赶超ChatGPT的重要难点。

那么，这股AI新浪潮对于创业公司来说，意味着什么？

2对创业公司来说意味着什么？

“将来应该会出现几个大型的基础模型，开发人员都将基于这些基础模型研发AI应用。但目前的情况依然是某一家公司开发出一个大型语言模型，然后开放API供他人使用。

我认为，将来在基础模型和具体AI应用研发之间会有一个中间层：出现一批专门负责调整大型模型以适应具体AI应用需求的初创企业。能做好这一点的初创公司将会非常成功，但这取决于它们能在「数据飞轮」上走多远。

创业公司会训练自己的模型，只不过不是从头开始。他们将采用基础模型，这些模型已经经过大量的计算和数据训练，然后在这些模型之上进行训练，为每个垂类创建模型。

将来承担模型训练角色的应该不会是初创公司，但这些企业可以在上述的中间层角色中发挥巨大价值。我认为中间那一层会创造很多价值。”

总结来说，这个产业生态可能会是：

1、基础设施层：在最底层，是提供芯片、云计算等基础能力的厂商。

2、模型层：大公司负责训练基础大模型，这种基础能力可能会逐渐走向开放。一种可能是，最终形成类似ISO和Android两大阵营，或是类似云计算的格局，一般这种量级的生态圈最终不会容纳太多家，但也不会被一家垄断。目前来看微软（OpenAI拔得头筹）vs谷歌（旗下有Deepmind）已经开战，但巨头的基础模型之间是否会形成差异？以及会形成怎样的差异性？这个问题也值得观察。但无论如何，这将会是继移动互联网之后，下一个史诗级的重大战略窗口，中国公司也需要积极加入战局。

3、应用中间层：在大模型的基础上，不同垂直领域会有各自的特殊情况，比如医疗、司法等等领域，这些特定领域的数据本身也是稀缺的。创业公司可以扎根各自的垂直领域，基于特定的数据集+行业knowhow，形成各自的商业化路径，并保护用户数据和隐私。

4、重构“AI应用”？此外，在SamAltman所说的应用中间层之上，在AI应用端本身，是否存在一个重构当下App的机遇？是现有玩家往AI转型，还是会涌现新玩家，这个问题也值得持续观察，还未达成市场共识。

而在新玩家中，涌现了一批AI绘画、AI编程、各类自动化工具等等方向的创新项目，类似当年移动互联网，这些新方向也有可能诞生一批优秀的新公司。

这个发展过程也许可以类比云计算。当年云计算最初通过便利性，来吸引用户把计算放在云端。然后随着计算逐渐迁移到云端，数据也开始搬迁到云上，然后再是整个公司的业务逻辑，都在云上运行。基于OpenAIGPT-3、DeepmindGopher等基础模型，各个应用层面的新老玩家，未来都会在“云”上提供更丰富的服务，最终形成庞大生态。

我们也非常想知道，基于ChatGPT，当下全球最流行、最有潜力的应用场景到底是什么？我们做了一个初步的研究，根据：

1）AI写作：JasperAI

2）AI写作：Copy.ai

Copy.ai也引入了人工修正，不断训练出更优秀的人工智能模型。Copy.ai的核心目标不是完全取代人工，而是通过AI的建议，将人类创作文案的构思阶段缩短80%，营销人员用自己的创造力来填补剩余的20%。Copy.ai提供了大量的场景模版，几乎涵盖了市场营销需要文案的所有场景。

3）AI声音：podcast.ai

Podcast.ai是一个完全由AI生成的播客，每周都会深入探讨一个新话题。

Podcast.ai的第一期节目引爆全网，Podcast.ai通过乔布斯的传记，和收集网络上关于他的所有录音，用Play.ht的语言模型大量训练，最终生成了一段美国知名播客主持人JoeRogan采访乔布斯的播客内容。在这期播客里，乔布斯的各种语音、语调都模拟的非常相似。

在这段20分钟的对话里，乔布斯“死而复生”，与JoeRogan讨论了关于曾经的大学时光、对计算机的看法、工作状态以及信仰等等。

Podcast.ai所采用的Play.ht，是一个AI文本转换语音生成器，模型覆盖了数千种说话的声音，还可以学习人类的情感、说话语气以及笑声等。从文本语言模型到音频语言模型时，音频数据速率增高是一个大难题，一个句子的几十个字符用音频波形表达，所包含的数值往往多达数十万个。此外，由于文本和音频之间的一对多关系，也即是一个语句可以有不同的说话风格、情感等，这也成为了语音模型研究中需要解决的问题。

4）AI绘图：Midjourney

如今，无数人都在用Midjourney生成图片。例如《经济学人》用Midjourney生成的图片做了杂志封面：

以及《空间歌剧院》，在美国科罗拉多州博览会上获得一等奖，随后其作者JasonAllen才透露，这幅作品是出自MidjourneyAI之手。

再比如英国艺术家DanielOxford，运用Maya、PS等软件配合AI辅助创作，一幅幅油画质感的CG从他手下产生：

又或者是当你输入“指环王”，Midjourney生成的是这样的：

这些问题都可独立，也可搭配在一起，看你想让AI画到什么程度。描述的越多，AI会以自己的理解，按权重优先级进行绘制；而如果描述的少，AI也会根据自己的理解绘画，也许能给出惊喜的创意。

建筑师也在使用来寻找灵感。例如芝加哥建筑师斯蒂芬·库拉斯（StephenCoorlas）使用Midjourney为芝加哥北岸地区设计的露天展馆。

基于这个概念图像进行简单的3D建模后，库拉斯将这些模型的图像反馈给Midjourney，并令其迭代建筑图纸。然后就得到了这个展馆的建筑图纸，虽然还缺乏细节。

扎哈·哈迪德建筑伦敦工作室的计算研究小组（ZHACODE）设计师TimFu，使用Midjourney设计的钢琴家的住宅：

这些进步，得益于生成扩散模型和多模态预训练模型等技术的快速发展，在图文生成效果上有了显著进步，让AI可以快速、灵活地生成不同模态的数据内容。

5）AI绘图：StabilityAI

与Midjourney类似，StabilityAI也是一个开放的AI绘图工具，用户输入描述图片的文字信息，来创建图像。

StabilityAI在训练自己的模型时，也花费了很高的成本。根据BusinessInsider的报道，StabilityAI目前拥有一个，在AWS中运行的由4000多个NvidiaA100GPU组成的芯片集群，用于训练Stability的各个AI模型，这导致其在运营和云服务方面的支出超过了5000万美元。AI公司在训练方面的确耗资巨大，此前微软对OpenAI的10亿美元投资，其中一半是用云计算等服务折算的。

由此也可以看出StabilityAI的野心，它并未聚焦于某个单一场景，而是通过开源来拓展场景，再去寻找具体的商业模式。当然，更大的想象空间，也需要更多的投入，所以StabilityAI在种子轮就拿了这么多钱。

Stability建立的社区，包括了全球各地的专家与合作伙伴，他们正在为图像、语言、音频、视频、3D和生物学等，开发最先进的开放式人工智能模型。

6）AI修图：Lensa

刚刚介绍了几款AI绘图应用，下面我们要介绍的，是一款AI修图产品。

Lensa的日常操作，其实与美图秀秀、VSCO类似，只不过后者需要手动，而Lensa加入了一些AI能力。Lensa在Twitter等社交媒体上爆红，主要是它的MagicAvatars功能，可以供你生成魔法头像。用户需要上传10-20张自拍照，然后选择一个性别，MagicAvatars就会通过AI自动生成上百张不同风格的头像。

这些AI生成的照片风格各异，有动漫效果、科幻色彩、水彩感、或是油画风格等等，一下子形成了病毒式传播。此外，这是一个完全付费的产品，生成的这50/100/200张的价格分别为3.99/5.99/7.99美元。

Lensa引爆了C端，这也是对AIGC市场非常重要的价值。

7）AI音视频编辑：Descript

去年11月，Descript宣布了5000万美金的融资，这一轮由OpenAI旗下的OpenAIStartupFund领投。

Descript想结合AI实现的目标，是重新设计视频编辑器，让制作音视频的过程，像修改Word文档和做PPT一样简单。

第二个好用的功能是语音克隆，也就是用户先录好一段声音后，后续只需要写文本就能实现整个录制，AI会用克隆好的声音自动录制出来。也可以选择其模版库里的其它声音模版。当你对文本进行修改，录音也会自动调整。

第三是通过AI自动删除语气词或是重复的短句。剪辑过音频的朋友都知道，我们日常说话时其实会有大量的语气词或是重复词，说的时候没感觉，但在听录音的时候非常明显。但这种剪辑很麻烦，需要一点一点去抠。如今通过AI自动处理，很方便也令音视频更加专业。另外就是字幕处理，Descript会根据上下文自动调整字幕的停顿断句，也会自动补充各种日常习惯语法。

8）AI编程：GitHubCopilot

AI编程也是近几年新崛起的重要赛道，美国风投界认为2023年AI编程投资会非常火热。

GitHubCopilot是微软旗下代码托管平台GitHub推出的AI编程工具，Copilot的主要定位是提供代码补全与建议功能，可根据当前文件的内容和光标位置自动生成代码。

GitHubCopilot支持的编程语言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHubCopilot，软件开发人员可以在编辑器中使用内联注释来获取JavaScript、Python、TypeScript和Ruby等编程语言的代码建议。

然后只要用户给出提示，GitHubCopilot就可以根据上下文自动编写完整的函数，或实现完整的功能，包括docstrings、注释、函数名、代码。

在底层技术方面，GitHubCopilot就是基于OpenAI的文本生成技术。曾经有GitHubCopilot高管对其描述是：

“这就像有一个小机器人坐在你的肩膀上，你们坐在桌子的同一侧，目视同样的东西，当这个机器人可以‘出手’的时候，它会自动为你提供帮助。……最近一项研究的统计数据非常有趣，该研究要求程序员从头开始编写Web服务器代码，程序员在使用Copilot的情况下完成这一任务的速度要比不使用Copilot快50%以上。然后，我们从遥测中得知，在启用这一功能的情况下，在程序员编写新代码的过程中，例如Python等流行编码语言中，Copilot为程序员编写了多达40%的代码。这是个了不起的成就。”

9）AI笔记：Mem

Mem是一款专注于工作的应用程序，可以利用AI自动组织笔记。Mem也是OpenAI领投的，投资金额为2350万美元，投资后估值为1.1亿美元。

Mem由华裔工程师DennisXu和KevinMoody共同创办，他们曾表示，Mem与传统记事应用程序的不同之处在于它的“轻量级”。

当然，快速记录信息只是最开始的第一步，Mem如何将信息数据从其他平台快速同步整合到Mem上更为重要。Mem在背后形成了一个知识图谱，由一个个Node（节点）组成，每个节点都是一个Entity，这个Entity可以是一条Mem（笔记），也可以是某个具体的日程活动、一个联系人信息或者是一条任务等等。Mem会通过AI将这些不同节点上的Entity进行分析和连接，比如你在一条笔记中提到了某位朋友推荐的一家餐馆，这两个信息点都会在知识图谱中进行分析和归类，并自动形成关联，当外部条件触发时，这些信息就会自动呈现在用户的面前。

Mem也做了AIWriter的部分，可以说是基于个人信息数据的AI写作助理。比如一个可能的场景就是当你在写作中提到某个日程安排或者某条视频内容时，Mem会自动将这些信息自动同步到文档中，同时这个AIWriter还具备GPT-3的所有能力，可以将各种网上的信息比如最畅销的10本书等等进行自动搜集和补全。

10）AI游戏：AIDungeon

AIDungeon是一个由AI驱动的基于文本的RPG游戏，也可以说是由AI驱动剧情发展的游戏。通过AI应用，用户可以在能想象到的任何场景中，去进行角色扮演编写故事，与其他人物互动。

AI会根据故事大背景设定的世界观，来设计不同角色的性格和任务，并且实时根据用户的行动，回以新的事件和对话，对每个人都会反馈出不同的答案和行动，所以在剧情拓展方面，不可预测并且自由度空前。

AIDungeon目前使用GPT-3的模型来生成故事。

AIDungeon文本游戏虽然还很稚嫩，但AI应用于游戏代表了游戏业的未来。

AIDungeon代表了ChatGPT对游戏行业可能的颠覆性。当AI应用于游戏，游戏里的剧情将变得不可预测，而是会根据每个用户的选择，形成无限的可能性。并且游戏里的NPC都可以有各自的“生活”，或是影响游戏结局，从而给玩家带来独特的体验。

当然，当下的AI游戏大多数还是基于文本，所以其互动效果类似ChatGPT，事实上这块能力也是基于OpenAI的语言模型构建的。不同点在于游戏版会更具逻辑性，也能够保留对过去交互的记忆，并且是基于大的故事背景而做出的互动。

但在可以想见的未来，当游戏制作时，把游戏中的每一个人物都设计一个AI模型，那将是AIGC深度开发的巨大潜力与机会，制作出真正沉浸感的新游戏。

这10款应用只是AIGC领域的冰山一角，从GPT-3、Bloom的文本生成，DALL-E和StableDiffusion的图像生成，以及RunwayML、Make-A-Video的视频生成，各类生成式AI产品在近几年中如雨后春笋般涌现。

正如OpenAICEOSamAltman所说，AI将是移动互联网后新的基础平台，之后会出现新公司的爆炸式增长。

当然，目前的GPT-3.5，并不具备真正的推理能力，虽然ChatGPT能回答各种问题，但事实上对回答背后的意义，或是数学公式的理解、诗词背后的情感，ChatGPT还是没有概念的。GPT从1.0发展到3.5，迭代的是收集整合和语言组织能力，而非思维层面。

就像清华教授钱颖一曾经说的，未来人工智能在知识层面会做的很好，但“大学教育的价值不在于记住很多事实，而是训练大脑会思考。”

创造性思维=知识×好奇心和想象力，这在AIGC时代将尤为重要。

References：

3、Citipedia：AI与城市｜Midjourney：建筑版ChatGPT设计的超现实世界

4、wuhu动画人空间：地表最强AI绘画工具？！Midjourney到底厉害在什么地方？

5、AI绘画Midjourney关键词输入全技巧

6、安信证券：AIGC与ChatGPT正掀起新一轮的产业浪潮

7、UBSEquities：美国互联网行业：ChatGPT揭示消费者AI的未来

8、MorganStanley：ChatGPT:WhatisitWhyitMattersIsitaGoogleThreat...andBroaderIndustryImplications

THE END

AI写作绘画游戏编程音视频编辑……从十款AI应用一窥AIGC时代下APP的最新发展趋势AI新浪财经

AI绘图之Midjourney手把手教程——完全入门指南空格ai服务器输入框视频文件

AI写作绘画游戏编程音视频编辑……从十款AI应用一窥AIGC时代下APP的最新发展趋势AI新浪财经

AI绘画火了，你的朋友圈里是不是也多了不少“画家”？

卷王都在用！100款宝藏级AIGC工具分享，强烈建议收藏

用文字描述生成AI绘画的过程及方法详述

AI图片全能王如何完成AI画图？AI画图教程分享

ChatGPT图片AI绘图指令操作方法小程序小游戏

图趣AI(AI绘图)app官方正版下载图趣AI2024最新版本v1.2.6安卓版下载

使用AI绘图助手怎么进行AI扩图？Ai扩图技巧分享

硬核！教你4招玩透AI绘图！真实感爆棚！

网上很火的ai绘画是什么软件免费的AI绘图软件精选

快科技资讯2023年08月29日Blog版资讯中心

一文回顾AI绘画的成长之路：从简笔画到真实人脸生成作者 Rachel 责编琥珀出品 AI科技大本营（id：rgznai100）导语近几年，AI绘画...