Native在这里是一个双关的词,它包含了两层意思:
土生土长的(NativeSpeaker):指那些天生适应AI环境的产品、系统或人,它们在AI世界中长大,像母语者一样理解和使用AI工具和技术,对AI的运用和影响有着本能的理解。例如,AINative应用可能是专门为利用人工智能功能而设计的,它们充分利用了机器学习、自然语言处理等AI技术。
原生的/本地的(NativetotheTechnology):另一层意思可以特指移动端。所以本文也会顺便聊一聊AI时代,移动端可以做些什么?
总的来说,"AINative"强调的都是以AI做为核心驱动去设计和开发应用,无论是指技术本身还是指移动端。
我们翻开OpenAI官网,很轻松地找到这家公司的使命与愿景——让AGI(通用人工智能)惠及全人类。
那么作为一个自然人,我们感知世界的能力有哪些呢?无非就是视觉、听觉、触觉。我们先不谈触觉。视觉、听觉映射到数字世界里的具体事物上,视觉的承载对象可以是图片、文字、视频;听觉对应的是声音。所以命题就转换成了如何理解这些数字世界的对象。只要理解了数字世界,就能理解真实世界,最终实现AGI惠及每一个人的目标。
试想如果未来我们生产出了各种形态的机器人,这些机器人能「观察」流水线、「监控」突发事件、「识别」人类动作、「听懂」你的指令,这不就是AI真正影响了现实世界,做到惠及全人类了吗?(BTW,只要人类还是肉体,机器人会是下一个可以比肩AI的领域)
LangChain是一个专为开发由语言模型驱动的应用程序而设计的框架。它的核心理念是通过将不同的组件“链”在一起,组成一个App。总的来说,LangChain是一个强大的框架,旨在简化构建基于大模型的AI应用程序的过程。
llama.cpp是一个基于C/C++实现的工具,主要用于部署和推理大型语言模型(LLM),同时具有极高的性能,让端侧大模型成为可能。它提供了大模型量化的工具,可以将模型参数从32位浮点数转换为16位浮点数,甚至是8、4位整数,以适应不同的硬件环境。此外,llama.cpp支持多种模型格式和量化方式,能够在CPU或GPU上运行。
这项技术允许模型在回答问题时,不仅依赖于自身的数据库知识,可以调用外部函数来获取更多信息或执行特定任务,从而实现更加丰富和准确的交互体验。
RAG的一个显著优势是它可以微调,这意味着不需要对整个模型进行重新训练,就可以有效地修改其内部知识。
最为开源的文生图模型,StableDiffusion及各种变体已经可以媲美闭源的Midjounery了,包括各种Lora,插件:SAM、ControlNet、Inpainting、无损放大,以及ComfyUI的节点式工作流,可以说已经非常成熟了,已经被设计师投入日常工作生产中,个人感觉比copilot之于程序员的革命性和效率提升更大。
LLM
chatGPT
Claude
Llama(开源)
Gemma(开源)
Mistral8x7b(开源)
以及一众国产大模型,有点眼花缭乱了
声音
Whisper及各种变体:TTS
GPT-SoVITS:语音克隆
视频
Agent这个概念其实早就有了,只是苦于之前没有LLM超强的语义理解能力。现在随着LLM崛起,agent的概念又一次被搬上台面。简单来说,人们不满足于LLM简单的文字输出能力,而是希望利用它理解文字的能力,作为调度中枢,进一步控制下游的工具,从而连接起更大的系统。
国内字节的AI低代码平台——Coze,通过可视化的方式编排节点,快速组装成一个特定场景下的AI工具。
国外的Langflow、Flowise则是目前AI低代码平台做的非常领先的两家。
【思考】:我判断此类工具最终的归属和苹果的快捷指令会很像,在某些场景下会非常方便快捷,但更多时候小白用户不会主动去创建,多是拿来主义,适合有动手能力的Geek。而且这类平台开发没什么门槛,也没什么盈利手段,不是一块很大的蛋糕(类比现在的快捷指令市场)。但是Agent的思路还是大有可为,适合做在产品内部比如问小饿,我只是觉得这样的低代码编排平台蛋糕不会很大。
自从LLM解锁了读图能力后,就有人开始结合按键精灵尝试自动化测试了。其中包括腾讯的AppAgent:
这篇论文就是对CoT的一次实践,但是CoT目前最大的问题就是不可控,很容易走火入魔陷入死循环,需要实操过程中不断调整prompt和异常防护。
【思考】:用AI识图来做自动化可以说是比较确定的事情了,个人也比较看好。但其实类似的场景还有很多,比如帮助老人、视障人群操作智能机;不方便操作手机(比如开车、做菜)的时候,通过语音让AI自动操作。
前景值:☆☆
基于RAG原理诞生的LeptonAISearch、perplexity.ai、秘塔AI搜索,也可以私有部署搭建一个专有领域文档答疑机器人。
下面是我用了一个月的用来平替Google的AI搜索神器秘塔AI。他真的能帮我替代Google50%的使用场景。它的原理也非常简单:
通过Bing、GoogleSeachAPI搜索这十几个问题的答案
把所有答案汇总,再让LLM总结
最终,甚至还能给你输出一个脑图。如下,即使是昨天才发布的Claude3,基于RAG的AI搜索引擎也能很好地回答。
现在的Agent都会有一个模块叫Retriever,中文可以翻译成读取器,意思就是可以读取你外部输入的资料。RAG的两大好处:
你可以用口语化方式搜索。适合于记忆模糊的时候搜索。
可以获取最新的知识。
【思考】:非常有前景,可以预见将会大面积应用于论文解读、客服、导游、答疑等场景,并且技术难度很低(核心模块都封装好了)。钉钉文档、飞书非常实用用来做这个事。总结起来就是凡是目前需要搜索的地方,都可以用RAG的方案做优化(甚至替换)。
前景值:☆
相较云端大模型,端侧大模型由于利用了手机终端的闲置算力资源,减少了数据传输,因此在很多场景下会更加高效、便宜、安全。在手机+大模型的竞争中,每一个厂商都不想掉队。
荣耀
破局者,率先在手机上运行70亿AI大模型
MagicOS8.0
小米
澎湃系列芯片
运行13亿参数大模型MiLM
vivo
BlueLM蓝心大模型
V系列芯片,天玑9300支持最高330亿参数AI大模型
首款AI大模型手机X100
OPPO
华为
麒麟系列芯片
联发科
高通
骁龙8Gen3支持生成式AI功能,可运行MetaLlama2大模型
苹果
三星
为了实现大模型体验和手机性能的平衡,厂商们目前普遍采取了“端云协同”的策略,同时部署端侧和云端两种模型,根据不同的应用场景和需求来进行选择。端云协同可以最大化地发挥“端侧快”和“云侧强”的优势,同时还能解决信息安全隐患、云端算力成本过高等问题,可以说是现阶段打造大模型手机的最优解。
实时翻译、识别食物、智能助手,通过结合AI技术、传感器和投影仪,为用户提供多种自然直观的交互功能。
传统的讲解器,只是一个耳机和录制好的音频,未来会出现可以自动定位讲解、深入解答用户问题的AI设备。
着眼于儿童玩具市场。把传统的玩具接入LLM大模型,可以更智能地和儿童对话。
通过魔改超市淘汰下来的墨水屏,LLM可以每天更新一条格言,或者把你待办事项同步显示到上面。
把传统的相框,接入了StableDiffusion服务,每天早上自动更新一张AI生成的图,让你的相框每天都不一样。
工业进展
英伟达GTC2024:
机器人一定是未来的趋势;就好比光有了聪明的脑子,不能只用来聊天吧。只要人类还是肉身,我们就依赖物理世界,那么让AI改善我们的物理世界就是顺理成章的需求。比如工厂流水线、自动驾驶、机器人宠物……
目前GPU业务严重依赖谷歌云、OpenAI、Azure、AWS等几大云厂商,而这几大云厂商也在自研芯片。与此同时,随着人才流转、AMD和英特尔追赶,英伟达的算力优势一定会逐渐蚕食,前有夹击,后有追兵。所以英伟达必须需要扩大生意伙伴。比如这届GTC可以看到NVIDIADRIVEThor和国内多家汽车厂商合作自动驾驶、联想与英伟达宣布合作推出全新混合人工智能解决方案、九号公司与英伟达展开了机器人领域的合作等。
纯卖GPU的生意不会长久。第一随着人才被挖竞对追赶,GPU的算力优势一定会逐渐蚕食;第二,GPU业务严重依赖谷歌云、OpenAI、Azure、AWS几大云厂商,需要扩大生意伙伴;第三,GPU算力的增长远超AI产品的增长,换句话说,没有那么多模型要训练了。
因此,发展软件应用生态是英伟达的必然之路,本届GTC英伟达大力宣传自己在软件方面的布局:机器人开发的仿真环境、AI模型和工作流、药物研发、基因组学分析、视频分析
我们的一个猜测,未来AI会越来越渗透到我们身边的终端设备上,比如门禁闸机、景区导游、具象机器人、翻译笔、全屋智能、车机等,所以终端上沉淀LLMonDevice的经验是一个重要的工作。
AI原生应用(AINative)是一种以AI技术做为核心驱动力的应用,使其在代码层面和应用架构上与AI技术深度融合。AI就像是App的血液,流淌在应用里的每个角落。它的设计应遵循用户无感知的原则,即AI技术在后台悄无声息地运行,为用户提供自然流畅、如同真人般的交互体验。
既然是核心驱动力,我们斗胆给个量化的数据,核心链路和功能超过60%有AI参与的应用,我们可以认为是达到了AINative的标准。
我们眼中可以称之为AINative的案例。前些年风靡过一个词叫「次时代」,我觉得AI时代这个词会再度翻红,越来越多的应用会出现「次时代」的革命性体验。而这个过程,会是一个以点及面、星火燎原的过程。
我们认为目前的传统应用会通过一个个AI闪光点切入,一点点把AI能力融入现有场景,直到转变成AINative应用。罗马不是一天建成的,从AI小功能开始一点点做起,日拱一卒方为可行之道。
以下是一些我们认为可以称之为「次时代」的AI闪光点,虽然都是小功能,但具备AINative的特质。
以往后期领域需要一帧一帧抠图,或是自动追踪能力很差,现在有了AI加持可以既快又好地解决。
自动绿幕抠像
自动加字幕
自动旁白合成
同样是需要后期大量繁琐重复的劳动,现在可以轻松优雅的解决。
工作生活中凡是需要立刻记录的信息,可以通过长按侧键语音输入,AI会自动帮你分类、总结、写入对应的应用、生成排版等。你只管记录,剩下的交给AI。
具体的交互是:按住屏幕上的元素,说出你的指令,AI自动帮你完成任务。比如:
新手面对Excel里茫茫多的功能无从下手,按住表格直接说出你的需求:“我想把这一列排序;我想把这个标题加粗;我想算出这一行平均值....”
这些当年看起来很难实现的交互,现在有了AI的加持都可以很好地解决。
精确转录出文字稿,生成大纲,点击大纲还可以展开细节,甚至还有TODOList。
这种「多选一」的交互逻辑非常值得借鉴。因为AI本来就会存在一个创意值,而Prompt又是一项专业的工作并非人人都能精确描述,那么通过一次性给他几个候选值选择,通过和用户的来回交互一点点缩小范围,直到找到心里想要的效果。这种交互方式,我们认为会是未来AIUGC领域通用的交互手段。举个例子,你只需要把文案一股脑输入PPT,PPT会自动帮你创建几套精美的排版供你选择,你选择一套后AI会继续优化,直到你满意为止。
对比传统应用,突出AINative的优势主要包括以下几点:
高效率:AINative应用能够自动地处理和分析大量数据,远超人类的能力,从而从大数据中提取有价值的信息,提高工作效率
智能决策支持:通过对大量数据的分析,AI能够帮助企业和组织做出更好的决策,尤其在商业、医疗等领域,这具有极大的价值
智能化:AINative将人工智能算法和模型直接嵌入到应用程序中,使得应用程序具备智能化、自动化和高效化的能力
原生为AI而设计:应用程序从设计之初即考虑到AI的应用和能力,原生为AI而设计,充分利用和发挥AI大模型的智能优势,提高应用程序的智能化水平
以AI能力为基础设计:AINative是以AI能力为基础去设计的产品,利用人工智能技术实现业务流程和服务,与传统应用的交互设计上可能会有本质不同
就像AWS、Azure、阿里云构建了移动互联网时代的底座,AI时代也会出现一大批Infra底座。我们认为新一代的训练平台一定是开箱即用,简化训练过程,让开发者能够高效地进行基准测试和训练模型。
内置PyTorch、Tensoflow、Axolotl、StableDiffusion等常用的模板环境,内置常用ImageNet、CommonCrawl、Wikipedia数据集,开发者只需单击几下即可获得完全配置的开发工作区。
模型平台,国内有魔搭,国外有HuggingFace,可以一键带入训练平台二次开发,允许开发者在平台上进行模型微调、迁移学习等操作。
训练平台支持一键部署生成ServerlessAPI,按需计费,弹性扩容,使得开发者可以便捷地将先进的AI技术集成到应用程序中。
这一步需要产品经理和开发人员集思广益思考应用场景和用户需求,我觉得一个最好的办法就是现有技术都用一遍,有了切身体会才会有新的思路。
目前想到的点包括:
常驻页面右下角,随时待命的小助手,作为万能入口兜底。
举几个例子:
用户选中一段文字,自动弹出键盘可以输入指令:「续写、翻译、文字加粗....」
网上看到一张图,长按后语音输入「识别出文字然后添加到待办事项」
凡是目前需要用户创作的地方,现在都是让用户从0开始创作,未来都可以把这一范式从「写」升级到「选」。所谓的「选」就是开局直接给用户几个模板,让用户先大致选一个风格,然后基于这个风格再优化几个模板,以此类推,不断缩小范围,直到生成用户心中的那个答案。以下是一些常见的UGC领域:
写评价
PPT排版
润色文案
视频剪辑
配图(插画、营销号、技术架构图等)
车机、手表、智能眼镜等创新终端或许可以成为新的突破口,既然是新的终端了,可以选择激进点,做一个纯AI驱动的App,纯语音交互,功能简化成只能点外卖,打的就是一个AI点餐心智。
以此为衍生,任何智能设备理论上都有塞入大模型的可能。
综上所述,从基础架构建设、技术创新融合到设计原则、伦理规范等方面全方位布局,才能有效推动AINative应用的构建与发展,最终实现AGI惠及全人类的愿景,并在各个领域带来革命性的用户体验与价值提升。
我们正处于一个AI一日千里的时代,科技的迅猛发展正以前所未有的力量推动着社会进步。随着人工智能、大数据、云计算等前沿技术的深度融合与应用,「次时代」正在缓缓展开。
面对浪潮,我们只有站在潮头才不会被拍在沙滩上。好消息是,我们坚信我们的世界会变得越来越美好,随着更多AINative应用的涌现,我们的工作生活一定会迎来翻天覆地的改变,想到自己是其中参与改造的一员,还是有点使命感和激动的。