我眼中的AINative

Native在这里是一个双关的词,它包含了两层意思:

土生土长的(NativeSpeaker):指那些天生适应AI环境的产品、系统或人,它们在AI世界中长大,像母语者一样理解和使用AI工具和技术,对AI的运用和影响有着本能的理解。例如,AINative应用可能是专门为利用人工智能功能而设计的,它们充分利用了机器学习、自然语言处理等AI技术。

原生的/本地的(NativetotheTechnology):另一层意思可以特指移动端。所以本文也会顺便聊一聊AI时代,移动端可以做些什么?

总的来说,"AINative"强调的都是以AI做为核心驱动去设计和开发应用,无论是指技术本身还是指移动端。

我们翻开OpenAI官网,很轻松地找到这家公司的使命与愿景——让AGI(通用人工智能)惠及全人类。

那么作为一个自然人,我们感知世界的能力有哪些呢?无非就是视觉、听觉、触觉。我们先不谈触觉。视觉、听觉映射到数字世界里的具体事物上,视觉的承载对象可以是图片、文字、视频;听觉对应的是声音。所以命题就转换成了如何理解这些数字世界的对象。只要理解了数字世界,就能理解真实世界,最终实现AGI惠及每一个人的目标。

试想如果未来我们生产出了各种形态的机器人,这些机器人能「观察」流水线、「监控」突发事件、「识别」人类动作、「听懂」你的指令,这不就是AI真正影响了现实世界,做到惠及全人类了吗?(BTW,只要人类还是肉体,机器人会是下一个可以比肩AI的领域)

LangChain是一个专为开发由语言模型驱动的应用程序而设计的框架。它的核心理念是通过将不同的组件“链”在一起,组成一个App。总的来说,LangChain是一个强大的框架,旨在简化构建基于大模型的AI应用程序的过程。

llama.cpp是一个基于C/C++实现的工具,主要用于部署和推理大型语言模型(LLM),同时具有极高的性能,让端侧大模型成为可能。它提供了大模型量化的工具,可以将模型参数从32位浮点数转换为16位浮点数,甚至是8、4位整数,以适应不同的硬件环境。此外,llama.cpp支持多种模型格式和量化方式,能够在CPU或GPU上运行。

这项技术允许模型在回答问题时,不仅依赖于自身的数据库知识,可以调用外部函数来获取更多信息或执行特定任务,从而实现更加丰富和准确的交互体验。

RAG的一个显著优势是它可以微调,这意味着不需要对整个模型进行重新训练,就可以有效地修改其内部知识。

最为开源的文生图模型,StableDiffusion及各种变体已经可以媲美闭源的Midjounery了,包括各种Lora,插件:SAM、ControlNet、Inpainting、无损放大,以及ComfyUI的节点式工作流,可以说已经非常成熟了,已经被设计师投入日常工作生产中,个人感觉比copilot之于程序员的革命性和效率提升更大。

LLM

chatGPT

Claude

Llama(开源)

Gemma(开源)

Mistral8x7b(开源)

以及一众国产大模型,有点眼花缭乱了

声音

Whisper及各种变体:TTS

GPT-SoVITS:语音克隆

视频

Agent这个概念其实早就有了,只是苦于之前没有LLM超强的语义理解能力。现在随着LLM崛起,agent的概念又一次被搬上台面。简单来说,人们不满足于LLM简单的文字输出能力,而是希望利用它理解文字的能力,作为调度中枢,进一步控制下游的工具,从而连接起更大的系统。

国内字节的AI低代码平台——Coze,通过可视化的方式编排节点,快速组装成一个特定场景下的AI工具。

国外的Langflow、Flowise则是目前AI低代码平台做的非常领先的两家。

【思考】:我判断此类工具最终的归属和苹果的快捷指令会很像,在某些场景下会非常方便快捷,但更多时候小白用户不会主动去创建,多是拿来主义,适合有动手能力的Geek。而且这类平台开发没什么门槛,也没什么盈利手段,不是一块很大的蛋糕(类比现在的快捷指令市场)。但是Agent的思路还是大有可为,适合做在产品内部比如问小饿,我只是觉得这样的低代码编排平台蛋糕不会很大。

自从LLM解锁了读图能力后,就有人开始结合按键精灵尝试自动化测试了。其中包括腾讯的AppAgent:

这篇论文就是对CoT的一次实践,但是CoT目前最大的问题就是不可控,很容易走火入魔陷入死循环,需要实操过程中不断调整prompt和异常防护。

【思考】:用AI识图来做自动化可以说是比较确定的事情了,个人也比较看好。但其实类似的场景还有很多,比如帮助老人、视障人群操作智能机;不方便操作手机(比如开车、做菜)的时候,通过语音让AI自动操作。

前景值:☆☆

基于RAG原理诞生的LeptonAISearch、perplexity.ai、秘塔AI搜索,也可以私有部署搭建一个专有领域文档答疑机器人。

下面是我用了一个月的用来平替Google的AI搜索神器秘塔AI。他真的能帮我替代Google50%的使用场景。它的原理也非常简单:

通过Bing、GoogleSeachAPI搜索这十几个问题的答案

把所有答案汇总,再让LLM总结

最终,甚至还能给你输出一个脑图。如下,即使是昨天才发布的Claude3,基于RAG的AI搜索引擎也能很好地回答。

现在的Agent都会有一个模块叫Retriever,中文可以翻译成读取器,意思就是可以读取你外部输入的资料。RAG的两大好处:

你可以用口语化方式搜索。适合于记忆模糊的时候搜索。

可以获取最新的知识。

【思考】:非常有前景,可以预见将会大面积应用于论文解读、客服、导游、答疑等场景,并且技术难度很低(核心模块都封装好了)。钉钉文档、飞书非常实用用来做这个事。总结起来就是凡是目前需要搜索的地方,都可以用RAG的方案做优化(甚至替换)。

前景值:☆

相较云端大模型,端侧大模型由于利用了手机终端的闲置算力资源,减少了数据传输,因此在很多场景下会更加高效、便宜、安全。在手机+大模型的竞争中,每一个厂商都不想掉队。

荣耀

破局者,率先在手机上运行70亿AI大模型

MagicOS8.0

小米

澎湃系列芯片

运行13亿参数大模型MiLM

vivo

BlueLM蓝心大模型

V系列芯片,天玑9300支持最高330亿参数AI大模型

首款AI大模型手机X100

OPPO

华为

麒麟系列芯片

联发科

高通

骁龙8Gen3支持生成式AI功能,可运行MetaLlama2大模型

苹果

三星

为了实现大模型体验和手机性能的平衡,厂商们目前普遍采取了“端云协同”的策略,同时部署端侧和云端两种模型,根据不同的应用场景和需求来进行选择。端云协同可以最大化地发挥“端侧快”和“云侧强”的优势,同时还能解决信息安全隐患、云端算力成本过高等问题,可以说是现阶段打造大模型手机的最优解。

实时翻译、识别食物、智能助手,通过结合AI技术、传感器和投影仪,为用户提供多种自然直观的交互功能。

传统的讲解器,只是一个耳机和录制好的音频,未来会出现可以自动定位讲解、深入解答用户问题的AI设备。

着眼于儿童玩具市场。把传统的玩具接入LLM大模型,可以更智能地和儿童对话。

通过魔改超市淘汰下来的墨水屏,LLM可以每天更新一条格言,或者把你待办事项同步显示到上面。

把传统的相框,接入了StableDiffusion服务,每天早上自动更新一张AI生成的图,让你的相框每天都不一样。

工业进展

英伟达GTC2024:

机器人一定是未来的趋势;就好比光有了聪明的脑子,不能只用来聊天吧。只要人类还是肉身,我们就依赖物理世界,那么让AI改善我们的物理世界就是顺理成章的需求。比如工厂流水线、自动驾驶、机器人宠物……

目前GPU业务严重依赖谷歌云、OpenAI、Azure、AWS等几大云厂商,而这几大云厂商也在自研芯片。与此同时,随着人才流转、AMD和英特尔追赶,英伟达的算力优势一定会逐渐蚕食,前有夹击,后有追兵。所以英伟达必须需要扩大生意伙伴。比如这届GTC可以看到NVIDIADRIVEThor和国内多家汽车厂商合作自动驾驶、联想与英伟达宣布合作推出全新混合人工智能解决方案、九号公司与英伟达展开了机器人领域的合作等。

纯卖GPU的生意不会长久。第一随着人才被挖竞对追赶,GPU的算力优势一定会逐渐蚕食;第二,GPU业务严重依赖谷歌云、OpenAI、Azure、AWS几大云厂商,需要扩大生意伙伴;第三,GPU算力的增长远超AI产品的增长,换句话说,没有那么多模型要训练了。

因此,发展软件应用生态是英伟达的必然之路,本届GTC英伟达大力宣传自己在软件方面的布局:机器人开发的仿真环境、AI模型和工作流、药物研发、基因组学分析、视频分析

我们的一个猜测,未来AI会越来越渗透到我们身边的终端设备上,比如门禁闸机、景区导游、具象机器人、翻译笔、全屋智能、车机等,所以终端上沉淀LLMonDevice的经验是一个重要的工作。

AI原生应用(AINative)是一种以AI技术做为核心驱动力的应用,使其在代码层面和应用架构上与AI技术深度融合。AI就像是App的血液,流淌在应用里的每个角落。它的设计应遵循用户无感知的原则,即AI技术在后台悄无声息地运行,为用户提供自然流畅、如同真人般的交互体验。

既然是核心驱动力,我们斗胆给个量化的数据,核心链路和功能超过60%有AI参与的应用,我们可以认为是达到了AINative的标准。

我们眼中可以称之为AINative的案例。前些年风靡过一个词叫「次时代」,我觉得AI时代这个词会再度翻红,越来越多的应用会出现「次时代」的革命性体验。而这个过程,会是一个以点及面、星火燎原的过程。

我们认为目前的传统应用会通过一个个AI闪光点切入,一点点把AI能力融入现有场景,直到转变成AINative应用。罗马不是一天建成的,从AI小功能开始一点点做起,日拱一卒方为可行之道。

以下是一些我们认为可以称之为「次时代」的AI闪光点,虽然都是小功能,但具备AINative的特质。

以往后期领域需要一帧一帧抠图,或是自动追踪能力很差,现在有了AI加持可以既快又好地解决。

自动绿幕抠像

自动加字幕

自动旁白合成

同样是需要后期大量繁琐重复的劳动,现在可以轻松优雅的解决。

工作生活中凡是需要立刻记录的信息,可以通过长按侧键语音输入,AI会自动帮你分类、总结、写入对应的应用、生成排版等。你只管记录,剩下的交给AI。

具体的交互是:按住屏幕上的元素,说出你的指令,AI自动帮你完成任务。比如:

新手面对Excel里茫茫多的功能无从下手,按住表格直接说出你的需求:“我想把这一列排序;我想把这个标题加粗;我想算出这一行平均值....”

这些当年看起来很难实现的交互,现在有了AI的加持都可以很好地解决。

精确转录出文字稿,生成大纲,点击大纲还可以展开细节,甚至还有TODOList。

这种「多选一」的交互逻辑非常值得借鉴。因为AI本来就会存在一个创意值,而Prompt又是一项专业的工作并非人人都能精确描述,那么通过一次性给他几个候选值选择,通过和用户的来回交互一点点缩小范围,直到找到心里想要的效果。这种交互方式,我们认为会是未来AIUGC领域通用的交互手段。举个例子,你只需要把文案一股脑输入PPT,PPT会自动帮你创建几套精美的排版供你选择,你选择一套后AI会继续优化,直到你满意为止。

对比传统应用,突出AINative的优势主要包括以下几点:

高效率:AINative应用能够自动地处理和分析大量数据,远超人类的能力,从而从大数据中提取有价值的信息,提高工作效率

智能决策支持:通过对大量数据的分析,AI能够帮助企业和组织做出更好的决策,尤其在商业、医疗等领域,这具有极大的价值

智能化:AINative将人工智能算法和模型直接嵌入到应用程序中,使得应用程序具备智能化、自动化和高效化的能力

原生为AI而设计:应用程序从设计之初即考虑到AI的应用和能力,原生为AI而设计,充分利用和发挥AI大模型的智能优势,提高应用程序的智能化水平

以AI能力为基础设计:AINative是以AI能力为基础去设计的产品,利用人工智能技术实现业务流程和服务,与传统应用的交互设计上可能会有本质不同

就像AWS、Azure、阿里云构建了移动互联网时代的底座,AI时代也会出现一大批Infra底座。我们认为新一代的训练平台一定是开箱即用,简化训练过程,让开发者能够高效地进行基准测试和训练模型。

内置PyTorch、Tensoflow、Axolotl、StableDiffusion等常用的模板环境,内置常用ImageNet、CommonCrawl、Wikipedia数据集,开发者只需单击几下即可获得完全配置的开发工作区。

模型平台,国内有魔搭,国外有HuggingFace,可以一键带入训练平台二次开发,允许开发者在平台上进行模型微调、迁移学习等操作。

训练平台支持一键部署生成ServerlessAPI,按需计费,弹性扩容,使得开发者可以便捷地将先进的AI技术集成到应用程序中。

这一步需要产品经理和开发人员集思广益思考应用场景和用户需求,我觉得一个最好的办法就是现有技术都用一遍,有了切身体会才会有新的思路。

目前想到的点包括:

常驻页面右下角,随时待命的小助手,作为万能入口兜底。

举几个例子:

用户选中一段文字,自动弹出键盘可以输入指令:「续写、翻译、文字加粗....」

网上看到一张图,长按后语音输入「识别出文字然后添加到待办事项」

凡是目前需要用户创作的地方,现在都是让用户从0开始创作,未来都可以把这一范式从「写」升级到「选」。所谓的「选」就是开局直接给用户几个模板,让用户先大致选一个风格,然后基于这个风格再优化几个模板,以此类推,不断缩小范围,直到生成用户心中的那个答案。以下是一些常见的UGC领域:

写评价

PPT排版

润色文案

视频剪辑

配图(插画、营销号、技术架构图等)

车机、手表、智能眼镜等创新终端或许可以成为新的突破口,既然是新的终端了,可以选择激进点,做一个纯AI驱动的App,纯语音交互,功能简化成只能点外卖,打的就是一个AI点餐心智。

以此为衍生,任何智能设备理论上都有塞入大模型的可能。

综上所述,从基础架构建设、技术创新融合到设计原则、伦理规范等方面全方位布局,才能有效推动AINative应用的构建与发展,最终实现AGI惠及全人类的愿景,并在各个领域带来革命性的用户体验与价值提升。

我们正处于一个AI一日千里的时代,科技的迅猛发展正以前所未有的力量推动着社会进步。随着人工智能、大数据、云计算等前沿技术的深度融合与应用,「次时代」正在缓缓展开。

面对浪潮,我们只有站在潮头才不会被拍在沙滩上。好消息是,我们坚信我们的世界会变得越来越美好,随着更多AINative应用的涌现,我们的工作生活一定会迎来翻天覆地的改变,想到自己是其中参与改造的一员,还是有点使命感和激动的。

THE END
1.AI动物模型一键生成:涵多样化定制与仿真功能,满足科研与教育需求随着人工智能技术的飞速发展动物模型一键生成技术逐渐成为科研、教育以及艺术创作的必不可少工具。本文将详细介绍动物模型一键生成技术的多样化定制与仿真功能以及其在科研与教育领域的广泛应用。 ## 一、动物模型一键生成的技术原理 动物模型一键生成技术基于深度学、计算机视觉和虚拟现实等先进技术,通过分析大量动物图像和模...http://www.slrbs.com/jrzg/aizhishi/144027.html
2.初探Dreambooth技术:使用StableDiffusion创建个性化图像生成模型Dreambooth的发布标志着图像生成领域的一次创新,通过简化和优化训练过程,使得非专业用户也能轻松地定制图像生成模型。这种方法在Google的AI研究中处于前沿,旨在降低模型定制的门槛,拓展AI在个人化和创意领域的应用。 Dreambooth的工作原理 Dreambooth的工作原理基于微调扩散模型,它主要涉及以下步骤: ...https://www.imooc.com/article/349426
1.电子宠物猫虚拟伴侣与智能互动的新纪元电子宠物猫与人际关系的影响 对于许多孤独或有社交障碍的人来说,拥有一个能交流、陪伴他们的“朋友”是一大福祉。研究表明,与这些虚拟生物互动可以减少焦虑、提高情绪,并且促进人的社交技能发展。 智能技术在电子它体猫中的应用 通过嵌入式系统和人工智能技术,电子它体猫能够学习并适应用户习惯。在某些模型中,它们甚至...https://www.lynecx.cn/shui-zu-chong-wu/476927.html
2.宠物玩具市场发展趋势:全面解析与未来展望城市化还带动了宠物产业链的完善,从宠物食品、医疗到玩具,形成了全方位的宠物服务体系,进一步推动了宠物玩具市场的发展。 三、产品创新与技术发展 3.1 智能宠物玩具 技术应用:随着人工智能和物联网技术的不断进步,智能宠物玩具的应用日益广泛。这些玩具不仅能与宠物进行互动,还能通过传感器监测宠物的活动状态,提供个性化...https://www.qika321.com/hangye/216.html
3.智能机器人宠物创意互动的科技伴侣为什么选择智能机器人宠物? 随着科技的飞速发展,人们对于生活品质的追求越来越高。传统的宠物如狗、猫虽然带给我们无尽的快乐,但它们需要大量的照顾和维护。在这种背景下,智能机器人宠物作为一种新型科技玩具逐渐走进了我们的视野。它不仅能够模拟真实动物的情感交流,还能通过编程实现一定程度上的自我学习和适应能力。 https://www.iktpfbwjvk.cn/shu-ma/501235.html
4....角色转变从拥有真实动物到依赖虚拟伴侣的变化过程随着科技的飞速发展,人类对生活品质的追求也在不断升级。电子宠物狗作为一种新型的虚拟宠物,它不仅能够满足人们对亲密伴侣和动物的情感需求,还能提供一系列高科技功能。然而,这种新兴的产品是否真的能够取代传统意义上的真实宠物?这种角色转变背后又有哪些深层次的问题? https://www.eiopm.cn/geng-duo-chong-wu/442330.html
5.智能机器人宠物未来科技的虚拟伴侣除了作为传统意义上的宠物带来的快乐之外,智能机器人宠物还有更多实用功能。在某些型号中,它们可以帮助小孩学习责任感,因为需要定期充电并清洁;而且,有一些模型能够记录孩子与其互动的情况,为父母提供宝贵的心理健康数据。 那么,是不是真的有人愿意把真实的小动物替换掉吗? https://www.oxlrlndzq.com/shu-ma/497002.html
6.CRISPR/Cas9技术的原理与运用公司新闻而CRISPR/Cas 技术运用于 DNA 片断的插入或定点突变的实现,只需在此基础上为细胞提供一个修复的模板质粒,这样细胞就会按照提供的模板在修复过程中引入片段插入或定点突变,对受精卵细胞进行基因编辑,并将其导入代孕母体中,可以实现基因编辑动物模型的构建。Rudolf Jaenisch 教授采用 CRISPR/Cas 技术成功构建了同时携带多个...https://myhalic.biomart.cn/news/2897578.htm
7.电梯管理员模拟考试题6篇(全文)在三层电梯模拟装置程序设计中,接触到了PLC在实际生活、生产应用中的例子。对于我来说,它的程序是比较复杂、也是比较难的,这个程序的实现对我而言真是一个很大的考验。而且还要完成设计任务、系统组成或硬件配置、进行编程元件地址的分配、I/O接线图的绘制及系统原理图的绘制、梯形图的绘制、程序的分析与操作说明等等...https://www.99xueshu.com/w/filelookyds2.html
8.2023(第五届)全球交通座椅系统创新技术峰会(9.2224)3)座椅动态舒适性设计基本原理 4)相关应用及展望 邀请嘉宾:浙江大学声学振动与人因工程研究团队负责人(已确定) 16:10-16:40 汽车座椅舒适性评价方法 1) 汽车座椅舒适性评价方法介绍 2) 汽车座椅舒适应用案例 邀请嘉宾:逢友科技生物力学实验室负责人(已确定) ...https://www.dongchedi.com/article/7275552558763475519
9....elementplus实现桌面模型宠物+桌面管理系统应用(踩坑)【electron-vite+live2d+vue3+element-plus】实现桌面模型宠物+桌面管理系统应用(踩坑) 脚手架 项目使用electron-vite脚手架搭建 ps:还有一个框架是electron-vite,这个框架我发现与pixi库有冲突,无法使用,如果不用pixi也可以用这个脚手架。 node 版本建议18+...https://www.jianshu.com/p/1719d03d7da0
10.药效评价原则(精选3篇)2.2人癌裸小鼠移植瘤模型 应选用体外试验敏感细胞株进行体内抗人癌裸小鼠移植瘤试验。模型建立和使用应注意: (1)移植瘤一般由相应的细胞株移植而建立,对细胞株和移植瘤的化疗敏感性应予了解。 (2)移植瘤复苏后一般应传2-3代后再用于体内抗肿瘤试验。 https://www.oh100.com/bg/a/201608/47021316821.html
11.黑龙江生物科技职业学院2020年单独招生简章—黑龙江站—中国教育在线主干课程:新能源汽车电机及其控制技术、动力电池管理及维护技术、电动汽车电气系统检修、汽车电子控制原理与技术应用、电动汽车车身电控系统检修、电动汽车舒适及安全系统检修、电动汽车充电站及管理技术、新能源汽车技术性能检验等。 就业方向:既能从事传统汽车的检测与维修,又能够从事新能源汽车制造、新能源汽车机电维修、新...https://www.eol.cn/heilongjiang/hlj_news/202005/t20200510_1726168.shtml?ivk_sa=1023197a
12.探索AI大模型在智能家居宠物训练的应用3.2.2 语音识别的技术原理 3.3 大规模预训练模型 3.3.1 预训练模型的概念与意义 3.3.2 大规模预训练模型的应用场景 第二部分: AI大模型在智能家居宠物训练中的应用实现 第4章: 实现智能家居宠物训练系统的技术方案 4.1 系统架构设计 4.1.1 智能家居宠物训练系统的整体架构 ...https://blog.csdn.net/universsky2015/article/details/143842217
13.OSI模型是一个实际应用的模型【单选题】影子可以应用( )光学原理进行解释。 查看完整题目与答案 【单选题】下列中属于糖类不具备的生理功用的是( )。 查看完整题目与答案 【单选题】衍射现象可反映( )个光学原理。 查看完整题目与答案 【单选题】( )是人体最经济的供能物质。 查看完整题目与答案 【单选题】光在传播中若遇到与光波波...https://www.shuashuati.com/ti/554d9ea6f4fd490496f90b958ce6e0f6.html?fm=bd7b885d12ea342dd07187004ca1af6ac5
14.宠智灵宠物AI大模型服务平台宠智灵,宠物ai大模型服务商,覆盖多种宠物行业场景:宠物医疗,穿戴,食品,美容,社交,智能设备等。提供先进的AI技术服务,全面涵盖宠物应用领域,助力企业AI化转型。https://www.gjpet.com/
15.2024年全球市场宠物互动玩具总体规模主要企业本文研究全球市场、主要地区和主要国家宠物互动玩具的收入等,同时也重点分析全球范围内主要企业竞争态势,宠物互动玩具收入和市场份额等。 针对过去五年(2019-2023)年的历史情况,分析历史几年全球宠物互动玩具总体规模,主要地区规模,主要企业规模和份额,主要产品分类规模,下游主要应用规模等。规模分析包括收入和市场份额等。https://www.shangyexinzhi.com/article/22882715.html