我眼中的AINative|宠物模型的原理和应用_宠物造型

Native在这里是一个双关的词，它包含了两层意思：

土生土长的（NativeSpeaker）:指那些天生适应AI环境的产品、系统或人，它们在AI世界中长大，像母语者一样理解和使用AI工具和技术，对AI的运用和影响有着本能的理解。例如，AINative应用可能是专门为利用人工智能功能而设计的，它们充分利用了机器学习、自然语言处理等AI技术。

原生的/本地的（NativetotheTechnology）:另一层意思可以特指移动端。所以本文也会顺便聊一聊AI时代，移动端可以做些什么？

总的来说，"AINative"强调的都是以AI做为核心驱动去设计和开发应用，无论是指技术本身还是指移动端。

我们翻开OpenAI官网，很轻松地找到这家公司的使命与愿景——让AGI（通用人工智能）惠及全人类。

那么作为一个自然人，我们感知世界的能力有哪些呢？无非就是视觉、听觉、触觉。我们先不谈触觉。视觉、听觉映射到数字世界里的具体事物上，视觉的承载对象可以是图片、文字、视频；听觉对应的是声音。所以命题就转换成了如何理解这些数字世界的对象。只要理解了数字世界，就能理解真实世界，最终实现AGI惠及每一个人的目标。

试想如果未来我们生产出了各种形态的机器人，这些机器人能「观察」流水线、「监控」突发事件、「识别」人类动作、「听懂」你的指令，这不就是AI真正影响了现实世界，做到惠及全人类了吗？（BTW，只要人类还是肉体，机器人会是下一个可以比肩AI的领域）

LangChain是一个专为开发由语言模型驱动的应用程序而设计的框架。它的核心理念是通过将不同的组件“链”在一起，组成一个App。总的来说，LangChain是一个强大的框架，旨在简化构建基于大模型的AI应用程序的过程。

llama.cpp是一个基于C/C++实现的工具，主要用于部署和推理大型语言模型（LLM），同时具有极高的性能，让端侧大模型成为可能。它提供了大模型量化的工具，可以将模型参数从32位浮点数转换为16位浮点数，甚至是8、4位整数，以适应不同的硬件环境。此外，llama.cpp支持多种模型格式和量化方式，能够在CPU或GPU上运行。

这项技术允许模型在回答问题时，不仅依赖于自身的数据库知识，可以调用外部函数来获取更多信息或执行特定任务，从而实现更加丰富和准确的交互体验。

RAG的一个显著优势是它可以微调，这意味着不需要对整个模型进行重新训练，就可以有效地修改其内部知识。

最为开源的文生图模型，StableDiffusion及各种变体已经可以媲美闭源的Midjounery了，包括各种Lora，插件：SAM、ControlNet、Inpainting、无损放大，以及ComfyUI的节点式工作流，可以说已经非常成熟了，已经被设计师投入日常工作生产中，个人感觉比copilot之于程序员的革命性和效率提升更大。

LLM

chatGPT

Claude

Llama（开源）

Gemma（开源）

Mistral8x7b（开源）

以及一众国产大模型，有点眼花缭乱了

声音

Whisper及各种变体：TTS

GPT-SoVITS：语音克隆

视频

Agent这个概念其实早就有了，只是苦于之前没有LLM超强的语义理解能力。现在随着LLM崛起，agent的概念又一次被搬上台面。简单来说，人们不满足于LLM简单的文字输出能力，而是希望利用它理解文字的能力，作为调度中枢，进一步控制下游的工具，从而连接起更大的系统。

国内字节的AI低代码平台——Coze，通过可视化的方式编排节点，快速组装成一个特定场景下的AI工具。

国外的Langflow、Flowise则是目前AI低代码平台做的非常领先的两家。

【思考】：我判断此类工具最终的归属和苹果的快捷指令会很像，在某些场景下会非常方便快捷，但更多时候小白用户不会主动去创建，多是拿来主义，适合有动手能力的Geek。而且这类平台开发没什么门槛，也没什么盈利手段，不是一块很大的蛋糕（类比现在的快捷指令市场）。但是Agent的思路还是大有可为，适合做在产品内部比如问小饿，我只是觉得这样的低代码编排平台蛋糕不会很大。

自从LLM解锁了读图能力后，就有人开始结合按键精灵尝试自动化测试了。其中包括腾讯的AppAgent:

这篇论文就是对CoT的一次实践，但是CoT目前最大的问题就是不可控，很容易走火入魔陷入死循环，需要实操过程中不断调整prompt和异常防护。

【思考】：用AI识图来做自动化可以说是比较确定的事情了，个人也比较看好。但其实类似的场景还有很多，比如帮助老人、视障人群操作智能机；不方便操作手机（比如开车、做菜）的时候，通过语音让AI自动操作。

前景值：☆☆

基于RAG原理诞生的LeptonAISearch、perplexity.ai、秘塔AI搜索，也可以私有部署搭建一个专有领域文档答疑机器人。

下面是我用了一个月的用来平替Google的AI搜索神器秘塔AI。他真的能帮我替代Google50%的使用场景。它的原理也非常简单：

通过Bing、GoogleSeachAPI搜索这十几个问题的答案

把所有答案汇总，再让LLM总结

最终，甚至还能给你输出一个脑图。如下，即使是昨天才发布的Claude3，基于RAG的AI搜索引擎也能很好地回答。

现在的Agent都会有一个模块叫Retriever，中文可以翻译成读取器，意思就是可以读取你外部输入的资料。RAG的两大好处：

你可以用口语化方式搜索。适合于记忆模糊的时候搜索。

可以获取最新的知识。

【思考】：非常有前景，可以预见将会大面积应用于论文解读、客服、导游、答疑等场景，并且技术难度很低（核心模块都封装好了）。钉钉文档、飞书非常实用用来做这个事。总结起来就是凡是目前需要搜索的地方，都可以用RAG的方案做优化（甚至替换）。

前景值：☆

相较云端大模型，端侧大模型由于利用了手机终端的闲置算力资源，减少了数据传输，因此在很多场景下会更加高效、便宜、安全。在手机+大模型的竞争中，每一个厂商都不想掉队。

荣耀

破局者，率先在手机上运行70亿AI大模型

MagicOS8.0

小米

澎湃系列芯片

运行13亿参数大模型MiLM

vivo

BlueLM蓝心大模型

V系列芯片，天玑9300支持最高330亿参数AI大模型

首款AI大模型手机X100

OPPO

华为

麒麟系列芯片

联发科

高通

骁龙8Gen3支持生成式AI功能，可运行MetaLlama2大模型

苹果

三星

为了实现大模型体验和手机性能的平衡，厂商们目前普遍采取了“端云协同”的策略，同时部署端侧和云端两种模型，根据不同的应用场景和需求来进行选择。端云协同可以最大化地发挥“端侧快”和“云侧强”的优势，同时还能解决信息安全隐患、云端算力成本过高等问题，可以说是现阶段打造大模型手机的最优解。

实时翻译、识别食物、智能助手，通过结合AI技术、传感器和投影仪，为用户提供多种自然直观的交互功能。

传统的讲解器，只是一个耳机和录制好的音频，未来会出现可以自动定位讲解、深入解答用户问题的AI设备。

着眼于儿童玩具市场。把传统的玩具接入LLM大模型，可以更智能地和儿童对话。

通过魔改超市淘汰下来的墨水屏，LLM可以每天更新一条格言，或者把你待办事项同步显示到上面。

把传统的相框，接入了StableDiffusion服务，每天早上自动更新一张AI生成的图，让你的相框每天都不一样。

工业进展

英伟达GTC2024：

机器人一定是未来的趋势；就好比光有了聪明的脑子，不能只用来聊天吧。只要人类还是肉身，我们就依赖物理世界，那么让AI改善我们的物理世界就是顺理成章的需求。比如工厂流水线、自动驾驶、机器人宠物……

目前GPU业务严重依赖谷歌云、OpenAI、Azure、AWS等几大云厂商，而这几大云厂商也在自研芯片。与此同时，随着人才流转、AMD和英特尔追赶，英伟达的算力优势一定会逐渐蚕食，前有夹击，后有追兵。所以英伟达必须需要扩大生意伙伴。比如这届GTC可以看到NVIDIADRIVEThor和国内多家汽车厂商合作自动驾驶、联想与英伟达宣布合作推出全新混合人工智能解决方案、九号公司与英伟达展开了机器人领域的合作等。

纯卖GPU的生意不会长久。第一随着人才被挖竞对追赶，GPU的算力优势一定会逐渐蚕食；第二，GPU业务严重依赖谷歌云、OpenAI、Azure、AWS几大云厂商，需要扩大生意伙伴；第三，GPU算力的增长远超AI产品的增长，换句话说，没有那么多模型要训练了。

因此，发展软件应用生态是英伟达的必然之路，本届GTC英伟达大力宣传自己在软件方面的布局：机器人开发的仿真环境、AI模型和工作流、药物研发、基因组学分析、视频分析

我们的一个猜测，未来AI会越来越渗透到我们身边的终端设备上，比如门禁闸机、景区导游、具象机器人、翻译笔、全屋智能、车机等，所以终端上沉淀LLMonDevice的经验是一个重要的工作。

AI原生应用（AINative）是一种以AI技术做为核心驱动力的应用，使其在代码层面和应用架构上与AI技术深度融合。AI就像是App的血液，流淌在应用里的每个角落。它的设计应遵循用户无感知的原则，即AI技术在后台悄无声息地运行，为用户提供自然流畅、如同真人般的交互体验。

既然是核心驱动力，我们斗胆给个量化的数据，核心链路和功能超过60%有AI参与的应用，我们可以认为是达到了AINative的标准。

我们眼中可以称之为AINative的案例。前些年风靡过一个词叫「次时代」，我觉得AI时代这个词会再度翻红，越来越多的应用会出现「次时代」的革命性体验。而这个过程，会是一个以点及面、星火燎原的过程。

我们认为目前的传统应用会通过一个个AI闪光点切入，一点点把AI能力融入现有场景，直到转变成AINative应用。罗马不是一天建成的，从AI小功能开始一点点做起，日拱一卒方为可行之道。

以下是一些我们认为可以称之为「次时代」的AI闪光点，虽然都是小功能，但具备AINative的特质。

以往后期领域需要一帧一帧抠图，或是自动追踪能力很差，现在有了AI加持可以既快又好地解决。

自动绿幕抠像

自动加字幕

自动旁白合成

同样是需要后期大量繁琐重复的劳动，现在可以轻松优雅的解决。

工作生活中凡是需要立刻记录的信息，可以通过长按侧键语音输入，AI会自动帮你分类、总结、写入对应的应用、生成排版等。你只管记录，剩下的交给AI。

具体的交互是：按住屏幕上的元素，说出你的指令，AI自动帮你完成任务。比如：

新手面对Excel里茫茫多的功能无从下手，按住表格直接说出你的需求：“我想把这一列排序；我想把这个标题加粗；我想算出这一行平均值....”

这些当年看起来很难实现的交互，现在有了AI的加持都可以很好地解决。

精确转录出文字稿，生成大纲，点击大纲还可以展开细节，甚至还有TODOList。

这种「多选一」的交互逻辑非常值得借鉴。因为AI本来就会存在一个创意值，而Prompt又是一项专业的工作并非人人都能精确描述，那么通过一次性给他几个候选值选择，通过和用户的来回交互一点点缩小范围，直到找到心里想要的效果。这种交互方式，我们认为会是未来AIUGC领域通用的交互手段。举个例子，你只需要把文案一股脑输入PPT，PPT会自动帮你创建几套精美的排版供你选择，你选择一套后AI会继续优化，直到你满意为止。

对比传统应用，突出AINative的优势主要包括以下几点：

高效率：AINative应用能够自动地处理和分析大量数据，远超人类的能力，从而从大数据中提取有价值的信息，提高工作效率

智能决策支持：通过对大量数据的分析，AI能够帮助企业和组织做出更好的决策，尤其在商业、医疗等领域，这具有极大的价值

智能化：AINative将人工智能算法和模型直接嵌入到应用程序中，使得应用程序具备智能化、自动化和高效化的能力

原生为AI而设计：应用程序从设计之初即考虑到AI的应用和能力，原生为AI而设计，充分利用和发挥AI大模型的智能优势，提高应用程序的智能化水平

以AI能力为基础设计：AINative是以AI能力为基础去设计的产品，利用人工智能技术实现业务流程和服务，与传统应用的交互设计上可能会有本质不同

就像AWS、Azure、阿里云构建了移动互联网时代的底座，AI时代也会出现一大批Infra底座。我们认为新一代的训练平台一定是开箱即用，简化训练过程，让开发者能够高效地进行基准测试和训练模型。

内置PyTorch、Tensoflow、Axolotl、StableDiffusion等常用的模板环境，内置常用ImageNet、CommonCrawl、Wikipedia数据集，开发者只需单击几下即可获得完全配置的开发工作区。

模型平台，国内有魔搭，国外有HuggingFace，可以一键带入训练平台二次开发，允许开发者在平台上进行模型微调、迁移学习等操作。

训练平台支持一键部署生成ServerlessAPI，按需计费，弹性扩容，使得开发者可以便捷地将先进的AI技术集成到应用程序中。

这一步需要产品经理和开发人员集思广益思考应用场景和用户需求，我觉得一个最好的办法就是现有技术都用一遍，有了切身体会才会有新的思路。

目前想到的点包括：

常驻页面右下角，随时待命的小助手，作为万能入口兜底。

举几个例子：

用户选中一段文字，自动弹出键盘可以输入指令：「续写、翻译、文字加粗....」

网上看到一张图，长按后语音输入「识别出文字然后添加到待办事项」

凡是目前需要用户创作的地方，现在都是让用户从0开始创作，未来都可以把这一范式从「写」升级到「选」。所谓的「选」就是开局直接给用户几个模板，让用户先大致选一个风格，然后基于这个风格再优化几个模板，以此类推，不断缩小范围，直到生成用户心中的那个答案。以下是一些常见的UGC领域：

写评价

PPT排版

润色文案

视频剪辑

配图（插画、营销号、技术架构图等）

车机、手表、智能眼镜等创新终端或许可以成为新的突破口，既然是新的终端了，可以选择激进点，做一个纯AI驱动的App，纯语音交互，功能简化成只能点外卖，打的就是一个AI点餐心智。

以此为衍生，任何智能设备理论上都有塞入大模型的可能。

综上所述，从基础架构建设、技术创新融合到设计原则、伦理规范等方面全方位布局，才能有效推动AINative应用的构建与发展，最终实现AGI惠及全人类的愿景，并在各个领域带来革命性的用户体验与价值提升。

我们正处于一个AI一日千里的时代，科技的迅猛发展正以前所未有的力量推动着社会进步。随着人工智能、大数据、云计算等前沿技术的深度融合与应用，「次时代」正在缓缓展开。

面对浪潮，我们只有站在潮头才不会被拍在沙滩上。好消息是，我们坚信我们的世界会变得越来越美好，随着更多AINative应用的涌现，我们的工作生活一定会迎来翻天覆地的改变，想到自己是其中参与改造的一员，还是有点使命感和激动的。

THE END

我眼中的AINative

宠物经济透视：2000亿市场规模下的宠物服务“拟人化”现象生活玩具spa

AI大模型：你的贴身宠物医生顾问，专业解答，随时在线！

20222023学年贵州省遵义市统招专升本计算机模拟试卷及答案.docx

动物血液采集实验——豚鼠心脏采血法

思必驰联合创始人兼首席科学家俞凯：ChatGPT是继AlphaGo之后最大的里程碑进步财专访证券要闻股票

索未来科技集团双翼齐飞：“智界”大模型驱动宠物与教育领域创新

参数方程范文

智能语音识别与生成AI：自动转换口语为文本，全面覆用户沟通辅助需求

新澳门一码100%精准，精选解读动态图示SNE673.9宠物食品挤出机

省级示范咸阳职业技术学院2019年单独考试招生报考指南

2025江苏省如东中等专业学校开设的专业一览表

AI工具合辑盘点

2024河南驻马店农业学校开设的专业一览表河南资讯

营销策划50个常用模型青瓜传媒

我眼中的AINative