在这个日新月异的变革时代,我们有幸见证并参与了数字科技的创新突破。特别是近年来,以大模型为代表的AI技术,让我们看到了通用人工智能的曙光,有望大幅加速技术演进的步伐。
腾讯的2024数字科技趋势,从连接、交互、计算和智能四个维度,对100多项未来技术和重点方向给出了趋势性判断。从星地直连的卫星互联网,到垂直起降飞机的未来交通网,再到能源、信息和交通的多网协同,未来网络连接的广度和深度都迎来无限可能。交互方式正在发生变革,数字交互引擎不仅让虚拟世界更真实,也让真实世界更丰富,未来的全新3D视界呼之欲出,脑机接口的新进展也带来了更大的想象空间。计算无疑是各类智能的底层基础支撑,也成为当前竞争的焦点领域。而智能的升级,不仅会给机器人注入具身智能,还给微观世界的基因计算带来新突破。
预测未来的最好方式,就是创造未来。相信在行业各界的共同努力下,这些前瞻洞见会更快到来,从趋势变成现实。
——丁汉
中国科学院院士
去年以来,以生成式AI为代表的人工智能技术发展激荡人心,正在引发智能的元革命。可以遇见的未来,智力将会成为一种基础设施服务,新的IaaS呼之欲出。类比摩尔定律,未来可能会出现新的智能定律,对信息世界、物理世界和生命世界带来全方位的影响。
未来十年,AI会无所不在。首先,现有的各类应用可以用AI重新做一遍,新的交互变革、体验创新将会带来更新的智能硬件、更多的智能服务,孕育出比历次工业革命都巨大的产业机会。其次,AI会成为各领域的底层操作系统,AI+机器人的具身智能,AI+生命科学的基因计算,AI+未来出行的自动驾驶汽车和垂直起降飞机,甚至AI+脑机接口的硅基和碳基结合的新生命体,都会一步步成为现实。最后,AI能力的提升也伴随着风险的扩大,我们要充分发挥技术发明的智慧和把握应用方向的智慧,让AI科技更善良、更有创意,朝着强化人、成就人的方向可持续发展。
——张亚勤
中国工程院院士、清华大学智能产业研究院(AIR)院长
刚刚过去的一年,注定是人工智能发展史上具有里程碑意义的大年。生成式人工智能的惊人进步,让我们深切感受到未来AGI的巨大潜力和无限前景。大模型从理解到生成,从感知到决策,能力不断升。加上多模态、Agent、以及具身智能等方向的探索,AI有望完成“感知—决策—行动”的闭环。
多模态是人类世界的本来样貌,AGI的发展趋势一定是朝向多模态。技术将从文本、图像、视频(2D和3D),再到声、光、电,甚至分子、原子等各类模态,而且具备跨模态迁移的特性。未来理想的框架是“多模态的对齐和融合+统一的编码器和解码器”。12月6日微软发布的Copilot中,将GPT-4V的视觉能力与Bing搜索相结合,为用户提供更好的图像理解和生成体验。7日,谷歌发布Gemini,主打原生大模型,无缝跨文本、图像、视频、音频和代码。谷歌称,Gemini是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型,准确率达到90%(人类专家为89.8%)。
比尔盖茨近日撰文:AIAgent将是下一个平台,人工智能即将彻底改变人们使用计算机的方式并颠覆软件行业。在不久的将来,任何上网的人都将能够拥有由人工智能驱动的个人助手,远超今天的技术水平。智能体由四个主要部分组成,包括多模态大模型(LMM)、长期记忆(Memory)、规划(Planning)和工具使用(ToolUse)。业界AI智能体愈来愈多,如微软AutoGen,发布短短两周内,星标量就从390增到10K,并在Discord上吸引了5000多名成员。它允许多个智能体扮演各种角色,如程序员、设计师,或是各种角色的组合,仅通过对话就可以完成编程任务。
大模型正在向端侧转移,AI推理将在手机、PC、耳机、音箱、XR、汽车,以及其它可穿戴式新型终端上运行。端侧大模型具有一些独特优势,如,本地数据处理效率更高,节省云端服务器带宽和算力成本,对用户数据更好的隐私保护,开启更多交互新方式、新体验等。目前,一些手机已经在利用本地AI支持如暗光拍摄、降噪和人脸解锁等功能。未来借助端侧大模型,并结合向量化后的各类个人数据,用户可以跟手机进行更流畅的交互,实现各种原生操作和功能。如,Humane正式推出AIPin,搭载GPT4,可实现语音交互,也可以投影在手掌上交互。高通推出骁龙8Gen3,支持终端侧运行100亿参数的模型。苹果最新的M3芯片支持端侧推理,且计划推出更智能的Siri,为端侧大模型生态做积极准备。端侧大模型应用具备三种可能性,首先是端侧原生集成AI模型,类似siri,帮助用户调用其他软件,从而可能成为硬件新入口。其次,将大模型作为独立app,例如MIT一位教授将开源模型集成在手机端做一个独立app;第三,将大模型接入即时通讯软件作为chatbot,例如What‘sApp已经集成了MetaAI。
随着AI模型的能力日益更加强大,如何让其行为和目的跟人类的价值、偏好、伦理原则、真实意图之间实现协调一致,这个被称为人机价值对齐的问题变得越来越重要。价值对齐对于确保人类与人工智能协作过程中的信任与安全至关重要,已经成为AI治理领域的一项关键任务,是大模型实现稳健发展和提升竞争力的必由之路。业界和研究界积极探索实现大模型价值对齐的多种措施,包括人类反馈强化学习、可扩展监督方法、训练数据干预、可解释AI方法、对抗测试、治理措施等等。TIME杂志将美国AI公司anthropic开发的AI价值对齐技术“原则型AI”(constitutionalAI)评选为2023年三大AI创新之一(另外两个分别为多模态AI、文生视频技术),这足以表明价值对齐已然成为AI领域的核心方向,其重要性正越来越被认识到。实际上,在大模型加速发展引发关于有效加速(e/acc)还是有效对齐(e/a)的AI技术发展理念之争的背景下,人们需要更加负责任地发展应用人工智能技术,而关于价值对齐的技术和治理探索将推动负责任AI走向深入,确保人类与人工智能和谐共生、有效协作的美好未来。
在信息爆炸的时代,新媒体已经成为我们生活中不可或缺的一部分。视频作为当今互联网时代重要的信息载体之一,在互联网数据中具有非常高的占比。根据Sandvine的报告,2022年视频服务占互联网流量的65.93%。同时,截至2022年12月,我国网络视频(含短视频)用户规模达10.31亿,较2021年12月增长5586万,占网民整体的96.5%。在这个背景下,如何更有效地传递信息,提供更好的用户体验,成为了新媒体领域亟待解决的问题。多媒体技术经历了电视、PC流媒体、移动互联等阶段,其中标准、设备、交互方式均发生了对应的变化。技术也不断发展。未来,多媒体技术将聚焦四大方面,一是如何提高qoe和qos,进一步降低时延、提高压缩比。二是更高效的内容生成和呈现,如AIGC、HDR技术。三是更多样的内容、互动内容、新媒体,以及沉浸式交互和体验。四是更深入产业,助力产业互联网。
伴随着人工智能技术的不断进步,AIGC技术在多媒体的文字、图片生成等方面已经实现商用。未来,AIGC技术将继续聚焦生成更加稳定的视频和3D内容。同时,在垂直领域如数字人、超分、老片修复等方向,AI技术将不断强化多媒体的能力,为用户提供更高质量的内容。此外,深度学习技术将进一步提升视频编解码的压缩效率。随着更多样化的块划分方法和编码模式的不断涌现,以及更复杂的预测和变换技术的引入,传统视频编码算法的复杂度不断提高。深度学习技术为图像/视频编码框架定义了全新的结构范式,实现了图像和视频编码器性能的显著提升,这为图像/视频编码领域带来了新的研究思路和方向。
提交成功!请耐心等待,我们的工程师会在24小时内联系您!
即时通讯云使用者请在应用详情页面咨询客服云使用者请进入管理员模式咨询