2024年世界移动通信大会MWC拉开序幕,高通发布全新高通AIHub,提供优化的AI模型库,支持在骁龙和高通平台上部署。优化后的模型提升AI推理速度,减少内存带宽和存储空间占用,实现更高能效和电池续航。高通展示多模态大模型在安卓手机和WindowsPC上的应用,增强用户体验。此外,高通还展示了在安卓手机上运行的LoRA模型,可以调整生成内容。这些技术提供了个性化生成式AI的高效方式。
在安卓手机上首次实现的多模态大模型,用户可以通过手机AI助手进行照片和语音输入进行对话。高通在MWC2024上展示了终端侧AI的新突破,包括在手机和PC上运行的音频推理多模态大模型。AIHub也发布了,支持超过75个大模型。另外,高通还推出了AI增强的WiFi系统FastConnect7900。这些技术展示了终端侧AI趋势已经到来。
DeepMind团队推出了新的AI模型Genie,拥有110亿个参数,能够基于用户输入的图片和提示词生成2D平台游戏。Genie经过20万小时的2D游戏视频训练,可以生成2D游戏,而不是完全的VR游戏。这个模型由时空视频标记器、自回归动力学模型和可扩展的潜在行动模型组成。用户只需提供草图或数字艺术作品,Genie就能帮助生成2D游戏。它能将草图转化为开放世界,并根据玩家操作预测下一个像素帧。Genie是在无监督和无标签视频的情况下进行训练,能够学习不同角色的动作和行动。
最新推出的英伟达RTX500和RTX1000GPU专为提升笔记本电脑的AI能力而设计,性能提升显著。除了英伟达,其他芯片厂商也在AIPC领域展开激烈竞争,不断推出新产品。整个AIGC领域呈现出蓬勃的发展态势,预示着未来的技术创新和竞争。
英伟达与HuggingFace和ServiceNow联合发布了名为StarCoder2的LLMs系列模型,旨在成为代码生成领域的新标准。该系列包括30亿、70亿和150亿参数模型,通过新的代码数据集Stackv2进行训练,能更好地理解低资源编程语言。StarCoder2可执行源代码生成、工作流生成、文本摘要等任务,提高开发人员工作效率。新的30亿参数模型比初版性能更优,采用BigCodeOpenRAIL-M许可证,允许免版税访问和使用。感兴趣的用户可从BigCode项目的GitHub页面获取源代码,从HuggingFace下载模型。
Adobe在布鲁克林举行的HotPod峰会上发布了名为“ProjectMusicGenAIControl”的新AI音乐创作工具原型。这个工具利用生成式人工智能技术,帮助用户创作和编辑音乐,用户只需输入文本描述,工具就能生成对应风格的音乐。用户还可以自定义生成的音乐,并进行重新混音生成循环音频。虽然市面上已经存在类似的音乐生成工具,但这个新工具给用户更多控制权。Adobe表示,该工具目前处于早期实验阶段,可能会整合到现有编辑工具中。
Meta将于7月推出最新版本的人工智能大语言模型Llama3,旨在提升模型性能以取得竞争优势。此前的Llama2已应用在社交媒体平台,但存在无法回答部分问题的情况。Llama3则能够解决这些问题,继续延续开源设定。Meta在有序训练这款大语言模型,并将任命内部人员进行语气与安全培训。开源带来的威胁令专家担忧,但Meta坚持开源是为了提供更优质的服务。Llama已成为开源生成AI中的主力军,更新势必将使其再度焕然一新。
李楠在魅族新品发布会上介绍了魅族21Pro手机的AI开放特性,号称这台手机是“AI时代的树莓派”。魅族21Pro手机将对LLM大模型团队开放系统权限,提供FlymeAPI文档,允许LLM向用户请求数据,并开放SoC边缘AIAPI。此外,魅族还发起“MeizuOpenLLMHackathon”竞赛,邀请用户参与竞赛,开发“月活最高的新LLM”应用。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音。支持多种语言,包括中文、英语、韩语等。工具提供多种功能,如识别字幕、提取字幕并翻译、文字合成语音等。用户可以通过设置选项自由配置组合,实现翻译和配音、自动加减速、合并等操作。软件支持CUDA加速,并提供CLI命令行模式。用户还可以通过设置文件进行详细配置。软件功能丰富,操作简单,适合视频翻译和配音需求。
OOTDiffusion是OOTDiffusion的官方实现,该项目将发布论文。模型在VITON-HD数据集上训练的检查点已发布,DressCode数据集的检查点即将发布。请参考HuggingFace链接以及humanparsing和openpose的预处理。安装步骤包括克隆存储库并创建conda环境。推断步骤包括半身模型和全身模型的使用。待办事项包括发布论文、Gradio演示、模型权重和训练代码。愿意的话请给我们一个star!
StickerBaker是一个利用人工智能制作贴纸的工具,由@replicate和@flydotio提供支持,完全开源。用户输入提示后,系统会生成一个贴纸。通过webhook传递预测数据至Replicate,生成完毕后上传至Tigris进行图像托管。该工具使用Replicate生成贴纸,Fly.io提供基础设施,Tigris用于图像托管。开发者可以通过安装依赖、设置环境文件、启动Phoenix服务器等步骤进行本地开发,并通过部署到生产环境来更新url和origin。部署时需要设置好Postgres数据库。
为了更好地服务大家,我们决定引入【Ai新物种】知识星球。在这个全新的领域里,我们将提供最前沿的资讯和项目,帮助大家探索人工智能的奇妙世界。Ai新物种星球将成为您获取实践经验和知识的最佳平台,让您与未来科技紧密接轨。无论是最新的技术趋势还是创新项目的机会,都将在这里得到及时推送。加入我们,一起探索人工智能的无限可能!
加入chatgpt项目交流群,请扫描下方群二维码,二维码长期有效。