如果说2024年有什么真正的热点话题,AI可能是当之无愧的热搜第一名。OpenAI的ChatGPT和Sora、微软的Copilot、谷歌的Gemini……基于大语言模型(LLM)的生成式AI工具层出不穷,迭代速度之快让人应接不暇。
不过对于Apple来说,追随LLM的脚步似乎并没有那么快。相比ChatGPT,现如今Siri的表现只能说是差强人意——几乎为0的上下文理解能力,常常遇到互联网连接问题,语音识别也不够准确。加上这两天iOS18将集成ChatGPT的传闻已经满天飞了,Apple「看起来」已经在人工智能领域落后一大截了。
神经网络引擎:「设备端智能」的硬件基础
Apple开发的神经网络引擎能够加速特定机器学习模型的处理计算,效率比CPU和GPU更高,被广泛用于iPhone、iPad、MacBook甚至AppleWatch等设备。Apple系统平台的许多人工智能功能,例如设备端Siri、听写、自动纠错、Animoji动话表情、计算摄影等,都依赖神经网络引擎在设备本地实时加速运行,而不会影响系统整体的响应速度。通过CoreML,第三方开发者也可以利用设备上的神经网络引擎加速机器学习计算。例如,AppStore有不少在本地运行的文本生成图像应用。
随着Apple平台的功能对智能的要求越来越高,设备也配备的神经网络引擎也越来越快。iPhoneX和iPhone8的A11中的双核神经网络引擎每秒运行6000亿次运算,到如今iPhone15中A17PRO可以每秒运行35万亿次操作。神经网络引擎无疑是Apple为其「设备端智能」所搭建的重要硬件「基础设施」。正因如此,它也从未缺席任何一场Apple的硬件发布会,每次在谈到处理器性能时,也都会带上它:
本文所提到的智能功能,都会在一定程度上依赖神经网络引擎在设备本地运行。
相机中的智能
▍iPhone计算摄影
DeepFusion最初推出于iPhone11系列,通过机器学习模型进行多达9帧的图像合成,从而提升低光状态下的照片品质、降低噪点等。这是iPhone计算摄影的重要功能,每年都会更新。例如,iPhone14系列中的深度融合功能获得了图像管线优化。
然而,DeepFusion是一项默认开启且无法关闭的系统功能。如果使用Apple设备自带的相机app,DeepFusion会自动开启并对每一张照片进行处理。不少用户反馈,经过DeepFusion处理的照片看起来对比度过于强烈、过度锐化。
AppleProRAW随着iPhone12Pro的发布而推出,它结合了标准RAW格式的信息与iPhone计算摄影的照片处理,给予用户更大的编辑空间。在iPhone14Pro上,用户可以利用全新的主摄拍摄4800万像素的ProRAW照片,并结合iPhone的机器学习功能,获得更高的照片细节。
人像模式是另一项iPhone的计算摄影功能,通过摄像头获取的深度信息经过机器学习模型计算,突出摄影主体并模糊背景。在iPhone15系列上,用户无需手动打开人像模式,只要iPhone检测到画面中有人物或宠物,系统会自动收集并计算深度数据,提供后期调整是否使用人像模式的选项。尽管人像模式已经推出多年,但机器学习得到的效果有时还是不够自然,常常虚化掉一些主体边缘的细节,特别是用它拍静物时。
综上所述,Apple认为计算摄影具有非常强的机器学习属性,也是Apple每年重点更新的方向。这些技术也被应用到其他设备上,例如Mac和StudioDisplay的摄像头,现在会利用AppleSilicon的图像信号处理器和神经网络引擎提升画质。
VisualLookup与实况文本
此外,对照片的分析处理也应用到了系统的其他方面,例如照片回忆与智能建议。它们会利用VisualLookup提供的照片中暗含的场景信息,如旅行、生日派对、宠物、聚餐等,并将照片自动剪辑成带有配乐的短视频。短视频的生成也包含一些机器学习功能,会根据照片和视频的信息以及歌曲的节奏自动调整效果。
输入方式的智能
输入文字也是交互设备的基本操作。除了直接通过键盘输入文字外,还可以使用听写和扫描等方式输入。然而,无论使用哪种输入方式,都离不开智能技术的应用——听写涉及语音转文字的识别,键盘输入涉及自动纠正文本和文字预测,扫描则涉及对图片信息的提取。近些年的WWDC,Apple都会着力优化文本输入体验。
▍听写
从iOS5(2011年)开始,听写功能就已经内置于iPhone,当时听写需要完全通过互联网进行处理;如今,听写功能已经可以完全在设备端运行,在输入文字之外还可以输入emoji,听写时也可以继续用键盘输入文字。大多数情况下,新版听写的准确率都还不错,但语气词比较多的时候,听写也会出现问题,还是需要人工编辑下的。
WWDC2023则提到新的Transformer模型让听写更加准确——听写是在AppleWatch和AppleVisionPro等可穿戴设备上输入文本的一个非常重要且自然的途径,听写的准确率也能够在很大程度上决定使用这两款设备的日常体验如何。
自动纠正与输入实时预测
对于直接用键盘输入,WWDC2023介绍了优化后的自动纠正功能和输入实时预测功能。自动纠正功能不仅能够纠正用户可能拼错的词语,还能猜测用户在打字时按下的具体键(包括滑行输入时判断的音节,以及AppleWatch上的全键盘)。
输入实时预测则能够根据用户个人的词汇表达风格,自动弹出或补全词语。一般来说,这可以预测下一个词,或者帮助你补全一个不确定怎么拼写的长单词。实际体验中,输入实时预测功能在最近几个版本中经常会「纠正」出一些奇怪的词组出来,有的时候我都要怀疑是不是我打错了。
很奇怪的输入预测
Apple机器学习研究网站上有不少跟Transformer模型等有关的研究成果,也会披露一些目前已经在系统中出现的技术的背景细节。例如,如何快速高效准确地生成文本段落、Siri如何通过语音触发、多模态的大语言模型等等。说不定在下一届WWDC上,一些成果就会变成系统中集成的功能。
AppleWatch的机器学习
▍系统功能:设备端Siri、智能叠放、手势
watchOS10的智能叠放小组件功能也利用机器学习自动建议当前位于最顶部的小组件。每次在表盘上转动数码表冠,都能看到最及时的信息,例如即将开始的会议日程、当前播放中的歌曲等。
▍运动与健康:运动检测、睡眠监测
▍安全功能:摔倒检测、车祸检测
▍辅助功能背后的人工智能
在Apple设备上还有不少辅助功能,帮助在某些知觉或功能方面有障碍的人士更好地使用现代科技,例如我们熟知的放大镜、VoiceOver屏幕阅读器、AirPods助听器等。其中也有一些辅助功能涉及到Apple设备的神经网络引擎和设备端智能,例如创建个人语音、声音识别等。
声音识别(SoundAnalysis)是WWDC2021推出的一套框架,内置了300多种声音类别的分类数据,开发者可以直接在app中调用,系统会通过麦克风对声音进行识别。在iOS中,基于这个框架,Apple在辅助功能中加入了声音识别功能,可以识别环境中的各类声音,例如门铃声、警报器声、猫狗叫声等,还可以学习一些特定类别的声音——这对听障人士提供了一定的帮助。