身为手机研发工程师,如何让用户有更好的使用体验,如何开发出让用户眼前一亮的新功能,是始终萦绕在我们头脑中的问题。
智能手机发展到今天几乎“无所无能”,通讯、娱乐、支付、甚至做遥控器,汽车钥匙…在手机的众多功能中,使用频率最高就有拍照与录视频。随手拍下生活中的点滴,闲暇时翻看重温当时的美好记忆,或甜蜜、或伤心…生活不就是由这些宝贵的片段构成的么?
所以,如何让小米用户更加方便生动地记录和保留那些转瞬即逝的生活片段,对于我们来说尤为重要。
录制视频不仅会遇到和拍照一样的对焦、曝光和构图问题,还需要考虑声音的质量。声音中包含了情绪、语气、语调和情感;背景音中有周边人的说话声,环境噪声,宠物声等,这些声音混合在一起让视频的表达更丰富、立体和真实。
沉浸与兼容
一个视频拍得好不好,一个重要的标准就是在回看时,是否能够立刻把我们带回当时拍摄的情景中,也就是大家平时所说的代入感和沉浸感。人在现实世界中看到的景物、听到的声音来自四面八方,有了相对位置,有了方向信息,才让我们有身临其境、沉浸其中的感受。
手机麦克风好比人类的听觉系统,为了能够最大限度地记录并保留声音的方向信息,我们在小米14全系手机中首次内置了四颗微型MEMS麦克风,分别布局在手机底部(两颗)、背部主摄像头附近(一颗)和顶部听筒旁(一颗)。
四颗麦克风的位置以及进声方向各不相同,手机在录像场景下通过这四颗麦克风得到四个通道的音频数据,可以记录来自不同方向的声音。众所周知,两声道(立体声)音频是目前最为普及的内容格式,同时用户最常用的播放设备也是两声道的,例如手机扬声器、TWS耳机、平板扬声器等。
因此,我们利用算法对四通道麦克风数据进行下混处理生成两声道音频,同时还利用独有的算法模块尽最大可能保留声音的方向信息,从而最大限度保证了声音沉浸感和设备兼容性。
动态与细节
我们观察到,用户在日常生活中拍摄的视频内容多种多样。
有的朋友热爱音乐,会在演唱会现场、户外音乐节进行视频录制,这些场景由于空间大,观众多,现场会使用非常强大的扩声设备,也就是大家在现场看到的黑色大音箱。为了营造热烈甚至狂热的氛围,通常每位观众周围的声音响度会达到很高的幅度(峰值声压级甚至会超过100dBSPL)。
家里有婴儿或者宠物的朋友喜欢一边观察一边拍摄温馨可爱的片段。此时周围的环境比较安静,孩子和宠物会时不时发出各种有趣的声音,声音的响度通常不高(40dBSPL左右)但其中细节丰富。
有的朋友会用手机拍摄孩子弹钢琴的视频。在音乐演奏过程中,伴随着乐曲表现内容和情感的变化,钢琴音板(以及共鸣腔)发出的声音时而轻柔舒缓,时而苍劲有力,而这些声音在响度上会相差1000倍(60dB)以上,这就是通常所说的声音动态。更大的动态范围可以形成更加鲜明的强弱对比,让我们既能感受到春风拂面的温柔,也能体验到狂风暴雨的震撼。
因此,当手机作为录像收声设备时,为了应对不同的拍摄场景,我们需要保证演唱会声音不出现破音;婴儿及宠物声音无需增大音量也能清晰可辨;乐器演奏尽可能保留原生态。为了兼顾这些相互影响的目标,我们从麦克风器件选型、模拟数字型号转换、算法处理三个方向进行系统考虑和优化。
降噪与保真
无论是在室内还是户外录像,我们都会遇到各种各样的噪声,比如家里空调声、电脑风扇声、路上交通工具的声音等。一方面,我们希望能够抑制噪声,让视频主体声音更加突出和清晰,另一方面,我们还需要考虑不同用户的不同录制需求,在去除噪声的同时不破坏其他想保留的背景声音。
因此,我们在录像拾音系统设计中采用了两级降噪机制。
第二级降噪主要是针对稍微极限的场景,例如户外大风、运动拍摄、甚至乘坐交通工具的场景,录像收声算法会对噪声进行更加深度的处理,整体声音的自然度会略有下降,但可以保证其中的语音足够清晰。考虑到这些并不是用户最常见的使用场景,因此,我们把第二级降噪放在录像设置菜单里,需要手动通过以下操作才会启用。
同样,我们乘坐行驶中的家用轿车边录制视频边说话,用来模拟用户在自驾过程中记录的场景。由于汽车在行驶过程中,手机周围空气快速流动,在录制音频中会产生很强的风噪,导致语音清晰度都被严重影响。对比下面两张图,左图前半段的语音被风噪淹没,后半段的频谱图中出现了很多亮黄色的竖线,这是因为麦克风被气流冲击产生“噗、噗”声,和我们日常生活中使用话筒时,用嘴吹话筒产生的声音完全类似。而小米14Pro最大限度地克服了这个问题,使录制语音更清晰可辩。
音源追焦
相信大家都有在教室参加培训的经历,座位离讲台比较远但又想把老师的讲课内容清晰地录制下来,为此我们开发了音源追焦功能,可以通过以下两步操作启用此功能。
音源追焦功能有两种不同的使用方法,下面我们通过实例简单说明:
第一种情况,如果我们只想重点拾取老师的语音,可以在开启音源追焦功能并开始录像后,通过调整手机摆放位置让老师位于画面中部。此时调节相机焦距,随着焦距变大,老师在画面中的图像变大,录制视频中的老师声音也会随之被放大,并对来自手机左右两侧或者手机屏幕侧其他声音进行抑制,从而做到录制视频的音画同步。老师的声音最高可以被放大8倍,在实际阶梯教室里测试可以至少保证8米的清晰收音。
另一种情况,如果想要同步记录板书或者PPT,在启动录像后,只需在双击屏幕中老师头部图像开启相机主动追焦。此时,老师头部会出现一个黄色方框显示追焦成功,录制视频中的老师声音也会同步被放大。随后,除非老师走出手机录制的画面,或者主动在屏幕上任意其他位置单击取消主动追焦功能,即使老师在讲台附近来回走动,他的声音也会被持续放大。这个方法也可以用来跟踪拍摄孩子等。
收音类型
在录像(普通)和专业录像模式下,我们都为用户准备了不同收音类型的选项,以适合不同录像场景,接下来逐一进行说明。
首先来看录像(普通)模式,从小米14系列开始,前置摄像头支持4K60帧视频录制,特别适合拍摄个人Vlog,因此,我们也同步推出了前置收音选项。在未开启状态下,手机会默认拾取周围空间的所有声音,除侧重人声之外没有其他方向的侧重点;如果使用了前置收音选项,手机会重点记录屏幕侧Vlog拍摄者自己的声音,并对其他方向声音进行抑制。前置收音选项可以通过以下操作开启:
接着再来看专业录像模式,收音类型的选择可以参考以下步骤:
我们使用表格的形式,对比介绍不同收音类型的区别之处和应用场景。
编号
收音类型名称
收音方向说明
适用场景举例
1
全指向
2
前指向
3
后指向
4
双指向
小米14系列手机不仅是一部智能终端,我们更希望它成为小米用户记录各自美好生活的助手。为了这个目标,小米不会止步于此。