帖子

【回顾】讯飞资深研发工程师胡程远解析麦克风阵列产品...

[复制链接]
  • TA的每日心情
    慵懒
    2017-1-6 09:55
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    28930  楼主| 琰Ango 发表于 2017-6-2 11:25:11 1#
    本帖最后由 琰Ango 于 2017-6-2 11:26 编辑

    微信图片_20170****65418.jpg

    在嘈杂的环境下,机器想要听懂声音,它必须能够听的更远更清晰,麦克风阵列充当的就是助听器的角色。然而,现在市场上不少机器人或者智能硬件产品,在面对多人说话时依旧表现的手足无措。哪些因素在影响机器的“听力”?到底该怎么选择麦克风阵列,让机器的“耳朵”更灵敏?第四期我们为大家请到科大讯飞资深开发工程师——胡程远,为你揭秘麦克风阵列!


    小A已经为大家整理好直播视频和PPT
    获取资源请在后台回复“麦克风阵列”

    QQ图片20170****80701.png


    课程介绍

    课程亮点

    麦克风阵列和人工智能的关系

    1.人机交互的痛点

    2.阵列麦克风对人工智能的意义

    麦克风阵列产品和应用场景介绍

    1.两麦,四麦,六麦,八麦阵列产品介绍

    2.演示环节

    3.不同的应用场景,该如何选择最适合的阵列产品

    麦克风阵列的基本原理和技术浅析

    1.麦克风阵列的基本功能和阵列构型

    2.波束形成、去混响和回声消除

    3.阵列基础知识

    答疑环节


    嘉宾介绍

    胡程远
    科大讯飞资深研发工程师

    微信图片_20170****85508.jpg

    毕业于哈尔滨工业大学,参与和主导过多个语音云项目的研发建设,对语音技术和终端开发有深刻的理解。精通Java、C/C++等多门编程语言。近年来专注智能终端人机交互领域,支持Ninebot、美的空调、优必选、狗尾草等近千家机器人和智能家电厂商。目前带领团队攻关麦克风阵列语音芯片产品的研发工作。


    课程回顾

    [color=inherit !important]AIUI体验视频:https://v.qq.com/x/page/k0399x3ertf.html
    [color=inherit !important]公开课录屏直播视频:https://v.qq.com/x/page/t0507zoc3e7.html
    [color=inherit !important]公开课PPT:http://pan.baidu.com/s/1cq2QIU

    什么是麦克风阵列
    由一定数目的声学传感器(麦克风)组成,对声场的空间特性进行采样并处理的系统。
    麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
    远场拾音,指运用远场识别和降噪技术,使拾音距离达到5米。
    声源定位,利用麦克风阵列,实现360°语音信号采集,并能通过声源定位来确定目标说话人的方向。

    人工智能,未来已来
    幻灯片3.jpg

    人工智能(Artificial Intelligence)是指能够和人一样进行感知、认知、决策、执行的人工程序或系统。人工智能为何能够工作,主要因为三大法宝:首先是深度神经网络,随着数据量增加,性能不断提升;其次是大数据,互联网和移动互联网的普及有利于获取真实的统计大数据,来自于各种真实环境的数据使模型训练变得更加高效;最后一个很重要的是涟漪效应,在移动互联网下,因为软件免费,用户愿意花时间用这些产品,且不会产生抱怨或反抗。当推出一个不好的人工智能算法(包括图像、语音、自然语言理解)时,就像水滴滴在水面,只有一小部分人才会用到。一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新。当水波扩大到更广泛的人群时,系统的性能已经提高。水波的振幅就是系统的误差。当水波扩散,振幅越来越低。当水波纹扩散到第1000万人时,10000001个人是第一次使用这一系统,他会觉得系统很好。利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来。

    人机最自然的交互方式
    幻灯片4.jpg

    最新的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。正常来说语音输入的速度是传统输入方式的三倍以上,而随着深度学习技术的发展,当前语音的识别率可以达到97%。
    大家可以试想一下这样的场景,回家之前对着手机说一声“我五分钟之后到家”,就会得到回复“好的,按照您的习惯,空调已经调到26度,热水器调到35度”;甚至通过我们的智能硬件交互平台,智能设备互联互通,出差去宾馆,对着宾馆的智能设备说一声“家庭模式”,也能享受到如家一般的感觉。

    人机交互痛点
    1.识别距离近:语音交互受限距离不能进行远场的识别
    2.对话不智能:不能持续进行多轮对话不能打断
    3.嘈杂环境:在嘈杂环境下识别率低饱受噪声干扰
    4.响应时间慢:不能即时快速响应交互不流畅导致体验下降

    阵列麦克风对人工智能的意义
    1.远场拾音
    人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,涉及到复杂的环境和远距离拾音的问题。通过麦克风阵列使语音交互距离大大增加,使人机交互更加自然,更趋向于人人交互。
    2.声源定位
    麦克风阵列可以自动检测声源位置,跟踪说话人,声源定位信息既可以用于智能交互,也可以用于后续的空域滤波,对目标方向进行语音增强。
    3.空域处理
    对多信号空时频三维的处理实现回声抑制,混响抑制及语音增强,让我们的智能设备在复杂的环境中都可以提供更好的智能语音体验。

    麦克风阵列的功能
    幻灯片7.jpg

    人机交互过程中的噪声可以分为以下几类:回声,混响,干扰和背景噪声;相应的麦克风阵列具备这样的功能:回声控制,回声消除,回声抑制;去混响;波束形成,声源定位,语音增强,盲源分离,干扰抑制;噪声控制,主动噪声控制,降噪;

    幻灯片8.jpg

    讯飞开放平台麦克风阵列产品
    讯飞开放平台麦克风阵列产品主要分为二麦、四麦、六麦克风阵列。阵列结构如下图所示:
    幻灯片10.jpg
    麦克风阵列构型

    以六麦阵列为例,具备以下功能特性:波束形成(波束形状是阵列对不同频率及方向的信号的响应,它与阵列麦克风数目、几何形状、源信号位置以及频率有关。)、回声消支持信噪比-30dB左右、平稳噪声滤波、方向性非平稳噪声抑制、语音增强和去混响、声源定位精度±10°等功能。
    讯飞六麦阵列包括六麦硬件阵列模块方案和软核方案,硬件模块方案包括一块XFM10621硬件模块,通过连接麦克风、参考信号、供电和I2C即可实现阵列远场拾音和降噪后音频输出,同时支持连续唤醒并输出唤醒信号。

    幻灯片13.jpg
    六麦模板硬件示意图

    软核方案包括:录音模块、阵列算法、和ADC、FPGA驱动三个部分。
    其中软件模块通过ALSA接口录制96K、32bit双声道音频数据。阵列算法可以提供语音唤醒、声源定位、回声消除和语音降噪功能。算法接收96K、32bit双声道音频数据,语音唤醒之后通知上层应用,并给出声源角度。输出回声消除和降噪之后的16k、16bit语音数据。算法加密芯片进行加密,通过i2c接口和加密芯片进行通信验证。六麦阵列软核的运算性能要求 600MIPS,支持硬浮点运算。
    阵列模块和软核方案都具备去混响和回声消除功能。

    去混响
    幻灯片15.jpg

    混响是指声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失。这种现象称为混响。因此,当声源和麦克风之间的距离越远,反射声占的比例就越高,混响就严重。
    经典的去混响方法包括形成拾音波束来减少反射声和基于反卷积的去混响方法。
    回声是指远端说话人的声音通过扬声器播放出来包括其反射声,又被近端的麦克风收集再传送回远端。声学回声主要出现的场合包括:模拟电话免提模式、手机免提模式、车载蓝牙电话等场景。
    用于打断的回声消除技术难点:喇叭播放的音乐一般为立体声,甚至是环绕立体声,因此需要真正的多通道回声消除技术。设备的喇叭和麦克风一般距离很近,使用者距离较远;麦克风信号的信噪比很低(一般在-10dB~-30dB)。
    经典的回声消除方法包括非线性回声消除处理,通过非线性的回声抑制技术,显著改善了非线性情况下的效果。

    麦克风阵列结构设计参考
    Mic 孔的孔深孔径比越小越好,即开孔越大越好,深度越小越好,尽量向1:1靠近。孔深与孔径比值越大,麦克频响的震点越像低频靠近,要求震点在12KHz以上。最少也要在8KHz以上。喇叭腔体不能漏气。这是因为,喇叭正反两面的声波相位相差180度,当音腔有漏气时,声波会发生抵消,尤其是低频频段。

    麦克和喇叭的失真都要小。麦克失真小于4%,喇叭失真小于10%,由于喇叭低频失真严重些,会超过10%,可以考虑增加滤波器滤掉低频成分。

    喇叭腔体四周与其他机构件保留1mm的距离,防止腔壳与机构接触产生异音。
    喇叭鼓膜上方与机构件保留1.5mm的距离,以防鼓膜振动碰到机构件产生异音。
    喇叭与机构件有接触的地方,要增加泡面,以起到缓冲、减振的效果,防止喇叭振动时与机构件碰撞产生异音。

    麦克风阵列声学结构确认流程
    1.远程会议或现场结构设计评估
    确认麦克阵列构型,确认声腔及安装结构设计,确认进声孔深度、直径大小等;
    2.声学实验室录音效果评估-第一阶段
    计算裸麦和带声腔结构的麦克风之间的录音之间谐波程度,根据分析结果确定是否通过。
    3.声学实验室录音效果评估-第二阶段
    分别利用裸麦和带声腔结构的麦克风信号做基于相位的声源定位,如果两者定位误差小于5°,则认为通过该项测试。
    4.声学实验室录音效果评估-第三阶段
    分别利用裸麦和带声腔结构的麦克风录音数据进行识别,效果差距在2%以内,则认为远场识别方面无问题。

    不同阵列的适用范围
    六麦环形阵列:六麦环形阵列适用于应用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。
    四麦线性阵列:四麦线性阵列适用于车载,空调,电视,应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。
    两麦线性阵列:两麦线性阵列对芯片性能要求较低,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。

    QA问答
    1.原始音频质量问题一般包括哪些?
    可能导致的原因比较多,例如电源供电不足导致的底噪过大,孔径过深导致的音质下降,遮挡物导致的拾音问题,房间混响过大,增益问题造成的截幅,参考信号接入问题等等,具体问题需要具体分析。
    2.麦克风阵列软核和模块的区别一般包括哪些?
    麦克风阵列软核需要自行完成麦克风及相关硬件模块布板,软核算法库集成和调试优化。麦克风阵列模块是封装好的硬件模块,直接输出麦克风阵列降噪后的音频。软核的更新一般由APP或系统固件完成,麦克风阵列模块的更新由固件更新完成。
    3.我的产品应该选择什么构型的麦克风阵列?
    对多功能型机器人一般推荐采用六麦环形阵列,因为对语音识别率要求高,六麦环形阵列的波束和拾音范围更加适宜。对功能型机器人和一些家具产品推荐采用四麦或者两麦线性麦克风,因为命令词识别对降噪音频的质量要求相对较低。
    4.回声消除的效果不佳可能是什么原因?
    首先要检查参考信号是否由功放后喇叭前接入,其次要检查左右声道和低音喇叭的接入顺序是否正确,最后要检查喇叭是否存在失真等问题。



    微信图片_20170****93858.jpg
    (添加AI公开课助手,了解更多公开课内容)

    公众号.jpg