帖子

人工智能的「听觉」,多的是你不知道的事情

[复制链接]
  • TA的每日心情
    开心
    2018-11-27 10:57
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    47091  楼主| AI小助手 发表于 2018-12-7 11:34:07 1#
    又到一周科普时。

    周一,在班主任挑选本周科普选题的时候,后台有同学突然私信说:他被siri调戏了!而且还狠狠的被“重伤”了……

    向来看热闹不嫌事大非常关心同学们的班主任,赶紧询问了下事情的缘由,原来是那位同学无聊在家和siri进行了日常对话,他向siri询问怎么才能上清华大学,siri调皮的献出清华大学的地图,最后还补刀说到:“离你相当远。”

    111****1211212.jpg
    在安慰了咱们的小萌新之后,班主任决定这期的科普和大家讲讲siri背后的智能语音技术,也就是我们常说的人工智能「听觉」。
    别看我们生活中到处都是智能语音的影子,这里面涉及到的知识点可不少呢。

    智能语音技术是实现人机语言的通信,主要包括语音合成、语音识别、语音评测、麦克风阵列、声纹识别等核心技术。

    1.语音合成
    语音合成是让机器把文本状态的文字信息转化为声音信息,相当于给机器装上“嘴巴”,用到的技术主要是波形拼接合成和参数合成。
    所谓波形拼接合成,一言以蔽之:将波形切分,再拼合起来。
    比如我们将语音数据库里的每个因素都单独“切”出来,等要合成新句子的时候,只要挑选出相应的因素把它们拼起来,便可以得到新句子了。
    222.jpg
    这里面有几个重要的因素,首先是要有一个庞大的语音数据库;其次数据库语料设计非常重要,要尽量保证它对所有因素的覆盖性是比较均匀的;最后还要注意精细切分、韵律标注等。

    波形拼接技术的优点是音质佳,录音和合成音质的差异小,正常句子的自然度不错。

    它的缺点是非常依赖于音库规模大小和制作质量;尺寸大,无法在嵌入式设备里应用;仍然存在拼接不连续性。

    参数合成是对语音的频谱特征进行建模,生成参数合成器来构建文本序列到语音的映射关系。

    有了模型的参数之后,在测试中输入文本,通过参数就可以输出合成的语音,它不存在数据库的切分,由于它只需要存一些参数,所以它的尺寸是很小的。除此之外,参数合成不存在“切分”的过程,所以合成出来的语音自然度是非常好的。

    它的缺点是音质,由于它是无中生有的过程,所以合成出来的音质比拼接合成的差。
    33333.png

    2.语音识别语音识别技术的发展可以追溯到20世纪50年代,1952年贝尔实验室Davis等人研究成功了世界上第一个识别10个英文数字发音的实验系统;70年代以后,在小词汇量孤立词等识别方面取得了实质性的进展;80年代逐渐由孤立词识别转向连接词识别;90年代以后,大词汇量连续语音识别得到优化。

      英特尔公司创始人之一戈登·摩尔2001年就曾预言,语音识别技术将会大大改变未来科技的发展,机器能够理解人类语言,甚至可识别出你说的是to还是two。
    444.jpg
    戈登·摩尔
    2010年GoogleVoice Action支持语音操作与搜索;2011年初,微软的DNN模型在语音搜索任务上获得成功,同年科大讯飞将DNN首次成功应用到中文语音识别领域,并通过语音云平台提供给广大开发者使用。

    2011年10月苹果iPhone4S发布,着实让个人手机助理siri火了一把,人机交互的革命史又翻开了新的篇章。

    2013年,Google发布Google Glass,苹果也加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点。从此,语音识别技术陆续进入工业、家电、通信、车载导航、医疗、家庭服务、消费电子产品等各个领域。

    语音识别和语音合成是一个互逆的过程,语音识别是将人类的语音转化成文本。

    传统语音识别的过程有2个重要步骤:第一步是信号处理和特征的提取;第二步是将特征送到解码器里,用声学模型或语言模型来解码出正确的文本信息。
    666.png

    3.语音评测
    语音评测是利用计算机自动对用户口语水平进行评价,包括发音检错、发音标准程度以及口语的表达力评分。它主要分为两大方面:朗读评测和口头表达评测。
    朗读评测是指在文本限定的情况下,重点考察用户的发音水平。口头表达评测是非限定文本的,重点考查的是用户表达的完整性和正确性。

    首先看下限定文本下的朗读发音评分维度,对英文朗读来说它的评测维度一般有发音是否正确、发音与母语的相似度、有无卡顿、朗读是否流畅、完整等。中文朗读和英文朗读稍有差别,但大致相同

    777.jpg

    关于发音检错,举个例子比如文本“about”用户读成“aboud”,在这种情况下机器会根据文本将音素序列找出来,继而生成它相应的解码网络,通过声学模型得到音素边界切分,然后用标准的发音模型计算出音素后验概率的得分,最后通过门限法检测找出用户读错的音素。

    关于非限定文本的口头表达评测,目前可以做到的类型有哪些呢?

    第一是口头作文,给用户一个话题和相关材料,用户看过材料之后需要现场说一段话,并且要体现出相关的要点。

    第二是情景反映,给用户一张图片,然后系统根据这张图片来提问一些问题。

    第三种是复述,系统会先将文本读一遍,用户再复述一遍,这其实是现在中高考口语考试的重要形式。

    4.麦克风阵列
    麦克风阵列是由一定数目的麦克风组成,对声场的空间特性进行采样并滤波的系统。一般分为两个系统:一是阵列系统,另一个是分布式网络。
    这两者的重要区别是什么?
    阵列系统的几何结构、时间是确定下来的;
    分布式网络几何尺寸是未知的甚至是时变的;
    阵列系统要求所有的麦克风是一种型号的,频率响应是一致的,而分布式网络的传感器频响有可能是有差异的;
    除此之外,阵列系统要求采样时钟是同步的,分布式网络则没有这种要求。

    麦克风阵列主要应用领域有3个:
    最早期的是音视频通讯领域,比如模拟电话、数字电话以及现在的音视频会议领域;
    人机交互领域,像智能家居产品、车载、机器人等;
    安防监控和工业测量领域,比如鸣笛抓拍系统。

    麦克风阵列的分类主要有以下几种:
    第一种是线性麦克风阵列,它的结构最为简单,用到最多的是加性阵列。加性麦克风阵列的阵列输出是各阵元的加权和,最优波束方向在Broadside,且方向可调。
    由于加性麦克风阵列的结构非常简单,所以它的用途非常广泛,比如车载、智能家居领域目前用到的都是线性加性麦克风阵列。

    和加性阵列相对应的是差分阵列,差分阵列的输出是两两麦克风之间的加权相减,差分阵列的波束方向只能在EndFire方向。
    由于差分阵列可以做到很小,且复杂度很低,所以在很多的场合都会得到应用。以两个麦克风的差分阵列为例,根据它的陷零方向不同,可以分为心型结构和超心型结构,它的主要应用像苹果的iPod耳机等。
    999.jpg
    5.声纹识别
    声纹识别是根据语音中反映的说话人生理和行为特征,自动识别说话人身份的生物识别技术。它主要分为两方面:确认和辨认。
    声纹识别的技术应用主要有两大领域,第一个方面是在信息安全领域,主要的任务是在线监听,比如当前说话人是目标用户,便可以从已有的数据库里面来找到这个人的所有语音信号。除了在线监听之外还有声纹库,通过建立全国重点声纹库,我们便可以发现目标用户他最近有没有出现,在什么地方出现了。
    另一个大的应用场景就是在消费市场,比如车载领域。
    111111.png
    科大讯飞小飞鱼

    和其他生物识别技术相比声纹识别是唯一一个可以用于远程控制的生物识别,举个例子,我们想采集某人的声纹,只要打个电话就可以进行采集,并且它的采集设备非常方便,此外声纹是不会遗失和忘记的。

    当然声纹识别也有它的问题——特征不稳定,比如用户感冒了和未感冒时的声音是有差别的;随着年纪的增长声纹也会发生一定的变化。

    另外声纹识别与采集信道关系比较大,用麦克风录音和电话录音是有差别的,所以说想要实现达到好的效果,声纹行业应用需要非常大的定制量。

    好啦,今晚对智能语音的简单科普到这里就结束了,关于每种不同技术的知识点大家还需要在实践中掌握。


    陈公子 发表于 2018-12-7 17:10:49
    2#
    哈哈,AI现在都可以调侃人了
    使用道具 举报 回复