帖子

[AI开发者大赛] 【赛前锦囊】语音服务技术支持之——语音合成

[复制链接]
  • TA的每日心情
    开心
    2019-12-4 18:44
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    19861 AI小助手 发表于 2018-6-7 16:20:53 1#
    科大讯飞在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测等技术上拥有国际领先的成果。

    讯飞开放平台http://www.xfyun.cn/)作为全球首个开放的智能语音交互技术服务平台,致力于为开发者打造一站式智能人机交互解决方案。开放平台向开发者提供开放的语音服务(包括语音合成、语音听写、语音转写、语音识别、语音唤醒、语义理解、语音评测、机器翻译等)、硬件服务(包括二麦线性阵列、六麦环形阵列、语音合成芯片、离线识别模块)、模式识别服务(包括人脸识别、声纹识别、OCR 文字识别)、运营推广服务(包括广告平台、开放统计),和基础服务(即时消息、讯推)多项服务。

    为了帮助大家更好地使用平台技术为参赛作品赋能,提升作品的整体竞争力科科君从今日起会陆续为大家分享一些讯飞开放平台的能力介绍希望可以帮到泥萌!
    今天为大家介绍的是讯飞开放平台向开发者提供的语音服务中的语音合成部分。
    默认标题_微博焦点图_2018.06.07.jpg
    一、语音合成能力介绍:
    语音合成,又称文语转换(Text to Speech,TTS)技术,即将文字信息自动转换为连续的自然语音信息,也即让机器像人一样开口说话,给开发者的应用配上“嘴巴”。

    二、讯飞开放平台语音合成服务具有如下特色与优势:
    1.业界领先的语音技术
    语音合成,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。采用最先进的中文文本、韵律分析算法和大语料库的合成方法,合成语音已经接近真人的自然效果。

    2.最自然清晰的语音体验
    将输入的文本转换为流畅、清晰、自然和具有表现力的语音数据,高质量合成音频的自然度和清晰度已经超过了普通人的朗读水平。

    3.多语种多音色选择
    提供多语种服务,包括中文、中英文混读、纯正英文等语种的语音合成服务。针对各地语言发音的不同,我们还提供粤语、四川话、东北话、河南话、湖南话、陕西话等方言合成。同时,平台还提供多音色服务,丰富、风格多样化的音色(如浑厚纯正的男声, 温柔甜美的女声,标准地道的英文男女声等等)和唐老鸭、熊宝、蜡笔小新、小丸子等卡通音可供选择。开发者可以根据不同应用业务需要,选择最适合应用场景的语言风格,并支持实时动态的音色切换。

    4.离线合成
    考虑到在线语音合成对网络的依赖,在平台上我们还以装机量授权的方式提供离线语音合成服务。基于嵌入式离线合成引擎,零流量实时响应,实现快速稳定的本地化语音服务。

    5.平台覆盖
    在线语音合成支持 Android、ios、Linux、Windows、Windows Phone 8、Java、Flash、Html5 等平台,离线语音合成支持 Android、ios、Linux、Windows
    等平台。

    三、相关视频教程:
    视频 (2).jpg
    1.语音合成技术入门——概念原理
    2.语音合成技术入门——技术原理
    3.语音合成技术入门——接入流程
    4.语音合成技术入门——常见问题
    四、常见答疑
    默认标题_搞笑表情_2018.06.07.jpg
    1.发音人参数可以设置成哪些发音人呢?
    答:目前支持的在线发音人列表见官网相关介绍。

    2.你们官网提供的发音人都不满足我的需求,怎么办?
    答:这个在问题一相关页面的介绍中也有提到,如已有的音库无法满足您的需求,我们也有能力为您定制专属音库。您可以邀请明星来录音,也可以从我们合作的发音人中选择。如需定制音库,请和我们联系,我们的商务团队会与您洽谈具体的事宜。
    电子邮箱:msp_business@iflytek.com,电话:0551-65309063

    3.一次可以合成多长的文本呢?我要合成文本超长了怎么办?
    答:合成文本是有长度限制的,一次最长合成8192个字节的文本,你可能根据你的文本的编码格式换算出支持的最长字符数。如果你要合成的文本超长了,你可以将他按照长度限制进行切分,分多次合成后再依次进行音频数据的合并或者播放。

    4.在线合成的音频数据是没有经过压缩的吗?会不会非常耗费流量?
    答:和听写时音频数据的上传类似,合成是服务器返回的音频数据是经过”speex编码“压缩过的,压缩比约为1:10,也就是时候服务端将合成的音频进行1:10的压缩,然后客户端SDK接收到音频后再解码成非压缩的原始音频,那么按照16K采样率16位采样精度单声道的音频来计算,1秒钟的音频压缩后的大小大约为3K左右,并不是非常的大。另外上面提到的speex编码并不是普通的speex编码,因此这两种方式压缩出来的音频也不能通用。

    5.从寻找声优录音,到标注训练,一个成熟的‘可以商用的语音合成音库大概需要多少价格和时间?
    答:时间成本最快2个月左右,不包括客户安排配音员的时间。价格是30万RMB起。

    6.中英文混排的文档,合成效果明显没有单独英文的或者单独中午的好,有没有什么优化的计划?
    答:中英文混读的,是对发音人要求较高,需要原始发音人是双语的。讯飞在考虑制作双语发音人。算法层面也一直在优化,目前已经开放的支持中英文混合合成的发音人叫小媛,该发音人的在线和离线版本都是需要收费的,有需要的同学可以发邮件(msp_business@iflytek.com)申请购买。

    7.请问一下讯飞对情感语音合成有没有比较好的解决的方案?
    答:情感合成我们现在已经是支持的了,了解我们SDK的同学也应该已经看到了相关的设置接口。但是目前支持的情感反应比较抢手,一发布就被合作伙伴买断了。如果大家有需求的话可以付费定制。

    8.离线语音服务与在线语音服务有哪些区别?
    离线语音服务和在线语音服务的主要区别在开发包大小、合成效果、合成效率方面。
    (1)开发包大小方面:离线SDK包比在线SDK包要大,因为前者计算在本地,而后者在云端;
    (2)响应效率方面:离线服务核心计算在本地,减少了网络交互的时间,相比在线服务响应快;
    (3)效果方面:由于本地计算能力和存储空间的限制,离线资源相对小点,但同时保证离线服务效果,可以通过下载集成免费的体验包来抢先体验效果。

    9. 试用期装机量不够用能否申请延期?
    离线的服务,我们提供3个装机量35天的免费试用期,如果因为测试需要授权不足,通过讯飞开放平台官网--控制台--支持中心--提交问题(需登录账号才能看到控制台,右上角的位置)http://www.xfyun.cn/提交工单咨询,注意选择对应问题的分类。,我们会酌情给处理。

    10.语音合成的音色、语调能不能调整?
    (1)音色:离线语音合成购买的SDK包中默认提供xiaoyan、xiaofeng两种发音人,如果需要其他发言人需单独购买;
    (2)语调:在线通过pit(取值为:0—10,粗力度调节)和pitch(取值为:0—100,细力度调节)参数调整。离线通过pitch(取值为:0—100,细力度调节)参数调整。

    11.装机量是怎么定义的?
    装机量授权:离线语音合成服务按照装机量收费,购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计,即在终端设备上安装了应用并启用了离线引擎,即记为一个装机量。另外,同一个终端设备上卸载(重装)应用均记为同一个装机量,不重复计数。

    12. 错误码查询
    常见错误码查询如下:https://shimo.im/sheet/w3yUy39uNKs0J7DT,如果未能解决您的问题,可以在工单系统/论坛提问。

    13.其他问题
    如果上述回答未能解决您的问题,可以在工单系统/论坛提问,我们在收到消息后尽快给您答复。

    五、客户案例:
    ◆在线语音合成:滴滴出行、高德地图、携程旅行、QQ阅读、叮咚音响等
    在线语音合成案例.png

    ◆离线语音合成:高德导航、滴滴打车、QQ阅读、起点读书、进化者机器人、智慧树考勤机
    离线语音合成案例.png
    六、温馨提示
    讯飞开放平台的语音合成为使用sdk接入,针对有编程基础的用户。如果您不方便通过编程方式使用,可以前往 讯飞配音官网http://peiyin.xunfei.cn/,通过网页界面输入文字,实现文字转语音功能。 如果以上已有的音库无法满足您的需求,我们也有能力为您定制专属音库。
    关于语音合成就先介绍到这里啦,下期科科君将为大家介绍的是语音服务的语音听写功能哦~
    大家敬请关注!

    135****7403 发表于 2018-6-9 18:29:07
    2#
    谢谢分享,谢谢普及
    使用道具 举报 回复