帖子

[官方问题解答] 【官方】合成服务问题解答汇总

[复制链接]
  • TA的每日心情
    开心
    2017-12-29 09:56
  • 签到天数: 46 天

    [LV.5]常住居民I

    18194  楼主| 王水 发表于 2016-12-12 14:11:40 1#
    我台提供的合成服务的作用是:将文字信息转化为声音信息,给应用配上“嘴巴”。在具体的使用过程可能遇到的常见问题汇总如下:
    • 发音人参数可以设置成哪些发音人呢?
    答:目前支持的在线发音人列表见官网相关介绍

    • 你们官网提供的发音人都不满足我的需求,怎么办?
    答:这个在问题一相关页面的介绍中也有提到,如已有的音库无法满足您的需求,我们也有能力为您定制专属音库。您可以邀请明星来录音,也可以从我们合作的发音人中选择。如需定制音库,请和我们联系,我们的商务团队会与您洽谈具体的事宜。电子邮箱:msp_business@iflytek.com,电话:0551-65309063

    • 一次可以合成多长的文本呢?我要合成文本超长了怎么办?
    答:合成文本是有长度限制的,一次最长合成8192个字节的文本,你可能根据你的文本的编码格式换算出支持的最长字符数。如果你要合成的文本超长了,你可以将他按照长度限制进行切分,分多次合成后再依次进行音频数据的合并或者播放。

    • 在线合成的音频数据是没有经过压缩的吗?会不会非常耗费流量?
    答:和听写时音频数据的上传类似,合成是服务器返回的音频数据是经过”speex编码“压缩过的,压缩比约为1:10,也就是时候服务端将合成的音频进行1:10的压缩,然后客户端SDK接收到音频后再解码成非压缩的原始音频,那么按照16K采样率16位采样精度单声道的音频来计算,1秒钟的音频压缩后的大小大约为3K左右,并不是非常的大。另外上面提到的speex编码并不是普通的speex编码,因此这两种方式压缩出来的音频也不能通用。

    • 从寻找声优录音,到标注训练,一个成熟的‘可以商用的语音合成音库大概需要多少价格和时间?
    答:时间成本最快2个月左右,不包括客户安排配音员的时间。价格是30万RMB起。

    • 中英文混排的文档,合成效果明显没有单独英文的或者单独中午的好,有没有什么优化的计划?
    答:中英文混读的,是对发音人要求较高,需要原始发音人是双语的。讯飞在考虑制作双语发音人。算法层面也一直在优化,目前已经开放的支持中英文混合合成的发音人叫小媛,该发音人的在线和离线版本都是需要收费的,有需要的同学可以发邮件(msp_business@iflytek.com)申请购买。

    • 请问一下讯飞对情感语音合成有没有比较好的解决的方案?
    :情感合成我们现在已经是支持的了,了解我们SDK的同学也应该已经看到了相关的设置接口。但是目前支持的情感反应比较抢手,一发布就被合作伙伴买断了。如果大家有需求的话可以付费定制。



    评分

    参与人数 1语点 +1 收起 理由
    嘉众科技 + 1 神马都是浮云

    查看全部评分

    百花 发表于 2016-12-12 16:38:40
    2#
    顶一下
    使用道具 举报 回复
    hanziwen0415@16 发表于 2016-12-30 08:00:53 来自手机
    3#
    提示: 作者被禁止或删除 内容自动屏蔽
    使用道具 举报 回复
    hanziwen0415@16 发表于 2017-2-14 12:35:36 来自手机
    4#
    提示: 作者被禁止或删除 内容自动屏蔽
    使用道具 举报 回复
    Mr.刘先森 发表于 2017-3-4 09:56:15
    5#
    hanziwen0415@16 发表于 2016-12-30 08:00
    **** 作者被禁止或删除 内容自动屏蔽 ****

    您好,请问从拿到录音到标注数据,这个模块完整的流程是怎么样的?你们标注数据投入的人力有多少?谢谢解答。

    使用道具 举报 回复