帖子

[经验分享] 常见问题分享

[复制链接]
  • TA的每日心情

    昨天 10:36
  • 签到天数: 191 天

    [LV.7]常住居民III

    15400  楼主| 小七 发表于 2019-12-31 17:57:21 1#
    1离线语音合成装机量问题
    装机量按照使用了开发者应用的终端设备信息进行统计,即在终端设备上安装了应用并启用了离线引擎,即记为一个装机量。另外,同一个终端设备上卸载(重装)应用均记为同一个装机量,不重复计数。(andriod平台的统计是按照android id,mac,imei,系统信息统计的,一个参数变化就记做一个装机量;windows&linux平台的统计是按照mac,imei,系统信息统计的,一个参数变化就记做一个装机量)。
    2. 语音听写识别效果不佳
    语音听写建议的格式是 pcm 格式、音频采样率要是 16k 或者 8k、采样精度16 位、单声道音频。
    3. linux离线语音合成sdk是否有java版本
    目前离线合成暂无java sdk呢,您可以使用linux sdk,独立交叉编译是arm和mips非x86架构的库
    4. IP白名单问题
    http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=43322
    5. 添加个性化热词
    登陆开放平台https://www.xfyun.cn/---控制台--我的应用---语音转写---热词管理--保存并发布热词。 热词只能在识别的时候会增加热词的识别权重,需要注意的是增加相应词条的识别率,但并不是绝对的,具体效果以您测试为准。
    6. 转写等待问题
    转写并非即时返回的,关于返回时长快慢,需要看当时的转写任务量是否是高峰期以及您当前网络带宽,如任务积压,排队处理需要时间,所以时间上会长些。在任务量不堵塞的情况下根据音频时长不同耗时不同,基本都会在12小时以内的。当总的任务量很大导致堵塞,耗时会在一个小时到几个小时不等。
    7. 删除应用
    目前暂不支持删除应用,删除应用功能已在规划中,上线时间请及时关注官网最新通知。
    8. 转写歌曲问题
    形式:已录制音频声道:单声道&多声道支持格式:wav,flac,opus,m4a,mp3支持语种:中文普通话采样率:8KHz,16KHz采样精度:8bits,16bits不适合转写歌曲,歌曲本身词不是那种说话的场景
    9. 安卓装机量
    由设备IMEI、AndroidID、WifiMac三个字符串组合而成,其组合形式为“IMEI-AndroidID-Wifi Mac”,如果任何一个改变都会统计为一次装机量。比如刷机。
    10. 请问语音听写是否支持视频听写,页面上的垂直领域视频听写是什么意思
    不支持视频格式文件识别但是可通过麦克风形式获取视频的中的音频实现识别,垂直领域视频听写就是在这个领域上应用更加成熟更加专业化了,比如涉及这个领域方面更多专业术语的识。
    11. 语音听写、语音转写、实时语音转写三者有什么区别?
    使用场景:1、语音听写主要应用于需要实时识别短语音的需求场景,它可以实时的识别60s以内的短语音,典型的应用场景有语音输入法、语音搜索、语音人机交互等等;2、非实时语音转写主要用来识别长段的录音文件(5小时以内),但是它不能实时返回识别结果,根据上传的文件大小需要几分钟至几个小时不等才能获取到识别结果(结果是一次性获取),典型的应用场景是识别电话录音文件以便客户自己做文字质检、识别会议录音方便客户自己整理会议纪要。3、实时语音转写可以实时识别持续的音频流,结果是实时返回,音频流长度理论上不做限制,典型的应用场景是大会或者直播的实时字幕。接口类型:语音听写可支持Android\IOS\Linux\Windows\Java\webapi,语音转写只支持Java,webapi平台,实时语音转写只支持webapi接口;支持语言:语音听写可支持中英文及部分方言,两种转写都只支持中文普通话;
    音频格式:1、语音听写必须是采样率为8KHz或16KHz,采样深度16bit,单声道的wav或pcm2、非实时转写wav,flac,opus,m4a,mp3,单声道&多声道3、实时转写采样率为16K,采样深度为16bits的单声道pcm音频收费方式:语音听写按照交互次数收费,前期提供500次免费次数供试用 ;非实时转写是按时长收费,前期为每个帐号提供5个小时的免费时长供试用;实时转写按照授权路数收费。
    12. 听写服务
    音频格式可能有问题webapi 听写服务参考帖子:http://bbs.xfyun.cn/forum.php?mo ... id=38947&extra=(听写服务:engine_type为识别引擎类型,开通webapi听写服务后默认识别普通话:sms16k(16k采样率、16bit普通话音频、单声道、pcm或者wav)、sms8k(8k采样率、16bit普通话音频、单声道、pcm或者wav)支持的格式是 pcm 和 wav 格式(非常重要)必须要使用cool edit软件(百度下载此软件即可)查看音频格式是否满足相应的识别引擎类型,否则识别为空),格式必须正确,除上述格式均不识别,音频格式一定要满足要求语音听写服务,热词使用方式:登陆开放平台https://www.xfyun.cn/---控制台--我的应用---语音听写---服务管理--上传热词您好,热词只能在识别的时候会增加热词的识别权重,需要注意的是增加相应词条的识别率,但并不是绝对的,具体效果以您测试为准。
    13.语音评测分数:
    web都是100 ;Sdk未开通篇章权限是5分制度,开通后中文是100分制,英文是5分制。Sdk返回是xml格式,webapi返回是json格式的。