帖子

[业务问题咨询] 讯飞开放平台QQ交流群常见问答大全(持续更新中)

[复制链接]
  • TA的每日心情
    开心
    2020-6-17 09:20
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    22900  楼主| AI小助手 发表于 2019-12-11 10:51:35 1#
    QQ群日常运营中,欢迎入群:
    讯飞开放平台用户交流群⑬682635547 (当前可加)
    讯飞开放平台用户交流群⑫816241597 (已满)
    讯飞开放平台用户交流群⑪934499146(已满)
    讯飞开放平台用户交流群⑩ 864284070 (已满)

    讯飞开放平台用户交流QQ群仅接受讯飞开放平台注册用户入群。
    本群当前主要提供业务相关问题的常见问答服务,如需技术支持,请移步 控制台 提交工单咨询专业的技术支持。
    当然啦,平台的各种福利及活动也会优先在QQ群推广哦~

    语音听写:
    Q1: 语音听写只有流式版(SDK 流式和API流式),有普通版的么?流式版和普通版有什么区别?
    A: 目前已没有普通版的了,流式版可覆盖之前普通版的功能。
    语音听写流式版和普通版的区别:
    (1)流式版:支持边说边识别;可在线购买服务量; 可在控制台-我的应用-语音听写(流式版)-服务管理页面,在线添加方言试用,试用期为15天;开通后可每日试用500次服务量。                                
    (2)普通版: 支持一次性上传音频;不可在线购买,需线下购买;不可在线添加方言。

    Q2 :请问离线语音听写可以免费使用10个装机量吗?是不是实名认证才能用?可以直接下载使用吗?
    A: 离线语音听写和离线命令词识别分别有免费10个装机量,90天试用期,无须认证也可使用;下载sdk资源包按照文档说明需要二次开发即可使用。

    Q3: 语音听写不管是webAPI还是SDK,都需要联网吗?
    A: 是的,都需要联网。离线的话,建议使用离线语音听写:
    为保障服务稳定,第一次接入时请连网使用。

    Q4: 语音转写和语音听写有什么区别?
    A: 语音听写是处理<60s的音频,转写是处理<5小时的音频。
    Q5: 语音听写除中英文之外,还支持哪些语言?
    A: 除中英文外,还支持日、韩、俄、法、西等国家语种的识别,同时,我们还提供广东话、河南话、四川话等方言的识别。具体语种可点击查看:
    在语音听写接口的参数设置里可以设置上述提供的语种,具体可参考:https://www.xfyun.cn/doc/asr/voicedictation/API.html# 接口调用流程。

    Q6: 语音转文字支持哪些语言?
    A:在线听写支持中英部分小语种及20种左右方言,离线听写支持中文普通话,实时转写支持中文普通话,非实时转写支持普通话和英文。

    Q7: 现在的语音识别没有amreabi的包了吗?只有64和a7?
    A: arm64-v8a、armeabi-v7a这两个包是可以支持目前市面上几乎所有移动端的。

    Q8: 离线语音听写支持粤语么?
    A: 不支持,离线听写仅支持中文普通话。

    Q9: 语音听写是否支持热词设置?
    A: 在线语音听写支持个性化热词设置(控制台),离线语音听写不支。

    Q10: 请问语音识别有没有直接可体验的 demo?
    A: 可在这里选择需要的demo: https://www.xfyun.cn/doc/asr/voicedictation/API.html#

    Q11: 我开始录音,10秒不讲话就会退出本次识别,这个是正常的吗?
    A:是正常的,sdk目前最多10秒,触发了前端点检测,前端点检测可设置【1-10s】。

    Q12: 语音听写sdk也可以设置识别的语言吗?比如说设置英语就按英语识别,中文就是识别出的只有中文?
    A: 可以的,需要根据需求自己设置。

    Q13:  WebAPI这个实现语音听写,Web端完全可以独立实现吗?对android和IOS都兼容吗?
    A: 只要您有自己的服务器,使用WebAPI就可以实现多端通用的。

    Q14: 语音听写,有没有遇到过iphoneX手机话筒的声音特别小声,导致听写一直没有识别到声音的情况?
    A:在电脑里,改一下MIC的参数就可以了。

    Q15: 请问一下语音识别如果使用的是离线引擎,需要设置离线资源路径,请问这个离线资源具体指的是什么文件?

    Q16:windows下语音识别,麦克风一直开着,怎样判断用户说话和说话完毕?
    A: 可以根据前后端点来判断。

    Q17: windows版在线语音听写支持多进程吗?
    A: SDK不支持多并发。

    Q18: 用官网体验生成的语音文件测试java的sdk的语音听写,只能识别一句?
    A: 这个将后端点设置长一点即可。

    Q19: 讯飞语音识别有python或者java sdk吗?
    A: 在线语音听写支持的平台有Android、iOS、Windows、Java、Linux和WebAPI。
    离线语音听写目前仅支持android sdk。

    Q20: 有没有unity的离线语音识别资源包?
    A: 离线听写只支持安卓哦。

    Q21: 请问有没有提供实时语音转文字的功能,就像我按住按钮一边说话的同时,文字不断显示在文本框中?
    A: 有的。
    音频长度60s以内的建议使用语音听写:
    https://www.xfyun.cn/services/voicedictation
    音频长度超过60s的建议使用实时语音转写:

    Q22: 语音听写怎么识别超过60秒的音频?
    A: 超过60秒的建议使用语音转写。

    Q23:离线语音识别中,个更改语音文件的名称,识别结果会改变吗?
    A: 仅改变语音文件名称的话,音频内容不变,识别结果也不变。


    语音合成:

    Q1: 请问下语音合成 WebAPI 和java sdk 有什么区别吗?
    A:  WebAPI支持并发;java sdk 不支持并发。

    Q2: 语音合成 utf8 格式,一般一次可以大约合成多少字?
    A: WebAPI接口单次最多支持1000个字节,SDK单次最多支持8192个字节。

    Q3: 语音合成能设置多音字的读音吗?如何设置?
    A: 可以,具体操作方法可参考论坛帖子:http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=15340

    Q4: 语音合成首页体验试听能不要背景音乐吗?
    A: 产品页的试听都是有背景音乐的,无法更改;正式版本没有背景音乐。

    Q5: 离线状态下,播放本地文件结束的语句特别仓促,最后一个字都没有说完吗,请问有什么办法可以解决?
    A: 可以后面加个停顿试下。具体可参考:
    http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=15340&highlight=%E5%81%9C%E9%A1%BF

    Q6: 我的离线语音合成SDK需要在ARM-linux平台上运行,能定制吗?
    A: 目前已提供Linux版本的SDK,可以直接下载。如果仍不满足要求,可以提交交叉编译的工单。

    Q7: 在线语音合成有没有PHP版 demo?
    A: 目前只有 python、java、js的demo。

    Q8: 在线语音接口可以直接转成固定比特率的wav格式吗?
    A: 建议合成16K、16bit的pcm音频,webapi只支持PCM,不支持WAV,部分SDK支持WAV。

    Q9: 离线语音合成,第一次使用的时候需要联网吗?
    A: 为保障服务稳定,建议第一次使用时联网。

    语音转写:

    Q1:  IT运维部门客服的录音文件在使用语音转写的时候,有一些识别错误(主要是IT术语),有什么办法可以提高识别率吗?
    A:可以在后台设置一下热词来提高识别率。

    Q2: 有没有什么办法能把实时翻译出来的文字转换成英文?
    A: 讯飞提供实时语音转写接口,配合机器翻译可以实现实时将语音翻译成目标语言。
    实时转写产品页:https://www.xfyun.cn/services/rtasr
    Q3: 语音转写和实时语音转写的区别是什么?是否都能做到实时?
    A: 语音转写:语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础
    实时语音转写:实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果。
    只有实时语音转写可以实现实时的功能。

    Q4: 语音转写和实时语音转写的应用场景是什么,该怎么选择?
    A: 非实时语音转写主要用来识别长段的录音文件(5小时以内),但是它不能实时返回识别结果,根据上传的文件大小需要几分钟至几个小时不等才能获取到识别结果(结果是一次性获取),典型的应用场景是识别电话录音文件以便客户自己做文字质检、识别会议录音方便客户自己整理会议纪要。
    实时语音转写可以实时识别持续的音频流,结果是实时返回,音频流长度理论上不做限制,典型的应用场景是大会或者直播的实时字幕。

    Q5: 实时语音转写会自动断句吗?
    A: 会根据意思和停顿时长断句。

    Q6: 如果要在网页上实现,语音说完之后转写成文字,Java可以实现吗?
    A: 非实时语音转写可支持Java,也可以试试语音听写,需要看你的音频文件时间有多长。

    离线命令词识别
    Q1: 装机量是怎么定义的?
    A: 装机量授权:离线命令词识别按照装机量收费,购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计,即在终 端设备上安装了应用并启用了离线引擎,即记为一个装机量。同一个终端设备上卸载(重装)应用均记为同一个装机量,不重复计数。

    Q2: 离线命令词免费3个装机量吗?是不是实名认证才能用?
    A:离线语音听写和离线命令词识别分别有免费10个装机量,90天试用期,无需认证也可使用;下载sdk资源包按照文档说明需要二次开发即可使用。

    Q3: 离线语音识别 这个bnf文件命令词最多能定义多少个?
    A: 离线识别的命令词是开发者自己定义,命令词最大长度为16个汉字。需要先构建语法,然后指定使用的语法。
    语法文件开发文档请参考识别语法分享--在线语法和离线语法编写指南。简单的语法示例如下:
    例如,开发一个简单的语音拨号应用,可定义如下语法:. . . . . .<commands>找一下|打电话给) <name>;<name>: 张三|李四;. . . . . . .
    该语法使识别引擎可以支持以下说法:找一下张三 、打电话给张三 、找一下李四 、打电话给李四。
    凡是用户说出这个范围中的任意一句话,均可以被识别系统识别。如果用户说的话不在上述范围中,识别系统可能拒绝识别。

    Q4: 离线命令词sample里是jet文件和BNF语法区别?
    A:前者是离线资源,后者是语法文件,作用不一样,都是必不可少的。