帖子

Linux下语音唤醒使用wav格式唤醒的问题交流

[复制链接]
  • TA的每日心情
    开心
    2019-5-20 15:19
  • 签到天数: 116 天

    [LV.6]常住居民II

    4742  楼主| 壹伍壹拾 发表于 2017-4-29 18:17:28 1#
        想要实现实时监听的系统,原本计划直接使用在线语音实时监听用户说话,根据返回的json数据解析,如果是设定好的词语就进入交互模式,否则就不做处理。但是实际应用的时候发现在线服务实时性较差,而且没有审核的用户有每天500的使用限制。今天尝试使用语音唤醒,下载sdk后发现,这基本上就是一个离线命令词的识别。我们特定的命令词被装入wakeupresource.jet这个文件中。    在测试demo的时候,发现demo使用pcm文件进行识别,可是我只有wav格式的录音,wav文件就是pcm文件+wav文件头,查看代码后发现 360截图20170****80816345.jpg
    对pcm文件是先计算文件字节数然后申请buff,从0开始把数据读入buff。
    wav文件头部44个字节,我尝试改成
    360截图20170****81107760.jpg
    同时宏定义文件名改成wav格式的文件吗。理论上这样就可以的,音频文件我尝试使用tts合成的文件,和自己录音的文件,但是运行过程都出现了下面的结果。
    360截图20170****81437455.jpg
    就是没有唤醒出错,也没有唤醒成功。不知道论坛有没有人做过相关研究,这是为什么???
     楼主| 壹伍壹拾 发表于 2017-4-29 21:28:35
    2#
    问题找到了,我之前使用的语音过短,或者是程序过早结束了唤醒判断,我把唤醒词重复一次就识别到了。返回的内容解读MSP_IVW_MSG_WAKEUP result = {匹配得分":分数 ,"sst":"唤醒类型","bos":头部静音,"eos":尾部静音,"id":匹配到的是第几个唤醒词-1},能够正确进cb_ivw_msg_proc函数了,下面尝试一下从mic读入数据。
    使用道具 举报 回复
     楼主| 壹伍壹拾 发表于 2017-4-30 00:05:43
    3#
    很奇怪,总有最后一个语音唤醒无法识别。
    使用道具 举报 回复