Audio 星号反转IVR?语音识别还是仅仅比较波形输出?

Audio 星号反转IVR?语音识别还是仅仅比较波形输出?,audio,fft,asterisk,voice-recognition,Audio,Fft,Asterisk,Voice Recognition,我用asterisk开发了一个应用程序,可以调用各种IVR服务并请求信息。这节省了员工打电话和按一串按钮的时间 我当前的实现是呼叫,等待噪音,等待静音,然后按下适当的按钮,然后转到下一个提示。我已经记录了提示的顺序,因此我知道在每个“噪音/静音”时段输入什么 然而,根据我提供的数据,一些IVR会有所不同或提出附加问题 我在想办法弄清楚问了什么问题?我研究过语音识别引擎,但我认为它们并不适合这种情况。我还想简单地记录我正在呼叫的IVR的提示,并保存它们以供比较。然后有一次,我沉默了一段时间,我把以

我用asterisk开发了一个应用程序,可以调用各种IVR服务并请求信息。这节省了员工打电话和按一串按钮的时间

我当前的实现是呼叫,等待噪音,等待静音,然后按下适当的按钮,然后转到下一个提示。我已经记录了提示的顺序,因此我知道在每个“噪音/静音”时段输入什么

然而,根据我提供的数据,一些IVR会有所不同或提出附加问题

我在想办法弄清楚问了什么问题?我研究过语音识别引擎,但我认为它们并不适合这种情况。我还想简单地记录我正在呼叫的IVR的提示,并保存它们以供比较。然后有一次,我沉默了一段时间,我把以前的斯皮尔与选项列表进行比较?我只需要找出如何捕获音频,然后将捕获的音频与磁盘上的各种音频文件进行比较。这有点像大海捞针的问题,但对于wave文件来说

编辑:

我几乎可以在音频短片的长度上这样做?它们可能都有不同的长度

我正在研究的另一个选择是某种类型的音频指纹算法


关于如何完成此任务的建议?

您可以使用星号中的语音识别功能。设置所有内容并不是什么大问题,它将为您节省大量定制软件开发的时间


语音识别必须非常可靠,因为IVR语音通常是干净的。

您可以使用星号中的语音识别功能。设置所有内容并不是什么大问题,它将为您节省大量定制软件开发的时间


语音识别必须非常可靠,因为IVR语音通常是干净的。

能否提供有关内置语音识别功能的更多信息?这仅仅是谷歌api吗?你能提供更多关于内置语音识别功能的信息吗?这仅仅是谷歌api吗?你的意思是比较用户的语音和你的语音音频吗?不,系统将播放提示“请在电话键盘上输入内容”。我已经从与我交互的系统中记录了所有这些提示。我基本上需要把刚才说的话和磁盘上录制的提示进行比较。好的,那么我认为音频指纹解决方案适合这个senario。由于提示音频是预定义的,因此我们可以建立一个小型的提示音频指纹数据库,并以有效和高效的方式比较音频。如果信噪比不差,我认为识别率会优于99.x%。提供此类音频指纹解决方案,供您参考。我会调查一下,我发现的大多数音频指纹解决方案都需要更长的样本。有些提示只有3-10秒长。你的意思是比较用户的语音和语音的音频吗?不,系统将播放提示“请在电话键盘上输入内容”。我已经从与我交互的系统中记录了所有这些提示。我基本上需要把刚才说的话和磁盘上录制的提示进行比较。好的,那么我认为音频指纹解决方案适合这个senario。由于提示音频是预定义的,因此我们可以建立一个小型的提示音频指纹数据库,并以有效和高效的方式比较音频。如果信噪比不差,我认为识别率会优于99.x%。提供此类音频指纹解决方案,供您参考。我会调查一下,我发现的大多数音频指纹解决方案都需要更长的样本。有些提示只有3-10秒长。。