Speech recognition 如何在语音间隙或暂停期间分割/标记音频文件?奥比奥?

Speech recognition 如何在语音间隙或暂停期间分割/标记音频文件?奥比奥?,speech-recognition,audio-recording,aubio,Speech Recognition,Audio Recording,Aubio,我想知道您是否可以帮助建议aubio(或任何其他类似服务)是否适合我们的业务。遗憾的是,我不是开发人员或声音工程师,所以请原谅我的无知。。。但任何反馈都将不胜感激 目前,我们使用音频文件,例如会议的1小时录音,并将其切分为较短的音频部分。问题在于音频被残酷地分割;如果我们将一个60分钟的文件分成5分钟的部分,每5分钟就有可能将一个单词或句子切成两半,从而导致质量下降,因为听者无法解读这半个单词/句子 我可以看到aubio网站列出了它的一个特性,即“在每次攻击之前分割声音文件”。我想知道aubio

我想知道您是否可以帮助建议aubio(或任何其他类似服务)是否适合我们的业务。遗憾的是,我不是开发人员或声音工程师,所以请原谅我的无知。。。但任何反馈都将不胜感激

目前,我们使用音频文件,例如会议的1小时录音,并将其切分为较短的音频部分。问题在于音频被残酷地分割;如果我们将一个60分钟的文件分成5分钟的部分,每5分钟就有可能将一个单词或句子切成两半,从而导致质量下降,因为听者无法解读这半个单词/句子

我可以看到aubio网站列出了它的一个特性,即“在每次攻击之前分割声音文件”。我想知道aubio或类似产品是否可以帮助我们更好地分割音频文件?我们希望能够在语音间隙或停顿期间对音频文件进行切片/标记,而不是在单词中间

任何建议都将不胜感激

问候
Tom

检测静默的算法称为“语音活动检测”,如果你在谷歌搜索,你可以在许多编程语言中找到从简单到高级的许多实现。例如,您可以从下载sphinxbase库,并使用嵌入式工具sphinx_cont_fileseg在块上分割文件:

   sphinx_cont_fileseg -i file.wav -w
还有其他的实现。据我所知,aubio内部没有VAD实现,尽管您可能可以使用aubio类来构建它。Aubio似乎更侧重于音乐分析,而较少关注语音,并且没有包括VAD实现

一旦你发现了沉默,你就可以切断它,这是一个很容易实现的部分。不过,找一个开发者是值得的