Speech recognition 如何在语音间隙或暂停期间分割/标记音频文件？奥比奥？_Speech Recognition_Audio Recording_Aubio

Speech recognition 如何在语音间隙或暂停期间分割/标记音频文件？奥比奥？

speech-recognition

Speech recognition 如何在语音间隙或暂停期间分割/标记音频文件？奥比奥？,speech-recognition,audio-recording,aubio,Speech Recognition,Audio Recording,Aubio,我想知道您是否可以帮助建议aubio（或任何其他类似服务）是否适合我们的业务。遗憾的是，我不是开发人员或声音工程师，所以请原谅我的无知。。。但任何反馈都将不胜感激目前，我们使用音频文件，例如会议的1小时录音，并将其切分为较短的音频部分。问题在于音频被残酷地分割；如果我们将一个60分钟的文件分成5分钟的部分，每5分钟就有可能将一个单词或句子切成两半，从而导致质量下降，因为听者无法解读这半个单词/句子我可以看到aubio网站列出了它的一个特性，即“在每次攻击之前分割声音文件”。我想知道aubio

我想知道您是否可以帮助建议aubio（或任何其他类似服务）是否适合我们的业务。遗憾的是，我不是开发人员或声音工程师，所以请原谅我的无知。。。但任何反馈都将不胜感激

目前，我们使用音频文件，例如会议的1小时录音，并将其切分为较短的音频部分。问题在于音频被残酷地分割；如果我们将一个60分钟的文件分成5分钟的部分，每5分钟就有可能将一个单词或句子切成两半，从而导致质量下降，因为听者无法解读这半个单词/句子

我可以看到aubio网站列出了它的一个特性，即“在每次攻击之前分割声音文件”。我想知道aubio或类似产品是否可以帮助我们更好地分割音频文件？我们希望能够在语音间隙或停顿期间对音频文件进行切片/标记，而不是在单词中间

任何建议都将不胜感激

问候

Tom

检测静默的算法称为“语音活动检测”，如果你在谷歌搜索，你可以在许多编程语言中找到从简单到高级的许多实现。例如，您可以从下载sphinxbase库，并使用嵌入式工具sphinx_cont_fileseg在块上分割文件：

   sphinx_cont_fileseg -i file.wav -w

还有其他的实现。据我所知，aubio内部没有VAD实现，尽管您可能可以使用aubio类来构建它。Aubio似乎更侧重于音乐分析，而较少关注语音，并且没有包括VAD实现

一旦你发现了沉默，你就可以切断它，这是一个很容易实现的部分。不过，找一个开发者是值得的