Audio YouTube语音识别-包含特殊单词的音频?

Audio YouTube语音识别-包含特殊单词的音频?,audio,youtube,speech-recognition,speech-to-text,Audio,Youtube,Speech Recognition,Speech To Text,我正在考虑一种机制,以确定youtube视频中是否有一个特殊的词,例如“hello world”。我真的不知道怎么做,但我的方法是: 通过youtube dl从youtube视频中提取音频 pocketsphinx_连续存储在txt文件中的语音识别 但这是非常不可靠的。pocketsphinx_连续工作不太好 有人能提出一个好的解决办法吗 谢谢你的帮助 pocketsphinx\u continuous本身内置了kws。 您可以使用pocketsphinx\u continuous-hmm

我正在考虑一种机制,以确定youtube视频中是否有一个特殊的词,例如“hello world”。我真的不知道怎么做,但我的方法是:

  • 通过youtube dl从youtube视频中提取音频
  • pocketsphinx_连续存储在txt文件中的语音识别
但这是非常不可靠的。pocketsphinx_连续工作不太好

有人能提出一个好的解决办法吗


谢谢你的帮助

pocketsphinx\u continuous
本身内置了kws。
您可以使用
pocketsphinx\u continuous-hmm en us-infle file.wav-dict dictfile.dict-kws“keyphase”

最近的pocketsphinx有特殊的关键字定位模式来查找关键字(pocketsphinx\u kws-infle file.wav)。至于可靠性,你可能没有将音频转换成正确的格式,或者有其他问题。而且,pocketsphinx搜索关键字比任何解码都要有效。我没有找到任何网站解释“pocketsphinx_kws”。只有3页从谷歌返回?!你能解释一下我将如何使用它吗?我认为WAV文件有正确的格式:mono,16KHz,16bit,对吗?是的,这是一项最新技术。从subversion编译pocketsphinx,下载en us通用声学模型,将文件转换为16khz 16位单声道,运行
pocketsphinx_kws-hmm en us-infle file.wav-kws“关键字短语”