Python语音识别和时间线排列

Python语音识别和时间线排列,python,voice-recognition,Python,Voice Recognition,这不是一个非常具体的编程问题,但我正在寻找一种方法,让我的女朋友(一个视频编辑)从50%的重复性工作中解脱出来,这可能有助于编码。因此,提前非常感谢您提出的任何创新建议 她在工作,幕后其实是两个非常重复的步骤。1.在布局图和图2中定位作品。将单词(底部的红色轨迹)与语音轨迹对齐。 然后整个视频基本上是这两个步骤的组合。。。一次又一次 现在,她正在显著降低声音速度,以便手动将单词的开始时间与单词出现在语音轨迹中的时间点匹配 我想要的是: 有没有成熟的工具(Python/R接口)可以进行语音识别。

这不是一个非常具体的编程问题,但我正在寻找一种方法,让我的女朋友(一个视频编辑)从50%的重复性工作中解脱出来,这可能有助于编码。因此,提前非常感谢您提出的任何创新建议

她在工作,幕后其实是两个非常重复的步骤。1.在布局图和图2中定位作品。将单词(底部的红色轨迹)与语音轨迹对齐。 然后整个视频基本上是这两个步骤的组合。。。一次又一次

现在,她正在显著降低声音速度,以便手动将单词的开始时间与单词出现在语音轨迹中的时间点匹配

我想要的是:

  • 有没有成熟的工具(Python/R接口)可以进行语音识别。所以我有一个语音文件(mp3/wmv),然后它将生成包含该语音文件内容的文本文件

  • 是否有可能将单词与语音中出现的时间点匹配。。。 因此,在本例中,python脚本的输出应该是:

    识别起始 所以100毫秒 I 110毫秒 有120毫秒 已经过135毫秒了

  • 类似于Youtube的
    标题
    功能,但基于单个单词。。。
    我知道不会有一个完美的解决方案,但非常感谢任何建议或建议,这样就可以务实地解决这一无聊旅行的一部分。

    到目前为止,您尝试了什么,如果有的话?你看到过这样的条目吗?@VooDooNOFX嗯,我在看蜻蜓和pyspeech库,它们有win32依赖关系,不知怎的,我花了一段时间制作了一个简单的示例。。。然后我怀疑我是否犯了一些方向性的错误…同时我发布了这篇文章并尝试我的运气。谢谢你提到那篇文章。正如答案所提到的,这实际上是一个说话人识别问题,而不是语音识别问题。语音识别和说话人识别有什么区别?我是新手,我正在尝试做说话人识别。对我来说是一样的吗?