Python语音识别和时间线排列_Python_Voice Recognition

Python语音识别和时间线排列

python

Python语音识别和时间线排列,python,voice-recognition,Python,Voice Recognition,这不是一个非常具体的编程问题，但我正在寻找一种方法，让我的女朋友（一个视频编辑）从50%的重复性工作中解脱出来，这可能有助于编码。因此，提前非常感谢您提出的任何创新建议她在工作，幕后其实是两个非常重复的步骤。1.在布局图和图2中定位作品。将单词（底部的红色轨迹）与语音轨迹对齐。然后整个视频基本上是这两个步骤的组合。。。一次又一次现在，她正在显著降低声音速度，以便手动将单词的开始时间与单词出现在语音轨迹中的时间点匹配我想要的是：有没有成熟的工具（Python/R接口）可以进行语音识别。

这不是一个非常具体的编程问题，但我正在寻找一种方法，让我的女朋友（一个视频编辑）从50%的重复性工作中解脱出来，这可能有助于编码。因此，提前非常感谢您提出的任何创新建议

她在工作，幕后其实是两个非常重复的步骤。1.在布局图和图2中定位作品。将单词（底部的红色轨迹）与语音轨迹对齐。然后整个视频基本上是这两个步骤的组合。。。一次又一次

现在，她正在显著降低声音速度，以便手动将单词的开始时间与单词出现在语音轨迹中的时间点匹配

我想要的是：

有没有成熟的工具（Python/R接口）可以进行语音识别。所以我有一个语音文件（mp3/wmv），然后它将生成包含该语音文件内容的文本文件

是否有可能将单词与语音中出现的时间点匹配。。。因此，在本例中，python脚本的输出应该是：

识别起始所以100毫秒 I 110毫秒有120毫秒已经过135毫秒了

类似于Youtube的

标题

功能，但基于单个单词。。。

我知道不会有一个完美的解决方案，但非常感谢任何建议或建议，这样就可以务实地解决这一无聊旅行的一部分。

到目前为止，您尝试了什么，如果有的话？你看到过这样的条目吗？@VooDooNOFX嗯，我在看蜻蜓和pyspeech库，它们有win32依赖关系，不知怎的，我花了一段时间制作了一个简单的示例。。。然后我怀疑我是否犯了一些方向性的错误…同时我发布了这篇文章并尝试我的运气。谢谢你提到那篇文章。正如答案所提到的，这实际上是一个说话人识别问题，而不是语音识别问题。语音识别和说话人识别有什么区别？我是新手，我正在尝试做说话人识别。对我来说是一样的吗？