Language agnostic 如何从语音到文本开始?

Language agnostic 如何从语音到文本开始?,language-agnostic,speech-recognition,Language Agnostic,Speech Recognition,我对语音到文本的算法很感兴趣,但我不确定从哪里开始研究它们。一系列的搜索让我找到了,但这是从1996年开始的,我相当肯定,从那时起已经有了改进 有这方面经验的人对阅读/检查源代码有什么建议吗?或者,如果我想进入语音识别程序的编写领域,我应该尝试了解哪些方面的一般建议(如果你对该领域没有太多的知识,有时很难知道要搜索什么) 编辑:我想做一些跨平台的事情,但目前我的目标是linux 编辑2:感谢csmba深思熟虑的回复。此时此刻,我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因

我对语音到文本的算法很感兴趣,但我不确定从哪里开始研究它们。一系列的搜索让我找到了,但这是从1996年开始的,我相当肯定,从那时起已经有了改进

有这方面经验的人对阅读/检查源代码有什么建议吗?或者,如果我想进入语音识别程序的编写领域,我应该尝试了解哪些方面的一般建议(如果你对该领域没有太多的知识,有时很难知道要搜索什么)

编辑:我想做一些跨平台的事情,但目前我的目标是linux

编辑2:感谢csmba深思熟虑的回复。此时此刻,我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因此,有限数量的可识别命令能够串在一起。例如,一个音乐播放器接受“Play the album Hello Everything by Squarepusher”之类的命令,或者一个应用程序启动器,允许用户创建语音快捷方式来启动特定的应用程序


我意识到这是一个相当大的问题,而且我目前还没有达到实现整个识别引擎所需的知识水平,尽管这样做所涉及的技术让我着迷,这也是我想努力去做的事情。很可能,我最终会拿起一两本关于这个主题的书,在空闲时间研究/玩“简单”的实现。

你的目标平台是什么?。如果它用于windows,您可以使用它

如果你是这个领域的新手,我绝对建议你选择一两个。我没有这方面的经验,所以不能推荐。如果你还在上大学(或者关系密切),你应该看看你的教授是否能推荐你

你链接的调查可能也是一个很好的资源。我相信自1996年以来已经取得了一些进展,但基本情况不太可能发生根本性的变化。如果这份调查报告写得很好,那么花时间阅读它是非常值得的。

对于OS X,请查看以下内容:

对于Windows,请查看以下内容:

我曾经使用过。它有一个很好的ASR(自动语音识别)引擎和一个很好的文本到语音引擎

网站不是很好,但这是一个嵌入式版本的链接


不过,它与平台无关,所有的东西都是通过MVC架构工作的,使用vxml作为xml的一种变体,用于语音目的。

这是一个巨大的问题,我不知道如何开始。。。所以,让我试着给你正确的“术语”,这样你就可以完善你的任务:

首先,要了解语音识别是一门多样而复杂的学科,它有许多不同的应用。人们倾向于将这个领域映射到他们想到的第一件事(通常是计算机理解你在IVR系统中所说的话)。因此,首先让我们将概念划分为以下几类:

人对机器:处理理解人在说什么的应用程序,但人知道他在和机器说话,语法非常有限。例如

  • 计算机自动化
  • 专业化:飞行员自动化一些控制装置(噪音是一个巨大的问题)
  • IVR(交互式语音响应)系统,如Google-411,或者当你打电话给银行时,另一边的计算机会说“说‘服务’来获得客户服务”
人与人之间(自发发言):这是一个更大、更复杂的问题。在这里,我们还可以将其分解为不同的应用程序:

  • 呼叫中心:代理客户之间的对话、电话质量、压缩
  • 情报:两人或两人以上之间的无线电/电话/现场对话
现在,从语音到文本不是你应该说的,你关心的。你关心的是解决一个问题。不同的技术被用来解决不同的问题。请参阅其中一些的概述。总之,其他方法有语音转录、LVCSR和基于直接的

另外,你有兴趣成为这项技术的博士吗?你需要一个与信号处理相关的硕士学位,可能还需要一个博士学位才能成为前沿。在这种情况下,您将为一家开发实际语音引擎的公司工作。像Nuance和IBM这样的公司是大公司,但菲利普斯和其他初创公司也存在

另一方面,如果您想成为一个实现应用程序的人,您将不会在引擎上工作,而是在构建使用引擎的应用程序。我认为一个很好的类比来自游戏行业: 你是在开发图形引擎(比如哭引擎),还是在开发几百个游戏中的一个,都使用相同的图形引擎

别误会我的意思,在IBM/Nuance的世界之外,还有很多关于搜索质量的工作要做。引擎通常是非常开放的,有很多算法调整要做,可以极大地影响性能。每个业务应用程序都有不同的约束条件和成本/收益函数,因此您可以进行多年的实验,构建更好的基于语音识别的应用程序

还有一件事:一般来说,您还希望在堆栈的较低位置具有良好的统计背景

目前,我主要感兴趣的是能够创建允许自动化的应用程序

很好,我们在这里会合。。。那么你对“从语音到文本”就没有兴趣了。这些流行语把你带到了完全转录的世界,一个你不需要去的地方。你应该把注意力集中在一些更重要的问题上