Language agnostic 如何从语音到文本开始?
我对语音到文本的算法很感兴趣,但我不确定从哪里开始研究它们。一系列的搜索让我找到了,但这是从1996年开始的,我相当肯定,从那时起已经有了改进 有这方面经验的人对阅读/检查源代码有什么建议吗?或者,如果我想进入语音识别程序的编写领域,我应该尝试了解哪些方面的一般建议(如果你对该领域没有太多的知识,有时很难知道要搜索什么) 编辑:我想做一些跨平台的事情,但目前我的目标是linux 编辑2:感谢csmba深思熟虑的回复。此时此刻,我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因此,有限数量的可识别命令能够串在一起。例如,一个音乐播放器接受“Play the album Hello Everything by Squarepusher”之类的命令,或者一个应用程序启动器,允许用户创建语音快捷方式来启动特定的应用程序Language agnostic 如何从语音到文本开始?,language-agnostic,speech-recognition,Language Agnostic,Speech Recognition,我对语音到文本的算法很感兴趣,但我不确定从哪里开始研究它们。一系列的搜索让我找到了,但这是从1996年开始的,我相当肯定,从那时起已经有了改进 有这方面经验的人对阅读/检查源代码有什么建议吗?或者,如果我想进入语音识别程序的编写领域,我应该尝试了解哪些方面的一般建议(如果你对该领域没有太多的知识,有时很难知道要搜索什么) 编辑:我想做一些跨平台的事情,但目前我的目标是linux 编辑2:感谢csmba深思熟虑的回复。此时此刻,我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因
我意识到这是一个相当大的问题,而且我目前还没有达到实现整个识别引擎所需的知识水平,尽管这样做所涉及的技术让我着迷,这也是我想努力去做的事情。很可能,我最终会拿起一两本关于这个主题的书,在空闲时间研究/玩“简单”的实现。你的目标平台是什么?。如果它用于windows,您可以使用它 如果你是这个领域的新手,我绝对建议你选择一两个。我没有这方面的经验,所以不能推荐。如果你还在上大学(或者关系密切),你应该看看你的教授是否能推荐你 你链接的调查可能也是一个很好的资源。我相信自1996年以来已经取得了一些进展,但基本情况不太可能发生根本性的变化。如果这份调查报告写得很好,那么花时间阅读它是非常值得的。对于OS X,请查看以下内容: 对于Windows,请查看以下内容:我曾经使用过。它有一个很好的ASR(自动语音识别)引擎和一个很好的文本到语音引擎 网站不是很好,但这是一个嵌入式版本的链接
不过,它与平台无关,所有的东西都是通过MVC架构工作的,使用vxml作为xml的一种变体,用于语音目的。这是一个巨大的问题,我不知道如何开始。。。所以,让我试着给你正确的“术语”,这样你就可以完善你的任务: 首先,要了解语音识别是一门多样而复杂的学科,它有许多不同的应用。人们倾向于将这个领域映射到他们想到的第一件事(通常是计算机理解你在IVR系统中所说的话)。因此,首先让我们将概念划分为以下几类: 人对机器:处理理解人在说什么的应用程序,但人知道他在和机器说话,语法非常有限。例如
- 计算机自动化
- 专业化:飞行员自动化一些控制装置(噪音是一个巨大的问题)
- IVR(交互式语音响应)系统,如Google-411,或者当你打电话给银行时,另一边的计算机会说“说‘服务’来获得客户服务”
- 呼叫中心:代理客户之间的对话、电话质量、压缩
- 情报:两人或两人以上之间的无线电/电话/现场对话