Algorithm 为什么不是'；语音识别的发展？_Algorithm_Speech Recognition

Algorithm 为什么不是'；语音识别的发展？

algorithm speech-recognition

Algorithm 为什么不是'；语音识别的发展？,algorithm,speech-recognition,Algorithm,Speech Recognition,这个问题有什么困难，以至于算法设计者很难解决真的那么复杂吗我很难理解为什么这个话题如此有问题。有人能给我举个例子说明为什么会这样吗？因为如果人们发现很难理解其他口音很重的人，为什么你认为计算机会做得更好？语音合成本身非常复杂-许多参数被组合在一起形成结果语音。即使对人来说，把它拆开也很难——有时你会把一个词错当成另一个词。beecos iyfe peepl发现很难用一个词来理解它，因为它是由一个词组成的我打赌你花了半秒钟才弄清楚我到底在打什么，而我所做的只是用不同的“口音”重复西蒙斯的答案

这个问题有什么困难，以至于算法设计者很难解决

真的那么复杂吗

我很难理解为什么这个话题如此有问题。有人能给我举个例子说明为什么会这样吗？

因为如果人们发现很难理解其他口音很重的人，为什么你认为计算机会做得更好？

语音合成本身非常复杂-许多参数被组合在一起形成结果语音。即使对人来说，把它拆开也很难——有时你会把一个词错当成另一个词。

beecos iyfe peepl发现很难用一个词来理解它，因为它是由一个词组成的

我打赌你花了半秒钟才弄清楚我到底在打什么，而我所做的只是用不同的“口音”重复西蒙斯的答案。处理能力还没有达到，但正在逐步提高。

这不是我的领域，但我相信它正在缓慢发展

我相信西蒙的回答在某种程度上是正确的：问题的一部分是，没有两个人在计算机编程识别的模式方面说话是一样的。因此，分析语音是困难的。

语言的多样性将是主要因素，这使分析变得困难。方言和口音会让事情变得更复杂。还有，上下文。这本书已经读过了。这本书是红色的。您如何确定差异。这样做所需的额外工作将使刚开始键入内容变得更容易

现在，如果有必要的话，可能会有更多的努力投入到这方面，但其他形式的数据输入进展如此之快，以至于人们认为没有必要

当然，在某些领域，它将是伟大的，甚至是非常有用或有用的。您忙得不可开交或无法在屏幕上查看输入的情况。帮助残疾人等，但其中大多数都是有自己解决方案的利基市场。也许其中一些正在朝着这个方向努力，但大多数使用计算机的环境都不适合语音识别。我喜欢安静的工作环境。与计算机无休止的交谈将使相声成为一个现实问题

除此之外，除非你在电脑上听写散文，否则任何其他类型的输入都会更容易、更快地使用键盘、鼠标或触摸。我曾经尝试过使用语音输入进行编码。整个过程从头到尾都是痛苦的。

计算机从一开始就连自然语言处理都不是很好。他们很擅长匹配，但当涉及到推断时，它会变得毛茸茸的

然后，试图从数百种不同的口音/词形变化中找出同一个单词，突然之间，事情就变得不那么简单了。

大多数时候，我们人类是根据上下文理解的。因此，一个恰当的句子与整个对话是和谐的。不幸的是，计算机在这个意义上有很大的缺陷。它只是试图抓住这个词，而不是它之间的东西

我们可以理解，一个英语口音很差的外国人可能会猜测他想说什么，而不是他实际上在说什么

要想很好地识别语音，你需要知道人们的意思——而计算机根本不存在。

因为它破产了：）

（对不起，作为一个比利时人，我无法抗拒）

我的G1上有谷歌语音搜索，它运行得非常好。答案是，领域在前进，但你只是没有注意到

你自己说的，算法设计者正在研究它。。。但是语言和语音不是一种算法结构。它们是高度复杂的人类系统发展的高峰，涉及概念、元概念、语法、例外、语法、音调、情感、神经元以及荷尔蒙活动等

语言需要一种高度启发性的方法，这就是为什么进展缓慢，前景可能不太乐观的原因。

我记得读过一篇文章，说微软有一个致力于语音识别的团队，他们称自己为“Crank a Nice Beach”团队（这是他们自己的软件给他们起的名字）

要真正将语音转换成文字，并不像映射离散的声音那样简单，还必须理解上下文。该软件需要包含人类一生的经验

我曾经问过我的导师一个类似的问题；我问他做一个语音到文本转换有什么挑战。在他给出的答案中，他让我念“p”和“b”。然后他说，他们在一开始有很小的差异，然后他们听起来很相似。我的观点是，识别声音是很困难的，识别声音会更困难。另外，请注意，一旦你记录了人们的声音，你存储的只是数字。想象一下，试图找到口音、频率和其他参数等指标，这些参数除了数字矩阵等输入之外，对识别语音非常有用。计算机擅长数字处理等，但声音并不是真正的“数字”。你需要对声音进行数字编码，然后对其进行所有计算。

基本问题是人类的语言是模糊的。因此，为了理解语音，计算机（或人类）需要理解所说内容的上下文。这种语境实际上是说话者和听者所居住的物理世界。目前还没有一个人工智能程序能够证明对物理世界有深刻的理解。

如果语音识别能够用比人脑少得多的MIPS实现，那么我们真的可以与动物对话

如果进化不需要做这项工作，它就不会把这些卡路里花在灰质上。

这种问题比语音识别更普遍。它存在als