Algorithm 为什么不是';语音识别的发展?

Algorithm 为什么不是';语音识别的发展?,algorithm,speech-recognition,Algorithm,Speech Recognition,这个问题有什么困难,以至于算法设计者很难解决 真的那么复杂吗 我很难理解为什么这个话题如此有问题。有人能给我举个例子说明为什么会这样吗?因为如果人们发现很难理解其他口音很重的人,为什么你认为计算机会做得更好?语音合成本身非常复杂-许多参数被组合在一起形成结果语音。即使对人来说,把它拆开也很难——有时你会把一个词错当成另一个词。beecos iyfe peepl发现很难用一个词来理解它,因为它是由一个词组成的 我打赌你花了半秒钟才弄清楚我到底在打什么,而我所做的只是用不同的“口音”重复西蒙斯的答案

这个问题有什么困难,以至于算法设计者很难解决

真的那么复杂吗


我很难理解为什么这个话题如此有问题。有人能给我举个例子说明为什么会这样吗?

因为如果人们发现很难理解其他口音很重的人,为什么你认为计算机会做得更好?

语音合成本身非常复杂-许多参数被组合在一起形成结果语音。即使对人来说,把它拆开也很难——有时你会把一个词错当成另一个词。

beecos iyfe peepl发现很难用一个词来理解它,因为它是由一个词组成的


我打赌你花了半秒钟才弄清楚我到底在打什么,而我所做的只是用不同的“口音”重复西蒙斯的答案。处理能力还没有达到,但正在逐步提高。

这不是我的领域,但我相信它正在缓慢发展


我相信西蒙的回答在某种程度上是正确的:问题的一部分是,没有两个人在计算机编程识别的模式方面说话是一样的。因此,分析语音是困难的。

语言的多样性将是主要因素,这使分析变得困难。方言和口音会让事情变得更复杂。还有,上下文。这本书已经读过了。这本书是红色的。您如何确定差异。这样做所需的额外工作将使刚开始键入内容变得更容易

现在,如果有必要的话,可能会有更多的努力投入到这方面,但其他形式的数据输入进展如此之快,以至于人们认为没有必要

当然,在某些领域,它将是伟大的,甚至是非常有用或有用的。您忙得不可开交或无法在屏幕上查看输入的情况。帮助残疾人等,但其中大多数都是有自己解决方案的利基市场。也许其中一些正在朝着这个方向努力,但大多数使用计算机的环境都不适合语音识别。我喜欢安静的工作环境。与计算机无休止的交谈将使相声成为一个现实问题


除此之外,除非你在电脑上听写散文,否则任何其他类型的输入都会更容易、更快地使用键盘、鼠标或触摸。我曾经尝试过使用语音输入进行编码。整个过程从头到尾都是痛苦的。

计算机从一开始就连自然语言处理都不是很好。他们很擅长匹配,但当涉及到推断时,它会变得毛茸茸的


然后,试图从数百种不同的口音/词形变化中找出同一个单词,突然之间,事情就变得不那么简单了。

大多数时候,我们人类是根据上下文理解的。因此,一个恰当的句子与整个对话是和谐的。不幸的是,计算机在这个意义上有很大的缺陷。它只是试图抓住这个词,而不是它之间的东西


我们可以理解,一个英语口音很差的外国人可能会猜测他想说什么,而不是他实际上在说什么

要想很好地识别语音,你需要知道人们的意思——而计算机根本不存在。

因为它破产了:)


(对不起,作为一个比利时人,我无法抗拒)

我的G1上有谷歌语音搜索,它运行得非常好。答案是,领域在前进,但你只是没有注意到

你自己说的,算法设计者正在研究它。。。但是语言和语音不是一种算法结构。它们是高度复杂的人类系统发展的高峰,涉及概念、元概念、语法、例外、语法、音调、情感、神经元以及荷尔蒙活动等


语言需要一种高度启发性的方法,这就是为什么进展缓慢,前景可能不太乐观的原因。

我记得读过一篇文章,说微软有一个致力于语音识别的团队,他们称自己为“Crank a Nice Beach”团队(这是他们自己的软件给他们起的名字)


要真正将语音转换成文字,并不像映射离散的声音那样简单,还必须理解上下文。该软件需要包含人类一生的经验

我曾经问过我的导师一个类似的问题;我问他做一个语音到文本转换有什么挑战。在他给出的答案中,他让我念“p”和“b”。然后他说,他们在一开始有很小的差异,然后他们听起来很相似。我的观点是,识别声音是很困难的,识别声音会更困难。另外,请注意,一旦你记录了人们的声音,你存储的只是数字。想象一下,试图找到口音、频率和其他参数等指标,这些参数除了数字矩阵等输入之外,对识别语音非常有用。计算机擅长数字处理等,但声音并不是真正的“数字”。你需要对声音进行数字编码,然后对其进行所有计算。

基本问题是人类的语言是模糊的。因此,为了理解语音,计算机(或人类)需要理解所说内容的上下文。这种语境实际上是说话者和听者所居住的物理世界。目前还没有一个人工智能程序能够证明对物理世界有深刻的理解。

如果语音识别能够用比人脑少得多的MIPS实现,那么我们真的可以与动物对话


如果进化不需要做这项工作,它就不会把这些卡路里花在灰质上。

这种问题比语音识别更普遍。 它存在als