Speech recognition 谷歌语音识别是如何工作的?

Speech recognition 谷歌语音识别是如何工作的?,speech-recognition,Speech Recognition,我知道用音频指纹识别音频文件,这很了不起,但我真正想知道的是谷歌是如何制作语音识别API的,他们是如何获取音频和返回的单词的 我写了一个gem来对wav音频文件进行指纹识别并对它们进行比较,但是如果我使用指纹来将我的声音与一个充满指纹的数据库进行比较,这可能需要很长时间。谷歌是如何做到的 目的: 我真的很喜欢语音识别,我想找个地方开始编码,但我不知道从哪里开始。DragonVoice是语音识别软件的另一个例子,所有这些软件都非常快 我想知道从获取音频记录到将其转换为文本的服务器流程。使用源Luk

我知道用音频指纹识别音频文件,这很了不起,但我真正想知道的是谷歌是如何制作语音识别API的,他们是如何获取音频和返回的单词的

我写了一个gem来对wav音频文件进行指纹识别并对它们进行比较,但是如果我使用指纹来将我的声音与一个充满指纹的数据库进行比较,这可能需要很长时间。谷歌是如何做到的

目的:

我真的很喜欢语音识别,我想找个地方开始编码,但我不知道从哪里开始。DragonVoice是语音识别软件的另一个例子,所有这些软件都非常快

我想知道从获取音频记录到将其转换为文本的服务器流程。

使用源Luke:-)

同类最佳的开源语音识别软件(imho):CMUSphinx

学习曲线有点陡峭,但它应该是值得的

FWIW,Stackoverflow上标签语音识别的描述说:语音识别意味着识别正在说话的人,经常被误用为“语音识别”——识别正在说话的内容

如前所述,这是一个非常常见的错误:-)

玩得开心

使用来源,卢克:-)

同类最佳的开源语音识别软件(imho):CMUSphinx

学习曲线有点陡峭,但它应该是值得的

FWIW,Stackoverflow上标签语音识别的描述说:语音识别意味着识别正在说话的人,经常被误用为“语音识别”——识别正在说话的内容

如前所述,这是一个非常常见的错误:-)

玩得开心

使用来源,卢克:-)

同类最佳的开源语音识别软件(imho):CMUSphinx

学习曲线有点陡峭,但它应该是值得的

FWIW,Stackoverflow上标签语音识别的描述说:语音识别意味着识别正在说话的人,经常被误用为“语音识别”——识别正在说话的内容

如前所述,这是一个非常常见的错误:-)

玩得开心

使用来源,卢克:-)

同类最佳的开源语音识别软件(imho):CMUSphinx

学习曲线有点陡峭,但它应该是值得的

FWIW,Stackoverflow上标签语音识别的描述说:语音识别意味着识别正在说话的人,经常被误用为“语音识别”——识别正在说话的内容

如前所述,这是一个非常常见的错误:-)


玩得开心

值得一提的是,语音识别并不是在浏览器中完成的。音频被发送到谷歌的服务器,经过处理,然后文本返回。谷歌实际上发布了一些他们是如何做到这一点的信息。这里有一个由谷歌员工和附属公司撰写的关于语音处理的论文列表,有这样的博客帖子,最后是一些视频,比如(涵盖基础知识)。请记住,这是语音到文本以及谷歌在键入时所做的建议和更正的组合。这真的很好。值得一提的是,语音识别不是在浏览器中完成的。音频被发送到谷歌的服务器,经过处理,然后文本返回。谷歌实际上发布了一些他们是如何做到这一点的信息。这里有一个由谷歌员工和附属公司撰写的关于语音处理的论文列表,有这样的博客帖子,最后是一些视频,比如(涵盖基础知识)。请记住,这是语音到文本以及谷歌在键入时所做的建议和更正的组合。这真的很好。值得一提的是,语音识别不是在浏览器中完成的。音频被发送到谷歌的服务器,经过处理,然后文本返回。谷歌实际上发布了一些他们是如何做到这一点的信息。这里有一个由谷歌员工和附属公司撰写的关于语音处理的论文列表,有这样的博客帖子,最后是一些视频,比如(涵盖基础知识)。请记住,这是语音到文本以及谷歌在键入时所做的建议和更正的组合。这真的很好。值得一提的是,语音识别不是在浏览器中完成的。音频被发送到谷歌的服务器,经过处理,然后文本返回。谷歌实际上发布了一些他们是如何做到这一点的信息。这里有一个由谷歌员工和附属公司撰写的关于语音处理的论文列表,有这样的博客帖子,最后是一些视频,比如(涵盖基础知识)。请记住,这是语音到文本以及谷歌在键入时所做的建议和更正的组合。这真的很好。