Speech Recognition_IT技术博客_编程技术问答

Speech recognition 在Sphinx4中使用GRXML语法

标签： Speech Recognition speech-to-textspeechcmusphinxsphinx4

sphinx是否支持使用GR-XML语法，还是必须将现有语法转换为java语音语法格式 sphinx支持使用GR-XML语法吗是的，请参阅最新版本sphinx4-5Realpha中的对话框演示还是必须将现有语法转换为java语音语法格式没有

Speech recognition tvOS中是否有类似SFSpeechRecognizer的框架？

标签： Speech Recognition tvossirikittvos10sfspeechrecognizer

我想为tvOS开发一个应用程序，它可以识别语音并将其转换为文本，然后根据文本执行一些操作。我已经在iOS 10中使用了SFSpeechRecognizer类Speech框架实现了这一点。我找不到tvOS的任何框架。我不确定tvOS10是否有公共API可用于麦克风。这方面有什么新闻/变化吗？我也想这样做。

Speech recognition google语音api和获取有效的语音上下文

标签： Speech Recognition google-speech-apigoogle-cloud-python

我已经用Python设置了一个同步识别脚本，该脚本按照预期工作，返回我发送到Google语音API的各种音频文件的转录本。然而，我似乎无法获得语音上下文提示（Python中的speech_上下文；“Google文档中的短语提示/speechContext”）来做任何有用的事情。我有一个音频文件，其中说话者清楚地说出了“健康”一词，但每次都被转录为“房子”，尽管明确告诉它要查找下面代码中的“健康”一词，但它没有找到它。要使此功能有效，有什么建议吗 config = types.Recognitio

Speech recognition 语音产生过程

标签： Speech Recognition speech

我正在学习Rabiner书中的语音识别。在这本书中，作者提出了一个问题解释产生浊音、清音和爆破音的不同语音产生过程作者说：当声带绷紧+气流，然后是浊音当声带放松+气流，然后是清音但没有提到爆破音，是的，他确实提到了瞬态声音。那么瞬态声音和爆破音是一样的吗？我认为你对事物的分类方式可能会让你感到困惑。浊音和清音是特定类别中的两种声音。爆破音可以是浊音也可以是清音；它不是同一类别中的第三种声音关于你原来的问题，我不认为爆裂和瞬变的声音是等价的。爆破音是指当你暂时阻止空气排出，然后立即释放空气时发出

Speech recognition 什么'；现在语音识别的一般状态是什么？

标签： Speech Recognition

我目前正在评估cyrrebt状态的语音识别（SR）技术，似乎有相当多的API和服务正在涌现我自己的SR经验是，关键字匹配可以很好地与多个说话人进行匹配，听写可以在非常受控的环境中与训练有素的说话人进行匹配。这仍然是真的吗？有没有什么好的方法可以对任意音频文件的文本进行语音转换？可以是音频流中的关键字匹配以进行索引，也可以是对完整转录的尝试有人对nuance与其他引擎和开源解决方案的比较有什么评论吗？虽然围绕语音识别设计的更新、更友好的应用程序将继续被编写，但语音识别本身已经到了一堵砖墙。即使

Speech recognition 如何在PocketSphinx Android启动时改进语音识别？

标签： Speech Recognition pocketsphinx-android

我在Android上使用PocketSphinx。识别器初始化后，我启动一个关键字侦听器。首先，识别器将不匹配任何内容。但是，几秒钟后，识别器开始匹配性能优异的关键词（初始测试中约为3%）。开始匹配所需的时间取决于单词/短语。这似乎还取决于你说这个词的次数。例如，“plus”匹配非常快，通常在第一次或第二次说话时匹配，平均需要2秒钟。另一方面，“请帮个小忙”大约需要10秒钟，或者说大约8-10句话。匹配任何关键字后，Sphinx将为所有关键字进入其高性能模式。因此，一种解决方法（虽然不是很好）是

Speech recognition 如何通过音频处理检测单词边界/估计单词数？（不带语音识别）

标签： Speech Recognition web-audio-apispeech-to-textspeechaudio-processing

是否有可能通过离线的基本音频处理来检测单词边界，以获得足够准确的WPM*估计？我认为可以通过检测停顿（表示单词边界）来实现。它会是跨语言的并且适用于所有语言吗在传统语音识别中[（不是/相反）现代机器/深度学习语音识别]，哪一个被认为是更容易/解决的部分，找到单词边界或统计匹配它们到正确的单词我用过的样本：* Audacity中波形视图上标记的文字边界：我将在浏览器中使用Web音频API和从Web音频API执行此操作 *每分钟字数 *更多关于我正在做的事情/我的想法：我是名为“媒体增

Speech recognition Microsoft.Speech.Synthesis不适用于文本到语音，但System.Speech.Synthesis有效。为什么？

标签： Speech Recognition text-to-speechsapispeech-synthesis

我只是尝试使用microsoft.Speech.dll运行简单的microsoft文本到语音示例 using System; using Microsoft.Speech.Synthesis; namespace TTS { class Program { public static void Main(string[] args) { Console.WriteLine("Testing TTS!");

Speech recognition 如何将音频数据直接传递到Sphinx4

标签： Speech Recognition sphinx4

我想使用Sphinx4作为我系统的一部分。而且，我已经尝试了HelloWorld演示，它直接使用麦克风。此外，我还看到了有关使用音频文件的示例所以，我的问题是，是否还有其他方法来识别声音？例如，识别短类型数据（例如short[]buffer）除了使用麦克风或wav文件（音频文件），我找不到其他方法例如，PocketSphinx具有processRaw函数，该函数在本问题（）中描述 Sphinx4中是否没有相应的函数？要从字节数组馈送数据，需要执行以下操作：将前端配置为使用而不是麦克风或A

Speech recognition 服务识别文本，直到我暂停，之后什么也没有

标签： Speech Recognition speech-to-textbingmicrosoft-cognitive

我正在开发一个应用程序，它可以让用户讲一个简短的故事（1-2分钟）并将其转录成文本我使用MediaCapture流式传输录制的语音，并将其通过分块传输编码发送到Bing语音API。除了一个问题外，一切都很好：如果用户暂停几秒钟，并且在确认暂停后没有继续说任何话我用一个录制的wav文件尝试了同样的方法，以确保分块传输不是这个问题的根源。但它产生了同样的行为。因此，传输是正确的，我得到了一个有效的响应，但只针对记录的第一部分有人遇到过同样的问题吗？这是故意的吗？如果是这样的话：有没有办法避免这

Speech recognition 将选项附加到GrammarBuilder对象奇怪的行为

标签： Speech Recognition

假设我想将这个正则表达式放入Choice对象total_Choice中，它将成为更大语法的一部分：value（[3-9][0-9]|[1-7][0-9]）这就是我构建它的方式： Choices total_choice= new Choices(); Choices all_digits = new Choices(new string[] { "0", "1", "2", "3", "4", "5", "6", "7", "8", "9" }); // value [3-9][0-9]

Speech recognition 有语音识别和情感分析的标准吗？

标签： Speech Recognition voice-recognitionspeech-to-textalexagoogle-assistant-sdk

关于TTS（文本到语音） SSML（）现在似乎是语音合成“元数据”规范的标准语言，用于控制语音的各个方面，如语音、音量、音高、速率等，跨不同的合成平台（它已被Amazon Alexa、Google Actions和其他API采用为标准）相反，关于ASR（自动语音识别）情绪分析是否有类似的标准我的意思是，在录音讲话中识别情绪分析的一个可能的参数标准？目前，我在著名的Google Actions/Amazon Alexa平台API中没有看到类似的内容。我错了有什么想法吗

Speech recognition 错误：“；请求有效负载大小超出限制：10485760字节。”&&引用；请求有效负载大小超出限制：10485760字节；

标签： Speech Recognition speech-to-textgoogle-cloud-speechaws-transcribe

我们第一次在一个网络项目中使用GCS语音API，通过对长音频文件的异步语音识别调用将音频转录成文本。但是长音频文件（超过1分钟）或大于10 MB的不起作用。即使是视频文件也无法转录。我们已经尝试了以下代码 GoogleCredential googlecredetion; private async Task TranscribeFiles() { try { googlecredetion = await

Speech recognition 用于3+的扬声器日记工具；参与者

标签： Speech Recognition microsoft-cognitiveazure-cognitive-servicesspeaker

我们有一个视频库3k+文件，主要是技术会议和市政厅，单声道，带1-10个扬声器。现在我们要运行演讲者日志化过程。我们尝试使用批转录RESTAPI 但它似乎只有两个扬声器的限制。我们还调查了会话转录服务但它需要多通道音频流输入请您推荐我们可以使用的认知服务工具（如果有的话）来解决我们的任务谢谢正如您所注意到的，批处理目前仅限于2人的日记处理。我们预计在11月/12月将批量使用一个新的Dialization提供商，该提供商将在单声道输入音频流上支持10个扬声器我现在不知道有什么认知服务

Speech recognition 是否有语音到文本API或一些；“黑客”；通过它我可以使用谷歌'；s的语音到文本设备？

标签： Speech Recognition Google Api

我认为谷歌的语音到文本功能（谷歌语音自动抄录语音邮件、YouTube视频自动字幕等）令人印象深刻我确实想看看谷歌是否通过API提供了它，但他们似乎没有（我并没有责怪他们！）。不过，提供语音到文本功能的云计算服务将非常酷有没有什么“黑客”可以让我把演讲变成文字。我的架构基本上可以归结为这一点-一个简短的15-20秒的wav/mp3/其他剪辑作为输入，输出是纯文本人们有什么想法吗？有很多语音到文本的API。仅仅因为谷歌没有提供他们的服务，并不意味着你运气不好这是给C#的一个好的。如果你的平台

Speech recognition IOS中的自动语音识别

标签： Speech Recognition speech

根据我的应用程序要求，它应该自动检测或识别用户的语音或语音。任何人都可以通过我的链接，这很好提前谢谢试试看。现在它是最好的语音识别服务之一。试试看。现在，它是最好的语音识别服务之一。基于PocketSphinx引擎的OpenEars示例在词汇表较少的情况下做得非常好：基于PocketSphinx引擎的OpenEars示例在词汇表方面做得非常好：你应该问谷歌你应该问谷歌

Speech recognition 语音识别中的一个强制对齐问题&HTK

标签： Speech Recognition htk

我有一个系统，要求用户在提示后重复一句话。它使用HTK将用户说出的句子强制对齐到预定义的单词级标签文件（句子的）以获得时间对齐的电话级文件。HMM经过大量数据的训练，并使用HVite提供非常精确的时间对齐文件。当用户没有说出要求说出的确切句子时，我的问题就出现了。让我举例说明：需要说出的目标句子的单词级标签文件（用户已知）：今天是非常好的一天用户表示（案例1）：今天是非常好的一天。在这种情况下，用户重复了完全相同的句子。时间对齐的文件非常准确，一切都很好用户说（案例2）：今天是个好日子

Speech recognition 如何在Android上实现语音唤醒

标签： Speech Recognition voicephrase

我想通过说“你好，杰克”来唤醒Android应用程序中的一些功能。据我所知，有一种叫做“短语识别”的技术可以识别特定的语音，例如“你好，杰克”。但我不知道如何实施“短语识别” 有人有更多的想法或建议吗谢谢。最简单、资源效率最高的方法是实现动态时间扭曲DTW，用于关键字发现您可以使用CMUSphinx工具包提取MFCC特性，这将节省大量的时间来实现它们我首先建议采用这种简单的方法首先使用一个简单的集合来匹配您想要的关键字，如下所示： public class WordMatcher {

Speech recognition 408请求超时Microsoft语音到文本

标签： Speech Recognition speech-to-textmicrosoft-cognitive

我的.wav文件长度只有4秒。即使在多次重试并在云上运行之后，我也会不断地遇到以下错误 * upload completely sent off: 12 out of 12 bytes < HTTP/1.1 408 Request timed out (> 14000 ms) < Transfer-Encoding: chunked < Content-Type: text/plain < Server: Microsoft-IIS/8.5

Speech recognition Google语音API与Voxcommando的集成

标签： Speech Recognition

我真的很希望有人知道下一步的解决方案：我想将MS语音识别与voxcommando（语音识别器）结合使用，但要使用我自己的语言（Hunagarian）不幸的是，语言包不包括匈牙利语包有没有可能使用Google hunagrian语言包或以任何方式为MS语音平台创建匈牙利语言包非常感谢您的每一个评论如果您围绕Google API实现SAPI 5引擎，您将能够使用它。这不是一个简单的任务。如果你围绕谷歌API实现SAPI 5引擎，你就可以使用它。这不是一项琐碎的任务。可能是重复的

Speech recognition 有没有一种方法可以通过MS说话人识别将MS语音与文本连接起来？

标签： Speech Recognition microsoft-cognitivespeaker

我正在与microsoft speech to text建立一个项目。它工作正常，我可以把我说的话转录成文本，然后发送给其他信号机订户但是，我现在需要将其与说话人识别接口。换言之：我希望我的演讲文本只识别几个发言者目前我使用的是classic类，它使用默认的麦克风并在运行中进行翻译然后，我使用该类开始识别在将音频流量发送到翻译服务之前，是否有方法获取音频流量，以检查用户是否正确，然后在验证正常后，恢复标准执行我认为这是最好的主意，但我愿意接受任何想法或架构更改感谢您的投入感谢您联系我

Speech recognition 卡尔迪：迁移学习

标签： Speech Recognition kaldi

我正在尝试使用一个模型在Kaldi ASR上进行迁移学习，该模型已经在通用语音上进行了预训练，并且有一个自定义的有限词汇数据集。但是，我发现，相对于要提供给egs/commonvoice/s5/steps/online/nnet2/prepare\u online\u decoding\u Retain.sh的配置文件，文档非常有限这些是我提供的参数，仅供参考 steps/online/nnet2/prepare_online_decoding_transfer.sh --cmd run.pl

Speech recognition 我可以在Windows Server 2003中使用Vista语音API吗？

标签： Speech Recognition

我在iphone上编写了一个小应用程序，将30秒的语音传输到一个通过远程处理调用windows服务的Web服务器，该服务使用windows 2003服务器上的SAPI5.1，通过defuault识别器将波形转换为文本我想将引擎更新为最新版本，并添加一个为在Vista中运行而创建的医疗语音模型。我可以通过windows 2003 server和在.net 3.5库中编写的应用程序执行此操作。Vista是否只使用了3.5.NETlibs。我可以通过注册表或api调用更改语音模型吗？我知道在vist

Speech recognition 狮身人面像4损坏的ARPA LM？

标签： Speech Recognition speech-to-textn-gramsphinx4language-model

我有一个由生成的ARPA LM，当运行SPHINX时，我得到以下异常堆栈跟踪： Exception in thread "main" java.lang.RuntimeException: Allocation of search manager resources failed at edu.cmu.sphinx.decoder.search.WordPruningBreadthFirstSearchManager.allocate(WordPruningBreadthFirs

Speech recognition 麦克风的质量如何影响语音识别？

标签： Speech Recognition microphonespeechspeech-to-text

我访问过的大多数网站都明确表示，对于语音识别，麦克风的质量越高，效果越好。我一直在浏览更多的细节，比如下面这些事情是如何影响语音识别的- 敏感度信噪比频率响应输出阻抗但我想更详细地了解这些因素对演讲的影响。信噪比对于噪声消除是有意义的，但是我对其他的不太了解我已经签出的一些网站- 信噪比非常重要；通常，同样重要的是恒定的音频电平，这就是为什么近距离通话话筒比台式话筒工作得更好的原因。频率响应很重要，尤其是相当平坦的响应；广泛的响应（任何超过12 KHz的响应）就不那么重要了。输出

Speech recognition 使用HTK进行关键词识别

标签： Speech Recognition speech-to-textcmusphinxhtkkeyword-spotting

最近我专注于一个项目来实现一个关键字识别系统。我之前使用过HTK进行语音识别。现在我想知道是否可以使用HTK实现我的关键字检测工具？语音识别和关键字检测是非常相关的问题对于HTK，两种解决方案之一是可行的：构建一个单词循环语法，其中包含要搜索的单词列表、垃圾和静默单元。有关详细信息，请参阅HTKbook中的HBuild 执行常规的语音解码，这将生成一个字格（.slf in HTK）。然后将其转换为共识网络（香肠），例如，搜索得分高于某个阈值的单词我读过HBuild，但没有发现任何与我的目的

Speech recognition 如何获取使用Sphinx说出单词的时间戳

标签： Speech Recognition cmusphinxsphinx4

我目前正在尝试获取一个单词的时间戳，该单词已使用CMU Sphinx检测到 while ((result = recognizer.getResult()) != null) { for(WordResult w : result.getWords()){ if(w.getWord() != Word.UNKNOWN){ System.out.println(w.getTimeFrame().getStart()); Sys

Speech recognition Sphinxtrain返回pocketsphinx以外的其他结果

标签： Speech Recognition speech-to-textcmusphinxpocketsphinx

我终于成功了。培训后，我的WER（文字错误率）为0%。我只有一个用于简单语音识别的小数据集（仅用于另一种语言中的单词“是”和“否”）。我使用sphinxtrain（126个训练文件，12个测试文件）进行了培训。音频文件的长度约为5秒，包含8个单词（是/否混合）经过培训后，我决定带上我的测试文件，在pocketsphinx中运行它们。几乎我测试的每个文件都有至少一个单词的错误。有时它比预期多识别1-2个单词。有时，它会将“是”视为“否” 我想知道为什么我从sphinxtrain和pocketsp

Speech recognition 如何在microsoft认知系统中从单个音频文件中识别多个扬声器

标签： Speech Recognition microsoft-cognitive

我正在使用说话人识别API，我已成功注册并识别说话人。现在，我有多个用户在一个音频中讲话，如何从音频中识别多个用户？说话人识别API只接受单个说话人的音频作为输入。如果您的音频包含多个扬声器，请先将音频按扬声器分开。根据您的场景，您可以使用双扬声器分离（重分类）功能（）或使用带有CTS的特定麦克风阵列设置（）。CTS中嵌入了相同的说话人识别技术，您无需单独调用说话人识别服务

Speech recognition 对ASR的MFCC系数应用K-均值

标签： Speech Recognition k-meansspeechmfcc

我已将音频信号划分为20毫秒帧，重叠10毫秒。因此，我有500帧。我已经计算了每一帧的MFCC系数。我想用K-均值算法对每一帧进行矢量量化我有16个MFCC系数每帧向量长度：16。现在K-MEAN需要2个向量来形成聚类图，一个沿着X，一个沿着Y，但是我只有一个向量，每帧16个MFCC系数那我该怎么做呢？我是否选取相邻帧并对相邻帧应用K均值现在K-均值需要2个向量来形成聚类图，一个沿着X，一个沿着Y 事实并非如此，kmeans算法可以对任意数量的向量进行聚类那我该怎么做呢？我是否选取相邻帧

Speech recognition 使用pocketsphinx检测非常不寻常的单词

标签： Speech Recognition speech-to-textcmusphinxpocketsphinx

我正在做一个项目，需要在树莓pi上运行pocketsphinx进行关键字检测。对于我的项目，关键字是非常不寻常的/完全虚构的，因此在这个特定用例之外不太可能听到它们。如果有足够的数据，调整现有的英国声学模型是否足以应对这种情况？如果没有，我还可以如何解决这个问题？您有关键字的语音表示吗？如果你只是把它们添加到词典中，它应该可以正常工作。尤其是如果你把字典限制在几百个单词以内。你能向云查询检测结果吗？还是必须进行本地检测？@deef我会试试语音表示法。我们可能可以查询云，但它必须非常快。如果你对查

Speech recognition 为什么voximal没有'；你不录我的演讲吗？

标签： Speech Recognition speech-to-textapi-ai

我正在尝试将我们正在创建的机器人与api.ai集成。我已经成功地配置了几乎所有的东西。我可以打电话，听到我在XML文件中输入的文本。但是，当我回答时，没有记录任何输入我已经创建了一个google语音API密钥，并将其添加到“识别”中，但没有成功，它不接受我的语音输入这是我的识别标签：下面是我的XML代码示例： <?xml version="1.0"?> <vxml version="2.0" xmlns="http://www.w3.org/2001/vxml" x

Speech recognition Kaldi:qsub的输出是：qsub:unligal-c value“&引用；当尝试运行公共语音配方时

标签： Speech Recognition qsubkaldi

我正在尝试在我的计算机上运行Kaldi的Common Voice recipe（）（即，不在集群上）。它崩溃时出现错误消息，qsub的输出为：qsub:invalize-c value”“。可能是什么问题具体而言，以下是整个错误堆栈： [...] Succeeded in formatting LM: 'data/local/lm.gz' steps/make_mfcc.sh --cmd queue.pl --mem 2G --nj 20 data/valid_train exp/make_

Speech recognition 基于语音识别的原型系统

标签： Speech Recognition

我想创建一个基于自动语音识别的原型来处理报告需求目前还不确定，但首先我将获得一些虚拟数据集。首先，我将集中讨论声音信号的输入和进一步的处理我真的不知道如何开始，哪个开发环境，编程语言我更愿意与VisualStudio合作，因为我已经有了许可证，但我对这个提议持开放态度你有一些教程、想法和经验吗？（我正在重复使用最近发给朋友的一封电子邮件。我希望它能有所帮助）微软有两种语音引擎：桌面和服务器。桌面语音引擎附带了各种产品，包括：MS Office 2003、Windows Vista和W

Speech recognition 用有限状态文法（JSGF）训练CMU Sphinx的声学模型

标签： Speech Recognition cmusphinx

我需要训练我自己的声学模型。在官方wiki上，这个过程是用DMP格式为ngramm模型描述的，但是我需要使用JSGF格式提供的（语法）语言模型。有这种可能性吗？如果是这样的话，你能给我一个关于这个主题的教程吗？修改是最小的。在安装位置或脚本中打开psdecode.pl脚本并进行更改 -lm => $ST::DEC_CFG_LANGUAGEMODEL, 到修改是最小的。在安装位置或脚本中打开psdecode.pl脚本并进行更改 -lm => $ST::DEC_CFG_LANGUAG

Speech recognition 格中的断言错误

标签： Speech Recognition cmusphinxsphinx4

我已经和斯芬克斯斗争了一段时间了，突然间我不断地得到这个断言错误，其内容如下： Exception in thread "main" java.lang.AssertionError at edu.cmu.sphinx.result.Lattice.<init>(Lattice.java:170) at edu.cmu.sphinx.api.SpeechResult.<init>(SpeechResult.java:43) at edu.cmu.sphinx.api.Ab

Speech recognition 如何为pocketsphinx创建脱机.dic文件

标签： Speech Recognition pocketsphinx

如何为pocketsphinx创建脱机.dic文件？我以前用过，但现在不行了。所以我创建了.lm文件 #!/bin/bash text2wfreq < 1.txt | wfreq2vocab > 1.vocab text2idngram -vocab 1.vocab -idngram 1.idngram < 1.txt idngram2lm -vocab_type 0 -idngram 1.idngram -vocab 1.vocab -arpa 1.arpa sphinx_l

Speech recognition 基于Labview的语音文本转换

标签： Speech Recognition speech-to-textlabview

我计划在Labview上构建一个语音到文本转换器，然后将其移植到myRio board。我是这个领域的新手，我不知道从哪里开始。任何建议都会很有帮助。既然您计划使用myRIO，您可能需要一个基于C的库。我没有用过，但它似乎是一个常见的，它有一个C库您将找到有关使用myRIO进行开发的文档

Speech recognition 如何在使用sapi 5.3进行自由听写时获得纠正命令？

标签： Speech Recognition sapi

我有一个使用sapi 5.3进行基本听写的示例应用程序。使用标点符号输入文本效果很好… 我需要做什么才能启用教程中的更正功能（更正单词，选择…？是否有要加载的特定语法（哪些和如何加载）、要实现的特定事件？如果您只需要语法，可以使用ruleref获取听写语法：请注意，您仍将负责解析规则并执行操作。Oops。这应该是LaunchCommands可以为您提供可以启动的应用程序列表。哦！

Speech recognition 语音识别；程序设计

标签： Speech Recognition

在编程方面，是否有人成功使用Dragon自然语音识别软件我想知道，因为我认为它会比我用手打字快得多，而且在我的carpol隧道上更容易我每天都在visual basic 6 ide、visual studio 2008 ide+团队资源管理器中编程，编写电子邮件，并通过Windows Live IM聊天我需要一个基于命令的界面，在这里我可以将语音命令绑定到按键，在拼写/说出单词/说出没有空格的单词之间切换，等等非常感谢您的任何评论。我不确定语音识别是否能够真正解决您的问题-是否有太多的符

Speech recognition Sphinx 4（beta版本6）hello world演示中识别精度不一致

标签： Speech Recognition cmusphinx

请问为什么Sphinx4（beta版本6）“Hello World”演示不一直运行良好一直以来我看过《程序员指南》和其他资料，似乎问题不在于我的目的。语音识别总是不精确的，你不能期望某些代码在100%的时间内都能工作。它可能在90%的情况下工作，在10%的情况下失败。这90%应该足以构建应用程序问题不在于它为什么失败，问题在于它多久失败一次。你需要收集一些这方面的统计数据。如果20次中有1次失败，则为预期值。如果它在20次尝试中失败了10次，那么它很可能是有问题的如果您认为这仍然是一个

Speech recognition Kinect语音识别系统

标签： Speech Recognition kinect

我正在使用Kinect语音识别功能，并注意到存在令人沮丧的延迟，这使得它几乎无法使用。这甚至适用于只有少数几个单词需要识别的情况，您必须通过语法告诉它要查找哪些单词。我甚至在MS提供的示例和MS自己用于推广海龟示例技术的视频中也看到了这种延迟有人知道我这里是否缺少一些明显的配置设置吗？一定是有点古怪旁白：我不能在kinect的msdn论坛上问这个问题，因为论坛网站对我不起作用-在我登录后出现了一个奇怪的无限重定向循环。。。似乎影响了很多人，但他们不能在论坛上报告，因为他们不能提出问题，因为问

Speech recognition 谷歌'；s语音识别API使用限制

标签： Speech Recognition

我正在使用谷歌的语音识别api。我用Java创建了一个包装器（如下所示：）；所有的工作都很好，但有时我会收到HTTP403或HTTP500，所以我认为有一些天数限制我知道这不是一个官方API，但有人知道服务的限制（每天的最大请求量、音频文件的最大长度等）？单个语音识别“会话”的最大时间限制似乎在60秒左右。这意味着你可以让谷歌处理一个句子，但你需要结束这个会话并开始一个新的会话如果你可以使用JavaScript，那么你应该使用SpeechRecognition API——看看我在中写的一个简

Speech recognition 如何使用SpeechResult api在sphinx 4中获得多个语音结果？

标签： Speech Recognition speechcmusphinxsphinx4jsapi

result.gethyporation（）并不总是给我最好的结果，所以我希望识别后得到多个结果。我尝试了下面的代码，它返回一个空数组。识别器是LiveSpeechRecognizer的对象 SpeechResult result = recognizer.getResult(); System.out.println( result.getNbest(10)); 如果使用语法，n-best还不受支持。如果您使用语言模型，您应该会看到n-best结果，如Transcriber演示中所示

Speech recognition 我有一个单词或句子，是否有任何方法/开源软件包可以找到用户说出该单词的可能性

标签： Speech Recognition speech-to-textspeechkaldi

我有一个单词/句子，是否有任何方法/开源软件包可以找到用户说出该单词/句子的可能性？最常用的自由言论识别工具包有：卡尔迪斯芬克斯使用Python建立一个基本的语音识别系统非常简单。有点棘手，但根据我的经验，更好的结果是使用Kaldi建立一个系统，例如另一种选择是使用API，如：微软必应演讲谷歌云演讲 IBM语音到文本检查它们的一个很好的入口点是这个python库。但是，请记住，对于这些服务，您将需要一个API密钥在你的例子中，你说你有一个给定的句子，想得到这个句子被说出的概率

Speech recognition 文本到语音（语音生成）和语音到文本（语音识别）API？

标签： Speech Recognition text-to-speechspeech-to-textspeech-synthesis

是否有一个针对桌面或浏览器环境的已知API的综合列表？我将从中重新列出并更新答案。这一点也不全面，但它可能是您的一个开始通过几个月来对这些问题的观察，我看到大多数开发人员的选择都是这样的： Windows用户-使用.Net或Microsoft.Speech的System.Speech功能并安装Microsoft提供的免费识别器。Windows7包括一个完整的语音引擎。其他的可以免费下载。有一个C++ API来与已知的SAPI引擎相同。见。或有关Microsoft Windows引擎的更多背景

Speech recognition 可以用语音编程吗

标签： Speech Recognition voice-recognition

我最近开始感到手臂疼痛，我想知道使用语音软件编程是否可行。几年前，我就使用了dragon naturally，但它很笨重，而且当时在我的ide中工作得不太好（netbeans）有没有人有过语音编程的经验？如果有，他们会推荐什么软件？我尝试过chrome语音识别插件，它适合简单的搜索，但当我尝试搜索相似的单词时，失败的次数最多。语音编程是可能的LOL代码，它是简单的话或脑力操，只有少数命令。我无法想象在VS或Java中为C sharp使用语音识别，在那里你可以拥有无限数量的库和类。我尝试了chr

Speech recognition ？沃森演讲对文本的限制：评论？不支持AAC格式会议长达数小时：无损格式FLAC生成非常大的文件（超过API设定的100MB）一小时测试会议=FLAC中210 MB，OPUS中30 MB。因此需要选择OPUS（有损格式），而不是FLAC（无损）人类难以阅读的文本（标点符号）没有迹象表明单词的置信度低（这可能表明存在潜在错误）很多“空虚”的时刻

标签： Speech Recognition speech-to-textibm-watson

加上对于演示来说还不错。。。我们如何实现生产梯度系统？只是一般的文本到语音考虑：人们经常互相说得天花乱坠对捕捉到的环境质量敏感（房间的声学、录音设备的放置、电话呼叫等）特定于技术/领域的词汇分类错误（新兴技术往往太新，无法纳入培训范围）对非母语人士进行分类很困难感谢您的反馈，以下是一些答案：你说在FLAC里一小时是210兆？您使用的采样率是多少？每个样本的比特数是多少？请注意，您可以在不损失精度的情况下将采样降低到16Khz，这将导致更小的文件 IBM正在努力美化输出，请继续关注

Speech recognition 为什么谷歌语音API比内置语音识别糟糕得多

标签： Speech Recognition google-speech-api

我在Android上使用谷歌语音API在我的Android应用程序中启用语音到文本。然而，我注意到，与谷歌助手或内置的谷歌服务相比，识别率要差得多是使用另一个API还是同一个API？是什么原因导致质量差异如此之大举个例子，当我在加利福尼亚州旧金山说Smitten Ice Cream a place时，Google Maps马上就能理解这段话，而我的应用程序在尝试了5次后就听不懂了。有没有可能为我试图转录位置的语音API添加上下文的方法？这个答案基于一个假设，多年来我一直在使用内置的Googl

Speech recognition 实时（近）Watson语音到文本，用于使用Javascript和Java websockets转录麦克风音频字节

标签： Speech Recognition ibm-watsonspeech-to-textembedded-jettyjava-websocket

我试图使用浏览器麦克风支持从Javascript调用Watson语音到文本服务，Java后端使用Jetty websockets实现。我正在使用Watson Speech to text Java SDK进行服务连接 Maven依赖关系 <dependency> <groupId>com.ibm.watson</groupId> <artifactId>speech-to-text</artifactId> &l