Speech recognition 在Sphinx4中使用GRXML语法

sphinx是否支持使用GR-XML语法,还是必须将现有语法转换为java语音语法格式 sphinx支持使用GR-XML语法吗 是的,请参阅最新版本sphinx4-5Realpha中的对话框演示 还是必须将现有语法转换为java语音语法格式 没有

Speech recognition tvOS中是否有类似SFSpeechRecognizer的框架?

我想为tvOS开发一个应用程序,它可以识别语音并将其转换为文本,然后根据文本执行一些操作。我已经在iOS 10中使用了SFSpeechRecognizer类Speech框架实现了这一点。我找不到tvOS的任何框架。我不确定tvOS10是否有公共API可用于麦克风。这方面有什么新闻/变化吗?我也想这样做。

Speech recognition google语音api和获取有效的语音上下文

我已经用Python设置了一个同步识别脚本,该脚本按照预期工作,返回我发送到Google语音API的各种音频文件的转录本。然而,我似乎无法获得语音上下文提示(Python中的speech_上下文;“Google文档中的短语提示/speechContext”)来做任何有用的事情。我有一个音频文件,其中说话者清楚地说出了“健康”一词,但每次都被转录为“房子”,尽管明确告诉它要查找下面代码中的“健康”一词,但它没有找到它。要使此功能有效,有什么建议吗 config = types.Recognitio

Speech recognition 语音产生过程

我正在学习Rabiner书中的语音识别。在这本书中,作者提出了一个问题解释产生浊音、清音和爆破音的不同语音产生过程作者说:当声带绷紧+气流,然后是浊音当声带放松+气流,然后是清音但没有提到爆破音,是的,他确实提到了瞬态声音。那么瞬态声音和爆破音是一样的吗?我认为你对事物的分类方式可能会让你感到困惑。浊音和清音是特定类别中的两种声音。爆破音可以是浊音也可以是清音;它不是同一类别中的第三种声音 关于你原来的问题,我不认为爆裂和瞬变的声音是等价的。爆破音是指当你暂时阻止空气排出,然后立即释放空气时发出

Speech recognition 什么';现在语音识别的一般状态是什么?

我目前正在评估cyrrebt状态的语音识别(SR)技术,似乎有相当多的API和服务正在涌现 我自己的SR经验是,关键字匹配可以很好地与多个说话人进行匹配,听写可以在非常受控的环境中与训练有素的说话人进行匹配。这仍然是真的吗?有没有什么好的方法可以对任意音频文件的文本进行语音转换?可以是音频流中的关键字匹配以进行索引,也可以是对完整转录的尝试 有人对nuance与其他引擎和开源解决方案的比较有什么评论吗?虽然围绕语音识别设计的更新、更友好的应用程序将继续被编写,但语音识别本身已经到了一堵砖墙。即使

Speech recognition 如何在PocketSphinx Android启动时改进语音识别?

我在Android上使用PocketSphinx。识别器初始化后,我启动一个关键字侦听器。首先,识别器将不匹配任何内容。但是,几秒钟后,识别器开始匹配性能优异的关键词(初始测试中约为3%)。开始匹配所需的时间取决于单词/短语。这似乎还取决于你说这个词的次数。例如,“plus”匹配非常快,通常在第一次或第二次说话时匹配,平均需要2秒钟。另一方面,“请帮个小忙”大约需要10秒钟,或者说大约8-10句话。匹配任何关键字后,Sphinx将为所有关键字进入其高性能模式。因此,一种解决方法(虽然不是很好)是

Speech recognition 如何通过音频处理检测单词边界/估计单词数?(不带语音识别)

是否有可能通过离线的基本音频处理来检测单词边界,以获得足够准确的WPM*估计?我认为可以通过检测停顿(表示单词边界)来实现。它会是跨语言的并且适用于所有语言吗 在传统语音识别中[(不是/相反)现代机器/深度学习语音识别], 哪一个被认为是更容易/解决的部分,找到单词边界或统计匹配它们到正确的单词 我用过的样本:* Audacity中波形视图上标记的文字边界: 我将在浏览器中使用Web音频API和从Web音频API执行此操作 *每分钟字数 *更多关于我正在做的事情/我的想法: 我是名为“媒体增

Speech recognition 如何将音频数据直接传递到Sphinx4

我想使用Sphinx4作为我系统的一部分。而且,我已经尝试了HelloWorld演示,它直接使用麦克风。此外,我还看到了有关使用音频文件的示例 所以,我的问题是,是否还有其他方法来识别声音?例如,识别短类型数据(例如short[]buffer) 除了使用麦克风或wav文件(音频文件),我找不到其他方法 例如,PocketSphinx具有processRaw函数,该函数在本问题()中描述 Sphinx4中是否没有相应的函数?要从字节数组馈送数据,需要执行以下操作: 将前端配置为使用而不是麦克风或A

Speech recognition 服务识别文本,直到我暂停,之后什么也没有

我正在开发一个应用程序,它可以让用户讲一个简短的故事(1-2分钟)并将其转录成文本 我使用MediaCapture流式传输录制的语音,并将其通过分块传输编码发送到Bing语音API。除了一个问题外,一切都很好:如果用户暂停几秒钟,并且在确认暂停后没有继续说任何话 我用一个录制的wav文件尝试了同样的方法,以确保分块传输不是这个问题的根源。但它产生了同样的行为。因此,传输是正确的,我得到了一个有效的响应,但只针对记录的第一部分 有人遇到过同样的问题吗?这是故意的吗?如果是这样的话:有没有办法避免这

Speech recognition 有语音识别和情感分析的标准吗?

关于TTS(文本到语音) SSML()现在似乎是语音合成“元数据”规范的标准语言,用于控制语音的各个方面,如语音、音量、音高、速率等,跨不同的合成平台(它已被Amazon Alexa、Google Actions和其他API采用为标准) 相反,关于ASR(自动语音识别) 情绪分析是否有类似的标准 我的意思是,在录音讲话中识别情绪分析的一个可能的参数标准?目前,我在著名的Google Actions/Amazon Alexa平台API中没有看到类似的内容。我错了 有什么想法吗

Speech recognition 错误:“;请求有效负载大小超出限制:10485760字节。”&&引用;请求有效负载大小超出限制:10485760字节;

我们第一次在一个网络项目中使用GCS语音API,通过对长音频文件的异步语音识别调用将音频转录成文本。 但是长音频文件(超过1分钟)或大于10 MB的不起作用。 即使是视频文件也无法转录。 我们已经尝试了以下代码 GoogleCredential googlecredetion; private async Task TranscribeFiles() { try { googlecredetion = await

Speech recognition 用于3+的扬声器日记工具;参与者

我们有一个视频库3k+文件,主要是技术会议和市政厅,单声道,带1-10个扬声器。现在我们要运行演讲者日志化过程。 我们尝试使用批转录RESTAPI 但它似乎只有两个扬声器的限制。 我们还调查了会话转录服务 但它需要多通道音频流输入 请您推荐我们可以使用的认知服务工具(如果有的话)来解决我们的任务 谢谢 正如您所注意到的,批处理目前仅限于2人的日记处理。我们预计在11月/12月将批量使用一个新的Dialization提供商,该提供商将在单声道输入音频流上支持10个扬声器 我现在不知道有什么认知服务

Speech recognition 是否有语音到文本API或一些;“黑客”;通过它我可以使用谷歌';s的语音到文本设备?

我认为谷歌的语音到文本功能(谷歌语音自动抄录语音邮件、YouTube视频自动字幕等)令人印象深刻 我确实想看看谷歌是否通过API提供了它,但他们似乎没有(我并没有责怪他们!)。不过,提供语音到文本功能的云计算服务将非常酷 有没有什么“黑客”可以让我把演讲变成文字。我的架构基本上可以归结为这一点-一个简短的15-20秒的wav/mp3/其他剪辑作为输入,输出是纯文本 人们有什么想法吗?有很多语音到文本的API。仅仅因为谷歌没有提供他们的服务,并不意味着你运气不好 这是给C#的一个好的。如果你的平台

Speech recognition IOS中的自动语音识别

根据我的应用程序要求,它应该自动检测或识别用户的语音或语音。任何人都可以通过我的链接,这很好 提前谢谢 试试看。 现在它是最好的语音识别服务之一。试试看。 现在,它是最好的语音识别服务之一。基于PocketSphinx引擎的OpenEars示例在词汇表较少的情况下做得非常好: 基于PocketSphinx引擎的OpenEars示例在词汇表方面做得非常好: 你应该问谷歌你应该问谷歌

Speech recognition 语音识别中的一个强制对齐问题&HTK

我有一个系统,要求用户在提示后重复一句话。它使用HTK将用户说出的句子强制对齐到预定义的单词级标签文件(句子的)以获得时间对齐的电话级文件。HMM经过大量数据的训练,并使用HVite提供非常精确的时间对齐文件。当用户没有说出要求说出的确切句子时,我的问题就出现了。让我举例说明: 需要说出的目标句子的单词级标签文件(用户已知): 今天是非常好的一天 用户表示(案例1):今天是非常好的一天。 在这种情况下,用户重复了完全相同的句子。时间对齐的文件非常准确,一切都很好 用户说(案例2):今天是个好日子

Speech recognition 如何在Android上实现语音唤醒

我想通过说“你好,杰克”来唤醒Android应用程序中的一些功能。据我所知,有一种叫做“短语识别”的技术可以识别特定的语音,例如“你好,杰克”。但我不知道如何实施“短语识别” 有人有更多的想法或建议吗 谢谢。最简单、资源效率最高的方法是实现动态时间扭曲DTW,用于关键字发现 您可以使用CMUSphinx工具包提取MFCC特性,这将节省大量的时间来实现它们 我首先建议采用这种简单的方法 首先使用一个简单的集合来匹配您想要的关键字,如下所示: public class WordMatcher {

Speech recognition 408请求超时Microsoft语音到文本

我的.wav文件长度只有4秒。即使在多次重试并在云上运行之后,我也会不断地遇到以下错误 * upload completely sent off: 12 out of 12 bytes < HTTP/1.1 408 Request timed out (> 14000 ms) < Transfer-Encoding: chunked < Content-Type: text/plain < Server: Microsoft-IIS/8.5

Speech recognition Google语音API与Voxcommando的集成

我真的很希望有人知道下一步的解决方案: 我想将MS语音识别与voxcommando(语音识别器)结合使用,但要使用我自己的语言(Hunagarian) 不幸的是,语言包不包括匈牙利语包 有没有可能 使用Google hunagrian语言包或以任何方式为MS语音平台创建匈牙利语言包 非常感谢您的每一个评论 如果您围绕Google API实现SAPI 5引擎,您将能够使用它。这不是一个简单的任务。如果你围绕谷歌API实现SAPI 5引擎,你就可以使用它。这不是一项琐碎的任务。可能是重复的

Speech recognition 有没有一种方法可以通过MS说话人识别将MS语音与文本连接起来?

我正在与microsoft speech to text建立一个项目。它工作正常,我可以把我说的话转录成文本,然后发送给其他信号机订户 但是,我现在需要将其与说话人识别接口。换言之:我希望我的演讲文本只识别几个发言者 目前我使用的是classic类,它使用默认的麦克风并在运行中进行翻译 然后,我使用该类开始识别 在将音频流量发送到翻译服务之前,是否有方法获取音频流量,以检查用户是否正确,然后在验证正常后,恢复标准执行 我认为这是最好的主意,但我愿意接受任何想法或架构更改 感谢您的投入感谢您联系我

Speech recognition 卡尔迪:迁移学习

我正在尝试使用一个模型在Kaldi ASR上进行迁移学习,该模型已经在通用语音上进行了预训练,并且有一个自定义的有限词汇数据集。但是,我发现,相对于要提供给egs/commonvoice/s5/steps/online/nnet2/prepare\u online\u decoding\u Retain.sh的配置文件,文档非常有限 这些是我提供的参数,仅供参考 steps/online/nnet2/prepare_online_decoding_transfer.sh --cmd run.pl

Speech recognition 我可以在Windows Server 2003中使用Vista语音API吗?

我在iphone上编写了一个小应用程序,将30秒的语音传输到一个通过远程处理调用windows服务的Web服务器,该服务使用windows 2003服务器上的SAPI5.1,通过defuault识别器将波形转换为文本 我想将引擎更新为最新版本,并添加一个为在Vista中运行而创建的医疗语音模型。我可以通过windows 2003 server和在.net 3.5库中编写的应用程序执行此操作。Vista是否只使用了3.5.NETlibs。我可以通过注册表或api调用更改语音模型吗?我知道在vist

Speech recognition 狮身人面像4损坏的ARPA LM?

我有一个由生成的ARPA LM,当运行SPHINX时,我得到以下异常堆栈跟踪: Exception in thread "main" java.lang.RuntimeException: Allocation of search manager resources failed at edu.cmu.sphinx.decoder.search.WordPruningBreadthFirstSearchManager.allocate(WordPruningBreadthFirs

Speech recognition 麦克风的质量如何影响语音识别?

我访问过的大多数网站都明确表示,对于语音识别,麦克风的质量越高,效果越好。我一直在浏览更多的细节,比如下面这些事情是如何影响语音识别的- 敏感度 信噪比 频率响应 输出阻抗 但我想更详细地了解这些因素对演讲的影响。信噪比对于噪声消除是有意义的,但是我对其他的不太了解 我已经签出的一些网站- 信噪比非常重要;通常,同样重要的是恒定的音频电平,这就是为什么近距离通话话筒比台式话筒工作得更好的原因。频率响应很重要,尤其是相当平坦的响应;广泛的响应(任何超过12 KHz的响应)就不那么重要了。输出

Speech recognition 使用HTK进行关键词识别

最近我专注于一个项目来实现一个关键字识别系统。我之前使用过HTK进行语音识别。现在我想知道是否可以使用HTK实现我的关键字检测工具?语音识别和关键字检测是非常相关的问题 对于HTK,两种解决方案之一是可行的: 构建一个单词循环语法,其中包含要搜索的单词列表、垃圾和静默单元。有关详细信息,请参阅HTKbook中的HBuild 执行常规的语音解码,这将生成一个字格(.slf in HTK)。然后将其转换为共识网络(香肠),例如,搜索得分高于某个阈值的单词 我读过HBuild,但没有发现任何与我的目的

Speech recognition Sphinxtrain返回pocketsphinx以外的其他结果

我终于成功了。培训后,我的WER(文字错误率)为0%。我只有一个用于简单语音识别的小数据集(仅用于另一种语言中的单词“是”和“否”)。我使用sphinxtrain(126个训练文件,12个测试文件)进行了培训。音频文件的长度约为5秒,包含8个单词(是/否混合) 经过培训后,我决定带上我的测试文件,在pocketsphinx中运行它们。几乎我测试的每个文件都有至少一个单词的错误。有时它比预期多识别1-2个单词。有时,它会将“是”视为“否” 我想知道为什么我从sphinxtrain和pocketsp

Speech recognition 如何在microsoft认知系统中从单个音频文件中识别多个扬声器

我正在使用说话人识别API,我已成功注册并识别说话人。现在,我有多个用户在一个音频中讲话,如何从音频中识别多个用户?说话人识别API只接受单个说话人的音频作为输入。如果您的音频包含多个扬声器,请先将音频按扬声器分开。根据您的场景,您可以使用双扬声器分离(重分类)功能()或使用带有CTS的特定麦克风阵列设置()。CTS中嵌入了相同的说话人识别技术,您无需单独调用说话人识别服务

Speech recognition 对ASR的MFCC系数应用K-均值

我已将音频信号划分为20毫秒帧,重叠10毫秒。因此,我有500帧。我已经计算了每一帧的MFCC系数。我想用K-均值算法对每一帧进行矢量量化 我有16个MFCC系数每帧向量长度:16。现在K-MEAN需要2个向量来形成聚类图,一个沿着X,一个沿着Y,但是我只有一个向量,每帧16个MFCC系数 那我该怎么做呢?我是否选取相邻帧并对相邻帧应用K均值 现在K-均值需要2个向量来形成聚类图,一个沿着X,一个沿着Y 事实并非如此,kmeans算法可以对任意数量的向量进行聚类 那我该怎么做呢?我是否选取相邻帧

Speech recognition 使用pocketsphinx检测非常不寻常的单词

我正在做一个项目,需要在树莓pi上运行pocketsphinx进行关键字检测。对于我的项目,关键字是非常不寻常的/完全虚构的,因此在这个特定用例之外不太可能听到它们。如果有足够的数据,调整现有的英国声学模型是否足以应对这种情况?如果没有,我还可以如何解决这个问题?您有关键字的语音表示吗?如果你只是把它们添加到词典中,它应该可以正常工作。尤其是如果你把字典限制在几百个单词以内。你能向云查询检测结果吗?还是必须进行本地检测?@deef我会试试语音表示法。我们可能可以查询云,但它必须非常快。如果你对查

Speech recognition 为什么voximal没有';你不录我的演讲吗?

我正在尝试将我们正在创建的机器人与api.ai集成。 我已经成功地配置了几乎所有的东西。我可以打电话,听到我在XML文件中输入的文本。 但是,当我回答时,没有记录任何输入 我已经创建了一个google语音API密钥,并将其添加到“识别”中,但没有成功,它不接受我的语音输入 这是我的识别标签: 下面是我的XML代码示例: <?xml version="1.0"?> <vxml version="2.0" xmlns="http://www.w3.org/2001/vxml" x

Speech recognition Kaldi:qsub的输出是:qsub:unligal-c value“&引用;当尝试运行公共语音配方时

我正在尝试在我的计算机上运行Kaldi的Common Voice recipe()(即,不在集群上)。它崩溃时出现错误消息,qsub的输出为:qsub:invalize-c value”“。可能是什么问题 具体而言,以下是整个错误堆栈: [...] Succeeded in formatting LM: 'data/local/lm.gz' steps/make_mfcc.sh --cmd queue.pl --mem 2G --nj 20 data/valid_train exp/make_

Speech recognition 基于语音识别的原型系统

我想创建一个基于自动语音识别的原型来处理报告 需求目前还不确定,但首先我将获得一些虚拟数据集。 首先,我将集中讨论声音信号的输入和进一步的处理 我真的不知道如何开始,哪个开发环境,编程语言 我更愿意与VisualStudio合作,因为我已经有了许可证,但我对这个提议持开放态度 你有一些教程、想法和经验吗?(我正在重复使用最近发给朋友的一封电子邮件。我希望它能有所帮助) 微软有两种语音引擎:桌面和服务器。桌面语音引擎附带了各种产品,包括:MS Office 2003、Windows Vista和W

Speech recognition 用有限状态文法(JSGF)训练CMU Sphinx的声学模型

我需要训练我自己的声学模型。在官方wiki上,这个过程是用DMP格式为ngramm模型描述的,但是我需要使用JSGF格式提供的(语法)语言模型。有这种可能性吗?如果是这样的话,你能给我一个关于这个主题的教程吗?修改是最小的。在安装位置或脚本中打开psdecode.pl脚本并进行更改 -lm => $ST::DEC_CFG_LANGUAGEMODEL, 到 修改是最小的。在安装位置或脚本中打开psdecode.pl脚本并进行更改 -lm => $ST::DEC_CFG_LANGUAG

Speech recognition 格中的断言错误

我已经和斯芬克斯斗争了一段时间了,突然间我不断地得到这个断言错误,其内容如下: Exception in thread "main" java.lang.AssertionError at edu.cmu.sphinx.result.Lattice.<init>(Lattice.java:170) at edu.cmu.sphinx.api.SpeechResult.<init>(SpeechResult.java:43) at edu.cmu.sphinx.api.Ab

Speech recognition 如何为pocketsphinx创建脱机.dic文件

如何为pocketsphinx创建脱机.dic文件?我以前用过,但现在不行了。所以我创建了.lm文件 #!/bin/bash text2wfreq < 1.txt | wfreq2vocab > 1.vocab text2idngram -vocab 1.vocab -idngram 1.idngram < 1.txt idngram2lm -vocab_type 0 -idngram 1.idngram -vocab 1.vocab -arpa 1.arpa sphinx_l

Speech recognition 基于Labview的语音文本转换

我计划在Labview上构建一个语音到文本转换器,然后将其移植到myRio board。我是这个领域的新手,我不知道从哪里开始。任何建议都会很有帮助。既然您计划使用myRIO,您可能需要一个基于C的库。我没有用过,但它似乎是一个常见的,它有一个C库 您将找到有关使用myRIO进行开发的文档

Speech recognition 如何在使用sapi 5.3进行自由听写时获得纠正命令?

我有一个使用sapi 5.3进行基本听写的示例应用程序。 使用标点符号输入文本效果很好… 我需要做什么才能启用教程中的更正功能(更正单词,选择…? 是否有要加载的特定语法(哪些和如何加载)、要实现的特定事件?如果您只需要语法,可以使用ruleref获取听写语法: 请注意,您仍将负责解析规则并执行操作。Oops。这应该是LaunchCommands可以为您提供可以启动的应用程序列表。哦!

Speech recognition 语音识别;程序设计

在编程方面,是否有人成功使用Dragon自然语音识别软件 我想知道,因为我认为它会比我用手打字快得多,而且在我的carpol隧道上更容易 我每天都在visual basic 6 ide、visual studio 2008 ide+团队资源管理器中编程,编写电子邮件,并通过Windows Live IM聊天 我需要一个基于命令的界面,在这里我可以将语音命令绑定到按键,在拼写/说出单词/说出没有空格的单词之间切换,等等 非常感谢您的任何评论。我不确定语音识别是否能够真正解决您的问题-是否有太多的符

Speech recognition Sphinx 4(beta版本6)hello world演示中识别精度不一致

请问为什么Sphinx4(beta版本6)“Hello World”演示不一直运行良好 一直以来 我看过《程序员指南》和其他资料,似乎问题不在于 我的目的。语音识别总是不精确的,你不能期望某些代码在100%的时间内都能工作。它可能在90%的情况下工作,在10%的情况下失败。这90%应该足以构建应用程序 问题不在于它为什么失败,问题在于它多久失败一次。你需要收集一些这方面的统计数据。如果20次中有1次失败,则为预期值。如果它在20次尝试中失败了10次,那么它很可能是有问题的 如果您认为这仍然是一个

Speech recognition Kinect语音识别系统

我正在使用Kinect语音识别功能,并注意到存在令人沮丧的延迟,这使得它几乎无法使用。这甚至适用于只有少数几个单词需要识别的情况,您必须通过语法告诉它要查找哪些单词。我甚至在MS提供的示例和MS自己用于推广海龟示例技术的视频中也看到了这种延迟 有人知道我这里是否缺少一些明显的配置设置吗?一定是有点古怪 旁白:我不能在kinect的msdn论坛上问这个问题,因为论坛网站对我不起作用-在我登录后出现了一个奇怪的无限重定向循环。。。似乎影响了很多人,但他们不能在论坛上报告,因为他们不能提出问题,因为问

Speech recognition 谷歌';s语音识别API使用限制

我正在使用谷歌的语音识别api。我用Java创建了一个包装器(如下所示:);所有的工作都很好,但有时我会收到HTTP403或HTTP500,所以我认为有一些天数限制 我知道这不是一个官方API,但有人知道服务的限制(每天的最大请求量、音频文件的最大长度等)?单个语音识别“会话”的最大时间限制似乎在60秒左右。这意味着你可以让谷歌处理一个句子,但你需要结束这个会话并开始一个新的会话 如果你可以使用JavaScript,那么你应该使用SpeechRecognition API——看看我在中写的一个简

Speech recognition 如何使用SpeechResult api在sphinx 4中获得多个语音结果?

result.gethyporation()并不总是给我最好的结果,所以我希望识别后得到多个结果。我尝试了下面的代码,它返回一个空数组。识别器是LiveSpeechRecognizer的对象 SpeechResult result = recognizer.getResult(); System.out.println( result.getNbest(10)); 如果使用语法,n-best还不受支持。如果您使用语言模型,您应该会看到n-best结果,如Transcriber演示中所示

Speech recognition 我有一个单词或句子,是否有任何方法/开源软件包可以找到用户说出该单词的可能性

我有一个单词/句子,是否有任何方法/开源软件包可以找到用户说出该单词/句子的可能性?最常用的自由言论识别工具包有: 卡尔迪 斯芬克斯 使用Python建立一个基本的语音识别系统非常简单。有点棘手,但根据我的经验,更好的结果是使用Kaldi建立一个系统,例如 另一种选择是使用API,如: 微软必应演讲 谷歌云演讲 IBM语音到文本 检查它们的一个很好的入口点是这个python库。但是,请记住,对于这些服务,您将需要一个API密钥 在你的例子中,你说你有一个给定的句子,想得到这个句子被说出的概率

Speech recognition 文本到语音(语音生成)和语音到文本(语音识别)API?

是否有一个针对桌面或浏览器环境的已知API的综合列表?我将从中重新列出并更新答案。这一点也不全面,但它可能是您的一个开始 通过几个月来对这些问题的观察,我看到大多数开发人员的选择都是这样的: Windows用户-使用.Net或Microsoft.Speech的System.Speech功能并安装Microsoft提供的免费识别器。Windows7包括一个完整的语音引擎。其他的可以免费下载。有一个C++ API来与已知的SAPI引擎相同。见。或有关Microsoft Windows引擎的更多背景

Speech recognition 可以用语音编程吗

我最近开始感到手臂疼痛,我想知道使用语音软件编程是否可行。几年前,我就使用了dragon naturally,但它很笨重,而且当时在我的ide中工作得不太好(netbeans) 有没有人有过语音编程的经验?如果有,他们会推荐什么软件?我尝试过chrome语音识别插件,它适合简单的搜索,但当我尝试搜索相似的单词时,失败的次数最多。语音编程是可能的LOL代码,它是简单的话或脑力操,只有少数命令。我无法想象在VS或Java中为C sharp使用语音识别,在那里你可以拥有无限数量的库和类。我尝试了chr

Speech recognition ?沃森演讲对文本的限制:评论? 不支持AAC格式 会议长达数小时:无损格式FLAC生成非常大的文件(超过API设定的100MB) 一小时测试会议=FLAC中210 MB,OPUS中30 MB。因此需要选择OPUS(有损格式),而不是FLAC(无损) 人类难以阅读的文本(标点符号) 没有迹象表明单词的置信度低(这可能表明存在潜在错误) 很多“空虚”的时刻

加上 对于演示来说还不错。。。我们如何实现生产梯度系统?只是一般的文本到语音考虑: 人们经常互相说得天花乱坠 对捕捉到的环境质量敏感(房间的声学、录音设备的放置、电话呼叫等) 特定于技术/领域的词汇分类错误(新兴技术往往太新,无法纳入培训范围) 对非母语人士进行分类很困难 感谢您的反馈,以下是一些答案: 你说在FLAC里一小时是210兆?您使用的采样率是多少?每个样本的比特数是多少?请注意,您可以在不损失精度的情况下将采样降低到16Khz,这将导致更小的文件 IBM正在努力美化输出,请继续关注

Speech recognition 为什么谷歌语音API比内置语音识别糟糕得多

我在Android上使用谷歌语音API在我的Android应用程序中启用语音到文本。然而,我注意到,与谷歌助手或内置的谷歌服务相比,识别率要差得多 是使用另一个API还是同一个API?是什么原因导致质量差异如此之大 举个例子,当我在加利福尼亚州旧金山说Smitten Ice Cream a place时,Google Maps马上就能理解这段话,而我的应用程序在尝试了5次后就听不懂了。有没有可能为我试图转录位置的语音API添加上下文的方法?这个答案基于一个假设,多年来我一直在使用内置的Googl

Speech recognition 实时(近)Watson语音到文本,用于使用Javascript和Java websockets转录麦克风音频字节

我试图使用浏览器麦克风支持从Javascript调用Watson语音到文本服务,Java后端使用Jetty websockets实现。我正在使用Watson Speech to text Java SDK进行服务连接 Maven依赖关系 <dependency> <groupId>com.ibm.watson</groupId> <artifactId>speech-to-text</artifactId> &l

上一页 1 2  3   4   5   6    7   8   9  ... 下一页 最后一页 共 13 页