我正在用gooofy zamia的演讲为kaldi的一个项目改编模型
我按照给出的步骤使用kaldi-generic-de-tdnn_f-r20190328模型创建模型
当我在.wav文件上测试它时,它显示了以下错误:
//////
nnet3 latgen faster--帧子采样因子=3--每个块的帧数=50--额外左侧上下文=0--额外右侧上下文=0--额外左侧上下文初始=-1--额外右侧上下文最终=-1--最小化=false--最大活动=7000--最小活动=200--波束=15.0-
正如我们现在所知,MS speech API(Microsoft.speech)的服务器版本不支持加载听写语法
问题1:有没有办法解决这个问题
问题2:我想到的一个想法是根据人们在某个特定话题上的对话历史(比如聊天室)来构建语法。该软件需要进行自然语言转录,但所使用的语言子集可能会受到一定限制
这是否有可能合理准确和可靠?或者这是你不想用非指示语法做的事情
谢谢
Jan我参与了一个项目,该项目试图大量使用命令和控制语法来模拟听写转录。它不起作用;不确定性太高了,你会得到随机识别,而不是合理的结果
我想创建一个包含近50000个单词的ARPA语言模型文件。我无法通过将文本文件传递给CMU语言工具来生成语言模型。有没有其他链接可以为这么多单词提供语言模型?我想我应该回答这个问题,因为它有一些投票权,尽管基于Christina的其他问题,我认为这对她来说不是一个有用的答案,因为一个50000字的语言模型几乎肯定不会有一个可接受的字错误率或识别速度(或者很有可能是长时间的),目前使用这种语言模型格式的iOS应用程序内识别系统,由于硬件限制。我认为这是值得记录的,因为我认为这可能会对其他使用平台的
使用Microsoft的语音识别API,我必须使用如下代码定义语法:
_recognizer.LoadGrammar(new Grammar(new GrammarBuilder("test")));
引擎只能识别它是否在“测试”
但是谷歌语音识别API可以识别几乎所有的英语单词。例如,在他们的演示页面中,你可以说任何你想说的话
我想知道微软的API能做同样的事情吗?或者我可以在C#中使用谷歌API编程吗 您可以使用,然后它将识别自由格式的文本
我的语音数据大小为(24*500)或(24*450)或(24*…),由MFCC获取
对于数据的降维,我应该怎么做,以使降维后的数据能够在语音识别中提供更好的分类结果?改进格式和图形吸引力的可能重复
我正在和CRIS一起进行POC,我们正在构建一个语音机器人,并希望训练我们的机器人适应动态条件和实时场景
正如CRIS中提到的,我们可以通过建立一个定制的声学模型来克服背景噪声屏障,我想实现同样的效果
我根据约4.5小时的长度构建了2个自定义语音模型。
第一个模型基于没有背景噪声的干净音频文件。
第二个模型基于相同的音频文件,上面叠加了噪声
上下文中的语言是简单的英语,没有特定的词汇
这两个模型的数据集是相同的。唯一的区别是,在第二个模型的数据集中,所有文件都叠加了静态背景噪声
我根据叠加了噪音
当使用Azures批处理转录服务(“api/speechtotext/v2.0/Transcriptions/”)时,我可以通过将“AddTothemation”属性设置为true来获得句子级别的情感分析。但是,结果不包括对整个文档(如文本分析API)的情绪分析
是否有用于添加文档级情绪评分的标志
我可以自己计算,但我认为如果API提供了该功能就好了:
在api的V3版本中,我们删除了情绪标志。我们建议改用文本分析api,因为它的功能远远优于我们实现的有限分析功能。文本分析还支持多种语言
我正在尝试找出是否可以使用System.Speech.SpeechRecognitionEngine
在5秒内计算音节或单词
我一直在使用SpeechRecognitionEngine进行一些测试
DictationGrammar和speechrecogned事件
我需要创建一个应用程序,让你知道如果你说话太慢,
这就是为什么我想数一数每5秒钟说多少个单词
任何帮助都将不胜感激
谢谢我不能100%确定您要使用的是什么平台,但这似乎是windows
因此,MSDN上的代码示例将是获取识别事件信息和
我是SRG的新手,所以请提前原谅我,如果这对各位专家来说太明显了,但到目前为止,我在这个问题上还没有发现任何东西
我想做的是,当说“L四斜杠五”时,MS ASR应该返回“L4/5”。无论我做什么,我似乎都无法显示“/”符号
四,五
我尝试了sapi:display=“L4/5”而不是sapi:display=“L4/5”同样的方法。ASR只返回“L4”。只是为了见鬼,我尝试删除斜杠,例如sapi:display=“L45”ASR会立即返回正确的文本:“L45”。
这里的要求是能够在Srg
我正在使用python中的GoogleSpeech-to-text API使用此函数将语音转换为文本
text = r.recognize_google(audio_text, language = "en")
我的问题是这些数据是否存储在谷歌?这些都是非常敏感的数据,我不希望它们存储在谷歌云中。我在他们的文档中发现,默认情况下,语音对文本不会记录客户的音频数据或成绩单。为了帮助Speech To Text更好地满足您的需要,您可以选择加入数据记录程序。当您选择加入该程序时
我在一个人类机器人项目中工作,我想让这个机器人在说话时移动他的嘴
方法是什么?是否有声音传感器或专门的软件算法?
我想要所有与之相关的东西。。是什么算法使嘴唇的运动与角色一致
例如,字母“O”表示机器人的嘴是圆的
该算法使用了哪些技术
谢谢:这可能不是您想要的,但对于一个我们想要一个动画木偶来完成您所说内容的项目,我们使用此软件生成一个与声音咬合mp3文件关联的音素列表:
然后,我们将相关的口腔图像链接到每个音素,并让呈现引擎根据该列表跟踪声音片段
结果相当令人信服
希望能有帮助
一个月前,我可以使用GoogleAPI识别大约10秒长的语音。但今天,这个api只接受长度不超过2秒的语音。任何人都能给我一种识别长篇大论的方法。
谢谢。我想您需要选择其他语音识别系统。请参见此处发布的答案:。詹姆斯·格里斯指出,谷歌政策的改变限制了这段时间。
我正在使用HTK进行孤立词识别的实验。到目前为止,我已经构建了以下文件:
dict文件:
eight eight sp
five five sp
four four sp
nine nine sp
one one sp
sent-end sil sp
sent-start sil sp
seven seven sp
six
如果我想开发一个简单的精灵单词识别系统,我应该从哪里开始呢?
我读过很多文章,但它们都是关于英语语音识别的,而不是针对自定义语言的。 < P>你可以考虑访问。在那里你可以找到与各种语言相关的教程、讨论论坛和音频存储库。这些教程基于一套相当古老但可靠的工具和技术,包括HTK、Sphinx、Julius等
这些教程是针对英语的,但它们很容易适应其他语言。你的挑战将是确定一组适用于精灵语的音素,用该语言生成一组音频样本,然后构建模型。
有了正确的音素和足够的音频,你的努力没有理由不成功,但这需要一些时
感谢您抽出时间查看/回答QN。
我意识到谷歌提供的快速启动代码能够立即用于语音识别,那么为什么谷歌仍然希望我们创建API密钥,谷歌如何向我们收费
下面是代码
// [START speech_quickstart]
using Google.Cloud.Speech.V1;
using System;
namespace GoogleCloudSamples
{
public class QuickStart
{
public static void Main
在.NETFramework4.7.1中遇到此问题,但是它不会引发异常,并且在.NETCore2.0中工作
在.NET中执行以下行时出现此错误
var recognizer=factory.CreateSpeechRecognizer()
{”的类型初始值设定项
“Microsoft.CognitiveServices.Speech.Internal.Carboncsharppinvoke”
引发了异常。“}
NET Core 2.0中的代码创建了工厂。还确保安装最新的Visual C++重新分
我正在尝试创建一个语音到文本的应用程序,可以识别俄语语音。
但我不知道Microsoft Speech SDK 5.4是否支持俄语
你能告诉我这方面的情况吗?你可以在这里查看可用的语言包
支持俄语
我试图弄清楚上下文无关/相关声学建模到底是什么。我一直在努力阅读一些关于这个问题的论文,但我对这个概念还是有点动摇。据我目前所知(这可能是错误的),上下文相关声学模型是根据音素顺序出现的数据训练的声学模型。例如,在目标语言上训练单词,因此音素取决于前后出现的音素的上下文,并赋予它们上下文。独立的语境将是一个声学模型,一些人是如何用孤立的音素进行训练的 传统的方法是用隐马尔可夫模型(HMM)识别语音。基本上,在HMM中,您尝试将输入声音表示为一系列状态。每个状态对应于音素的某一部分
区别不在于训练
更新:该代码与来自Microsoft的试用密钥(f2da0a19f4d94875880e9fbaceabc97d)完美配合,但与我在Azure中生成的自己的密钥配合失败。什么
解决方案:我使用了“Translator Speech API”的键,而不是“Bing Speech API”。这是个错误。哇!浪费了两个小时
我正在写一个接受语音输入的机器人。为此,我正在使用微软的Bing语音API
我发送一个请求如下,并得到一个403禁止的错误。根据官方文件,403意味着认证或配额问题。但是,我有一
我使用以下语法:
#JSGF V1.0;
public <basicCmd> = <startPolite> <command> <endPolite>;
<command> = <action> <object>;
<action> = /10/ open |/2/ close |/1/ delete |/1/ move;
<object> = [the | a] (w
我是TensorFlow的新手,正在寻找语音到文本识别项目的帮助。是否有一个示例演示如何使用TensorFlow进行语音到文本转换?我听说它在谷歌内部被用来提高25%的准确率,尽管tensorflow中没有语音到文本的演示。有一些演示可以很容易地在语音到文本的环境中使用。这方面有什么更新吗?是的,请看一下wavenet:
我知道有一些语言模型工具是。所有这些都需要安装才能创建语言模型等
然而,我需要一个语言模型工具,它不需要任何安装,可以脱机使用
还有一个可以使用网站创建语言模型文件的
有工具吗 你的问题在这里有答案:@NikolayShmyrev再次感谢你的问题在这里有答案:@NikolayShmyrev再次感谢
正在尝试运行示例代码,但我遇到此错误“
Env:python3x,linux,已安装并更新谷歌云库
pip install --upgrade google-cloud-speech.
安装了以下
谷歌云(0.34.0)
谷歌云演讲(0.36.3)
不知道还有什么要查。如果你有什么建议就好了
import argparse
import io
def transcribe_file_with_enhanced_model():
"""Transcribe the given a
下面给出了从谷歌语音到音频文件文本的输出
results {
alternatives {
transcript: "extremely grateful for the "
confidence: 0.911402702331543
words {
start_time {
}
end_time {
nanos: 600000000
}
word: "extre
我想从一组总长度约为30小时的音频文件中提取特定短语的所有用法(有一定的误差)。我没有使用语音识别软件的经验,我应该从哪里开始寻找?语言/平台并不重要
更多细节。我想做的是在一个电视节目的所有插曲中找到一个流行语的所有用法。因此,它不需要实时完成,语言模型可能在这方面没有帮助。这项任务中没有任何具体内容,您可以使用任何语音识别引擎,只需打开谷歌搜索或“语音识别引擎”@我已经提供了一些细节。你基本上用不同的词重复了同样的事情。相反,你们可以自己做研究,提出更具体的问题。@NikolayShmyre
我想创建一个自动语音识别系统,从数据库中的单词列表中识别正确的单词。我已经看到CMUSphinx可以用来解决这个问题。我试过hello world sphinx演示应用程序,但没有达到预期效果
我不知道如何选择正确的声学模型、字典文件、语言模型。对于单个单词,是否需要语言模型
有没有印度英语的预建声学模型
我试过hello world sphinx演示应用程序,但没有达到预期效果
你需要提供更多关于你尝试过什么的细节。pocketsphinx支持关键字定位,您可以在此处查看
要测试关键字定位,
我试图通过图书馆找到口语单词之间的相似性。
我目前的做法如下。
1) 首先,我将口语分解成更小的框架。
2) 然后对每个帧应用MFCC,并将结果存储在向量中。
3) 最后使用DTW计算距离。
这是我正在使用的代码
int frame_size = 1024;
Aquila::WaveFile waveIn0("start_1.wav");
Aquila::FramesCollection frameCollection0(waveIn0, frame_size);
vector<vect
我正在尝试为一种特定领域的母语构建一个语音到文本的系统。尽管使用CMUSphinx的目的。对于一种不常见的语言,据我所知,首先您需要建立语音词典,其中包括可能的一组单词的英语音译:
uniocode word -> english transliteration
例:
我的问题是,我们需要手动创建这个音译吗?偶然发现freetts[2],它似乎对英语很有效。我怎样才能对一门新的语言做到同样的效果 CMUSphinx教程介绍了构建词典的可能方法:
有各种工具可以帮助您扩展现有的新词词典或
我正在寻找一个开源的语音识别引擎,它可以决定谁在说话,而不是对说的话做出反应。有人知道我在哪里能找到这样的东西吗 你可以考虑
鲍勃斯皮尔
Alize/Mistral
基于matlab的GMM说话人识别
Java中非常基本的说话人识别,不太准确
在python中,这是一个相当先进的工具包
你可以考虑
鲍勃斯皮尔
Alize/Mistral
基于matlab的GMM说话人识别
Java中非常基本的说话人识别,不太准确
在python中,这是一个相当先进的工具包
您需要的是说话人日记和
当我尝试为一个特定的说话人使用俄语和阿拉伯语混合语音来实现语音识别系统时,我遇到了一些问题。
当使用说话人15分钟的语音来调整声学模型时,错误率太高(它从6-10个单词中识别正确的1个)。
我所做的:
1.我已经把阿拉伯语的单词转录成俄语,并把它们译成英语
字典。
2.我试过ru4sphinx项目的旧型号msu_ru_zero.cd_cont_2000
以及来自cmusphinx-ru-5.2(俄罗斯最新声学模型)的新模型
此时此刻的语言)。
3.我使用了我从我研究领域的文本中制作的词典和语言模
我需要开发一个语音识别软件,所以我将Pocketsphinx与Python结合使用。
我只想识别几个单词,所以我使用一个带有阈值的关键词列表来拒绝语法错误的单词。
到目前为止,我有以下代码:
#!/usr/bin/env python
import os
from pocketsphinx import LiveSpeech, get_model_path
model_path = get_model_path()
speech = LiveSpeech(
verbose=Fa
我最近发现了一种叫做计算机口语的语言。我还发现了一些研究称之为,它采用了不同的方法。有一个
这看起来很有希望,还是仅仅是一个玩具?将来有没有可能不用键盘打字就创建应用程序?我一直在思考这个问题;我认为需要一个范式的转变(更不用说《星际迷航》中人工智能的进步)才能让程序员在口头上和写作时一样高效
例如,在这个简单的代码示例中,我实际上说的比键入的要多得多:
List<Employee> ListOfEmployees = new List<Employee>();
for
在C/C++中是否有MFCC的实现?有源代码或库吗
我已经找到了一些不错的方法。您可以使用开源语音识别工具包中的前端,例如
或者。2016年回顾:
libmfcc是一款简单的MIT许可证,自2010年以来一直不受支持
提供MFCC和其他功能,LGPLv3,自2011年以来不受支持
这是过分的,但它只能用于MFCC。Apache许可证v2.0版,并且仍然受支持
是用于语音识别的CMU工具包,CMU许可证(BSD样式),并且仍然受支持
是一个来自日本的研究工具包,修改了BSD许可证,仍然受支持
拥
我想建立语音识别系统听写样的应用。我读过htk书籍和其他教程,但所有的教程都是针对类似于命令和控制的应用程序的。对于这些应用程序,一组命令(单词)是有限的,它是使用任务语法(gramfile)手动指定的
在我的应用程序中,不可能指定这样的语法,因为我将处理包含两个人之间对话的巨大音频文件
因此,我想知道是否有可能使用htk构建这样一个应用程序
谢谢
在度过许多睡眠不足的夜晚后更新
我使用斯芬克斯获得了86%的准确率。语言模型出现了一些问题(我不知道它到底出了什么问题,我正在努力找出它),所以我
我的VXML/GRXML IVR应用程序的一部分会播放2-3分钟的音频,然后通过作为菜单运行customcontext Nuance OSDM
这会导致识别器出现超时错误,因为OSDM正在侦听2-3分钟的提示,而不是仅在提示结束后才开始侦听
我记得很久以前解决过一个类似的问题,但不记得我是如何解决的
是否有用于获取或超时的VXML或OSDM属性,可用于“强制”识别器等待,直到OSDM提示本身开始播放?在VoiceXML中,提示在执行提示元素时并未真正播放,而是排队
队列中的提示将仅播放
当口译员
我试图识别简单的英语单词,但没有识别
private void Form1_Load(object sender, EventArgs e)
{
SpeechRecognitionEngine srEngine = new SpeechRecognitionEngine();
// Create a simple grammar that recognizes "twinkle", "little", "star"
Choices son
SAPI文档包括识别配置文件的创建和删除。但是如何使用SpeechLib?我想:
找到当前活动的配置文件,并记下它
创建一个新的配置文件
使新配置文件成为活动配置文件
退出我的应用程序时:
删除我创建的配置文件
将活动配置文件设置回启动我的应用程序之前的状态
顺便说一句:SpeechLib有文档记录吗?可以通过查找找到SpeechLib文档
配置文件是一种类型,可以使用对象枚举。具体来说,创建一个新的SpObjectToken,并设置ID,然后使用EnumerateToken来获取概要文件。(本
我似乎找不到与我的问题相匹配的主题。语音识别不是我的强项,所以请原谅我不知道语音识别的来龙去脉
我有一个模拟器,它很好地使用了语法命令文件。如果我说一个命令,它会被非常准确地识别出来。我的问题是,识别器不能处理串接/连续说出多个命令。因为我的模拟器是一个空中交通管制sim卡,所以我将使用该术语作为示例:
短语A:在滑翔道上
短语B:当然
示例:我说“在航线上的滑翔道上”。如果两个短语之间的时间间隔不够大,则忽略第二个短语。当听回最后一个短语时,我只听到“on glide path on”,因此识
是否可以从HTK使用HVite而不指定词汇表文件?我做的是纯手机识别,只有与语音波形相对应的手机级实验室文件。我还没有定义任何vocab文件…您仍然需要一个词汇表文件。定义一个虚拟的小词汇表,每个电话映射到它自己
我运行了以下命令:
g2p-seq2seq --interactive --model_dir g2p-seq2seq-cmudict
但我有一个错误::(
/usr/lib64/python2.7/site packages/h5py/init.py:36:未来警告:
issubdtype的第二个参数从float转换为
np.不推荐使用浮动。将来,它将被视为
np.float64==np.dtype(float).type.from.\u conv导入
将\u转换器注册为\u寄存器\u转换器
我正在开发语音识别语法,但遇到了困难
如果一个客户不知道提示的答案,并说“不知道”,而其他客户知道答案,我正在考虑将其分离出来
例如,如果正在请求保险号码:AB112233C,而用户知道或不知道
如果用户不知道,我想在应用程序中执行特定操作
我使用NUANCE作为ASR
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<grammar xmlns="http://www.w3.org/2001/06/grammar
在2006年关于连接主义时间分类的文章中,Alex Graves&co.介绍了一种解码语音的模型,它有27个标签:26个用于字母表字母,一个用于空白,这意味着没有标签(我理解为沉默)
然而,我看到很多CTC的实现使用了28个标签,一个是空白,另一个是空格。到目前为止,我还没有找到一个解释来解释为什么需要同时使用这两个标签,对我来说,它们代表的是同一件事
请您解释一下CTC中空白和空白的区别,以及为什么需要这两种标签
在连接主义的时间分类中,空间只是一个概念
空格和空白是“-”,我们用它来解决重复
我正在尝试使用HMM构建一个非常基本的单词识别器,也就是说,给定一个单词(不超过一个)的发音,我需要对其进行分类。到目前为止,我已经提取了音素级特征(MFCC)。更具体地说,对于每个音频信号,我有一个(410 x 1)特征向量。但现在我有点被卡住了:
我真的不明白如何将这些特性映射到HMM。我知道每个类都需要单独的HMM
我不太确定代码本中应该有多少个码字
PS:我已经从Lawrence R.Rabiner(以及其他一些人)那里了解到了,但是这个想法仍然有些模糊。好吧,你可以对每个单词使用HMM
我们使用Microsoft.CognitiveServices.Speech对视频剪辑进行转录/字幕,使用OutputFormat.Detailed和RequestWordLevelTimestamps。虽然DetailedSpeechRecognitionResult有一个置信度评分,但在单个单词上没有这样的属性。这对我们很有用。是否有计划逐字添加置信度属性,可能是作为WordLevelTimingResult类的扩展
我是斯芬克斯4的新手,正在尝试制作简单的数字识别应用程序。
我有一套3位数的wav,发音时有短暂的停顿(比如1_five_nine.wav),用于测试。
问题是在找到第一个数字后,文件的识别就停止了,所以我只有“1”作为one_five_nine.wav的输出
这是我的前端配置
<component name="epFrontEnd16k" type="edu.cmu.sphinx.frontend.FrontEnd">
<propertylist name="pipe
我试图在Java中使用Sphinx4,通过网络从InputStream输入。目前,我的程序被设置为将从网络传入的任意数量的数据包读取到一个名为all_data的数组中。由此,我创建了一个ByteArrayInputStream。我希望能做的就是把它传给斯芬克斯,让他认出来
到目前为止,我掌握的代码是:
InputStream audioToPlay = new ByteArrayInputStream(all_data);
ConfigurationManager cm;
cm = new Co
我想为大量单词建立一个语言模型,以便在windows语音识别的听写主题中创建另一个主题。请告诉我最好的方法是什么。
任何帮助都将不胜感激。您也可以使用来构建自定义语言模型。不过,它对用户不是很友好;它是由语言科学家为语言科学家建造的
尽管如此,还是有一个如何使用它的例子。它还描述了如何注册新构建的LM,以便Windows语音识别可以使用它
可选参数似乎总是被忽略,响应总是包含一个结果(至少对于fr语言)。
是否有一种方法/解决方法可以获得多个结果?您收到的结果取决于发送的音频。如果引擎能够自信地找到结果,它将不会返回额外的结果。您确定吗?我已经使用它一段时间了,我从来没有收到过一个以上的结果,无论是音频还是信心都没有对该参数进行任何更改。我将让我们的开发人员对此进行进一步调查。谢谢你引起我们的注意。嗨,雷,你有更多的信息吗?
我正试图通过一个python API使用Microsoft认知服务解决语音到文本的问题。我有两个文件,harvard.wav和Optagelse_0.wav,我想转录它们,但我只成功地使用了harvard.wav
文件harvard.wav具有以下属性:
{'filename': 'harvard.wav', 'nb_streams': '1', 'format_name': 'wav', 'format_long_name': 'WAV / WAVE (Waveform Audio)', 's
我不熟悉演讲者日记,正在探索图书馆,有几个问题。我在这里看了日记演示:
使用实时音频流而不是静态音频文件:
我看到演示使用了一个静态mp3文件,尽管在我的用例中,我将使用一个实时音频流。Analyzer是否支持语音日记的流式输入?如果是这样的话,我是否可以找到一些参考资料/示例代码
音频流开头未知的扬声器数量:
与给定的“演示代码”不同,在我的用例中,演讲者的总数是预先确定的,我将尝试从现场会议中传输音频,这意味着可能事先不知道用户的总数(是的,我们知道有多少人收到了会议邀请,但不一定所有人都会
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 14 页