我正在制作一个语音情感识别程序
使用mfcc+K-均值+GMM,我得到了类似于-15012,-43400,-8000的可能性
它的价值比我想象的要大。它的价值正确吗
波形文件的长度通常为2~3,I init使用以下选项
MFCC option
SampleRate = 16000
WindowSize = 256
NumberCoefficients = 13
UseFirstCoefficient = true
MinFreq = 20.0
MaxFreq = 16000.0
Nu
我想知道您是否可以帮助建议aubio(或任何其他类似服务)是否适合我们的业务。遗憾的是,我不是开发人员或声音工程师,所以请原谅我的无知。。。但任何反馈都将不胜感激
目前,我们使用音频文件,例如会议的1小时录音,并将其切分为较短的音频部分。问题在于音频被残酷地分割;如果我们将一个60分钟的文件分成5分钟的部分,每5分钟就有可能将一个单词或句子切成两半,从而导致质量下降,因为听者无法解读这半个单词/句子
我可以看到aubio网站列出了它的一个特性,即“在每次攻击之前分割声音文件”。我想知道aubio
我收集了大量的音频文件,这些文件的抄本都是外语。
我希望能够识别用户是否背诵了文本中的正确单词。
如何开始使用CMU Sphinx来处理此问题?我需要语言模型、声学模型吗?
我想要一些指导,请和从哪里开始
如何开始使用CMU Sphinx来处理此问题
您可以识别音频并将其与转录进行比较。如果不匹配,您可以警告您的用户
我需要一个语言模型,声学模型吗
是的,两者都需要。您可以从集合中构建它们,但仍然需要引导数据。为了得到更多的建议,这里值得一提的语言
我想要一些指导,请和从哪里开始
从教程开始谢谢
在语音识别中,单声道和三声道在隐马尔可夫模型中的表现有什么不同
假设单声道与上下文无关,三声道与上下文相关。但是在HMM中,状态是链接的,所以这不意味着即使是单音子也是上下文相关的,因为在HMM中,一个状态以某种概率过渡到另一个状态。我在这里感到困惑
我发现的所有使用Microsoft语音识别的示例都包括一个开始按钮和一个结束按钮,用于启动和停止听力过程。我正在开发的应用程序需要不断地倾听一个单词。有没有办法让它一直开着听呢?我试过谷歌,但什么也找不到。谢谢。进入您看到的Exmaple,在应用程序启动时运行Start Button事件。同样,在应用程序关闭时运行End button事件…?@gbtimmon当我尝试此操作时,它只识别一个单词。从那以后,它就不起作用了。不管怎样,我让它起作用了。我当时很愚蠢。谢谢你的帮助。
网站有没有办法让iPad2或更高版本通过语音提供输入
也就是说,他们对着ipad麦克风说话,网站就会收到文本
我刚刚在这里读到这篇文章(第一个答案):
我有点明白,但还不完全明白。在不太技术化的情况下:单词识别到底是如何工作的
在文章中,hmm应该识别由音素/k//a//t/表示的单词“cat”
假设hmm处于/k/状态。也就是说,它成功地识别了/k/,对吗
那么它如何准确地识别/a/?在/k/之后,下一个状态是/a/,但也可能是e。G下一个状态是/e/,对吗
这些概率来自于在语料库上训练模型吗?因此,如果语料库中的大多数单词是/ka/而不是/ke/,那么从state/k/到/a/的概率要高于从sta
我刚刚在帧级别从模型中提取了一条路线
fash-b-an251 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 134 134 134 134 134 134 134 134 134 44 44 44 44 44 44 44 44 44 111 111 111 111 111 111 111 111 111 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
任何人都可以共享一些用于在Java中将语音转换为文本的代码片段。语音识别不是一项容易的任务,oracle提供了一个API
Java语音API允许Java应用程序将语音技术合并到其用户界面中。它定义了一个支持命令和控制识别器、听写系统和语音合成器的跨平台API
您可以查看完整的文档查看此问题
斯芬克斯API广泛用于语音到文本的转换。您可以在中找到一个关于如何使用sphinx进行语音识别的简单教程,如果您使用python进行转换,会容易得多。您可以使用python作为应用程序的外部服务来进行转换 嗯
我发现了一些文章()描述了如何使用GoogleSpeechAPI
然而,这可靠吗?有人在生产中使用它吗
谢谢我的理解是,谷歌的语音网络服务只有在其Chrome浏览器或Android操作系统中才合法使用。你当然可以构建一个依赖于这些服务的Chrome或Android应用程序。Chrome和Android文档都描述了如何在应用程序中添加语音功能。(好的链接包括和)
但是,请注意您引用的文章,作者必须深入研究Chrome源代码以对网络语音API进行反向工程。谷歌还没有发布供其他客户端(非Chrome、
我正在尝试设置Cairo-0.3项目,我的rserver.sh、receiver.sh和transmitter.sh正在成功运行,但当我尝试运行demo-recog.sh(Cairo的一个演示程序)时,我得到:
我无法理解我在这里做错了什么。您需要安装和配置Java Media Framework才能运行此软件。请参阅自述文件中的安装说明:
装置
提取开罗
要安装Cairo,请将二进制分发归档文件中的所有文件解压缩到您的目录中
下载并安装JMF2.1.1开罗需要Java媒体框架(JMF)版本2.
我试图通过这样做来获得演讲结果的自信分数
信任度结果cr=记分员。得分(结果)
其中,result是一个SpeechResult,scorer是一个ConfidenceScorer。事实证明这是不允许的。除了使用结果类型之外,还有什么方法可以解决这个问题吗?是的,您可以这样做,尽管它有点迂回。信心的结果实际上是一根香肠(不,不是开玩笑,这就是它的名称:。虽然它也被称为单词混淆网络,但由于图形的形状,它有时被称为香肠。参见图1。of。那篇文章是理解自信和语音识别的重要参考,尽管它有点长,但我强烈建
在寻找使用flash进行语音识别的方法时,我与VoiceXML进行了交叉。我已经看过了W3C对它的描述,但仍然有一些很大的疑问
我可以简单地创建一个vxml文档并将其放在我的Web服务器上吗?要求是什么
行吗
我可以通过互联网用麦克风输入吗
我似乎找不到一个直接的答案。你需要一个能处理VoiceXML的浏览器
我在电信行业工作,所以这通常意味着通过老式电话连接或VoIP连接到公共电话网络的软件。在这个领域有很多商业和开源解决方案
还有一些其他的实现,比如和一些在可访问性领域的研究计划,但我还没有
我尝试了2015年11月的版本(build 10586)和2016年2月的Insider预览版(build 14262),但是我的USB麦克风无法与Windows 10 IOT core兼容
场景:
我正在使用windows IOT Core创建一个基于语音识别的程序
我正在为此作业使用Windows.Media.SpeechRecognition api。当我使用Visual Studio 2015在Window 10 PC的模拟器上运行程序时,麦克风工作,声音被检测到,程序按要求运行
然而,
我在为an4数据库培训CMU的sphinxtrain时遇到了一个问题
我在培训期间面临两个问题,exe文件崩溃:
agg_seg.exe已停止工作
bw.exe已停止工作
我已将CFG\U CD\U列车设置为no
我在日志中看到以下数据:
WARN: "kmeans.c", line 433: Empty cluster 251
WARN: "kmeans.c", line 433: Empty cluster 252
WARN: "kmeans.c", line 433: Empty clus
我已经使用sphinx对齐器完成了语音到文本的对齐。
是否有任何性能度量来评估校准结果
我收到响应消息,因为收到了无效的JSON负载。未知名称“配置[编码]”:无法绑定查询参数。在请求消息中找不到字段“config[encoding]”。接收到无效的JSON负载。未知名称“config[languageCode]”:无法绑定查询参数。在请求消息中找不到字段“config[languageCode]”。接收到无效的JSON负载。未知名称“音频[内容]”:无法绑定查询参数。在请求消息中找不到字段“音频[内容]”。接收到无效的JSON负载。未知名称“config[sampleRateHe
我在Stack exchange上做了一个通用搜索,搜索任何与语音识别相关的内容,以确定这个问题最适合哪个特定站点。我最终选择了这个网站,因为每次搜索都会得到这个网站的结果。所以我的问题是如何在Dragon NaturallySpeaking和Windows语音识别之间轻松切换。我目前已经安装了Dragon NaturallySpeaking 13、Windows语音识别和Windows语音识别宏。有了WSR,我可以简单地使用宏编写一个宏脚本,按下打开Dragon和关闭Windows语音识别所需
我从官方存储库在Debian机器上安装了Pocketsphenx。我试着用我的声音(印度英语)训练默认的声学模型。结果非常不准确
你能建议应该做些什么来提高它的准确性吗
在开源世界里,语音识别还有更好的选择吗
据上周三报道,他们在支持80种语言的情况下开放了语音到文本的API供公众使用,并将以实时流媒体或批处理模式处理任何应用程序。,我建议使用它来返回比Pocketsphinx更精确的结果。或者检查另一个非常好的解决方案中解释了Pocketsphinx精度调整。对于印度英语,您必须建立一个模型,
我一直在尝试执行这里给出的基本用法程序:
下面有一个错误,说没有这样的文件或目录,但我已经打开了文件夹,其中有goforward.raw文件
INFO: ngram_search_fwdflat.c(157): fwdflat: min_ef_width = 4, max_sf_win = 25
INFO: ngram_search_fwdtree.c(429): TOTAL fwdtree 0.00 CPU -nan xRT
INFO: ngram_search_fwdtree.c(432):
我正在尝试在服务器端安装语音识别引擎。(非商业性首选,因为它仅用于实验)
这个想法是允许用户在网站上说些什么,然后他/她说的任何话都会显示在屏幕上(作为文本)
我读过很多可用的软件,从微软的Speech、Sphinx、Julius等等,只是不确定哪一个软件性能最好,安装起来最简单。
通常我需要在我的主机上拥有root权限才能做这类事情吗?我现在正在使用一个普通的共享主机
谢谢你,
Tee我怀疑您能否在共享托管环境中做任何事情。语音识别可能需要相当多的CPU,共享主机环境显然是“共享的”,大多数主
我们想创建一个语法文件。除了(你好|早上好)(杰克|吉尔)
指定第一个单词的可能集合,然后指定第二个单词的集合
我们使用它来识别视频中的语音以生成字幕。不确定CFG是正确的模型。你不需要把第i个位置的每个可能的单词都与它出现的概率联系起来吗?如果是这样,那么使用a会更好一些,但我认为它会很快变得难以管理。为什么不像大多数人那样使用
另见:
我从另一个类的不同线程调用sphinx语音识别。
我把语音识别代码放在一个方法中,并在每个线程上使用该方法,一次一个,第一个线程工作正常,第二个线程显示错误,程序终止
以下是我的语音识别方法:
public String voiceGet() throws InterruptedException{
cm = new ConfigurationManager(HelloWorld.class.getResource("helloworld.config.xml"));
recog
我想用java创建一个语音识别项目,并尝试使用sphinx cmu。我用这个代码来识别语音,但没有给我一个好的回应。我怎样才能解决这个问题
import java.io.IOException;
import java.net.URL;
import edu.cmu.sphinx.api.Configuration;
import edu.cmu.sphinx.api.Context;
import edu.cmu.sphinx.api.LiveSpeechRecognizer;
import
我有一个应用程序,它向服务器进行REST调用,以获取它发送到服务器的音频文件的转录本。我想问我是否可以在服务器上使用Windows语音API来满足我的通用转录需求。我试图从网络上理解这一点,但它变得非常混乱
简而言之,我想在我的服务器上运行语音到文本服务(运行windows server OS),我的桌面应用程序可以与之交互并接收发送到服务器的音频文件的转录本
有谁以前做过这个吗
我正在使用google cloud speech api我用我的flac文件尝试了他们的api,但他们只是转录了我的flac格式文件的一部分。我能用我的文件做些什么来让它完美地工作吗?我试着在他们的计算机上测试他们的api。我将此传递到请求正文中
{
“音频”:{
“uri”:“gs://kami1994/file-1506682082651.flac”
},
“配置”:{
“编码”:“FLAC”,
“语言代码”:“en US”,
“赫兹”:44100,
“最大备选方案”:1
}
}
但它并没有
将--训练批量大小2增加到--训练批量大小3会导致Mozilla DeepSpeech不再训练。怎么解释呢
具体来说,如果我跑
./DeepSpeech.py --train_files data/common-voice-v1/cv-valid-train.csv --dev_files \
data/common-voice-v1/cv-valid-dev.csv \
--test_files data/common-voice-v1/cv-valid-test.csv \
--lo
我不熟悉语音识别
我有兴趣建立一个工具,使我能够记录一个特定用户的谈话和噪音的讲话
我想知道是否有任何深度学习模型能够检测特定用户的语音并将其隔离,这样我就可以只为特定用户执行语音到文本的转换
希望你能提出建议
调频
在大多数安卓手机中,都有听写文本而不是打字的选项。是否可以使用url单独访问此服务?例如,我将录制的语音发送到此服务,然后它会给我文本输出。可能吗?你能告诉我吗?有一个非官方的谷歌语音API,它被反向设计并发布在了网站上。本文展示了如何使用Perl访问它,但它为您提供了足够的指导,让您了解如何使用另一种语言进行访问。使用非官方API的问题在于,它可以在不通知的情况下更改,并且没有支持或文档
细微差别有其特殊性。我认为在这个SDK的引擎盖下有一个web服务。我知道Nuance购买了一项基于云的语音
这样做的目的是估计朱利叶斯每秒钟需要多少处理时间
使用Recog*Recog可以通过(float)Recog->speechlen/(float)Recog->jconf->input.sfreq直接确定语音的处理时间,但我找不到任何地方可以指示需要多少处理时间
有人解决了这个问题吗?您需要将回调\u添加与事件回调\u事件\u识别\u开始和回调\u事件\u识别\u结束一起使用。保存开始时的初始时间,然后在结束时的差异就是持续时间
但它给出了以下结果:-
The text you just said is: -1
The probability to be right is: -1
仔细检查是否安装了所有依赖项
Perl: The Perl Programming Language
perl-libwww: The World-Wide Web
library for Perl flac: Free Lossless Audio Codec
CentOS上安装的用于我的谷歌语音识别API AGI脚本实现之一的软件包示
我知道用音频指纹识别音频文件,这很了不起,但我真正想知道的是谷歌是如何制作语音识别API的,他们是如何获取音频和返回的单词的
我写了一个gem来对wav音频文件进行指纹识别并对它们进行比较,但是如果我使用指纹来将我的声音与一个充满指纹的数据库进行比较,这可能需要很长时间。谷歌是如何做到的
目的:
我真的很喜欢语音识别,我想找个地方开始编码,但我不知道从哪里开始。DragonVoice是语音识别软件的另一个例子,所有这些软件都非常快
我想知道从获取音频记录到将其转换为文本的服务器流程。使用源Luk
我想知道如何将语音识别添加到网站中的任何输入标签中。
我已经浏览了很多关于网络的教程,以及所有连演示都没有显示麦克风图标的网站。
我甚至读过文档。请说明是什么造成了这个问题,或者谷歌已经禁用了它?
谢谢这是一种使用html5标记属性在网站中添加语音识别的方法
x-webkit-speech。
您需要在网站中添加的代码如下所示
<p id="msg">
</p>
<div id="speech-input">
Enter input ::<inpu
我最近一直在为我的房子编写API,遇到了一个有趣的问题,我需要找到解决方案。我想我会得到一些关于其他人认为我应该如何做的最好的建议:
我开发的API可以控制诸如我的计算机显示器之类的东西,打开和关闭它们。此外,彩色Wifi灯,设置颜色和亮度
我遇到的问题是,我正在尝试为系统实现语音控制,使用我捕获的谷歌语音到文本API,并将语音转换为文本。已将文本发送到服务器,但我不确定如何最好地将英语句子转换为我可以发送到API中执行的命令
我的API处理三件事:类别、函数和参数。例如,按照这个顺序
Moni
我使用下面的方法使用麦克风将语音转换为文本,采样率为16000。我最初在Windows10机器上测试过它,它工作得很好,后来在Windows7机器上测试同一个脚本时,它工作不正常,我收到下面的错误消息
audio data is being streamed too slow. please stream audio data approximately at real time
如何决定在哪台机器上使用哪种采样率?我的Windows 7计算机可能有什么问题
// [START speech_
我正在使用Google语音API,使用Python识别.OGG文件音频中的越南语语音。但它不会返回任何结果。至少在英文版的谷歌语音API中,您需要使用FLAC输入文件或线性16输入文件(不是OGG音频格式)
有关更多上下文,请参阅此疑难解答页面:尝试使用此配置,对于我来说,它使用nodejs工作
const config = {
encoding: 'OGG_OPUS',
sampleRateHertz: 16000,
languageCode: 'YOUR_LAUNGAGE COD
我在语音识别的解码部分遇到问题。我跟着台阶走。当我键入:perl scripts\u pl/decode/slave.pl时,会出现以下错误:
模块:使用先前训练过的模型解码
解码从0开始的130段(第1部分,共1部分)找不到/home/go/Documents/tutorial/an4/bin/sphinx3_decode的可执行文件
在
/home/go/Documents/tutorial/an4/scripts_pl/decode/。/lib/SphinxTrain/Util.pm
第2
我一直在玩quakelive.com,对我的键盘绑定感到沮丧,我想用语音命令来绑定
我想我应该创建一个c控制台应用程序在后台运行,并使用SAPI for windows 7 64位内置的语音识别引擎来完成所有繁重的语音任务。我的程序将听取演讲,并做出相应的回应。但是,我不知道如何在玩游戏时在后台运行我的console应用程序,同时使用ms语音识别
这是我到目前为止写的:
using System;
using System.Collections.Generic;
using System.Di
代理(应用程序a)将呼叫转接到我们的vxml应用程序(应用程序b),
要求同一代理能够在我们的vxml应用程序(应用程序b)中输入一个数字
然后,从我们的vxml应用程序(应用程序b)中,我们需要将呼叫转移到另一个外部应用程序(应用程序c),并在出现断开连接时回拨此呼叫(盲转可以做到这一点)
然而,我们也被告知,在外部应用程序(应用程序c)上,代理需要在某一点上退出,并允许其客户与其进行交互
我不确定这是否可能,因为我想在这一点上,我们将失去呼叫控制,这将返回到我们的vxlml应用程序(应用程序
我使用VisualStudio社区进行编译
我最初想要测试的文件长达一个多小时,所以我用了3秒的音频进行了测试,然而,同样的事情发生了。
以下是我使用的命令行参数:
C:\path\to\pocketsphinx_continuous -infile C:\path\to\file.wav -hmm C:\path\to\en-us -kws_threshold 1e-40 -keyphrase "what I need to detect" -time yes
我被告知要像这样转换文件:
f
想知道是否有人使用谷歌的去噪器为谷歌见面?它刚刚发布
听起来很酷,但想知道产生的音频(通过这种“去噪”)是否会影响通过ASR(自动语音识别)自动转录会议的能力
我所研究的大部分/所有这些噪声消除技术都集中在使嘈杂音频信号中的语音对人耳更为明显。。。。但他们在音频信号中引入了人工制品,这会扰乱ASR和任何自动会议转录。如果这个谷歌去噪器没有做到这一点,那就太好了
是否可以识别非语言表达或为此定制工具(Google Speech/IBM Watson)?非言语表达是讲话过程中的停顿,例如:
"hum... i would like to know hum... how do i connect YouTube to Google AdSense"
在我到目前为止所做的测试中,这种类型的表达在转录本中被忽略了,IBM Watson语音到文本服务将其汇总为犹豫。如果您没有看到这一点,那么可能会打开智能格式化选项,您需要关闭该选项
做这件事最好的图书馆是什么。而且质量是好的,这是值得信赖的。无法使用扬声器语音训练系统或使用术语词典来改善结果。在windows上,您希望使用SAPI接口(语音API)。有多种实现。微软提供了一个带有Windows的免费软件。Dragon NaturallySpeaking是一个非免费的工具,我在过去看到过它被用于类似的任务(经过努力)。如果演讲者讲得很清楚(并且没有重叠和互相打断),那么缺乏训练就不会有那么严重的问题
你不会得到一个好的成绩单,但是,准确性会很差,你得到的将只对索引有用。大词和
我正在尝试为chrome webkitSpeechRecognition对象设置语法
rec.grammars.addFromUri("grammar.grxml");
不起作用。浏览器只是忽略了语法(没有显示错误消息)
我在这篇文章中读到:
“尽管w3c为web语音指定了语法,但chrome尚未实现”
这是真的吗?
是否有已知的解决方法?
什么时候应该支持它?
还有其他好的基于web的引擎支持语法吗?我也遇到了同样的问题。关于这件事的文件也很少
2017年3月左右发布的一篇文章还指出,它在C
我已使用语言模型将我的语音解码为音素。我需要将语音分割为句子和单词。我知道,ctm文件会有所帮助。有人能告诉我如何为特定语音实例生成ctm文件吗?从识别器转储字数的代码:
int frame_rate = cmd_ln_int32_r(config, "-frate");
ps_seg_t *iter = ps_seg_iter(ps, NULL);
while (iter != NULL) {
int32 sf, ef, pprob;
float conf;
ps_s
我是机器学习新手。我偶然发现了ML.NET(微软的机器学习框架)。我们可以使用这个框架进行语音识别吗?如果你想在ML.NET中进行语音识别,你应该知道哪些事情?IMHO,对于初学者来说,修改样本神经网络/深度学习解决方案是一个很好的起点。对于神经网络,起点是张量流。使用ML.net,您可以使用Tensorflow模型
使用Tensorflow进行音频识别:
将Tensorflow模型与ML.net结合使用的示例:
ML.NET此时不处理音频,只处理文本和图像。您可以在ML.NET github
我在文档中到处搜索,但仍然不清楚如何为Watson Speech-to-text API设置置信阈值
此处底部附近提到了阈值,但没有提到在发出请求时如何实际设置阈值
这是在请求的某个地方完成的吗?请参阅API参考:
word\u备选方案\u阈值
一个置信值,它是将一个假设识别为一个可能的词替代(也称为“混淆网络”)的下限。如果替代词的置信度大于或等于阈值,则考虑使用替代词。指定介于0.0和1.0之间的概率。如果省略该参数,则不会计算其他单词。参见单词替代
我正在vue.js上运行一个简单的语音识别代码
<template>
<div>
<button class="speech-to-txt" @click="startRecognition">
Speech to txt
</button>
<div class="speech-transciption">
<div
作为一个例子,我为camelCase文本编写了一个简单的规则。
它使用以下规范:
spec="camel case <txt>"
spec=“骆驼箱”
它正确地修改了命令“camel case”后面的文本
但这仍然不如“capitalizethat”等内置命令灵活
例如,“大写”可用于操作鼠标当前选择的文本。这使得编辑现有代码非常容易
蜻蜓能实现这一功能吗?是的,但你必须要有创意。使用蜻蜓键高亮显示要大写的文本。(例如,Shift Right或Control Shift Left
我正在使用IBM Watson的语音到文本服务为几个8kHz的电话音频文件生成转录本。我试过相同文件的wav和opus版本。在使用opus格式时,我没有看到成绩单的质量有任何大的下降。我正在考虑只存储opus格式的文件,以减少存储空间需求和减少文件传输时间。一般来说,使用wav格式更高质量的成绩单更好吗?如果我们使用opus格式,转录本的质量会有任何已知的降低吗?只有您知道您的用例当前和未来的需求,所以很难提供一个直接的答案。话虽如此,我个人认为作品的质量非常好
以下是一些关于Opus编解码器质
1 2 3 4 5 6 ...
下一页 最后一页 共 13 页