Ibm cloud 如何提高Watson语音到文本的准确性?

Ibm cloud 如何提高Watson语音到文本的准确性?,ibm-cloud,speech-recognition,speech-to-text,watson,Ibm Cloud,Speech Recognition,Speech To Text,Watson,据我所知,沃森的语篇转换在某种程度上是针对口语对话和一两位演讲者进行校准的。我也知道它比WAV和OGG更能处理FLAC 我想知道如何改进算法识别,从声学角度来说 我是说,增加音量有帮助吗?也许使用一些压缩过滤器?降低噪音 什么样的预处理有助于此服务?提高基本模型(非常准确但也非常通用)准确性的最佳方法是使用Watson STT定制服务:。这将允许您创建一个定制的模型,以适应您所在领域的具体情况。如果您的域与基本模型捕获的域不太匹配,那么您可以预期识别精度会有很大提高 听到你的评论“我也知道它比W

据我所知,沃森的语篇转换在某种程度上是针对口语对话和一两位演讲者进行校准的。我也知道它比WAV和OGG更能处理FLAC

我想知道如何改进算法识别,从声学角度来说

我是说,增加音量有帮助吗?也许使用一些压缩过滤器?降低噪音


什么样的预处理有助于此服务?

提高基本模型(非常准确但也非常通用)准确性的最佳方法是使用Watson STT定制服务:。这将允许您创建一个定制的模型,以适应您所在领域的具体情况。如果您的域与基本模型捕获的域不太匹配,那么您可以预期识别精度会有很大提高


听到你的评论“我也知道它比WAV和OGG更能处理FLAC”,事实并非如此。Watson STT服务提供对flac、wav、ogg和其他格式的完全支持(请参阅文档的这一部分:)

谢谢你,丹尼尔。现在,我们正在尝试你建议的方法。Watson似乎对首字母缩略词处理得很好,这很好,因此我们正在使用定制工具丰富语料库。但是,由于我们处理的是会议音频,因此每个发言者的音频质量都是不同的。虽然有些音频清晰,但另一些音频质量非常差。然而,我明白,让人类清晰的音频不一定与机器学习算法相同。在这种情况下,我想知道是否有任何音频过滤器可以帮助(音量提升?压缩?)通过应用过滤器对音频进行预处理可能会导致不匹配,并可能进一步降低识别精度。您当然可以尝试它,但最好的方法可能是进行am定制,请继续关注该功能。我有个问题要问你,你使用的音频编码是什么?我想知道你是否因此丢失了一些东西。原始音频可能是使用lync(skype for business)捕获的,是一个windows media视频文件,因此我猜内部音频格式是wma,带有一些microsoft拥有的编解码器。我尝试了S2T的宽带和窄带设置,在这种情况下,宽带似乎工作得更好。遗憾的是,我们无法使用音频样本定制S2T。我们必须依赖S2T的默认声学设置(当然,这比要求用户调整自己的语音识别方法更容易)。正如你所说,在不确切了解S2T期望的情况下预处理音频会使事情变得更好或更糟,所以我现在正在做的是实验(压缩似乎可以提高精确度,而降噪似乎正好相反)。这个问题的目的正是探索一些预处理技巧,这些技巧通常可以在这项任务中发挥作用。具体来说,我可以尝试什么样的预处理程序来提高精确度(我知道这里没有配方)@Leo我现在也在为这个问题苦苦挣扎。这个问题发布4年后。当基本模型转录录制的音频文件时,你最终能够提高其准确性吗?什么有效?我也在用python做这件事,目前正在Lite计划中。有什么建议吗?