Artificial intelligence 使用多个语音到文本API提高准确性

Artificial intelligence 使用多个语音到文本API提高准确性,artificial-intelligence,speech-recognition,speech-to-text,ibm-watson,google-speech-api,Artificial Intelligence,Speech Recognition,Speech To Text,Ibm Watson,Google Speech Api,有没有人尝试过使用两个或更多的语音到文本API转录音频?您可以使用时间戳匹配单词,并以最高的置信度选择单词。如果有人这样做了,它是否显著提高了转录的准确性?这值得吗?这种方法可能会因为许多不同的原因而产生问题。并非所有供应商都会逐字返回信心分数,即使他们返回了信心分数,一个供应商60%的信心分数与另一个供应商API 60%的信心分数并不相同。置信度得分仅在发布它们的API的上下文中有效 在这一点上,大多数语音到文本供应商都有相当好的模型。有些(比如IBMWatson)实际上允许您通过添加词汇表来

有没有人尝试过使用两个或更多的语音到文本API转录音频?您可以使用时间戳匹配单词,并以最高的置信度选择单词。如果有人这样做了,它是否显著提高了转录的准确性?这值得吗?

这种方法可能会因为许多不同的原因而产生问题。并非所有供应商都会逐字返回信心分数,即使他们返回了信心分数,一个供应商60%的信心分数与另一个供应商API 60%的信心分数并不相同。置信度得分仅在发布它们的API的上下文中有效

在这一点上,大多数语音到文本供应商都有相当好的模型。有些(比如IBMWatson)实际上允许您通过添加词汇表来定制模型。如果您根据交换机语料库查看行业基准,您会注意到供应商不断改进并相互超越。2016年9月13日,微软宣布其错误率最低()。2017年11月1日,谷歌声称击败了谷歌,随后IBM于2017年7月3日宣布取得优势()。这些差异都是百分之一或百分之一的改善。我预计,这种跨越式的改进将在短期内持续下去


总之,通过使用两种不同的API,您的语音到文本实现的成本实际上翻了一番,这很难证明,这是许多演讲比赛的标准做法,当你不关心解码速度,但你需要良好的准确性时。系统组合通常会给您带来显著的改进,大约多10%,因此通常是有益的

您不需要时间戳来正确组合假设,您只需在统计上比较输出。有关该主题的参考,请阅读


请参阅中的ROVER实现。

ROVER看起来很有趣,但也很古老。有没有类似的东西更先进、更新?