Artificial intelligence 使用多个语音到文本API提高准确性_Artificial Intelligence_Speech Recognition_Speech To Text_Ibm Watson_Google Speech Api

Artificial intelligence 使用多个语音到文本API提高准确性

artificial-intelligence speech-recognition

Artificial intelligence 使用多个语音到文本API提高准确性,artificial-intelligence,speech-recognition,speech-to-text,ibm-watson,google-speech-api,Artificial Intelligence,Speech Recognition,Speech To Text,Ibm Watson,Google Speech Api,有没有人尝试过使用两个或更多的语音到文本API转录音频？您可以使用时间戳匹配单词，并以最高的置信度选择单词。如果有人这样做了，它是否显著提高了转录的准确性？这值得吗？这种方法可能会因为许多不同的原因而产生问题。并非所有供应商都会逐字返回信心分数，即使他们返回了信心分数，一个供应商60%的信心分数与另一个供应商API 60%的信心分数并不相同。置信度得分仅在发布它们的API的上下文中有效在这一点上，大多数语音到文本供应商都有相当好的模型。有些（比如IBMWatson）实际上允许您通过添加词汇表来

有没有人尝试过使用两个或更多的语音到文本API转录音频？您可以使用时间戳匹配单词，并以最高的置信度选择单词。如果有人这样做了，它是否显著提高了转录的准确性？这值得吗？

这种方法可能会因为许多不同的原因而产生问题。并非所有供应商都会逐字返回信心分数，即使他们返回了信心分数，一个供应商60%的信心分数与另一个供应商API 60%的信心分数并不相同。置信度得分仅在发布它们的API的上下文中有效

在这一点上，大多数语音到文本供应商都有相当好的模型。有些（比如IBMWatson）实际上允许您通过添加词汇表来定制模型。如果您根据交换机语料库查看行业基准，您会注意到供应商不断改进并相互超越。2016年9月13日，微软宣布其错误率最低（）。2017年11月1日，谷歌声称击败了谷歌，随后IBM于2017年7月3日宣布取得优势（）。这些差异都是百分之一或百分之一的改善。我预计，这种跨越式的改进将在短期内持续下去

总之，通过使用两种不同的API，您的语音到文本实现的成本实际上翻了一番，这很难证明，这是许多演讲比赛的标准做法，当你不关心解码速度，但你需要良好的准确性时。系统组合通常会给您带来显著的改进，大约多10%，因此通常是有益的

您不需要时间戳来正确组合假设，您只需在统计上比较输出。有关该主题的参考，请阅读

请参阅中的ROVER实现。

ROVER看起来很有趣，但也很古老。有没有类似的东西更先进、更新？