Speech recognition ?沃森演讲对文本的限制:评论? 不支持AAC格式 会议长达数小时:无损格式FLAC生成非常大的文件(超过API设定的100MB) 一小时测试会议=FLAC中210 MB,OPUS中30 MB。因此需要选择OPUS(有损格式),而不是FLAC(无损) 人类难以阅读的文本(标点符号) 没有迹象表明单词的置信度低(这可能表明存在潜在错误) 很多“空虚”的时刻

Speech recognition ?沃森演讲对文本的限制:评论? 不支持AAC格式 会议长达数小时:无损格式FLAC生成非常大的文件(超过API设定的100MB) 一小时测试会议=FLAC中210 MB,OPUS中30 MB。因此需要选择OPUS(有损格式),而不是FLAC(无损) 人类难以阅读的文本(标点符号) 没有迹象表明单词的置信度低(这可能表明存在潜在错误) 很多“空虚”的时刻,speech-recognition,speech-to-text,ibm-watson,Speech Recognition,Speech To Text,Ibm Watson,加上 对于演示来说还不错。。。我们如何实现生产梯度系统?只是一般的文本到语音考虑: 人们经常互相说得天花乱坠 对捕捉到的环境质量敏感(房间的声学、录音设备的放置、电话呼叫等) 特定于技术/领域的词汇分类错误(新兴技术往往太新,无法纳入培训范围) 对非母语人士进行分类很困难 感谢您的反馈,以下是一些答案: 你说在FLAC里一小时是210兆?您使用的采样率是多少?每个样本的比特数是多少?请注意,您可以在不损失精度的情况下将采样降低到16Khz,这将导致更小的文件 IBM正在努力美化输出,请继续关注

加上
对于演示来说还不错。。。我们如何实现生产梯度系统?

只是一般的文本到语音考虑:

  • 人们经常互相说得天花乱坠
  • 对捕捉到的环境质量敏感(房间的声学、录音设备的放置、电话呼叫等)
  • 特定于技术/领域的词汇分类错误(新兴技术往往太新,无法纳入培训范围)
  • 对非母语人士进行分类很困难

  • 感谢您的反馈,以下是一些答案:

    • 你说在FLAC里一小时是210兆?您使用的采样率是多少?每个样本的比特数是多少?请注意,您可以在不损失精度的情况下将采样降低到16Khz,这将导致更小的文件

    • IBM正在努力美化输出,请继续关注

    • 每个单词都有置信度,使用WebSocket或RESTAPI时只需传递“word\u confidence=true”参数

    • “空虚的时刻”?你什么意思

    我们很乐意帮助您建立生产系统。您的用例是什么


    Dani

    不清楚您的具体问题是什么。看见