Google cloud platform 谷歌语音到文本无法识别大量音频
我制作了一个脚本来使用Speech-to-text API。它可以很好地处理一个音频(它是一个m4a转换为wav的音频),但它在处理另一个类似音频(同一来源,m4a转换为wav)时失败很多(错过了大部分文本)。这两种音频听起来很相似(至少对我来说是这样),但结果却大不相同。 我已经设置了元数据和配置,我不知道还有什么可以改进结果 相关参数:Google cloud platform 谷歌语音到文本无法识别大量音频,google-cloud-platform,speech-recognition,google-speech-api,Google Cloud Platform,Speech Recognition,Google Speech Api,我制作了一个脚本来使用Speech-to-text API。它可以很好地处理一个音频(它是一个m4a转换为wav的音频),但它在处理另一个类似音频(同一来源,m4a转换为wav)时失败很多(错过了大部分文本)。这两种音频听起来很相似(至少对我来说是这样),但结果却大不相同。 我已经设置了元数据和配置,我不知道还有什么可以改进结果 相关参数: metadata = { "original_media_type": enums.RecognitionMetadata.Original
metadata = {
"original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
"original_mime_type": 'audio/m4a',
}
sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16
config = {
"metadata": metadata,
"sample_rate_hertz": sample_rate_hertz,
"audio_channel_count": 2,
"language_code": language_code,
"encoding": encoding}
由于其中一个文件的解析结果是可以接受的,所以我可以断定我的代码是正确的,这就是为什么我考虑更改一个参数来修复其他音频
对不起,我不能分享原来的音频。 < P>你可以查看你的音频输入,考虑一下。 基于此,我建议验证所使用的编码,或者尝试使用一种差异。您还可以将云语音转换为文本 还确认了,似乎云语音对文本的支持