Audio 谷歌语音API如何将音频分块进行转录?

Audio 谷歌语音API如何将音频分块进行转录?,audio,speech-recognition,speech-to-text,google-speech-api,transcription,Audio,Speech Recognition,Speech To Text,Google Speech Api,Transcription,当返回长的音频转录时,它将以不同长度的短文本块的形式返回,每个文本块都有一些相关的置信值。我想知道底层算法是如何决定转录的音频块之间的边界的,因为它似乎比简单地将音频块分成固定的持续时间片段并分别转录每个片段更复杂(尽管我可能在这一点上错了)

当返回长的音频转录时,它将以不同长度的短文本块的形式返回,每个文本块都有一些相关的置信值。我想知道底层算法是如何决定转录的音频块之间的边界的,因为它似乎比简单地将音频块分成固定的持续时间片段并分别转录每个片段更复杂(尽管我可能在这一点上错了)