Google text to speech 谷歌文语转换:把一个句子读作较长句子的一部分

Google text to speech 谷歌文语转换:把一个句子读作较长句子的一部分,google-text-to-speech,Google Text To Speech,我正在实现一项服务,该服务通过文本生成带字幕的视频和语音。我遵循以下程序: 把课文分成10个单词 生成每个文本部分的语音 生成包含每个部分的文本和音频的视频(使用ffmpeg) 最后合并每个视频 有什么问题吗?第2点。比如说,我有一句话:“大家好,我想和大家分享这段视频,让你们知道,即使我们因为这场流行病没有见面,我也会想起你们。”。若你们(作为人类)读到这句话,你们不会在“和你们在一起”(10个单词)之后停下来,或者在“和你们在一起”之前改变语调,因为你们知道这句话并没有在那个里结束。Goog

我正在实现一项服务,该服务通过文本生成带字幕的视频和语音。我遵循以下程序:

  • 把课文分成10个单词
  • 生成每个文本部分的语音
  • 生成包含每个部分的文本和音频的视频(使用ffmpeg)
  • 最后合并每个视频
  • 有什么问题吗?第2点。比如说,我有一句话:“大家好,我想和大家分享这段视频,让你们知道,即使我们因为这场流行病没有见面,我也会想起你们。”。若你们(作为人类)读到这句话,你们不会在“和你们在一起”(10个单词)之后停下来,或者在“和你们在一起”之前改变语调,因为你们知道这句话并没有在那个里结束。Google Speech会改变语调,因为它知道句子即将结束,因为我给Google Speech发送了10个单词的部分,而不是完整的部分

    我已经将完整的句子和10个单词的部分发送到谷歌文本,大胆地进行分析,并检查语调(音频模块化)是否发生了变化。请参见下图(全文第一,部分文本第二)

    问题是:有没有一种方法可以要求谷歌文本语音转换API阅读句子,就好像它是较长句子的一部分

    我一直在阅读,它证实了我之前所说的:“如果这个元素[断开标记]在单词之间不存在,那么断开是根据语言上下文自动确定的”。我在SSML中还没有找到任何标签,可以让我把这个句子当作一个较长句子的一部分来阅读

    我前面提到的整个过程的步骤是我唯一的想法,以便从文本生成带字幕的视频,因为每个视频部分都需要相应的文本和演讲。如果我生成完整的演讲并将其分块,我将无法知道在演讲/视频长度中添加文本的时间位置。另一个主题是从视频和演讲中生成字幕:)

    多谢各位