Google text to speech 谷歌文语转换：把一个句子读作较长句子的一部分_Google Text To Speech

Google text to speech 谷歌文语转换：把一个句子读作较长句子的一部分

Google text to speech 谷歌文语转换：把一个句子读作较长句子的一部分,google-text-to-speech,Google Text To Speech,我正在实现一项服务，该服务通过文本生成带字幕的视频和语音。我遵循以下程序：把课文分成10个单词生成每个文本部分的语音生成包含每个部分的文本和音频的视频（使用ffmpeg）最后合并每个视频有什么问题吗？第2点。比如说，我有一句话：“大家好，我想和大家分享这段视频，让你们知道，即使我们因为这场流行病没有见面，我也会想起你们。”。若你们（作为人类）读到这句话，你们不会在“和你们在一起”（10个单词）之后停下来，或者在“和你们在一起”之前改变语调，因为你们知道这句话并没有在那个里结束。Goog

我正在实现一项服务，该服务通过文本生成带字幕的视频和语音。我遵循以下程序：

把课文分成10个单词

生成每个文本部分的语音

生成包含每个部分的文本和音频的视频（使用ffmpeg）

最后合并每个视频

有什么问题吗？第2点。比如说，我有一句话：“大家好，我想和大家分享这段视频，让你们知道，即使我们因为这场流行病没有见面，我也会想起你们。”。若你们（作为人类）读到这句话，你们不会在“和你们在一起”（10个单词）之后停下来，或者在“和你们在一起”之前改变语调，因为你们知道这句话并没有在那个里结束。Google Speech会改变语调，因为它知道句子即将结束，因为我给Google Speech发送了10个单词的部分，而不是完整的部分

我已经将完整的句子和10个单词的部分发送到谷歌文本，大胆地进行分析，并检查语调（音频模块化）是否发生了变化。请参见下图（全文第一，部分文本第二）

问题是：有没有一种方法可以要求谷歌文本语音转换API阅读句子，就好像它是较长句子的一部分

我一直在阅读，它证实了我之前所说的：“如果这个元素[断开标记]在单词之间不存在，那么断开是根据语言上下文自动确定的”。我在SSML中还没有找到任何标签，可以让我把这个句子当作一个较长句子的一部分来阅读

我前面提到的整个过程的步骤是我唯一的想法，以便从文本生成带字幕的视频，因为每个视频部分都需要相应的文本和演讲。如果我生成完整的演讲并将其分块，我将无法知道在演讲/视频长度中添加文本的时间位置。另一个主题是从视频和演讲中生成字幕：）

多谢各位