Google cloud platform 谷歌';s的文本到语音(WaveNet)质量随着长文本而降低

Google cloud platform 谷歌';s的文本到语音(WaveNet)质量随着长文本而降低,google-cloud-platform,text-to-speech,google-text-to-speech,Google Cloud Platform,Text To Speech,Google Text To Speech,使用带有瑞典语音的APIsv-SE-Wavenet-A,音频质量似乎随着文本的加长而降低 短文本: 在电视台融资之前,我们必须提供详细的信息 卡纳尔·索姆(kanal som)在所有人的支持下进行了性行为。直到 荡妇kommer ingen titta,男人们都是kommerändåtvingas betala 长文本(粗体=上面的短文本): SVT后台性程序-在树上结束-tvingas betala 准备工作 vuxendagiset SVT将于2018年开始性交易。怒族 这是一篇关于干树的文

使用带有瑞典语音的API
sv-SE-Wavenet-A
,音频质量似乎随着文本的加长而降低

短文本:

在电视台融资之前,我们必须提供详细的信息 卡纳尔·索姆(kanal som)在所有人的支持下进行了性行为。直到 荡妇kommer ingen titta,男人们都是kommerändåtvingas betala

长文本(粗体=上面的短文本):

SVT后台性程序-在树上结束-tvingas betala 准备工作 vuxendagiset SVT将于2018年开始性交易。怒族 这是一篇关于干树的文章,作者是一位作家 Sverige tvingasändåbetala sedanårsskifet。SVT。SVT:s tittarsiffror t在såkallad tittartidsandel中开采至34.9%。Det tvångsfinansierade 男人们,所有的男人都在干着自己的工作 samtliga med inkomst i Sverige måste lik väl betala för detta。 SIFFORNA från MMSär初步测试och SVT ska含34.9%的抗病毒滴度, TV4 gruppen 31.9%,Discovery Networks gruppen 11.9%,och Nordic 娱乐集团占11.6%。发现inkluderar Kanal 5 och北欧 娱乐TV3Det ter sig logiskt att man gåttöver till 电视台在所有人都参与性活动的情况下,为卡纳尔som的av提供资金 procent av tittartiden。直到放荡的科默·英根·蒂塔,男人们安拉·科默 贝塔拉(betala)社会主义基础党(Socialism baserar sig påtvingas betala) frivilligt gör det som socialisterna villåstakomma。Detär en ren 在博格里加的一个地方,有一个很小的地方 电视节目《金融时报》。Lämplig 塔格·阿德·阿特·伊斯塔列特·科达SVT,såfår de som vill betala för detta 哥拉·德奥切夫里加拖鞋。在格洛姆斯坎出生的孩子们。 Tills detta sker kommer förstås bloggen bevaka SVT:s felsteg,men kom 我要去格兰斯克宁斯登和格拉斯克拉斯 合法性是一个非常有用的系统。SVT 阿卡蒂博拉格,因此贝西特·贝斯卡特尼斯瓦特·斯文斯卡·福克特。 内德·科门塔雷·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·恩德·德塔·雷达克通埃拉酒店 因内贾勒特·奥赫·安万代尔·安斯瓦拉尔·斯贾尔瓦·西纳·科门塔雷。塞文 科门塔斯雷格尔纳,inklusive listan医疗公司som Automaticskt kommer raderas pågrund av brott mot dessa。科门泰拉酒店 在科门塔尔省、蒂德斯泰姆普尔省、profillänk och省的蒂尔市 笔名sparas av谷歌博客系统sålänge detär相关, dvs sålänge Blogginäggetär publicerat

API请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})
来自API的结果

音频比较首先播放发送短文本时得到的结果。然后它播放相同的文本,但从我发送长文本时得到的结果中删除。最后,它将两者放在一起

这是一个bug还是预期?在使用en-US或en-GB语音时,我没有注意到任何质量下降


我注意到,瑞典语态使用的自然采样频率赫兹与其他语态不同,这可能是原因之一。

这可能与使用有关,而不是与其他语言的采样率差异有关。由于MP3是一种有损格式,预计可能会丢失一些质量;短文件和长文件之间的差异可能与使用有关

我已经检查了我的侧边,“sv-SE-Wavenet-A”声音似乎使用了24000的自然采样赫兹,正如我检查的所有Wavenet一样(所有en-US Wavenet声音也使用24000)

我建议您使用其他编码格式,例如“OGG_OPUS”,这将产生更好的音频质量

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

如果必须使用MP3格式,则您可以更改自己的格式,以便在压缩音频文件的同时选择您认为方便的MP3编码参数,以确保最大的音频质量。

关于采样率,您是对的,在写这篇文章时,我无意中看到了sv-SE-Standard-A语音,可能是文本到语音算法对这两个文本的处理方式不同,可能取决于上下文。我仍然建议更改API调用参数,使用音频质量和比特率更好的编码格式(“OGG_OPUS”),并检查问题是否仍然存在。我们也测试了无损LINEAR16,但问题仍然存在。老实说,这听起来很糟糕。几乎就像说话者在每一句话后都不停地呼吸,在阅读时变得越来越紧张。关于这个问题,我应该与谁联系?@Mickel尝试将每个句子包装在
之间。这解决了我的声音似乎没有正确暂停的问题。我也有同样的问题,请联系voicesurfer.com上的人。他们告诉我,他们已经把波浪分成了几个部分,然后把它们粘在一起。请随时与他们联系。您是否尝试过拆分和粘贴文本?@GaryHilgemann I将文本拆分为块,并对结果进行处理,以克服每个请求5 k字符的限制。块体长度约为3-4.5公里。再短一点,我就会很快达到每分钟的请求限制。。。所以我恐怕这真的不是一个选择。