Google cloud platform 通过google translate批量翻译大量记录

Google cloud platform 通过google translate批量翻译大量记录,google-cloud-platform,nlp,data-science,google-translate,Google Cloud Platform,Nlp,Data Science,Google Translate,我需要翻译一个相当大的记录集,从各种语言(语言是不知道提前)到英语。这一套大约有3百万条记录,每条记录都是相当短的文本。它不是详尽的文本,大部分只是项目描述。类似“诺基亚黑色3G移动路由器”的东西,用各种语言编写(虽然没有太多异国情调,但主要是德语、法语、阿拉伯语、俄语等)。我也不知道每个记录是用哪种语言写的,所以我需要依靠自动语言检测 到目前为止,我能够通过使用 这相当简单,我一次只将一条记录传递给API,而不指定源语言,并且它能够根据需要正确地翻译记录 这里的问题是,这个过程非常缓慢。我们提

我需要翻译一个相当大的记录集,从各种语言(语言是不知道提前)到英语。这一套大约有3百万条记录,每条记录都是相当短的文本。它不是详尽的文本,大部分只是项目描述。类似“诺基亚黑色3G移动路由器”的东西,用各种语言编写(虽然没有太多异国情调,但主要是德语、法语、阿拉伯语、俄语等)。我也不知道每个记录是用哪种语言写的,所以我需要依靠自动语言检测

到目前为止,我能够通过使用

这相当简单,我一次只将一条记录传递给API,而不指定源语言,并且它能够根据需要正确地翻译记录

这里的问题是,这个过程非常缓慢。我们提取单个文本字符串,连接到API,将其发送过来,获取结果并存储。每个记录处理都会给与API的通信带来巨大的开销,当您对数百万条记录执行翻译时,需要花费很长的时间


我想知道是否有办法批量执行此操作?也许一次发送大量字符串记录进行翻译,以最大限度地减少与谷歌API的通信开销?或者有什么方法可以直接上传一个文件到谷歌,其中包含我需要翻译的所有记录,并在结果可用时下载?

我认为云翻译API服务目前不支持批量和文件翻译请求。基于此,您可以通过使用开发一个解决方案,将文本字符串连接到单个分隔字符串记录中;通过这种方式,您可以在同一个调用中转换多个值。将完整字符串翻译成所需语言后,可以根据分隔符值将其拆分,以获得分隔的文本字符串数组。请记住,为了避免性能问题,建议使用


如果此解决方案无法满足您当前的需求,您可以使用位于的左下角和右上角的“发送反馈”按钮,并查看该工具,以便向Google通知此所需功能

现在google translate提供了批处理请求API,可接受云存储上的文件

谢谢。这就是我最终要做的——一次发送一堆请求,然后在几个线程中运行它。老实说,考虑到我需要一次性处理的信息量,性能仍然不是很好,但总比什么都没有好谢谢你的评论。我认为这是处理这么多抄本的好方法。此外,我建议您查看以避免超出限制的问题。上面链接的FAQ页面当时提到每个请求的5000个字符或更少,但现在似乎不再表明这一点。每个请求5000个字符的限制是否不再是问题?