File 使用谷歌翻译API翻译PDF文件

File 使用谷歌翻译API翻译PDF文件,file,pdf,translate,File,Pdf,Translate,我想在我的项目中使用谷歌翻译。我用谷歌完成了所有手续。我还随身带着API密钥。有了这个键,我可以轻松地用JavaScript翻译任何单词。但是如何翻译PDF文件,就像我们在谷歌翻译网站上所做的那样?我发现了这样一件事: 1. One html page I have. 2. One browse button for pdf 3. Upload the file 4. Transalte the pdf with Google API and show in the html page. 但

我想在我的项目中使用谷歌翻译。我用谷歌完成了所有手续。我还随身带着API密钥。有了这个键,我可以轻松地用JavaScript翻译任何单词。但是如何翻译PDF文件,就像我们在谷歌翻译网站上所做的那样?我发现了这样一件事:

1. One html page I have.
2. One browse button for pdf
3. Upload the file
4. Transalte the pdf with Google API and show in the html page.

但在这里,我不能使用我的钥匙,因此翻译要花很多时间。所以我想用我的钥匙翻译一个PDF文件。请帮帮我。 我的方法是这样的:

1. One html page I have.
2. One browse button for pdf
3. Upload the file
4. Transalte the pdf with Google API and show in the html page.
我搜索了这个pdf翻译,但没有找到任何东西。请帮帮我。

TL:DR:使用无头浏览器从谷歌的PDF翻译服务中呈现PDF

PDF是一种复杂的格式,可以包含许多文本组件。为了翻译它,我将描述从简单到更高级的解决方案

翻译原始文本 如果您只需要翻译而不需要视觉输出,您可以提取文本并将其交给Google Translate

由于您没有提供有关您的项目(语言、环境等)的信息,因此我将向您重定向到此

翻译所有文本 如果您需要从PDF中的所有内容中获取文本,那么这相当困难。为了避免头痛(部分),您可以(使用工具或类似工具)将PDF转换为图像,然后有三个选项:

  • OCR从图像中提取文本,然后把它交给谷歌,同样你失去了原来的形式
  • OCR文本,但保存位置(一些库也可以这样做,因为您没有指定项目信息,请参阅以下链接:,,)

    然后用GoogleAPI进行翻译,并将结果写入图像。为了获得更好的效果,您需要考虑文本字体、颜色和背景色。很难,但可行

  • 翻译图像使用。不幸的是,这个特性在公共API中不可用,所以除非进行一些反向工程,否则这是不可能的

使用谷歌的PDF翻译服务进行翻译 通过使用translate站点提供的解决方案可以很容易地实现自动化。之所以这么长,是因为这是一个繁重的过程,你可能无法击败谷歌

使用无头浏览器,您可以使用pdf获取翻译页面,然后观察翻译内容是否位于iframe中,获取该iframe并最终打印为pdf

下面是一个使用的简短示例(应与兼容)

提供此文件:
它产生了这个结果(翻译成法语):(我发布了一个截图,因为我不能嵌入PDF;)

使用ApacheTika提取pdf文件的文本内容(您应该编写必要的java代码),然后使用您想要使用的任何API进行翻译。但是,正如上面提到的,谷歌翻译是一项付费服务

使用谷歌的PDF翻译服务进行翻译似乎很有趣,但我的文件大小在1Mb左右,谷歌称这一限制超过了:(我也有word和ppt文档..这真的是个小问题..你可以用
convert x.pdf x-%03d.pdf
Hi,谷歌翻译服务是否保留格式和图像?