扫描PDF文档中的语言检测

扫描PDF文档中的语言检测,pdf,image-processing,ocr,tesseract,apache-tika,Pdf,Image Processing,Ocr,Tesseract,Apache Tika,我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索 所以在这里没什么帮助 我尝试使用tesseract将文档从PDF转换为文本,然后将提取的文本传递给google服务,效果很好。但有三个问题: 只能转换高质量的图像 它能学习类似于英语的语言,如西班牙语、法语,但日语、汉语等却不行 文件文本是保密的,所有操作都应在内部完成 现在我正在寻找一个独立的语言检测组件,它可以跨扫描的PDF文档工作 该文档是否具有不同语言的相同内容或不

我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索

所以在这里没什么帮助

我尝试使用tesseract将文档从PDF转换为文本,然后将提取的文本传递给google服务,效果很好。但有三个问题:

  • 只能转换高质量的图像

  • 它能学习类似于英语的语言,如西班牙语、法语,但日语、汉语等却不行

  • 文件文本是保密的,所有操作都应在内部完成

    现在我正在寻找一个独立的语言检测组件,它可以跨扫描的PDF文档工作


该文档是否具有不同语言的相同内容或不同语言的不同内容?在处理之前,您是否了解该语言或内容?它是一个混合文档。有时文件的第一部分使用一种语言,第二部分是第一部分的准确翻译。这很简单,也很容易处理。但在其他情况下,文档从一种语言开始,由不同语言的人修改。他们只是将所有这些不同语言的片段组合成一个PDF。“我对这些混合文档感到很难理解。@karthikselvakumar:如果是混合文档,那么您的输出应该是什么?因为你的问题是语言检测。你到底需要做什么?在整个文档中占主导地位的语言。如果我能发现文件中有日语、汉语,那就足够了。