扫描PDF文档中的语言检测_Pdf_Image Processing_Ocr_Tesseract_Apache Tika

扫描PDF文档中的语言检测

pdf image-processing

扫描PDF文档中的语言检测,pdf,image-processing,ocr,tesseract,apache-tika,Pdf,Image Processing,Ocr,Tesseract,Apache Tika,我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索所以在这里没什么帮助我尝试使用tesseract将文档从PDF转换为文本，然后将提取的文本传递给google服务，效果很好。但有三个问题：只能转换高质量的图像它能学习类似于英语的语言，如西班牙语、法语，但日语、汉语等却不行文件文本是保密的，所有操作都应在内部完成现在我正在寻找一个独立的语言检测组件，它可以跨扫描的PDF文档工作该文档是否具有不同语言的相同内容或不

我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索

所以在这里没什么帮助

我尝试使用tesseract将文档从PDF转换为文本，然后将提取的文本传递给google服务，效果很好。但有三个问题：

只能转换高质量的图像
它能学习类似于英语的语言，如西班牙语、法语，但日语、汉语等却不行
文件文本是保密的，所有操作都应在内部完成
现在我正在寻找一个独立的语言检测组件，它可以跨扫描的PDF文档工作

该文档是否具有不同语言的相同内容或不同语言的不同内容？在处理之前，您是否了解该语言或内容？它是一个混合文档。有时文件的第一部分使用一种语言，第二部分是第一部分的准确翻译。这很简单，也很容易处理。但在其他情况下，文档从一种语言开始，由不同语言的人修改。他们只是将所有这些不同语言的片段组合成一个PDF。“我对这些混合文档感到很难理解。@karthikselvakumar：如果是混合文档，那么您的输出应该是什么？因为你的问题是语言检测。你到底需要做什么？在整个文档中占主导地位的语言。如果我能发现文件中有日语、汉语，那就足够了。