扫描PDF文档中的语言检测
我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索 所以在这里没什么帮助 我尝试使用tesseract将文档从PDF转换为文本,然后将提取的文本传递给google服务,效果很好。但有三个问题:扫描PDF文档中的语言检测,pdf,image-processing,ocr,tesseract,apache-tika,Pdf,Image Processing,Ocr,Tesseract,Apache Tika,我试图找到PDF文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索 所以在这里没什么帮助 我尝试使用tesseract将文档从PDF转换为文本,然后将提取的文本传递给google服务,效果很好。但有三个问题: 只能转换高质量的图像 它能学习类似于英语的语言,如西班牙语、法语,但日语、汉语等却不行 文件文本是保密的,所有操作都应在内部完成 现在我正在寻找一个独立的语言检测组件,它可以跨扫描的PDF文档工作 该文档是否具有不同语言的相同内容或不
- 只能转换高质量的图像
- 它能学习类似于英语的语言,如西班牙语、法语,但日语、汉语等却不行
- 文件文本是保密的,所有操作都应在内部完成 现在我正在寻找一个独立的语言检测组件,它可以跨扫描的PDF文档工作