如何使用itext库了解android中pdf文件的语言?

如何使用itext库了解android中pdf文件的语言?,android,android-edittext,itext,Android,Android Edittext,Itext,我正在使用itextg-5.5.4来提取PDF文件文本,并在android中显示编辑文本。当我提取英文PDF文件时,它们的文本没有问题,但当我提取印地语或任何其他语言的PDF时,在编辑文本时显示垃圾 所以,有没有办法提取印地语pdf文件,并显示在编辑文本 或 我可以找出用户选择的是哪种语言的PDf文件。所以我可以限制他们只选择英文PDf文件 谢谢 我从内部存储器中提取pdf文本的代码是:- String pat = data.getData().getPath(); File f = new F

我正在使用itextg-5.5.4来提取PDF文件文本,并在android中显示编辑文本。当我提取英文PDF文件时,它们的文本没有问题,但当我提取印地语或任何其他语言的PDF时,在编辑文本时显示垃圾

所以,有没有办法提取印地语pdf文件,并显示在编辑文本

我可以找出用户选择的是哪种语言的PDf文件。所以我可以限制他们只选择英文PDf文件

谢谢

我从内部存储器中提取pdf文本的代码是:-

String pat = data.getData().getPath();
File f = new File(pat);

read = new PdfReader(new FileInputStream(f));

parser = new PdfReaderContentParser(read);

strw = new StringWriter();

stretegy = parser.processContent(j, new SimpleTextExtractionStrategy());

strw.write(stretegy.getResultantText());

String da = strw.toString();

edt1.setText(da);

谢谢

通用PDF中没有可靠的登录功能,您无法识别是否可以从中正确提取文本。也没有确定的方法来识别通用PDF的语言。谢谢你的回复。我还看到一件事,如果我有5个印地语PDF,并且我正在尝试提取文本,因此,从5本PDF中的2-3本中,我得到了正确的文本。但从2本PDF中,我得到了垃圾。这2-3本PDF完全是印地语的,而不是印地语和英语文本的组合。如上所述,没有针对OCR的一般测试。但是,如果您的PDF仅来自极少数来源,并且已知这些来源仅通过非常有限的PDF生成器选择生成PDF,则您可以生成一组适合这些PDF生成器的测试。