使用java对文本进行Pdf解析

使用java对文本进行Pdf解析,java,arabic,pdf-extraction,Java,Arabic,Pdf Extraction,我也有同样的问题,从pdf文件中提取阿拉伯文本, 如果找到解决方案,有人能帮忙吗??? 我曾多次尝试使用pdfbox,但都没有结果。从PDF中提取文本时,可能会出现一些问题: PDF是加密的。在这种情况下,您需要密码来提取数据。 PDF作为一种格式,实际上并不意味着要提取文本。所以pdfbox通常试图识别彼此靠近的字符,并将它们组合成单词。正如你可以想象的那样,这很容易出错。 查看更多信息。您的程序是否需要直接从pdf中提取文本?如果没有,你可以使用ocr将pdf转换成文本,然后从txt文件中读

我也有同样的问题,从pdf文件中提取阿拉伯文本, 如果找到解决方案,有人能帮忙吗???
我曾多次尝试使用pdfbox,但都没有结果。

从PDF中提取文本时,可能会出现一些问题:

PDF是加密的。在这种情况下,您需要密码来提取数据。 PDF作为一种格式,实际上并不意味着要提取文本。所以pdfbox通常试图识别彼此靠近的字符,并将它们组合成单词。正如你可以想象的那样,这很容易出错。
查看更多信息。

您的程序是否需要直接从pdf中提取文本?如果没有,你可以使用ocr将pdf转换成文本,然后从txt文件中读取。我也有同样的问题。。到底是什么问题?我用PDFBox提取文本的效果很好。通常比库更好,但是许多PDF没有以合理的线性方式存储文本,这使得无法从中自动提取可读文本。但是我没有阿拉伯语的经验。您确定您拥有的文本实际上是文本,而不是嵌入在PDF中的图像吗?