如何使用python中的tika解析器提取每页超过2000个字符的pdf页面？_Python_Apache Tika_Text Extraction_Pdf Extraction

如何使用python中的tika解析器提取每页超过2000个字符的pdf页面？

python

如何使用python中的tika解析器提取每页超过2000个字符的pdf页面？,python,apache-tika,text-extraction,pdf-extraction,Python,Apache Tika,Text Extraction,Pdf Extraction,我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。我从下面的代码中提取了[元数据]，并从中使用了pdf:charsPerPage来获得每页的最小字符数限制（截至2000年）。我未能集成pdf:charsPerPage代码以从解析器获取[content]数据。以下是代码： import tika from tika import parser parsed = parser.from_file('C:/User/xyz/file.pdf') parsed["m

我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。我从下面的代码中提取了[元数据]，并从中使用了

pdf:charsPerPage

来获得每页的最小字符数限制（截至2000年）。我未能集成

pdf:charsPerPage

代码以从解析器获取[content]数据。以下是代码：

import tika
from tika import parser
parsed = parser.from_file('C:/User/xyz/file.pdf')
parsed["metadata"]['pdf:charsPerPage']

# converting string to int to perform greater than operation 
test_list = [int(i) for i in parsed["metadata"]['pdf:charsPerPage']]
[i for i in test_list if i >= 2000]

# Sample ['pdf:charsPerPage'] data: ['1319','4930','6971','5548','5646','5974','5352','6096','6054']

Actual output from the above data: ['4930','6971','5548','5646','5974','5352','6096','6054']

根据上面的

['pdf:charsPerPage']

第一个元素少于2000个字符，通过上面的操作，我们排除了2000个字符的限制。现在我想提取/解析每页超过2000个字符的内容。

获取XHTML版本的文本（而不是现在的纯文本版本），然后在页面div上拆分以获取页面文本，然后获取所需的页面，然后将示例还原为纯文本？