Python Slate库：PDF文本提取连接词_Python_Pdf_Extraction_Pypdf_Slate

Python Slate库：PDF文本提取连接词

python pdf

Python Slate库：PDF文本提取连接词,python,pdf,extraction,pypdf,slate,Python,Pdf,Extraction,Pypdf,Slate,只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是，一些PDF输出时多个字合并/连接在一起。这似乎是间歇性的，例如，对于某些PDF单词，它们之间的空格被正确提取，而其他单词则不正确其中有一个PDF示例没有正确提取单词，可以下载（所以我不想上传）。来自 slate.PDF(open(name, 'rb') ).text() 是（或至少有一段是）：，不适用于任何程序，并可与收集的数据一起使用。如果有关税收基础的数据不可用，则可将这些数据合并到应用程序分析中，以提

只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是，一些PDF输出时多个字合并/连接在一起。这似乎是间歇性的，例如，对于某些PDF单词，它们之间的空格被正确提取，而其他单词则不正确

其中有一个PDF示例没有正确提取单词，可以下载（所以我不想上传）。来自

slate.PDF(open(name, 'rb') ).text()

是（或至少有一段是）：

，不适用于任何程序，并可与收集的数据一起使用。如果有关税收基础的数据不可用，则可将这些数据合并到应用程序分析中，以提高模式检测观测群集的灵敏度和可靠性

当然，第一个逗号分隔的标记应该是

而不是在临时程序中

有没有人知道为什么会发生这种情况，或者有没有更好的方法来使用一个库来提取PDF文本

谢谢你的帮助

可能的重复可能的重复