Python Slate库:PDF文本提取连接词

Python Slate库:PDF文本提取连接词,python,pdf,extraction,pypdf,slate,Python,Pdf,Extraction,Pypdf,Slate,只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是,一些PDF输出时多个字合并/连接在一起。这似乎是间歇性的,例如,对于某些PDF单词,它们之间的空格被正确提取,而其他单词则不正确 其中有一个PDF示例没有正确提取单词,可以下载(所以我不想上传)。来自 slate.PDF(open(name, 'rb') ).text() 是(或至少有一段是): ,不适用于任何程序,并可与收集的数据一起使用。如果有关税收基础的数据不可用,则可将这些数据合并到应用程序分析中,以提

只是尝试使用Slate库和PyPDF2从Python中的PDF中提取文本。不幸的是,一些PDF输出时多个字合并/连接在一起。这似乎是间歇性的,例如,对于某些PDF单词,它们之间的空格被正确提取,而其他单词则不正确

其中有一个PDF示例没有正确提取单词,可以下载(所以我不想上传)。来自

slate.PDF(open(name, 'rb') ).text()
是(或至少有一段是):

,不适用于任何程序,并可与收集的数据一起使用。如果有关税收基础的数据不可用,则可将这些数据合并到应用程序分析中,以提高模式检测观测群集的灵敏度和可靠性

当然,第一个逗号分隔的标记应该是
而不是在临时程序中

有没有人知道为什么会发生这种情况,或者有没有更好的方法来使用一个库来提取PDF文本

谢谢你的帮助

可能的重复可能的重复