Python 使用pdfminer pdf2txt.py模块处理多列布局_Python_Pdf_Text_Nlp

Python 使用pdfminer pdf2txt.py模块处理多列布局

python pdf text nlp

Python 使用pdfminer pdf2txt.py模块处理多列布局,python,pdf,text,nlp,Python,Pdf,Text,Nlp,到目前为止，我成功地使用了模块但在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中，该列将在行尾生成许多拆分的单词。例如： cellu- lar组分在物理和化学上都是负的 *请注意，单词之间用“-”字符分隔我想要的是自定义命令，以便行末尾的单词作为一个整体出现，因此不会丢失信息。可能是通过添加一个行参数或字符边距，将“-”字符替换为反斜杠我还想知道是否有方法循环该命令，并使其解析一个充满pdf文件的目录，每次生成一个以原始文件命名的不同输出文本文件不过我不知道怎么做

到目前为止，我成功地使用了模块

但在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中，该列将在行尾生成许多拆分的单词。例如：

cellu-
lar组分在物理和化学上都是负的

*请注意，单词之间用“-”字符分隔

我想要的是自定义命令，以便行末尾的单词作为一个整体出现，因此不会丢失信息。可能是通过添加一个行参数或字符边距，将“-”字符替换为反斜杠

我还想知道是否有方法循环该命令，并使其解析一个充满pdf文件的目录，每次生成一个以原始文件命名的不同输出文本文件

不过我不知道怎么做