Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用pdfminer pdf2txt.py模块处理多列布局_Python_Pdf_Text_Nlp - Fatal编程技术网

Python 使用pdfminer pdf2txt.py模块处理多列布局

Python 使用pdfminer pdf2txt.py模块处理多列布局,python,pdf,text,nlp,Python,Pdf,Text,Nlp,到目前为止,我成功地使用了模块 但在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中,该列将在行尾生成许多拆分的单词。例如: cellu- lar组分在物理和化学上都是负的 *请注意,单词之间用“-”字符分隔 我想要的是自定义命令,以便行末尾的单词作为一个整体出现,因此不会丢失信息。 可能是通过添加一个行参数或字符边距,将“-”字符替换为反斜杠 我还想知道是否有方法循环该命令,并使其解析一个充满pdf文件的目录,每次生成一个以原始文件命名的不同输出文本文件 不过我不知道怎么做

到目前为止,我成功地使用了模块

但在两列格式的pdf文件中出现了一个问题。该模块将文本检索到一个列中,该列将在行尾生成许多拆分的单词。例如:

cellu-
lar组分在物理和化学上都是负的

*请注意,单词之间用“-”字符分隔

我想要的是自定义命令,以便行末尾的单词作为一个整体出现,因此不会丢失信息。 可能是通过添加一个行参数或字符边距,将“-”字符替换为反斜杠

我还想知道是否有方法循环该命令,并使其解析一个充满pdf文件的目录,每次生成一个以原始文件命名的不同输出文本文件

不过我不知道怎么做