Windows 如何将位置数据从PDF转换为文本
我需要使用Perl将PDF文件转换为文本以提取信息。但是我没有得到位置格式的文本文件,这意味着PDF和文本中元素的位置应该相同。我试过了,但结果却大不相同 我曾经遇到过关于pdftotext和Poppler的帖子,但我无法在我的Windows1064位系统中设置这些 请告诉我是否有任何其他方法可以解决此问题。使用Windows 如何将位置数据从PDF转换为文本,windows,perl,pdf,Windows,Perl,Pdf,我需要使用Perl将PDF文件转换为文本以提取信息。但是我没有得到位置格式的文本文件,这意味着PDF和文本中元素的位置应该相同。我试过了,但结果却大不相同 我曾经遇到过关于pdftotext和Poppler的帖子,但我无法在我的Windows1064位系统中设置这些 请告诉我是否有任何其他方法可以解决此问题。使用-xml输出。你可以 在Windows上编译poppler有两种方法: 在cygwin下使用mingw编译器 使用本机Visual Studio(msvc)生成文件 本文档描述了第二
-xml
输出。你可以
在Windows上编译poppler有两种方法:
- 在cygwin下使用mingw编译器
- 使用本机Visual Studio(msvc)生成文件
或者,你也可以直接去拿。另请参见。很抱歉延迟,但最后我得到了一个解决方案,它是由Xpdf提供的pdftotext,最好的方法是下载预编译的二进制文件(.exe)。然后使用命令行定位,我们可以使用各种工具,如pdftohtml、pdftotext等 请看这一页 在标题“预编译二进制文件”下,您可以找到它 在命令提示下,您需要将目录更改为二进制文件所在的位置,然后使用文件作为参数调用二进制文件
Exapmle: pdftotext File1.pdf
上述命令将在存在二进制文件的同一文件夹中提供File1.txt。您是否考虑过将Acrobat中的文本复制粘贴到文本编辑器中?我可以复制粘贴数据,但格式与PDF不同,因为我以后需要从文本文件中提取信息。