Ubuntu 使用pdf2txt的UnicodeDecodeError_Ubuntu_Extract_Tex

Ubuntu 使用pdf2txt的UnicodeDecodeError

ubuntu

Ubuntu 使用pdf2txt的UnicodeDecodeError,ubuntu,extract,tex,Ubuntu,Extract,Tex,我在ubuntu中使用pdf2txt（pdfminer python工具）从一些挪威pdf中提取文本此工具与某些pdf的im使用完美配合，我将提取的文本保存在.txt文件中，但一半的pdf或多或少会抛出以下错误：回溯（最近一次呼叫最后一次）：文件“/usr/bin/pdf2txt”，第101行，在模块中如果name=='main':sys.exit（main（sys.argv））文件“/usr/bin/pdf2txt”，第95行，主缓存=缓存，选中（可提取=真）文件“/usr/li

我在ubuntu中使用pdf2txt（pdfminer python工具）从一些挪威pdf中提取文本

此工具与某些pdf的im使用完美配合，我将提取的文本保存在.txt文件中，但一半的pdf或多或少会抛出以下错误：

回溯（最近一次呼叫最后一次）：

文件“/usr/bin/pdf2txt”，第101行，在模块中如果name=='main':sys.exit（main（sys.argv））

文件“/usr/bin/pdf2txt”，第95行，主缓存=缓存，选中（可提取=真）

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”，第832行，进程中\u pdf 解释器。处理页面（第页）

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”，第757行，进程中第页 self.render_内容（page.resources，page.contents，ctm=ctm）

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”，第770行，位于render_contents中自我执行（列表_值（流））

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”，执行中的第795行 func（*args）

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”，do_BDC中的第605行 self.device.begin_标签（标签、道具）

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfdevice.py”，第160行，在begin_标记中已排序（props.iteritems（））

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfdevice.py”，第159行，在 s=''.join（“%s=“%s””%）（enc（k），enc（str（v）））for（k，v）

文件“/usr/lib/python2.7/dist packages/pdfminer/utils.py”，第164行，附件返回x.encode（编解码器'xmlcharrefreplace'）

UnicodeDecodeError:“ascii”编解码器无法解码位置0:序号不在范围（128）中的字节0xfe

我知道他们中的任何一个都能工作，或者说所有人都能工作，但是他们都在诺维根，所以他们使用相同的角色。为什么有些人能工作，有些人不能

当我试图从第1页提取文本时，甚至有一些pdf文件抛出了这个错误，从第2页提取文本效果很好

下面是我正在使用的命令：

pdf2txt-t tag-p4-A-o out/route/tag.txt in/route/405448.pdf

这里有两个pdf的im使用示例

This one works perrfectly for me: http://54.171.169.37/tilbud/pdf/magazines/404707/404707.pdf

This one dosen't work in any page: http://54.171.169.37/tilbud/pdf/magazines/404635/404635.pdf 

And this one, just works in some pages : http://54.171.169.37/tilbud/pdf/magazines/401944/401944.pdf

知道发生了什么吗？提前付款

编辑：

我已经意识到，如果我在正常模式下提取文本，而不是在标记模式下提取文本（pdf2txt-t tag），它可以在以前不工作的页面上工作。“tag”也有问题提取类型。

不幸的是，PDF文件在版本、格式和由不同软件生成方面变得越来越不同。从许多PDF文件中提取明文是不可能的，因为它们“随时可以查看”或“打印”.我理解，但？我在这里添加的最后一个pdf，怎么会在第3页和第5页上有效，而在第1页、第2页和第4页上无效？这一定是另一种问题。可能是pdf2txt中存在简单的不兼容或错误。你试过其他pdf提取器吗？我试过tesseract和2或3个以上的提取器，我不记得它们的名称，但pdf2txt是最好的。（当然是在那一点上）。