Ubuntu 使用pdf2txt的UnicodeDecodeError

Ubuntu 使用pdf2txt的UnicodeDecodeError,ubuntu,extract,tex,Ubuntu,Extract,Tex,我在ubuntu中使用pdf2txt(pdfminer python工具)从一些挪威pdf中提取文本 此工具与某些pdf的im使用完美配合,我将提取的文本保存在.txt文件中,但一半的pdf或多或少会抛出以下错误: 回溯(最近一次呼叫最后一次): 文件“/usr/bin/pdf2txt”,第101行,在模块中 如果name=='main':sys.exit(main(sys.argv)) 文件“/usr/bin/pdf2txt”,第95行,主 缓存=缓存,选中(可提取=真) 文件“/usr/li

我在ubuntu中使用pdf2txt(pdfminer python工具)从一些挪威pdf中提取文本

此工具与某些pdf的im使用完美配合,我将提取的文本保存在.txt文件中,但一半的pdf或多或少会抛出以下错误:

回溯(最近一次呼叫最后一次):

文件“/usr/bin/pdf2txt”,第101行,在模块中 如果name=='main':sys.exit(main(sys.argv))

文件“/usr/bin/pdf2txt”,第95行,主 缓存=缓存,选中(可提取=真)

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”,第832行,进程中\u pdf 解释器。处理页面(第页)

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”,第757行,进程中第页 self.render_内容(page.resources,page.contents,ctm=ctm)

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”,第770行,位于render_contents中 自我执行(列表_值(流))

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”,执行中的第795行 func(*args)

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfinterp.py”,do_BDC中的第605行 self.device.begin_标签(标签、道具)

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfdevice.py”,第160行,在begin_标记中 已排序(props.iteritems())

文件“/usr/lib/python2.7/dist packages/pdfminer/pdfdevice.py”,第159行,在 s=''.join(“%s=“%s””%)(enc(k),enc(str(v)))for(k,v)

文件“/usr/lib/python2.7/dist packages/pdfminer/utils.py”,第164行,附件 返回x.encode(编解码器'xmlcharrefreplace')

UnicodeDecodeError:“ascii”编解码器无法解码位置0:序号不在范围(128)中的字节0xfe

我知道他们中的任何一个都能工作,或者说所有人都能工作,但是他们都在诺维根,所以他们使用相同的角色。为什么有些人能工作,有些人不能

当我试图从第1页提取文本时,甚至有一些pdf文件抛出了这个错误,从第2页提取文本效果很好

下面是我正在使用的命令:

pdf2txt-t tag-p4-A-o out/route/tag.txt in/route/405448.pdf

这里有两个pdf的im使用示例

This one works perrfectly for me: http://54.171.169.37/tilbud/pdf/magazines/404707/404707.pdf

This one dosen't work in any page: http://54.171.169.37/tilbud/pdf/magazines/404635/404635.pdf 

And this one, just works in some pages : http://54.171.169.37/tilbud/pdf/magazines/401944/401944.pdf
知道发生了什么吗? 提前付款

编辑:
我已经意识到,如果我在正常模式下提取文本,而不是在标记模式下提取文本(pdf2txt-t tag),它可以在以前不工作的页面上工作。“tag”也有问题提取类型。

不幸的是,PDF文件在版本、格式和由不同软件生成方面变得越来越不同。从许多PDF文件中提取明文是不可能的,因为它们“随时可以查看”或“打印”.我理解,但?我在这里添加的最后一个pdf,怎么会在第3页和第5页上有效,而在第1页、第2页和第4页上无效?这一定是另一种问题。可能是pdf2txt中存在简单的不兼容或错误。你试过其他pdf提取器吗?我试过tesseract和2或3个以上的提取器,我不记得它们的名称,但pdf2txt是最好的。(当然是在那一点上)。