在cssselect上使用python解析PDF失败_Python_Pdf_Xpath

在cssselect上使用python解析PDF失败

python pdf xpath

在cssselect上使用python解析PDF失败,python,pdf,xpath,Python,Pdf,Xpath,正在尝试使用pdfquery、PDFDocument和PDFParser分析PDF文件。还尝试了pdfquery示例代码。 Alwyas从cssselect/parser.py获取错误 SelectorSyntaxError:应为字符串或标识尝试升级cssselect，但无效有人有线索吗？我正在运行Python 2.7 Im使用的代码和示例文件来自：我查看了这些示例，在xpath表达式LTPage[pageid=1]和LTPage[pageid=2]中似乎缺少了一些引号。有了引号，就没

正在尝试使用pdfquery、PDFDocument和PDFParser分析PDF文件。还尝试了pdfquery示例代码。 Alwyas从cssselect/parser.py获取错误

SelectorSyntaxError:应为字符串或标识

尝试升级cssselect，但无效

有人有线索吗？我正在运行Python 2.7

Im使用的代码和示例文件来自：

我查看了这些示例，在xpath表达式LTPage[pageid=1]和LTPage[pageid=2]中似乎缺少了一些引号。有了引号，就没有错误消息了

pdf.extract( [
 ('with_parent','LTPage[pageid="1"]'),
 ('with_formatter', 'text'),
 ('last_name', 'LTTextLineHorizontal:in_bbox("315,680,395,700")'),
 ('spouse', 'LTTextLineHorizontal:in_bbox("170,650,220,680")'),
 ('with_parent','LTPage[pageid="2"]'),
 ('oath', 'LTTextLineHorizontal:contains("perjury")', lambda match: match.text()[:30]+"..."),
 ('year', 'LTTextLineHorizontal:contains("Form 1040A (")', lambda match: int(match.text()[-5:-1]))
])

那么你的代码在哪里呢？请提供一个抱歉，添加了代码，无法附加示例文件，但是在github链接中。谢谢。这在他们的文档中被遗漏了。

pdf.extract( [
 ('with_parent','LTPage[pageid="1"]'),
 ('with_formatter', 'text'),
 ('last_name', 'LTTextLineHorizontal:in_bbox("315,680,395,700")'),
 ('spouse', 'LTTextLineHorizontal:in_bbox("170,650,220,680")'),
 ('with_parent','LTPage[pageid="2"]'),
 ('oath', 'LTTextLineHorizontal:contains("perjury")', lambda match: match.text()[:30]+"..."),
 ('year', 'LTTextLineHorizontal:contains("Form 1040A (")', lambda match: int(match.text()[-5:-1]))
])