Python 解析PDF文档
我将尝试下面链接中的pdf模块。假设这是可行的,我的问题是: 有没有一种方法可以像合同一样存储大型文本文档,并能够同时从多个文档中查询信息Python 解析PDF文档,python,parsing,pdf,nosql,Python,Parsing,Pdf,Nosql,我将尝试下面链接中的pdf模块。假设这是可行的,我的问题是: 有没有一种方法可以像合同一样存储大型文本文档,并能够同时从多个文档中查询信息 例如,我想查询终止日期或定价,然后能够阅读该部分的合同列表 我已经为此使用了pyPDF库(这直接来自网页): 这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF 也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索(搜索“pdf上的SQL Server全文搜索”)。如果可以在SQL server上加载所
例如,我想查询终止日期或定价,然后能够阅读该部分的合同列表 我已经为此使用了pyPDF库(这直接来自网页): 这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF
也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索(搜索“pdf上的SQL Server全文搜索”)。如果可以在SQL server上加载所有文档,那么就可以开始使用全文搜索来获取所需信息。这可能比上述方法更简单、更灵活。我来试一试,谢谢。关于如何存储这些文档有什么建议吗?一定有比在Word/Adobe中打开更好的方法,而且点击Control+FI很难让它正常工作。对于(路径),我是否将其放在确切的文件位置(C:\\…\Something.pdf)?我一直得到一个空白内容。我可以使用这个库从PDF中选择某些工作表并创建一个新的PDF或与其他PDF合并,但我不知道如何让它创建文本如果你可以细化和缩小这个问题,你也可以得到更多的回答。
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace("\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf")