Python 解析PDF文档_Python_Parsing_Pdf_Nosql

Python 解析PDF文档

python parsing pdf nosql

Python 解析PDF文档,python,parsing,pdf,nosql,Python,Parsing,Pdf,Nosql,我将尝试下面链接中的pdf模块。假设这是可行的，我的问题是：有没有一种方法可以像合同一样存储大型文本文档，并能够同时从多个文档中查询信息例如，我想查询终止日期或定价，然后能够阅读该部分的合同列表我已经为此使用了pyPDF库（这直接来自网页）：这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF 也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索（搜索“pdf上的SQL Server全文搜索”）。如果可以在SQL server上加载所

我将尝试下面链接中的pdf模块。假设这是可行的，我的问题是：

有没有一种方法可以像合同一样存储大型文本文档，并能够同时从多个文档中查询信息

例如，我想查询终止日期或定价，然后能够阅读该部分的合同列表

我已经为此使用了pyPDF库（这直接来自网页）：

这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF

也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索（搜索“pdf上的SQL Server全文搜索”）。如果可以在SQL server上加载所有文档，那么就可以开始使用全文搜索来获取所需信息。这可能比上述方法更简单、更灵活。

我来试一试，谢谢。关于如何存储这些文档有什么建议吗？一定有比在Word/Adobe中打开更好的方法，而且点击Control+FI很难让它正常工作。对于（路径），我是否将其放在确切的文件位置（C:\\…\Something.pdf）？我一直得到一个空白内容。我可以使用这个库从PDF中选择某些工作表并创建一个新的PDF或与其他PDF合并，但我不知道如何让它创建文本如果你可以细化和缩小这个问题，你也可以得到更多的回答。

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")