Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 解析PDF文档_Python_Parsing_Pdf_Nosql - Fatal编程技术网

Python 解析PDF文档

Python 解析PDF文档,python,parsing,pdf,nosql,Python,Parsing,Pdf,Nosql,我将尝试下面链接中的pdf模块。假设这是可行的,我的问题是: 有没有一种方法可以像合同一样存储大型文本文档,并能够同时从多个文档中查询信息 例如,我想查询终止日期或定价,然后能够阅读该部分的合同列表 我已经为此使用了pyPDF库(这直接来自网页): 这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF 也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索(搜索“pdf上的SQL Server全文搜索”)。如果可以在SQL server上加载所

我将尝试下面链接中的pdf模块。假设这是可行的,我的问题是:

有没有一种方法可以像合同一样存储大型文本文档,并能够同时从多个文档中查询信息


例如,我想查询终止日期或定价,然后能够阅读该部分的合同列表

我已经为此使用了pyPDF库(这直接来自网页):

这应该是一个开始的好地方。我已经使用它来自动测试创建的PDF


也许更适合您的问题的更好方法是使用Microsoft的SQL Server。他们对文档进行全文搜索(搜索“pdf上的SQL Server全文搜索”)。如果可以在SQL server上加载所有文档,那么就可以开始使用全文搜索来获取所需信息。这可能比上述方法更简单、更灵活。

我来试一试,谢谢。关于如何存储这些文档有什么建议吗?一定有比在Word/Adobe中打开更好的方法,而且点击Control+FI很难让它正常工作。对于(路径),我是否将其放在确切的文件位置(C:\\…\Something.pdf)?我一直得到一个空白内容。我可以使用这个库从PDF中选择某些工作表并创建一个新的PDF或与其他PDF合并,但我不知道如何让它创建文本如果你可以细化和缩小这个问题,你也可以得到更多的回答。
import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")