使用Python分析PDF文件

使用Python分析PDF文件,pdf,hash,output,Pdf,Hash,Output,我写了一个检测恶意pdf文件的代码。 我需要做的是: 每次扫描pdf时,我都希望将其哈希值保存在哈希数据库中,输出将保存在输出容器中, 因此,如果我有另一个pdf文件要扫描,我将检查它的哈希值,如果哈希数据库中存在,那么我将从输出容器打印输出。 但如果散列值不存在,则将其添加到散列数据库中,并将输出添加到输出容器中 我如何才能做到这一点,以及如何将哈希值与输出容器中的输出链接起来,您担心的是哪种恶意文档?损坏的文件或带有病毒的PDF 要在python中使用pdf,可以使用 然后,您可以按如下方

我写了一个检测恶意pdf文件的代码。 我需要做的是:

每次扫描pdf时,我都希望将其哈希值保存在哈希数据库中,输出将保存在输出容器中, 因此,如果我有另一个pdf文件要扫描,我将检查它的哈希值,如果哈希数据库中存在,那么我将从输出容器打印输出。 但如果散列值不存在,则将其添加到散列数据库中,并将输出添加到输出容器中


我如何才能做到这一点,以及如何将哈希值与输出容器中的输出链接起来,您担心的是哪种恶意文档?损坏的文件或带有病毒的PDF

要在python中使用pdf,可以使用

然后,您可以按如下方式打开该文件:

from pyPdf import PdfFileReader
my_doc = PdfFileReader(file("myfile.pdf", "rb"))
这样,您将检查它是否为有效文件


关于链接,可以在数据库本身中创建?

我编写了一个扫描代码,但我需要的是上面的内容