检查是否已从Word/Google文档导出PDF

检查是否已从Word/Google文档导出PDF,pdf,ms-word,ocr,export-to-pdf,Pdf,Ms Word,Ocr,Export To Pdf,我正在使用OCR PDF进行一些工作,我很好奇是否有办法检查PDF是否已从Word(或Google Docs)导出。我可以检查PDF是否已使用Xpdf的PDF格式进行OCR。我知道Word和Google Docs会自动对导出的PDF进行OCR,所以如果我发现PDF没有进行OCR。我知道它还没有出口。但是,如果是OCR,有没有办法检查PDF是否是从Word/Google文档导出的,而不是使用Tesseract之类的程序简单地通过OCR导出的?具体来说,我使用的是JavaScript,但任何信息都是

我正在使用OCR PDF进行一些工作,我很好奇是否有办法检查PDF是否已从Word(或Google Docs)导出。我可以检查PDF是否已使用Xpdf的PDF格式进行OCR。我知道Word和Google Docs会自动对导出的PDF进行OCR,所以如果我发现PDF没有进行OCR。我知道它还没有出口。但是,如果是OCR,有没有办法检查PDF是否是从Word/Google文档导出的,而不是使用Tesseract之类的程序简单地通过OCR导出的?具体来说,我使用的是JavaScript,但任何信息都是有用的。

对于任何查找此文档的人,我现在要做的是使用带有-meta标志的pdfinfo(来自Xpdf)来检查PDF是否有XMP元数据。从Word和Google文档导出的PDF没有此元数据,但其他PDF有此元数据