使用Poppler拆分和重新连接PDF会导致更大的文件?(尽管剥离元数据)

使用Poppler拆分和重新连接PDF会导致更大的文件?(尽管剥离元数据),pdf,metadata,exiftool,poppler,qpdf,Pdf,Metadata,Exiftool,Poppler,Qpdf,如果我有一个多页PDF,并使用优秀的(安装在macOS上,使用brew install poppler)将其拆分为单独的页面,如下所示: # command line steps to strip metadata from (and re-linearize) example.pdf : exiftool -all= -overwrite_original example.pdf ; mv example.pdf temp.pdf ; qpdf --linearize temp.pdf exa

如果我有一个多页PDF,并使用优秀的(安装在macOS上,使用
brew install poppler
)将其拆分为单独的页面,如下所示:

# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf
pdfseparate foo.pdf条-%04d.pdf

然后重新加入结果栏-######.pdf文件,如下所示:

pdfunite bar-*.pdf baz.pdf

生成的baz.pdf似乎具有相同的内容,但文件要大得多

起初我假设,因为结果中会有重复的元数据或其他内容。但是,即使我从所有文件(即输入文件)以及中间栏-#######.pdf文件以及生成的输出文件中删除所有元数据,也可以使用以下方法:

# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf
然后,生成的baz.pdf文件仍然比原始输入大得多

这可能是什么原因?一个多页的PDF文件除了它的裸内容之外还能有什么?假设poppler的
pdfsepaate
pdfunite
保留了实际内容本身,并且我对元数据的剥离是正确的

或者,
pdfseparate
pdfunite
是否可能以无损但次优的方式分解和重构PDF内容?(我对PDF文件的内部结构知之甚少,但我可以想象有很多不同的方法来编码相同的内容)


顺便说一句,如果我使用exiftool somefile.PDF检查任何涉及的PDF文件,它确实没有显示任何元数据(并线性化:是)。

PDF页面使用共享资源,如字体、图像等。当您拆分文档时,共享资源将进入每个结果文件。当您合并这些文件时,资源可能不会被合并回来(这取决于合并工具的实现方式),从而产生更大的文件。

谢谢,是的,当然,这是有意义的。你知道有什么方法可以防止这种情况吗?通常,我执行上述过程是为了替换一个特定的页面,而保留所有其他页面不变。因此,结果文件中除了一个页面以外的所有页面都将与原始页面相同,使用与以前相同的字体或其他资源。这完全取决于您使用的工具。如果它们不支持资源合并,您将无能为力。可能您必须调查其他工具,看看它们是否有不同的行为。