使用Poppler拆分和重新连接PDF会导致更大的文件？（尽管剥离元数据）_Pdf_Metadata_Exiftool_Poppler_Qpdf

使用Poppler拆分和重新连接PDF会导致更大的文件？（尽管剥离元数据）

pdf

使用Poppler拆分和重新连接PDF会导致更大的文件？（尽管剥离元数据）,pdf,metadata,exiftool,poppler,qpdf,Pdf,Metadata,Exiftool,Poppler,Qpdf,如果我有一个多页PDF，并使用优秀的（安装在macOS上，使用brew install poppler）将其拆分为单独的页面，如下所示： # command line steps to strip metadata from (and re-linearize) example.pdf : exiftool -all= -overwrite_original example.pdf ; mv example.pdf temp.pdf ; qpdf --linearize temp.pdf exa

如果我有一个多页PDF，并使用优秀的（安装在macOS上，使用

brew install poppler

）将其拆分为单独的页面，如下所示：

# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf

pdfseparate foo.pdf条-%04d.pdf

然后重新加入结果栏-######.pdf文件，如下所示：

pdfunite bar-*.pdf baz.pdf

生成的baz.pdf似乎具有相同的内容，但文件要大得多

起初我假设，因为结果中会有重复的元数据或其他内容。但是，即使我从所有文件（即输入文件）以及中间栏-#######.pdf文件以及生成的输出文件中删除所有元数据，也可以使用以下方法：

# command line steps to strip metadata from (and re-linearize) example.pdf :
exiftool -all= -overwrite_original example.pdf ;
mv example.pdf temp.pdf ;
qpdf --linearize temp.pdf example.pdf

然后，生成的baz.pdf文件仍然比原始输入大得多

这可能是什么原因？一个多页的PDF文件除了它的裸内容之外还能有什么？假设poppler的

pdfsepaate

和

pdfunite

保留了实际内容本身，并且我对元数据的剥离是正确的

或者，

pdfseparate

和

pdfunite

是否可能以无损但次优的方式分解和重构PDF内容？（我对PDF文件的内部结构知之甚少，但我可以想象有很多不同的方法来编码相同的内容）

顺便说一句，如果我使用exiftool somefile.PDF检查任何涉及的PDF文件，它确实没有显示任何元数据（并线性化：是）。

PDF页面使用共享资源，如字体、图像等。当您拆分文档时，共享资源将进入每个结果文件。当您合并这些文件时，资源可能不会被合并回来（这取决于合并工具的实现方式），从而产生更大的文件。

谢谢，是的，当然，这是有意义的。你知道有什么方法可以防止这种情况吗？通常，我执行上述过程是为了替换一个特定的页面，而保留所有其他页面不变。因此，结果文件中除了一个页面以外的所有页面都将与原始页面相同，使用与以前相同的字体或其他资源。这完全取决于您使用的工具。如果它们不支持资源合并，您将无能为力。可能您必须调查其他工具，看看它们是否有不同的行为。