是什么使一些pdf文件比其他文件小得多?

是什么使一些pdf文件比其他文件小得多?,pdf,pdf-generation,Pdf,Pdf Generation,我有很多PDF教科书,其中一些1000页的教科书超过400兆字节,而另一些质量相似的只有1500页的10兆字节!!我认为这可能是图像质量的问题,但图像质量相当相似。接下来,我在放大时查看了文本,看到较大的书籍看起来像是光栅化文本,而较小的文件看起来像是矢量文本。是这个吗 如果是,我如何开始制作矢量格式的PDF文件?是否可以扫描文档/使用OCR识别文本,然后以某种方式将光栅化文本转换为矢量格式?此外,您可以将光栅化文本转换为矢量格式吗 干杯, Evans在两种不同PDF类型的样本上检查此命令:

我有很多PDF教科书,其中一些1000页的教科书超过400兆字节,而另一些质量相似的只有1500页的10兆字节!!我认为这可能是图像质量的问题,但图像质量相当相似。接下来,我在放大时查看了文本,看到较大的书籍看起来像是光栅化文本,而较小的文件看起来像是矢量文本。是这个吗

如果是,我如何开始制作矢量格式的PDF文件?是否可以扫描文档/使用OCR识别文本,然后以某种方式将光栅化文本转换为矢量格式?此外,您可以将光栅化文本转换为矢量格式吗

干杯,
Evans

在两种不同PDF类型的样本上检查此命令:

 pdfimages -list -f 1 -l 10 the.pdf
您的PDF图像版本应该是最新版本,Poppler变体。这将为您提供前10页中所有图像的列表。它还列出了图像尺寸、宽度、高度(以像素为单位)、图像大小(以字节为单位)以及相应的压缩。如果你能忍受,你也可以跑:

 pdfimages -list the.pdf
这将为您提供所有页面中所有图像的列表

我打赌较大的一个会列出更多的图像

扫描产生的PDF与数字生成的PDF? 还运行:

 pdffonts -f 1 -l 10 the.pdf

我的猜测是:您的大型PDF类型没有列出任何字体。这意味着,这些PDF页面很可能来自扫描文件


较小的图像天生就是数字的……

可能一个图像更多,因为图像比纯文本占用大量内存。也许文字像你说的那样被光栅化了。有很多方法可以创建矢量图像,尽管这项技术并不完美,但它在很大程度上取决于扫描的质量。
 pdffonts the.pdf