是什么使一些pdf文件比其他文件小得多?
我有很多PDF教科书,其中一些1000页的教科书超过400兆字节,而另一些质量相似的只有1500页的10兆字节!!我认为这可能是图像质量的问题,但图像质量相当相似。接下来,我在放大时查看了文本,看到较大的书籍看起来像是光栅化文本,而较小的文件看起来像是矢量文本。是这个吗 如果是,我如何开始制作矢量格式的PDF文件?是否可以扫描文档/使用OCR识别文本,然后以某种方式将光栅化文本转换为矢量格式?此外,您可以将光栅化文本转换为矢量格式吗 干杯,是什么使一些pdf文件比其他文件小得多?,pdf,pdf-generation,Pdf,Pdf Generation,我有很多PDF教科书,其中一些1000页的教科书超过400兆字节,而另一些质量相似的只有1500页的10兆字节!!我认为这可能是图像质量的问题,但图像质量相当相似。接下来,我在放大时查看了文本,看到较大的书籍看起来像是光栅化文本,而较小的文件看起来像是矢量文本。是这个吗 如果是,我如何开始制作矢量格式的PDF文件?是否可以扫描文档/使用OCR识别文本,然后以某种方式将光栅化文本转换为矢量格式?此外,您可以将光栅化文本转换为矢量格式吗 干杯, Evans在两种不同PDF类型的样本上检查此命令:
Evans在两种不同PDF类型的样本上检查此命令:
pdfimages -list -f 1 -l 10 the.pdf
您的PDF图像版本应该是最新版本,Poppler变体。这将为您提供前10页中所有图像的列表。它还列出了图像尺寸、宽度、高度(以像素为单位)、图像大小(以字节为单位)以及相应的压缩。如果你能忍受,你也可以跑:
pdfimages -list the.pdf
这将为您提供所有页面中所有图像的列表
我打赌较大的一个会列出更多的图像
扫描产生的PDF与数字生成的PDF?
还运行:
pdffonts -f 1 -l 10 the.pdf
及
我的猜测是:您的大型PDF类型没有列出任何字体。这意味着,这些PDF页面很可能来自扫描文件
较小的图像天生就是数字的……可能一个图像更多,因为图像比纯文本占用大量内存。也许文字像你说的那样被光栅化了。有很多方法可以创建矢量图像,尽管这项技术并不完美,但它在很大程度上取决于扫描的质量。
pdffonts the.pdf