Python 3.x 将PDF文件夹转换为CMYK值的csv
tldr:如何将PDF文件夹转换为CMYK值(或RGB或任何类型的色阶值)列表,最好使用python 我有一个文件夹,里面有大约100000个文档。为了简化这些文档的采样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是CMYK覆盖率。python中是否有(最好)计算PDF的CMYK覆盖率的方法或包 ****编辑****Python 3.x 将PDF文件夹转换为CMYK值的csv,python-3.x,pdf,ghostscript,data-analysis,cmyk,Python 3.x,Pdf,Ghostscript,Data Analysis,Cmyk,tldr:如何将PDF文件夹转换为CMYK值(或RGB或任何类型的色阶值)列表,最好使用python 我有一个文件夹,里面有大约100000个文档。为了简化这些文档的采样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是CMYK覆盖率。python中是否有(最好)计算PDF的CMYK覆盖率的方法或包 ****编辑**** 经过一些研究,我发现GhostScript应该提供我所需要的功能,如果有人能帮助我实现,我仍然会非常感激。/gs-sDEVICE=inkcov-sOutputFil
经过一些研究,我发现GhostScript应该提供我所需要的功能,如果有人能帮助我实现,我仍然会非常感激。/gs-sDEVICE=inkcov-sOutputFile=out.txt input.pdf应该为文件中的每个页面提供CMYK覆盖范围 您可以使用
-dQUIET-o-
而不是-sOutputFile
将输出发送到stdout
然后,您需要一些批处理脚本,这将取决于您的操作系统。在Windows上,例如:
for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt
应该从文件夹中获取每个文件,通过inkcov设备运行它并将输出发送到stdout,我们将其重定向到一个文件并使用>
,以便每次执行都附加到该文件,而不是覆盖以前的输出
当然,您需要在每次运行后删除输出文件。inkcov设备将计算文档每页上CMYK的覆盖率。恐怕我不明白您真正想要的是什么,您似乎想要每个文档(而不是每页)的CMYK覆盖率,这对我来说似乎没有什么用处。我想你可以将每页的总覆盖率除以页数得到一个平均值。每页CMYK可以很好地工作,不幸的是,我只是很难做到这一点