Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 将PDF文件夹转换为CMYK值的csv_Python 3.x_Pdf_Ghostscript_Data Analysis_Cmyk - Fatal编程技术网

Python 3.x 将PDF文件夹转换为CMYK值的csv

Python 3.x 将PDF文件夹转换为CMYK值的csv,python-3.x,pdf,ghostscript,data-analysis,cmyk,Python 3.x,Pdf,Ghostscript,Data Analysis,Cmyk,tldr:如何将PDF文件夹转换为CMYK值(或RGB或任何类型的色阶值)列表,最好使用python 我有一个文件夹,里面有大约100000个文档。为了简化这些文档的采样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是CMYK覆盖率。python中是否有(最好)计算PDF的CMYK覆盖率的方法或包 ****编辑**** 经过一些研究,我发现GhostScript应该提供我所需要的功能,如果有人能帮助我实现,我仍然会非常感激。/gs-sDEVICE=inkcov-sOutputFil

tldr:如何将PDF文件夹转换为CMYK值(或RGB或任何类型的色阶值)列表,最好使用python

我有一个文件夹,里面有大约100000个文档。为了简化这些文档的采样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是CMYK覆盖率。python中是否有(最好)计算PDF的CMYK覆盖率的方法或包

****编辑****


经过一些研究,我发现GhostScript应该提供我所需要的功能,如果有人能帮助我实现,我仍然会非常感激。

/gs-sDEVICE=inkcov-sOutputFile=out.txt input.pdf应该为文件中的每个页面提供CMYK覆盖范围

您可以使用
-dQUIET-o-
而不是
-sOutputFile
将输出发送到stdout

然后,您需要一些批处理脚本,这将取决于您的操作系统。在Windows上,例如:

for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt
应该从文件夹中获取每个文件,通过inkcov设备运行它并将输出发送到stdout,我们将其重定向到一个文件并使用
>
,以便每次执行都附加到该文件,而不是覆盖以前的输出


当然,您需要在每次运行后删除输出文件。

inkcov设备将计算文档每页上CMYK的覆盖率。恐怕我不明白您真正想要的是什么,您似乎想要每个文档(而不是每页)的CMYK覆盖率,这对我来说似乎没有什么用处。我想你可以将每页的总覆盖率除以页数得到一个平均值。每页CMYK可以很好地工作,不幸的是,我只是很难做到这一点