正在尝试使用pdf运算符从pdf获取图形/图表。这样做可行吗

正在尝试使用pdf运算符从pdf获取图形/图表。这样做可行吗,pdf,pdfbox,Pdf,Pdfbox,我正在尝试过滤包含图表/图形信息的pdf页面并将其分离。我试图检查操作符模式是否遵循序列[q,cm,m,l],然后可能有图表/图形 它正在过滤页面,但是,获取只有表格的页面,很少有图形图标 不确定,是否可以按我的方式获取它您可以使用PDFStreamParser类查看页面内容流的运算符。要了解如何使用此类,请查看源代码下载中的RemoveAllText.java示例。你的问题真的不清楚,因为你没有展示你尝试过的内容。我先删除所有文本,然后用一种我发现与许多图相同的模式分析现有运算符[q、cm、m

我正在尝试过滤包含图表/图形信息的pdf页面并将其分离。我试图检查操作符模式是否遵循序列[q,cm,m,l],然后可能有图表/图形

它正在过滤页面,但是,获取只有表格的页面,很少有图形图标


不确定,是否可以按我的方式获取它

您可以使用
PDFStreamParser
类查看页面内容流的运算符。要了解如何使用此类,请查看源代码下载中的
RemoveAllText.java
示例。你的问题真的不清楚,因为你没有展示你尝试过的内容。我先删除所有文本,然后用一种我发现与许多图相同的模式分析现有运算符[q、cm、m、l]请查看附件中我所做代码的链接:你没有共享PDF文件。从您的代码中,我看到您确实解析并分析了内容流(尽管只有最顶层——您的“图形”可以是Xobject形式!),但我想我现在明白了您的问题:您问什么策略最适合识别它是图形还是表。我不能回答这个问题,因为没有关于图形必须如何显示的“规则”。您还可以使用PDFDebugger查看您的文件。@tilmahauser我正在使用pdfxplorer调试pdf内部文件,您有更好的选择吗。