如何从PDF中获取图像片段

如何从PDF中获取图像片段,pdf,full-text-search,Pdf,Full Text Search,我在一个可搜索的PDF文档项目上工作 找到相关文本后,我希望能够显示相关文本的小图像“片段” 任何人都可以为我指出任何资源或工具包的方向,使我能够做到这一点 罗杰 Somerset UK要显示PDF文件任何部分的小片段,您需要将PDF呈现为图像格式并显示。至于如何只显示页面中包含匹配文本的小区域,可以通过几种不同的方式来实现 找到一个SDK,它允许您从PDF文档中提取所有文本,其中包含PDF中各个单词的坐标。然后在提取的文本中搜索匹配文本并检索坐标 或者,找一个SDK为您进行搜索,但它还需要为您

我在一个可搜索的PDF文档项目上工作

找到相关文本后,我希望能够显示相关文本的小图像“片段”

任何人都可以为我指出任何资源或工具包的方向,使我能够做到这一点

罗杰
Somerset UK

要显示PDF文件任何部分的小片段,您需要将PDF呈现为图像格式并显示。至于如何只显示页面中包含匹配文本的小区域,可以通过几种不同的方式来实现

  • 找到一个SDK,它允许您从PDF文档中提取所有文本,其中包含PDF中各个单词的坐标。然后在提取的文本中搜索匹配文本并检索坐标
  • 或者,找一个SDK为您进行搜索,但它还需要为您提供单个单词的坐标
  • 找到匹配的单词后,检索该单词的坐标,然后裁剪该单词周围的区域(您可以将该区域设置为任意大小),然后将该页面呈现为图像。只有被裁剪的区域将被渲染,这将是您的“片段”
  • 在某些情况下,每次要显示匹配的搜索结果时裁剪/呈现页面可能会很慢,因此您还可以尝试呈现整个页面,然后用所选编程语言将图像裁剪到必要的坐标,然后显示裁剪后的图像
  • 因此,对您的关键要求是:

    • 使用坐标提取文本
    • 裁剪页面(PDF格式)
    • 呈现PDF

    至于能够做到这一点的工具包,它完全取决于您使用的编程语言。用你的编程语言添加一条评论,我会用一些建议更新我的答案。

    有任何特定的编程语言吗?C#ASP.Net位于我们的网站中,ASP.Net位于我们的网站中。我曾经玩过一个叫做dtSearch的产品,它会为我的PDF编制索引,搜索时会返回一个对象,其中包含我认为是文档中的单词偏移量。有一个选项可以将这些点击输出为xml文档,当发送到Acrobat阅读器时,该文档将突出显示这些点击。这对于文档来说很好,但我想展示一下代码片段。其中一个主要原因是OCRD文本层可能不是100%的好文本,但足以让搜索找到。作为后续工作,我找到了一个非常全面的PDF操作库-。这是一个商业产品,但与它的功能列表相比确实很昂贵。