C# 从PDF中的嵌套表中提取数据

C# 从PDF中的嵌套表中提取数据,c#,pdf,ms-word,text-extraction,C#,Pdf,Ms Word,Text Extraction,我有一些pdf文件是从word或excel文件创建的 我需要得到表格中的信息 文档中的文本不是图像,因此我可以使用pdfbox等工具提取文本 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里 我尝试了一些桌面工具,如abby或solid pdf converter,它们能够将文件转换为漂亮的word文档,但这不适合我的需要,因为我希望能够用C#编写此程序 有些表有嵌套的表,我想这会让这有点困难 感谢您的帮助这里的困难是因为PDF中的文本不包含在任何表格中。它看起来可能

我有一些pdf文件是从word或excel文件创建的

  • 我需要得到表格中的信息

  • 文档中的文本不是图像,因此我可以使用pdfbox等工具提取文本

  • 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里

  • 我尝试了一些桌面工具,如abby或solid pdf converter,它们能够将文件转换为漂亮的word文档,但这不适合我的需要,因为我希望能够用C#编写此程序

  • 有些表有嵌套的表,我想这会让这有点困难


  • 感谢您的帮助

    这里的困难是因为PDF中的文本不包含在任何表格中。它看起来可能是,但在表面之下,它不是

    所以我可以想出几个选择。但是没有一个会像你想的那样令人满意

  • 有些公司提供PDF到Excel/Word转换的SDK。Investintech和Iceni就是几个例子。但这些解决方案并非免费的
  • 如果您知道需要从中提取表格数据的PDF文件的确切布局,则可以使用任何SDK从PDF中提取文本,并告诉您提取文本的确切坐标。使用此方法时,您需要提前知道文本将位于何处,以便可以从页面上的特定区域提取文本。如果您需要处理任何随机文档,那么它显然不起作用

  • 这是一项困难的任务,但希望这能为您提供一个起点。

    您可以从下载pdftohtml并使用-xml开关,看看xml输出是否能为您提供更好的布局表。源代码是可用的C语言,并可以与一些工作接口。或者简单地用进程外调用调用.exe。这个解决方案对我根本不起作用。谢谢可能的副本谢谢你的回复1。你提到的程序效果不好。我不介意使用非免费的解决方案,但我必须确保它能100%工作2。我尝试过使用坐标的解决方案,但在不知道边界坐标的情况下,我不知道如何使用这个解决方案。表格中文本的位置发生变化(嵌套表格、单元格中的多行)