C# 从PDF中的嵌套表中提取数据
我有一些pdf文件是从word或excel文件创建的C# 从PDF中的嵌套表中提取数据,c#,pdf,ms-word,text-extraction,C#,Pdf,Ms Word,Text Extraction,我有一些pdf文件是从word或excel文件创建的 我需要得到表格中的信息 文档中的文本不是图像,因此我可以使用pdfbox等工具提取文本 当我有文本时,我无法知道它属于表格中的哪些单元格,因为我不知道表格边框在哪里 我尝试了一些桌面工具,如abby或solid pdf converter,它们能够将文件转换为漂亮的word文档,但这不适合我的需要,因为我希望能够用C#编写此程序 有些表有嵌套的表,我想这会让这有点困难 感谢您的帮助这里的困难是因为PDF中的文本不包含在任何表格中。它看起来可能
感谢您的帮助这里的困难是因为PDF中的文本不包含在任何表格中。它看起来可能是,但在表面之下,它不是 所以我可以想出几个选择。但是没有一个会像你想的那样令人满意
这是一项困难的任务,但希望这能为您提供一个起点。您可以从下载pdftohtml并使用-xml开关,看看xml输出是否能为您提供更好的布局表。源代码是可用的C语言,并可以与一些工作接口。或者简单地用进程外调用调用.exe。这个解决方案对我根本不起作用。谢谢可能的副本谢谢你的回复1。你提到的程序效果不好。我不介意使用非免费的解决方案,但我必须确保它能100%工作2。我尝试过使用坐标的解决方案,但在不知道边界坐标的情况下,我不知道如何使用这个解决方案。表格中文本的位置发生变化(嵌套表格、单元格中的多行)