C# 使用.NET实现pdf到xml的转换
我目前正在构建一个.NET应用程序,其中一个要求是它必须将pdf文件转换为XML文件。有人成功地做到了这一点吗?如果是,您使用了什么?您可以使用pdf库(如)来查询您的pdf文件。一旦访问了所需的数据,就可以轻松地创建xml文件。关于如何使用c#和其他.net语言创建xml文件,web上有大量信息。如果您有特定的问题,只需提问;-) 我以前做过很多这样的项目 你需要做的事情: 1.)查看此项目。该项目使用ITextSharpC# 使用.NET实现pdf到xml的转换,c#,.net,xml,pdf,C#,.net,Xml,Pdf,我目前正在构建一个.NET应用程序,其中一个要求是它必须将pdf文件转换为XML文件。有人成功地做到了这一点吗?如果是,您使用了什么?您可以使用pdf库(如)来查询您的pdf文件。一旦访问了所需的数据,就可以轻松地创建xml文件。关于如何使用c#和其他.net语言创建xml文件,web上有大量信息。如果您有特定的问题,只需提问;-) 我以前做过很多这样的项目 你需要做的事情: 1.)查看此项目。该项目使用ITextSharp 如果您下载示例项目并了解它是如何工作的,那就更好了。在这个项目中,它
- 如果您下载示例项目并了解它是如何工作的,那就更好了。在这个项目中,它展示了如何从pdf中提取数据。检查PDFParser类,它有一个名为ExtractTextFromPDFBytes(byte[]input)的函数,从该函数中可以看到如何从未压缩的pdf文件中提取文本别忘了包括ITextSharp dll。
- 我以前担心的一些问题是pdf,其中包含页面内的断开链接或URL。现在,如果您也担心这个问题,正则表达式可以轻松解决您的问题,但我建议您以后再处理它
- 现在,这里是一个关于如何创建xml的示例代码。了解代码的工作原理,以便稍后您将了解如何处理自己的代码