C# 哪种类型的文件解析最简单、高效且好?(html、pdf、csv、文本)

C# 哪种类型的文件解析最简单、高效且好?(html、pdf、csv、文本),c#,.net,winforms,C#,.net,Winforms,我想解析html文件、pdf文件、csv文件和文本文件。现在解析上面指定的哪种类型的文件最简单有效 因为如果可能的话,我想通过公共解析代码解析pdf、html、csv和文本文件 现在假设对html的解析是最简单和有效的,那么: 我将为html文件编写解析代码,并尝试将pdf文件转换为html文件,如果可能的话。为解析html文件编写的代码也适用于pdf文件 因此,我将尝试将pdf、csv和文本文件转换为html文件,并编写解析html文件的代码,从而该代码将解析html、pdf、csv和文本文件

我想解析html文件、pdf文件、csv文件和文本文件。现在解析上面指定的哪种类型的文件最简单有效

因为如果可能的话,我想通过公共解析代码解析pdf、html、csv和文本文件

现在假设对html的解析是最简单和有效的,那么:

我将为html文件编写解析代码,并尝试将pdf文件转换为html文件,如果可能的话。为解析html文件编写的代码也适用于pdf文件

因此,我将尝试将pdf、csv和文本文件转换为html文件,并编写解析html文件的代码,从而该代码将解析html、pdf、csv和文本文件

那么1哪种类型的文件解析是最简单和有效的pdf、csv、html和文本? 2并且可以将文件PDF、文本、html和csv相互转换。
就像html解析最简单,然后是pdf到html、文本到html和csv到html。

只需在文本编辑器中查看文件即可


html、csv和文本解析都同样容易,如果不知道您希望解析的数据是什么,就不能说哪一个最合适。只要你知道你想做什么,在它们之间转换是没有困难的


pdf是另一种球类游戏,难度会大得多,首先要从中提取文本。

您不能用相同的解析器代码解析上述所有文件类型

最简单的文本格式CSV和HTML是文本文件。尽管如此,这并不意味着它们很容易解析。这真的取决于他们有什么格式

PDF文件本质上是二进制文件,因此需要不同的解析器

一般来说,数据越结构化,解析就越容易。因此,CSV将是最简单的,可能也是最快的

我建议使用现有的解析器,而不是编写自己的解析器

有一些库可以解析CSV和一些其他类型的结构化文本选项卡,例如分隔符-请参阅

对于HTML解析,有两种方法


有许多免费和商用PDF解析器。

您想从文件中提取哪些信息?PDF文件可以存储比文本文件和图像多得多的内容,例如,因此将任意PDF转换为文本并不容易。@Jens从我想要提取表信息的每种类型的文件中提取。到目前为止,最简单的是CSV,它对于表格式数据的分析并没有变得更简单。大多数情况下,就像文本文件一样,但C逗号可以是任何东西,但我们仍然称之为CSV,其中C是字符。@Paul Creasy。我想从每种类型的文件中提取表信息。当然可以。但是PDF的转换需要对PDF进行解析,并将解析树转换为HTML。+1。HTML敏捷包是一个很好的建议。考虑PDF框或ItExtPress的PDF格式。或者,我正在使用QuickPDF,这真的很好。@Harikrishna-我不明白你的选择2。如何将PDF转换为html?如果不是在代码中,则在转换pdf后使用HTML解析器。@Oded Sir..在选项2中-我应该首先通过编写解析代码将pdf转换为HTML,然后通过HTML解析器解析该信息。例如,pdf转换为HTML,HTML转换为文本。在选项1中,将pdf转换为文本和html文本。我应该做哪一个?@Oded Sir..在每个文件的末尾,我想要显示在datagridview上的文本信息。所以我应该为每个文件编写不同的解析代码,比如pdf到文本、html到文本、csv到文本吗?或者我应该先从pdf转换成html,再从csv转换成html,然后再从html转换成文本吗?