Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/75.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 什么';从一组HTML文件中提取表内容的最佳方法是什么?_Java_Html_Excel_Csv_Extract - Fatal编程技术网

Java 什么';从一组HTML文件中提取表内容的最佳方法是什么?

Java 什么';从一组HTML文件中提取表内容的最佳方法是什么?,java,html,excel,csv,extract,Java,Html,Excel,Csv,Extract,在用TIDY清理了一个满是HTML文件的文件夹后,如何提取表格内容以进行进一步处理?我过去曾成功地使用BeautifulSoup处理此类事情。我过去曾成功地使用BeautifulSoup处理此类事情。在.NET中,您可以使用 有关更多信息,请参见StackOverflow上的此项。在.NET中,您可以使用 有关更多信息,请参阅StackOverflow上的此部分。如果要从HTML标记中提取内容,应使用某种类型的HTML解析器。为此,有很多方法可以满足您的需要,这里有两种方法: 如果要从HTML

在用TIDY清理了一个满是HTML文件的文件夹后,如何提取表格内容以进行进一步处理?

我过去曾成功地使用BeautifulSoup处理此类事情。

我过去曾成功地使用BeautifulSoup处理此类事情。

在.NET中,您可以使用

有关更多信息,请参见StackOverflow上的此项。

在.NET中,您可以使用


有关更多信息,请参阅StackOverflow上的此部分。

如果要从HTML标记中提取内容,应使用某种类型的HTML解析器。为此,有很多方法可以满足您的需要,这里有两种方法:



如果要从HTML标记中提取内容,应该使用某种类型的HTML解析器。为此,有很多方法可以满足您的需要,这里有两种方法:



取决于您希望执行的处理类型。您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以对结果使用所有常用的XML工具,如XSLT和XQuery

如果您想在Microsoft Excel中处理它们,那么您应该能够从HTML中分割出表格并将其放入文件中,然后在Excel中打开该文件:它将很高兴地将HTML表格转换为电子表格页面。然后,您可以将其另存为CSV或Excel工作簿等(您甚至可以在web服务器上使用此功能—返回HTML表格,但将
内容类型
标题设置为
application/ms vnd。Excel
:Excel将打开并导入表格并将其转换为电子表格。)


如果希望将CSV输入到数据库,则可以像以前一样通过Excel,或者如果希望自动化此过程,则可以编写一个程序,使用您选择的XML导航API迭代表行并将其保存为CSV。Python的Elementtree和CSV模块将使这变得非常简单。

取决于您希望执行的处理类型。您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以对结果使用所有常用的XML工具,如XSLT和XQuery

如果您想在Microsoft Excel中处理它们,那么您应该能够从HTML中分割出表格并将其放入文件中,然后在Excel中打开该文件:它将很高兴地将HTML表格转换为电子表格页面。然后,您可以将其另存为CSV或Excel工作簿等(您甚至可以在web服务器上使用此功能—返回HTML表格,但将
内容类型
标题设置为
application/ms vnd。Excel
:Excel将打开并导入表格并将其转换为电子表格。)


如果希望将CSV输入到数据库,则可以像以前一样通过Excel,或者如果希望自动化此过程,则可以编写一个程序,使用您选择的XML导航API迭代表行并将其保存为CSV。Python的Elementtree和CSV模块将使这变得非常简单。

在回顾了这些建议之后,我最终使用了

使用HtmlUnit,我能够自定义Java代码,以打开文件夹中的每个HTML文件,导航到表标记,
查询每一列内容并提取创建CSV文件所需的数据。

查看建议后,我使用

使用HtmlUnit,我能够自定义Java代码,以打开文件夹中的每个HTML文件,导航到表标记,
查询每列内容并提取创建CSV文件所需的数据。

迭代文本并使用正则表达式:)


迭代文本并使用正则表达式:)