Parsing 从html页面创建csv_Parsing_Html Parsing

Parsing 从html页面创建csv

parsing

Parsing 从html页面创建csv,parsing,html-parsing,Parsing,Html Parsing,有一个网站在html表格中显示大量数据。他们对数据进行了分页，因此大约有500页在Windows上，获取这些表中的数据并将其下载为CSV的最简便方法是什么基本上，我需要编写一个脚本，这样做，但用C#编写太费劲了，我正在寻找有网络经验的人使用的其他解决方案： for(i=1 to 500) load page from http://x/page_i.html; parse the source and get the data in table with id='data'

有一个网站在html表格中显示大量数据。他们对数据进行了分页，因此大约有500页

在Windows上，获取这些表中的数据并将其下载为CSV的最简便方法是什么

基本上，我需要编写一个脚本，这样做，但用C#编写太费劲了，我正在寻找有网络经验的人使用的其他解决方案：

for(i=1 to 500)
   load page from http://x/page_i.html;
   parse the source and get the data in table with id='data'
   save results in csv

谢谢

我曾经做过一个屏幕抓取应用程序，发现它非常有用。您可以轻松地将其转换为Python脚本，并使用您要查找的特定id解析所有标记。

我能想到的最简单的非C方法是使用下载页面，然后运行将其转换为XML/XHTML，然后使用XSLT将生成的XML转换为CSV（运行时使用）

您必须编写一些简单的批处理文件和带有基本XPath选择器的XSLT

如果您觉得只在C#中执行更容易，那么可以使用读取HTMLDOM并执行XPath查询来提取数据。它不应该需要超过20行代码