Parsing 从html页面创建csv

Parsing 从html页面创建csv,parsing,html-parsing,Parsing,Html Parsing,有一个网站在html表格中显示大量数据。他们对数据进行了分页,因此大约有500页 在Windows上,获取这些表中的数据并将其下载为CSV的最简便方法是什么 基本上,我需要编写一个脚本,这样做,但用C#编写太费劲了,我正在寻找有网络经验的人使用的其他解决方案: for(i=1 to 500) load page from http://x/page_i.html; parse the source and get the data in table with id='data'

有一个网站在html表格中显示大量数据。他们对数据进行了分页,因此大约有500页

在Windows上,获取这些表中的数据并将其下载为CSV的最简便方法是什么

基本上,我需要编写一个脚本,这样做,但用C#编写太费劲了,我正在寻找有网络经验的人使用的其他解决方案:

for(i=1 to 500)
   load page from http://x/page_i.html;
   parse the source and get the data in table with id='data'
   save results in csv

谢谢

我曾经做过一个屏幕抓取应用程序,发现它非常有用。您可以轻松地将其转换为Python脚本,并使用您要查找的特定id解析所有标记。

我能想到的最简单的非C方法是使用下载页面,然后运行将其转换为XML/XHTML,然后使用XSLT将生成的XML转换为CSV(运行时使用)

您必须编写一些简单的批处理文件和带有基本XPath选择器的XSLT

如果您觉得只在C#中执行更容易,那么可以使用读取HTMLDOM并执行XPath查询来提取数据。它不应该需要超过20行代码