Web scraping 抓取网页&;格式化它

Web scraping 抓取网页&;格式化它,web-scraping,Web Scraping,我需要一些关于如何着手解决这个问题的建议: 我有超过10K+的简单HTML网页,它们都有相同的格式。当我说“相同格式”时,我的意思是,它们在开始时都有相同的h1标记,但有不同的文本,后面是一个表,然后是一个链接,等等。因此,如果你看到的话,10K+页面的基本HTML框架是相同的,但只是文本会不断变化 我有一种方法可以遍历所有这些10K页面。但是,我不知道如何将该页面中的特定文本复制到XLS/CSV列上。一旦我能做到这一点,我将把这个excel表导入MySQL并做进一步的处理 我对PHP有一定的了

我需要一些关于如何着手解决这个问题的建议:

我有超过10K+的简单HTML网页,它们都有相同的格式。当我说“相同格式”时,我的意思是,它们在开始时都有相同的h1标记,但有不同的文本,后面是一个表,然后是一个链接,等等。因此,如果你看到的话,10K+页面的基本HTML框架是相同的,但只是文本会不断变化

我有一种方法可以遍历所有这些10K页面。但是,我不知道如何将该页面中的特定文本复制到XLS/CSV列上。一旦我能做到这一点,我将把这个excel表导入MySQL并做进一步的处理

我对PHP有一定的了解。这就是我能想到的:

$html = file_get_contents("http://www.SomeWebsite.com/");
然后我可以使用一些正则表达式来操作我需要的数据。然而,我不知道如何处理重定向


这是我能想到的,但还有更好的吗?可能是现有的工具或更好的脚本语言?

您可以使用HTQL提取html内容。它有Python和COM接口。见:


要提取标记,只需使用“”作为查询

您可以使用PHP实现这一点,不过我建议使用XPath而不是正则表达式。 就我个人而言,我将Python与和一起使用