Web scraping 抓取网页&；格式化它_Web Scraping

Web scraping 抓取网页&；格式化它

web-scraping

Web scraping 抓取网页&；格式化它,web-scraping,Web Scraping,我需要一些关于如何着手解决这个问题的建议：我有超过10K+的简单HTML网页，它们都有相同的格式。当我说“相同格式”时，我的意思是，它们在开始时都有相同的h1标记，但有不同的文本，后面是一个表，然后是一个链接，等等。因此，如果你看到的话，10K+页面的基本HTML框架是相同的，但只是文本会不断变化我有一种方法可以遍历所有这些10K页面。但是，我不知道如何将该页面中的特定文本复制到XLS/CSV列上。一旦我能做到这一点，我将把这个excel表导入MySQL并做进一步的处理我对PHP有一定的了

我需要一些关于如何着手解决这个问题的建议：

我有超过10K+的简单HTML网页，它们都有相同的格式。当我说“相同格式”时，我的意思是，它们在开始时都有相同的h1标记，但有不同的文本，后面是一个表，然后是一个链接，等等。因此，如果你看到的话，10K+页面的基本HTML框架是相同的，但只是文本会不断变化

我有一种方法可以遍历所有这些10K页面。但是，我不知道如何将该页面中的特定文本复制到XLS/CSV列上。一旦我能做到这一点，我将把这个excel表导入MySQL并做进一步的处理

我对PHP有一定的了解。这就是我能想到的：

$html = file_get_contents("http://www.SomeWebsite.com/");

然后我可以使用一些正则表达式来操作我需要的数据。然而，我不知道如何处理重定向

这是我能想到的，但还有更好的吗？可能是现有的工具或更好的脚本语言？

您可以使用HTQL提取html内容。它有Python和COM接口。见：

要提取标记，只需使用“”作为查询

您可以使用PHP实现这一点，不过我建议使用XPath而不是正则表达式。就我个人而言，我将Python与和一起使用