Php 站点地图生成器,从头开始构建

Php 站点地图生成器,从头开始构建,php,sitemap,Php,Sitemap,我想知道如何用php构建一个站点爬虫,它检测网站的每个页面并在xml文件中生成一个条目。我看到很多网站都在这样做,所以我很好奇如何从头开始做,或者有任何脚本或教程来教它。这里是算法 第1步->获取站点地址,验证地址的格式是否正确,并以与(www.xyz.com/)不同的页面(www.xyz.com/page.html)结尾。 步骤2->获取文件内容,使用正则表达式尝试获取页面列表。 步骤3->在数据库中获取它们以备将来使用,并对这些文件执行步骤2。不要使用正则表达式。解析html的正确方法是使用

我想知道如何用php构建一个站点爬虫,它检测网站的每个页面并在xml文件中生成一个条目。我看到很多网站都在这样做,所以我很好奇如何从头开始做,或者有任何脚本或教程来教它。

这里是算法
第1步->获取站点地址,验证地址的格式是否正确,并以与(www.xyz.com/)不同的页面(www.xyz.com/page.html)结尾。
步骤2->获取文件内容,使用正则表达式尝试获取页面列表。

步骤3->在数据库中获取它们以备将来使用,并对这些文件执行步骤2。

不要使用正则表达式。解析html的正确方法是使用DOMDocument对象

  • 将第一页加载到DOMDocument对象中
  • 使用XPath语句收集该页面中的所有锚定标记HREF foudn
  • 使用这些值可以找到更多要加载的页面,并在第一步重新开始