Php 一种高效的网页抓取方法

Php 一种高效的网页抓取方法,php,substring,web-scraping,Php,Substring,Web Scraping,可能重复: 我想检索网页的页眉和页脚(所有者知道这一点),并将其显示在新页面上,以便添加不同的内容。页面的结构非常好,内容位于一个具有内容id的div中,因此我认为我可以执行以下操作: 使用CURL检索html 将html放在内容的任意一边 在新的页面上重复它 我的问题是我不太懂PHP,所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring,但PHP中的substr似乎有点不同。有人能提出一个替代方案吗 谢谢子字符串和正则表达式不足以处理HTML。最好(而且更容易

可能重复:

我想检索网页的页眉和页脚(所有者知道这一点),并将其显示在新页面上,以便添加不同的内容。页面的结构非常好,内容位于一个具有内容id的div中,因此我认为我可以执行以下操作:

使用CURL检索html 将html放在内容的任意一边 在新的页面上重复它

我的问题是我不太懂PHP,所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring,但PHP中的substr似乎有点不同。有人能提出一个替代方案吗


谢谢

子字符串和正则表达式不足以处理HTML。最好(而且更容易)使用DOM解析器


请看下面的图片。它支持加载HTML,并允许您轻松遍历文档。

子字符串和正则表达式不足以处理HTML。最好(而且更容易)使用DOM解析器


请看下面的图片。它支持加载HTML,并允许您轻松地遍历文档。

来抓取我使用的网页。这对你来说是最简单的方法。
你可以在这篇文章中找到更多的工具:

来抓取我用过的网页。这对你来说是最简单的方法。
你可以在这篇文章中找到更多的工具:

前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本

对于PHP,我使用了CURL(get url.PHP):

对于Ajax,我使用了:

var url = /* URL you want to retrieve */;
$.ajax({
        url: "get-url.php?url=" + url,
        type: "GET",
        dataType: "html",
        cache: false,
        success: function(data, textStatus, jqXHR){
            var header = data.find('#header').html();
            var footer = data.find('#footer').html();
            $(header_DOM).html(header);
            $(footer_DOM).html(footer);
        }
    });

这只是一个指南。改变这种想法以适应你的需要。

前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本

对于PHP,我使用了CURL(get url.PHP):

对于Ajax,我使用了:

var url = /* URL you want to retrieve */;
$.ajax({
        url: "get-url.php?url=" + url,
        type: "GET",
        dataType: "html",
        cache: false,
        success: function(data, textStatus, jqXHR){
            var header = data.find('#header').html();
            var footer = data.find('#footer').html();
            $(header_DOM).html(header);
            $(footer_DOM).html(footer);
        }
    });

这只是一个指南。改变这种想法以满足您的需要。

我甚至不会调用substring/regex-uncipled-toolsThanks来获得回复。我认为DOM解析将是我对页脚的最佳选择,但我可能需要为页眉添加其他内容,因为它的结构没有我之前想象的那么好。@MillyMonster,该文档将被解析为结构化文档。我甚至不会调用substring/regex-uncipled-toolsThanks进行回复。我认为DOM解析将是我对页脚的最佳选择,但我可能需要为页眉添加其他内容,因为它的结构不像我以前认为的那样好。@MillyMonster,文档将被解析为结构化文档。