Php 一种高效的网页抓取方法_Php_Substring_Web Scraping

Php 一种高效的网页抓取方法

php web-scraping

Php 一种高效的网页抓取方法,php,substring,web-scraping,Php,Substring,Web Scraping,可能重复：我想检索网页的页眉和页脚（所有者知道这一点），并将其显示在新页面上，以便添加不同的内容。页面的结构非常好，内容位于一个具有内容id的div中，因此我认为我可以执行以下操作：使用CURL检索html 将html放在内容的任意一边在新的页面上重复它我的问题是我不太懂PHP，所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring，但PHP中的substr似乎有点不同。有人能提出一个替代方案吗谢谢子字符串和正则表达式不足以处理HTML。最好（而且更容易

可能重复：

我想检索网页的页眉和页脚（所有者知道这一点），并将其显示在新页面上，以便添加不同的内容。页面的结构非常好，内容位于一个具有内容id的div中，因此我认为我可以执行以下操作：

使用CURL检索html 将html放在内容的任意一边在新的页面上重复它

我的问题是我不太懂PHP，所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring，但PHP中的substr似乎有点不同。有人能提出一个替代方案吗

谢谢

子字符串和正则表达式不足以处理HTML。最好（而且更容易）使用DOM解析器

请看下面的图片。它支持加载HTML，并允许您轻松遍历文档。

子字符串和正则表达式不足以处理HTML。最好（而且更容易）使用DOM解析器

请看下面的图片。它支持加载HTML，并允许您轻松地遍历文档。

来抓取我使用的网页。这对你来说是最简单的方法。

你可以在这篇文章中找到更多的工具：

来抓取我用过的网页。这对你来说是最简单的方法。

你可以在这篇文章中找到更多的工具：

前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本

对于PHP，我使用了CURL（get url.PHP）：

对于Ajax，我使用了：

var url = /* URL you want to retrieve */;
$.ajax({
        url: "get-url.php?url=" + url,
        type: "GET",
        dataType: "html",
        cache: false,
        success: function(data, textStatus, jqXHR){
            var header = data.find('#header').html();
            var footer = data.find('#footer').html();
            $(header_DOM).html(header);
            $(footer_DOM).html(footer);
        }
    });

这只是一个指南。改变这种想法以适应你的需要。

前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本

对于PHP，我使用了CURL（get url.PHP）：

对于Ajax，我使用了：

var url = /* URL you want to retrieve */;
$.ajax({
        url: "get-url.php?url=" + url,
        type: "GET",
        dataType: "html",
        cache: false,
        success: function(data, textStatus, jqXHR){
            var header = data.find('#header').html();
            var footer = data.find('#footer').html();
            $(header_DOM).html(header);
            $(footer_DOM).html(footer);
        }
    });

这只是一个指南。改变这种想法以满足您的需要。

我甚至不会调用substring/regex-uncipled-toolsThanks来获得回复。我认为DOM解析将是我对页脚的最佳选择，但我可能需要为页眉添加其他内容，因为它的结构没有我之前想象的那么好。@MillyMonster，该文档将被解析为结构化文档。我甚至不会调用substring/regex-uncipled-toolsThanks进行回复。我认为DOM解析将是我对页脚的最佳选择，但我可能需要为页眉添加其他内容，因为它的结构不像我以前认为的那样好。@MillyMonster，文档将被解析为结构化文档。