Php 一种高效的网页抓取方法
可能重复:Php 一种高效的网页抓取方法,php,substring,web-scraping,Php,Substring,Web Scraping,可能重复: 我想检索网页的页眉和页脚(所有者知道这一点),并将其显示在新页面上,以便添加不同的内容。页面的结构非常好,内容位于一个具有内容id的div中,因此我认为我可以执行以下操作: 使用CURL检索html 将html放在内容的任意一边 在新的页面上重复它 我的问题是我不太懂PHP,所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring,但PHP中的substr似乎有点不同。有人能提出一个替代方案吗 谢谢子字符串和正则表达式不足以处理HTML。最好(而且更容易
我想检索网页的页眉和页脚(所有者知道这一点),并将其显示在新页面上,以便添加不同的内容。页面的结构非常好,内容位于一个具有内容id的div中,因此我认为我可以执行以下操作: 使用CURL检索html 将html放在内容的任意一边 在新的页面上重复它 我的问题是我不太懂PHP,所以我不确定如何将html的两块放在一边。我以前在Java中使用过substring,但PHP中的substr似乎有点不同。有人能提出一个替代方案吗
谢谢子字符串和正则表达式不足以处理HTML。最好(而且更容易)使用DOM解析器
请看下面的图片。它支持加载HTML,并允许您轻松遍历文档。子字符串和正则表达式不足以处理HTML。最好(而且更容易)使用DOM解析器
请看下面的图片。它支持加载HTML,并允许您轻松地遍历文档。来抓取我使用的网页。这对你来说是最简单的方法。
你可以在这篇文章中找到更多的工具:来抓取我用过的网页。这对你来说是最简单的方法。
你可以在这篇文章中找到更多的工具:前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本 对于PHP,我使用了CURL(get url.PHP): 对于Ajax,我使用了:
var url = /* URL you want to retrieve */;
$.ajax({
url: "get-url.php?url=" + url,
type: "GET",
dataType: "html",
cache: false,
success: function(data, textStatus, jqXHR){
var header = data.find('#header').html();
var footer = data.find('#footer').html();
$(header_DOM).html(header);
$(footer_DOM).html(footer);
}
});
这只是一个指南。改变这种想法以适应你的需要。前几天我做了类似的事情。我选择使用jQuery、Ajax和PHP来收集页面并将其分解。我已经包括了我的代码的稀释版本 对于PHP,我使用了CURL(get url.PHP): 对于Ajax,我使用了:
var url = /* URL you want to retrieve */;
$.ajax({
url: "get-url.php?url=" + url,
type: "GET",
dataType: "html",
cache: false,
success: function(data, textStatus, jqXHR){
var header = data.find('#header').html();
var footer = data.find('#footer').html();
$(header_DOM).html(header);
$(footer_DOM).html(footer);
}
});
这只是一个指南。改变这种想法以满足您的需要。我甚至不会调用substring/regex-uncipled-toolsThanks来获得回复。我认为DOM解析将是我对页脚的最佳选择,但我可能需要为页眉添加其他内容,因为它的结构没有我之前想象的那么好。@MillyMonster,该文档将被解析为结构化文档。我甚至不会调用substring/regex-uncipled-toolsThanks进行回复。我认为DOM解析将是我对页脚的最佳选择,但我可能需要为页眉添加其他内容,因为它的结构不像我以前认为的那样好。@MillyMonster,文档将被解析为结构化文档。