使用PHP解析时跟踪Amazon产品页面链接
我编写了一个PHP脚本来删除amazon产品的产品评论页面链接。然而,我在浏览产品页面时遇到困难。[亚马逊每页仅显示12种产品] 我的脚本使用简单的HTMLDOM解析器 这是我的脚本的一部分,链接到产品的下一页:使用PHP解析时跟踪Amazon产品页面链接,php,parsing,dom,amazon,simple-html-dom,Php,Parsing,Dom,Amazon,Simple Html Dom,我编写了一个PHP脚本来删除amazon产品的产品评论页面链接。然而,我在浏览产品页面时遇到困难。[亚马逊每页仅显示12种产品] 我的脚本使用简单的HTMLDOM解析器 这是我的脚本的一部分,链接到产品的下一页: if($nextPage=$html->find('#pagnNextLink',-1)) { $next = "http://amazon.com".$nextPage->href; // This works: // $next = "http://w
if($nextPage=$html->find('#pagnNextLink',-1)) {
$next = "http://amazon.com".$nextPage->href;
// This works:
// $next = "http://www.amazon.com/s/ref=sr_pg_2/179-2481337-1920701?rh=n%3A2625373011%2Cn%3A%212625374011%2Cn%3A2649512011%2Cp_n_date%3A2693527011%2Cp_n_theme_browse-bin%3A2650365011%2Cp_n_format_browse-bin%3A2650305011&page=2&ie=UTF8&qid=1372370539";
echo "<p>".$next;
getProducts($next);
}
if($nextPage=$html->find('pagnNextLink',-1)){
$next=”http://amazon.com“$nextPage->href;
//这项工作:
//$next=”http://www.amazon.com/s/ref=sr_pg_2/179-2481337-1920701?相对湿度=n%3A2625373011%2Cn%3A%212625374011%2Cn%3A2649512011%2Cp_n_日期%3A2693527011%2Cp_n_主题_浏览-bin%3A2650365011%2Cp_格式_浏览-bin%3A2650305011&page=2&ie=UTF8&qid=1372370539”;
回声“”$next;
getProducts($next);
}
问题是:
最初加载到函数的基本页将继续加载,而在当前页中找到的下一页链接将不被访问
但是,注释行在上述代码段中起作用:
有什么想法吗 您的
id
错误
<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?rh=i%3Aaps%2Ck%3Atoothbrush&page=2&keywords=toothbrush&ie=UTF8&qid=1372374734">
<span id="pagnNextString">Next Page</span>
<span class="srSprite pagnNextArrow"></span>
</a>
正确的id应该是
#pageNextLink
是的,但是想知道为什么这不起作用?亚马逊的条款和条件明确禁止使用网页抓取工具并不重要。因为它是一个不同的url?它只是pagnNextLink。支票:)