Php 链接爬虫(用于下载或开发)

Php 链接爬虫(用于下载或开发),php,file-io,web-crawler,Php,File Io,Web Crawler,我有一个关于网络绘图的问题。。 我需要的是一个webcrawler,它可以保存网站的所有外部链接,并将它们打印到一个文件(csv)中。 我正在开发自己(PHP),但想知道是否有一些可下载的解决方案已经(不必是PHP解决方案)。 我当然找过自己,但什么也找不到。如果有人能帮我,我会非常感激 还有,发展it的最佳方式是什么 您可以简单的HTML Dom解析器() 例如 不错!谢谢:)对不起,如果我问愚蠢,但我是否也在“子页面”(网站上的所有页面)中搜索链接?@user68621它不会搜索子页面链接

我有一个关于网络绘图的问题。。 我需要的是一个webcrawler,它可以保存网站的所有外部链接,并将它们打印到一个文件(csv)中。 我正在开发自己(PHP),但想知道是否有一些可下载的解决方案已经(不必是PHP解决方案)。 我当然找过自己,但什么也找不到。如果有人能帮我,我会非常感激


还有,发展it的最佳方式是什么

您可以
简单的HTML Dom解析器
()

例如



不错!谢谢:)对不起,如果我问愚蠢,但我是否也在“子页面”(网站上的所有页面)中搜索链接?@user68621它不会搜索子页面链接。如果您提供URL,它将搜索该特定URL中存在的所有链接,而不是该URL中任何子页面中的链接。为了实现这一点,必须递归地传递到函数的链接。如果网站太大,这将花费很多时间,因为它会搜索所有页面/内部页面,所以我建议对大型网站使用此方法,但对其中包含中等链接的小型网站使用此方法!好吧,我来试一试,然后再往下走几层。但是使用DOM解析器是否比使用php的file_get_contents和regex更快?@user68621 file_get_contents和regex会更快。但我不认为你会经历太多的差异,也许在大型网站上你会看到这些差异。[我先前评论中的一处更正:阅读我不推荐的内容,而是我推荐的内容]。谢谢。非常感谢你的帮助!我接受你的回答。但我最终还是做了些别的事情。我下载了“LinkChecker 8.6”,它可以导出到csv。然后我使用“升华文本”对链接进行排序。如果其他人也在寻找类似的东西
<?php

include 'simple_html_dom.php';
$html = file_get_html('http://google.com/');

foreach($html->find('a') as $element) {
 $link[]=$element->href;

}
//Write into your CSV file


?>