Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/video/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 如何在网站目录中查找文件?_Php_Web Crawler - Fatal编程技术网

Php 如何在网站目录中查找文件?

Php 如何在网站目录中查找文件?,php,web-crawler,Php,Web Crawler,我正在创建一个网络爬虫。我是ganna,给它一个URL,它会在目录和子目录中扫描.html文件。我一直在考虑两种选择: scandir($url)。这适用于本地文件,但不适用于http站点。这是因为文件权限吗?我猜它不应该起作用,因为对每个人来说访问你的网站文件都是危险的 搜索链接并跟踪它们。我可以做文件获取索引文件的内容,找到链接,然后根据它们找到它们的.html文件 这两种方法中的任何一种都有效,或者还有第三种方法吗?查找html文件的唯一方法是通过解析服务器返回的文件内容,除非它们很可能在

我正在创建一个网络爬虫。我是ganna,给它一个URL,它会在目录和子目录中扫描.html文件。我一直在考虑两种选择:

  • scandir($url)
    。这适用于本地文件,但不适用于http站点。这是因为文件权限吗?我猜它不应该起作用,因为对每个人来说访问你的网站文件都是危险的

  • 搜索链接并跟踪它们。我可以做文件获取索引文件的内容,找到链接,然后根据它们找到它们的.html文件


  • 这两种方法中的任何一种都有效,或者还有第三种方法吗?

    查找html文件的唯一方法是通过解析服务器返回的文件内容,除非它们很可能在服务器上启用了目录浏览功能(这是通常禁用的第一项功能之一),否则您无法浏览目录列表,只有他们准备向您展示并让您使用的内容


    您必须开始扫描html文件的链接,如果这些文件包含asp/php或其他返回html内容的文件,该怎么办?

    您是否考虑使用
    ?它可以对网站进行爬网,只下载具有特定扩展名的文件。

    我就是这么想的。我忘了说,但我当然会搜索asp,php等。尽管如此,我在使用.php文件的内容时遇到了一个问题。它没有得到php的响应。我没有看到过,除非它是phps,或者是专门为php脚本设计的。get_file_内容到底做了什么?它返回的是源代码还是实际代码?您能想象它是否允许您查看下面的asp/php源代码吗?它会让这么多黑客攻击一切!不,它只返回返回的数据-无论是html、exe还是img。。取决于你叫什么,如果你在jpg上叫它,你会得到jpg数据这很奇怪。。当我在本地文件上执行file_get_内容时,也会返回普通的php代码。但是,当我在在线网站上这样做时,它只返回生成的html。