Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/.net/24.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/wix/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
.net 当目录列表被停用时,有没有办法从Web服务器获取文件?_.net_Webserver_Web Crawler - Fatal编程技术网

.net 当目录列表被停用时,有没有办法从Web服务器获取文件?

.net 当目录列表被停用时,有没有办法从Web服务器获取文件?,.net,webserver,web-crawler,.net,Webserver,Web Crawler,我尝试为每个基于Web服务器/网页的文件构建一个“爬虫”或“自动下载器” 因此,在我看来,有两种方式: 1) 目录列表已启用。阅读列表中的数据并下载您看到的每个文件比这更容易 2) 目录列表已禁用。 然后呢? 唯一的想法是必须强制执行文件名,并查看服务器的反应(例如:404表示无文件,403表示已找到的目录,数据表示已找到的正确数据) 我的想法对吗?有更好的方法吗?您可以随时解析HTML,查看并跟踪所获得的链接。这就是大多数爬虫程序的实现方式 请查看这些库,它们可以帮助您做到这一点: .NET:

我尝试为每个基于Web服务器/网页的文件构建一个“爬虫”或“自动下载器”

因此,在我看来,有两种方式:

1) 目录列表已启用。阅读列表中的数据并下载您看到的每个文件比这更容易

2) 目录列表已禁用。 然后呢? 唯一的想法是必须强制执行文件名,并查看服务器的反应(例如:404表示无文件,403表示已找到的目录,数据表示已找到的正确数据)


我的想法对吗?有更好的方法吗?

您可以随时解析HTML,查看并跟踪所获得的链接。这就是大多数爬虫程序的实现方式

请查看这些库,它们可以帮助您做到这一点:

  • .NET:

  • Python:

  • PHP:


  • 始终在站点的根目录中查找robots.txt,并确保您遵守站点关于允许对哪些页面进行爬网的规则。

    您不应为网站管理员阻止您爬网的页面编制索引

    这就是Robots.txt的全部内容

    您应该检查
    SiteMap
    文件,每个文件夹中都有描述


    它通常是sitemap.xml,或者有时它的名字在Robots.txt中被提及。好的,有了Robots.txt,我可能会有一些文件夹和文件,但我想不是很多,也不是所有的Web服务器都有Robots.txt,例如:如何找到“盲”文件夹和文件?Thx,我试图了解HTML Agility Pack是否对我有帮助,但是我不明白这个描述。