.net 当目录列表被停用时，有没有办法从Web服务器获取文件？_.net_Webserver_Web Crawler

.net 当目录列表被停用时，有没有办法从Web服务器获取文件？

.net web-crawler

.net 当目录列表被停用时，有没有办法从Web服务器获取文件？,.net,webserver,web-crawler,.net,Webserver,Web Crawler,我尝试为每个基于Web服务器/网页的文件构建一个“爬虫”或“自动下载器” 因此，在我看来，有两种方式： 1）目录列表已启用。阅读列表中的数据并下载您看到的每个文件比这更容易 2）目录列表已禁用。然后呢？唯一的想法是必须强制执行文件名，并查看服务器的反应（例如：404表示无文件，403表示已找到的目录，数据表示已找到的正确数据）我的想法对吗？有更好的方法吗？您可以随时解析HTML，查看并跟踪所获得的链接。这就是大多数爬虫程序的实现方式请查看这些库，它们可以帮助您做到这一点： .NET：

我尝试为每个基于Web服务器/网页的文件构建一个“爬虫”或“自动下载器”

因此，在我看来，有两种方式：

1）目录列表已启用。阅读列表中的数据并下载您看到的每个文件比这更容易

2）目录列表已禁用。然后呢？唯一的想法是必须强制执行文件名，并查看服务器的反应（例如：404表示无文件，403表示已找到的目录，数据表示已找到的正确数据）

我的想法对吗？有更好的方法吗？

您可以随时解析HTML，查看并跟踪所获得的链接。这就是大多数爬虫程序的实现方式

请查看这些库，它们可以帮助您做到这一点：

.NET：

Python:

PHP:

始终在站点的根目录中查找robots.txt，并确保您遵守站点关于允许对哪些页面进行爬网的规则。

您不应为网站管理员阻止您爬网的页面编制索引

这就是Robots.txt的全部内容

您应该检查

SiteMap

文件，每个文件夹中都有描述

它通常是sitemap.xml，或者有时它的名字在Robots.txt中被提及。好的，有了Robots.txt，我可能会有一些文件夹和文件，但我想不是很多，也不是所有的Web服务器都有Robots.txt，例如：如何找到“盲”文件夹和文件？Thx，我试图了解HTML Agility Pack是否对我有帮助，但是我不明白这个描述。