Passwords 确定网站是否有受限/密码保护区域_Passwords

Passwords 确定网站是否有受限/密码保护区域

passwords

Passwords 确定网站是否有受限/密码保护区域,passwords,Passwords,我有一个很大的网站列表，我需要知道他们是否有密码保护的区域我正在考虑这样做：使用httrack下载所有这些内容，然后编写一个脚本，查找诸如“登录”和“401禁止”之类的关键字。但问题是这些网站是不同的/有些是静态的，有些是动态的（html、cgi、php、java小程序…），而且大多数网站不会使用相同的关键字你有更好的主意吗非常感谢查找带有密码字段的表单您可能需要浏览站点以找到登录页面。查找带有“登录”、“登录”、“登录”、“登录”等短语的链接，或者浏览整个网站（不用说，这里要小心）。

我有一个很大的网站列表，我需要知道他们是否有密码保护的区域

我正在考虑这样做：使用httrack下载所有这些内容，然后编写一个脚本，查找诸如“登录”和“401禁止”之类的关键字。但问题是这些网站是不同的/有些是静态的，有些是动态的（html、cgi、php、java小程序…），而且大多数网站不会使用相同的关键字

你有更好的主意吗

非常感谢

查找带有密码字段的表单

您可能需要浏览站点以找到登录页面。查找带有“登录”、“登录”、“登录”、“登录”等短语的链接，或者浏览整个网站（不用说，这里要小心）。

查找带有密码字段的表单

我会使用httrack，但有几个限制，然后在下载的文件中搜索密码字段

通常，登录表单可以在主页的两个链接中找到。几乎所有的电子商务网站、网络应用程序等都有登录表单，只需点击主页上的一个链接即可访问，但另一层甚至两层的深度几乎可以保证你不会错过任何链接

我还将限制httrack的下载速度，告诉它不要下载任何非HTML文件，并阻止它下载外部链接。我还将同时连接到站点的数量限制为2个甚至1个。这应该适用于您正在查看的几乎所有站点，并且应该使您远离hosts.deny列表。

我将使用httrack，并设置一些限制，然后在下载的文件中搜索密码字段

我还将限制httrack的下载速度，告诉它不要下载任何非HTML文件，并阻止它下载外部链接。我还将同时连接到站点的数量限制为2个甚至1个。这应该适用于您正在查看的所有站点，并且应该使您远离主机。拒绝列表。

您可以使用

wget

并执行以下操作：

wget -A html,php,jsp,htm -S -r http://www.yoursite.com > output_yoursite.txt

这将导致

wget

递归下载整个站点，但只下载带有

-A

选项的结尾，在这种情况下，请尽量避免繁重的文件

标题将被定向到文件

output\u yoursite.txt

，然后您可以解析该文件的标题值401，这意味着该部分站点需要身份验证，并根据Konrad的建议解析相应的文件。

您可以使用

wget

执行以下操作：

wget -A html,php,jsp,htm -S -r http://www.yoursite.com > output_yoursite.txt

这将导致

wget

递归下载整个站点，但只下载带有

-A

选项的结尾，在这种情况下，请尽量避免繁重的文件

标头将被定向到文件

output_yoursite.txt

，然后您可以解析该文件的标头值401，这意味着该站点的部分需要身份验证，并根据康拉德的建议相应地解析文件。

查找401代码不会可靠地捕获它们，因为网站可能不会生成指向您没有权限访问的任何内容的链接。也就是说，在您登录之前，它不会显示您需要登录的任何内容。OTOH一些网站（比如那些包含所有静态内容的网站）会为一些页面弹出一个登录对话框，因此寻找密码输入标签也会遗漏一些内容

我的建议是：找到一个你可以获得源代码的spider程序，加入你计划使用的任何测试（复数），并让它停止第一个阳性结果。寻找一个可以被限制的爬行器，可以忽略非HTML文件（可能通过发出HEAD请求和查看mime类型），并且可以独立和同时处理多个站点。

查找401代码不会可靠地捕获它们，因为站点可能不会生成指向您没有权限访问的任何内容的链接。也就是说，在您登录之前，它不会显示您需要登录的任何内容。OTOH一些网站（比如那些包含所有静态内容的网站）会为一些页面弹出一个登录对话框，因此寻找密码输入标签也会遗漏一些内容

我的建议是：找到一个你可以获得源代码的spider程序，加入你计划使用的任何测试（复数），并让它停止第一个阳性结果。寻找一个可以被限制的spider，它可以忽略非HTML文件（可能通过发出HEAD请求和查看mime类型），并且可以独立和同时处理多个站点。

您可以尝试使用cURL，只需依次尝试连接到每个站点（可能将它们放在文本文件中，读取每一行，尝试连接，重复）

您可以设置其中一个回调来检查HTTP响应代码，并从那里执行任何需要的操作。

您可以尝试使用cURL，然后依次尝试连接到每个站点（可能将它们放在文本文件中并读取每一行，尝试连接，重复）

您可以设置其中一个回调来检查HTTP响应代码，并从那里执行任何需要的操作。

查找密码字段将帮助您完成目前为止的操作，但对使用HTTP身份验证的站点没有帮助。查找401将有助于进行HTTP身份验证，但不会找到不使用该代码的站点或不返回401.Loo的站点“登录”或“用户名”字段等链接的king将为您提供更多信息

我不认为你能完全自动地做到这一点，并且是苏