Passwords 确定网站是否有受限/密码保护区域

Passwords 确定网站是否有受限/密码保护区域,passwords,Passwords,我有一个很大的网站列表,我需要知道他们是否有密码保护的区域 我正在考虑这样做:使用httrack下载所有这些内容,然后编写一个脚本,查找诸如“登录”和“401禁止”之类的关键字。但问题是这些网站是不同的/有些是静态的,有些是动态的(html、cgi、php、java小程序…),而且大多数网站不会使用相同的关键字 你有更好的主意吗 非常感谢 查找带有密码字段的表单 您可能需要浏览站点以找到登录页面。查找带有“登录”、“登录”、“登录”、“登录”等短语的链接,或者浏览整个网站(不用说,这里要小心)。

我有一个很大的网站列表,我需要知道他们是否有密码保护的区域

我正在考虑这样做:使用httrack下载所有这些内容,然后编写一个脚本,查找诸如“登录”和“401禁止”之类的关键字。但问题是这些网站是不同的/有些是静态的,有些是动态的(html、cgi、php、java小程序…),而且大多数网站不会使用相同的关键字

你有更好的主意吗


非常感谢

查找带有密码字段的表单


您可能需要浏览站点以找到登录页面。查找带有“登录”、“登录”、“登录”、“登录”等短语的链接,或者浏览整个网站(不用说,这里要小心)。

查找带有密码字段的表单


您可能需要浏览站点以找到登录页面。查找带有“登录”、“登录”、“登录”、“登录”等短语的链接,或者浏览整个网站(不用说,这里要小心)。

我会使用httrack,但有几个限制,然后在下载的文件中搜索密码字段

通常,登录表单可以在主页的两个链接中找到。几乎所有的电子商务网站、网络应用程序等都有登录表单,只需点击主页上的一个链接即可访问,但另一层甚至两层的深度几乎可以保证你不会错过任何链接


我还将限制httrack的下载速度,告诉它不要下载任何非HTML文件,并阻止它下载外部链接。我还将同时连接到站点的数量限制为2个甚至1个。这应该适用于您正在查看的几乎所有站点,并且应该使您远离hosts.deny列表。

我将使用httrack,并设置一些限制,然后在下载的文件中搜索密码字段

通常,登录表单可以在主页的两个链接中找到。几乎所有的电子商务网站、网络应用程序等都有登录表单,只需点击主页上的一个链接即可访问,但另一层甚至两层的深度几乎可以保证你不会错过任何链接


我还将限制httrack的下载速度,告诉它不要下载任何非HTML文件,并阻止它下载外部链接。我还将同时连接到站点的数量限制为2个甚至1个。这应该适用于您正在查看的所有站点,并且应该使您远离主机。拒绝列表。

您可以使用
wget
并执行以下操作:

wget -A html,php,jsp,htm -S -r http://www.yoursite.com > output_yoursite.txt
这将导致
wget
递归下载整个站点,但只下载带有
-A
选项的结尾,在这种情况下,请尽量避免繁重的文件


标题将被定向到文件
output\u yoursite.txt
,然后您可以解析该文件的标题值401,这意味着该部分站点需要身份验证,并根据Konrad的建议解析相应的文件。

您可以使用
wget
执行以下操作:

wget -A html,php,jsp,htm -S -r http://www.yoursite.com > output_yoursite.txt
这将导致
wget
递归下载整个站点,但只下载带有
-A
选项的结尾,在这种情况下,请尽量避免繁重的文件


标头将被定向到文件
output_yoursite.txt
,然后您可以解析该文件的标头值401,这意味着该站点的部分需要身份验证,并根据康拉德的建议相应地解析文件。

查找401代码不会可靠地捕获它们,因为网站可能不会生成指向您没有权限访问的任何内容的链接。也就是说,在您登录之前,它不会显示您需要登录的任何内容。OTOH一些网站(比如那些包含所有静态内容的网站)会为一些页面弹出一个登录对话框,因此寻找密码输入标签也会遗漏一些内容


我的建议是:找到一个你可以获得源代码的spider程序,加入你计划使用的任何测试(复数),并让它停止第一个阳性结果。寻找一个可以被限制的爬行器,可以忽略非HTML文件(可能通过发出HEAD请求和查看mime类型),并且可以独立和同时处理多个站点。

查找401代码不会可靠地捕获它们,因为站点可能不会生成指向您没有权限访问的任何内容的链接。也就是说,在您登录之前,它不会显示您需要登录的任何内容。OTOH一些网站(比如那些包含所有静态内容的网站)会为一些页面弹出一个登录对话框,因此寻找密码输入标签也会遗漏一些内容


我的建议是:找到一个你可以获得源代码的spider程序,加入你计划使用的任何测试(复数),并让它停止第一个阳性结果。寻找一个可以被限制的spider,它可以忽略非HTML文件(可能通过发出HEAD请求和查看mime类型),并且可以独立和同时处理多个站点。

您可以尝试使用cURL,只需依次尝试连接到每个站点(可能将它们放在文本文件中,读取每一行,尝试连接,重复)


您可以设置其中一个回调来检查HTTP响应代码,并从那里执行任何需要的操作。

您可以尝试使用cURL,然后依次尝试连接到每个站点(可能将它们放在文本文件中并读取每一行,尝试连接,重复)


您可以设置其中一个回调来检查HTTP响应代码,并从那里执行任何需要的操作。

查找密码字段将帮助您完成目前为止的操作,但对使用HTTP身份验证的站点没有帮助。查找401将有助于进行HTTP身份验证,但不会找到不使用该代码的站点或不返回401.Loo的站点“登录”或“用户名”字段等链接的king将为您提供更多信息

我不认为你能完全自动地做到这一点,并且是苏