使用wget或curl测试网站';s.htaccess+;robots.txt

使用wget或curl测试网站';s.htaccess+;robots.txt,.htaccess,curl,wget,robots.txt,.htaccess,Curl,Wget,Robots.txt,我正在尝试调试我的网站的.htaccess+robots.txt,我想使用cURL或wget尝试访问我使用robots.txt阻止的文件,或者应该通过.htaccess重定向到其他位置的页面 我的robots.txt中有以下内容 User-agent: * Disallow: /wp/wp-admin/ 然而,我仍然能够爬它 wget 卷曲 wget和curl.txt都不是 有没有办法检查my.htaccess+robots.txt的使用情况?谢谢 robots.txt纯粹用于搜索引擎bots

我正在尝试调试我的网站的.htaccess+robots.txt,我想使用cURL或wget尝试访问我使用robots.txt阻止的文件,或者应该通过.htaccess重定向到其他位置的页面

我的robots.txt中有以下内容

User-agent: *
Disallow: /wp/wp-admin/
然而,我仍然能够爬它

wget

卷曲

wget和curl.txt都不是
有没有办法检查my.htaccess+robots.txt的使用情况?谢谢

robots.txt纯粹用于搜索引擎bots,大多数用户浏览器[包括wget和curl]都会忽略它,如果您想检查robots.txt是否可解析,可以在网站管理员控制台中使用google的checker,它会显示robots.txt文件中可能存在的任何错误和问题


使用.htaccess的重定向应该适用于任何浏览器,wget应该显示这些重定向。

除了谷歌控制台之外,还有其他工具吗?我正在尝试在我的网站中模拟一个specfic.txt文件,看看它们是否可以被谷歌随意抓取?也许会有帮助,但你不能使用robots.txt隐藏你想保密的东西,因为如果有人在看,那么机器人是他们首先会寻找你想隐藏的东西的地方之一。事实上,我不是想隐藏,我是,故意想知道我的网站中的
.txt
文件是否可以被机器人访问/爬网取决于你要检查的机器人,我提供的链接适用于一些行为良好的机器人,但对于其他机器人,你需要检查a)机器人尊重robots.txt,B)用户代理是什么,如果你想阻止其他机器人,bzzt-Wget将测试robots.txt排除。有大量的wget选项可从.wgetrc获得,但通常不在命令行上。要打开或关闭相关选项,请使用-e标志,例如wget-e robots=on。。。它不能因为其他原因而工作。首先要检查的是wget发送的UserAgent字符串,因为默认值很可能被robots.txt错误分类。也许您想修改wget使用的UserAgent字符串,以显式地包括Googlebot/1.0。
$ wget http://xxxx.com/wp/wp-admin/
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
--2017-08-28 07:37:05--  http://xxxx.com/wp/wp-admin/
Resolving xxxx.com... 118.127.47.249
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-
admin%2F&reauth=1 [following]
--2017-08-28 07:37:12--  http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2891 (2.8K) [text/html]
Saving to: `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1'

100%[==============================================================================>] 2,891       --.-K/s   in 0.1s

2017-08-28 07:37:17 (22.2 KB/s) - `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&re
auth=1' saved [2891/2891]
$ curl -L xxx.com/wp/wp-admin -o wp-admin.html
% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                Dload  Upload   Total   Spent    Left  Speed
100  1147  100  1147    0     0    107      0  0:00:10  0:00:10 --:--:--   280
0     0    0     0    0     0      0      0 --:--:--  0:01:37 --:--:--     0
100  2891  100  2891    0     0     17      0  0:02:50  0:02:42  0:00:08   234