Asp.net 如何让爬虫忽略我的免责声明
我在我的网站上有一个免责声明,在一个会话中显示一次。 单击后,您将被允许进入某个部分,并且它将在您的会话中被记住,这样就不会再次困扰您 问题是,我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理 但是还有很多其他的爬虫,我希望他们也忽略这一点 这是唯一的解决办法吗?通过其UA识别爬虫?检测cookie怎么样?如果我没有cookie,这意味着它是一个爬虫Asp.net 如何让爬虫忽略我的免责声明,asp.net,web-crawler,Asp.net,Web Crawler,我在我的网站上有一个免责声明,在一个会话中显示一次。 单击后,您将被允许进入某个部分,并且它将在您的会话中被记住,这样就不会再次困扰您 问题是,我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理 但是还有很多其他的爬虫,我希望他们也忽略这一点 这是唯一的解决办法吗?通过其UA识别爬虫?检测cookie怎么样?如果我没有cookie,这意味着它是一个爬虫 谢谢在站点的根目录中创建一个名为robots.txt的文件 在其中,写下: User-agent: * Allow: / Di
谢谢在站点的根目录中创建一个名为robots.txt的文件 在其中,写下:
User-agent: *
Allow: /
Disallow: /path/to/disclaimer
您可以找到有关robots.txt的更多信息。在站点根目录中创建一个名为robots.txt的文件 在其中,写下:
User-agent: *
Allow: /
Disallow: /path/to/disclaimer
您可以找到有关robots.txt的更多信息。无论如何,您可能都不想依赖cookie,因为用户可以在常规浏览器上禁用cookie
出于您的目的使用UA,只需获取大型爬虫,不时更新。无论如何,您可能不想依赖cookie,因为用户可以在常规浏览器上禁用cookie
出于您的目的使用UA,只需获取大型爬虫程序,不时更新。您可以让爬虫程序查看免责声明页面,但不通过向页面添加“noindex”元标记对其进行索引。这可以部分解决您的问题
<html>
<head>
<meta name="robots" content="noindex" />
<title>Disclaimer</title>
</head>
<body>
...
</body>
</html>
免责声明
...
通过这种方式,爬虫程序将能够访问免责声明后面的页面,但它们实际上不会根据免责声明页面上的条款编制索引。您可以让爬虫程序查看免责声明页面,但不通过向页面添加“noindex”元标记来编制索引。这可以部分解决您的问题
<html>
<head>
<meta name="robots" content="noindex" />
<title>Disclaimer</title>
</head>
<body>
...
</body>
</html>
免责声明
...
这样,爬虫程序将能够访问免责声明后面的页面,但实际上它们不会根据免责声明页面上的条款编制索引。但它们将无法进入下一页(因为免责声明重定向了它们)@Himberjack:这就产生了一个设计问题:如果您不希望用户访问“内容”页面无需首先阅读免责声明,然后如果内容页面在搜索引擎上建立了索引,则用户可以在搜索引擎上找到该页面,并直接点击该页面而无需查看免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时,他得到了免责声明,然后他单击OK,页面返回为相同的URL但不同的文本,可能由后端控制。否。如果页面在谷歌上,用户点击它,他就会转到免责声明,因为我会检查他是否在会话中接受了每个请求,你会在服务器上检查吗?用户如何接受免责声明?通过点击链接?或者通过选中一个框并提交一篇帖子?帖子和服务器将其放在他的会话中,但他们将无法进入下一页(因为免责声明重定向了他们)@Himberjack:这就产生了一个设计问题:如果你不想让用户在没有先阅读免责声明的情况下访问“内容”页面,然后,如果内容页在搜索引擎上被索引,用户可以在搜索引擎上找到它,并直接点击到它,而不会看到免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时,他得到了免责声明,然后他单击OK,页面返回为相同的URL但不同的文本,可能由后端控制。否。如果页面在谷歌上,用户点击它,他就会转到免责声明,因为我会检查他是否在会话中接受了每个请求,你会在服务器上检查吗?用户如何接受免责声明?通过点击链接?或者通过选中一个框并提交一篇帖子?帖子然后服务器将其放在他的会话中。您是否希望爬虫看到免责声明页面“保护”的内容?是的。这就是为什么我想让他们有“特权”跳过它。你想让爬虫看到免责声明页面“保护”的内容吗?是的。这就是为什么我希望他们有“特权”跳过它。