Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/jquery-ui/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Asp.net 如何让爬虫忽略我的免责声明_Asp.net_Web Crawler - Fatal编程技术网

Asp.net 如何让爬虫忽略我的免责声明

Asp.net 如何让爬虫忽略我的免责声明,asp.net,web-crawler,Asp.net,Web Crawler,我在我的网站上有一个免责声明,在一个会话中显示一次。 单击后,您将被允许进入某个部分,并且它将在您的会话中被记住,这样就不会再次困扰您 问题是,我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理 但是还有很多其他的爬虫,我希望他们也忽略这一点 这是唯一的解决办法吗?通过其UA识别爬虫?检测cookie怎么样?如果我没有cookie,这意味着它是一个爬虫 谢谢在站点的根目录中创建一个名为robots.txt的文件 在其中,写下: User-agent: * Allow: / Di

我在我的网站上有一个免责声明,在一个会话中显示一次。 单击后,您将被允许进入某个部分,并且它将在您的会话中被记住,这样就不会再次困扰您

问题是,我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理

但是还有很多其他的爬虫,我希望他们也忽略这一点

这是唯一的解决办法吗?通过其UA识别爬虫?检测cookie怎么样?如果我没有cookie,这意味着它是一个爬虫


谢谢

在站点的根目录中创建一个名为robots.txt的文件

在其中,写下:

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt的更多信息。

在站点根目录中创建一个名为robots.txt的文件

在其中,写下:

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt的更多信息。

无论如何,您可能都不想依赖cookie,因为用户可以在常规浏览器上禁用cookie


出于您的目的使用UA,只需获取大型爬虫,不时更新。

无论如何,您可能不想依赖cookie,因为用户可以在常规浏览器上禁用cookie


出于您的目的使用UA,只需获取大型爬虫程序,不时更新。

您可以让爬虫程序查看免责声明页面,但不通过向页面添加“noindex”元标记对其进行索引。这可以部分解决您的问题

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

免责声明
...

通过这种方式,爬虫程序将能够访问免责声明后面的页面,但它们实际上不会根据免责声明页面上的条款编制索引。

您可以让爬虫程序查看免责声明页面,但不通过向页面添加“noindex”元标记来编制索引。这可以部分解决您的问题

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>

免责声明
...

这样,爬虫程序将能够访问免责声明后面的页面,但实际上它们不会根据免责声明页面上的条款编制索引。

但它们将无法进入下一页(因为免责声明重定向了它们)@Himberjack:这就产生了一个设计问题:如果您不希望用户访问“内容”页面无需首先阅读免责声明,然后如果内容页面在搜索引擎上建立了索引,则用户可以在搜索引擎上找到该页面,并直接点击该页面而无需查看免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时,他得到了免责声明,然后他单击OK,页面返回为相同的URL但不同的文本,可能由后端控制。否。如果页面在谷歌上,用户点击它,他就会转到免责声明,因为我会检查他是否在会话中接受了每个请求,你会在服务器上检查吗?用户如何接受免责声明?通过点击链接?或者通过选中一个框并提交一篇帖子?帖子和服务器将其放在他的会话中,但他们将无法进入下一页(因为免责声明重定向了他们)@Himberjack:这就产生了一个设计问题:如果你不想让用户在没有先阅读免责声明的情况下访问“内容”页面,然后,如果内容页在搜索引擎上被索引,用户可以在搜索引擎上找到它,并直接点击到它,而不会看到免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时,他得到了免责声明,然后他单击OK,页面返回为相同的URL但不同的文本,可能由后端控制。否。如果页面在谷歌上,用户点击它,他就会转到免责声明,因为我会检查他是否在会话中接受了每个请求,你会在服务器上检查吗?用户如何接受免责声明?通过点击链接?或者通过选中一个框并提交一篇帖子?帖子然后服务器将其放在他的会话中。您是否希望爬虫看到免责声明页面“保护”的内容?是的。这就是为什么我想让他们有“特权”跳过它。你想让爬虫看到免责声明页面“保护”的内容吗?是的。这就是为什么我希望他们有“特权”跳过它。