Asp.net 如何让爬虫忽略我的免责声明_Asp.net_Web Crawler

Asp.net 如何让爬虫忽略我的免责声明

asp.net web-crawler

Asp.net 如何让爬虫忽略我的免责声明,asp.net,web-crawler,Asp.net,Web Crawler,我在我的网站上有一个免责声明，在一个会话中显示一次。单击后，您将被允许进入某个部分，并且它将在您的会话中被记住，这样就不会再次困扰您问题是，我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理但是还有很多其他的爬虫，我希望他们也忽略这一点这是唯一的解决办法吗？通过其UA识别爬虫？检测cookie怎么样？如果我没有cookie，这意味着它是一个爬虫谢谢在站点的根目录中创建一个名为robots.txt的文件在其中，写下： User-agent: * Allow: / Di

我在我的网站上有一个免责声明，在一个会话中显示一次。单击后，您将被允许进入某个部分，并且它将在您的会话中被记住，这样就不会再次困扰您

问题是，我根本不想让爬虫遇到免责声明。我们所做的就是忽略谷歌机器人的用户代理

但是还有很多其他的爬虫，我希望他们也忽略这一点

这是唯一的解决办法吗？通过其UA识别爬虫？检测cookie怎么样？如果我没有cookie，这意味着它是一个爬虫

谢谢

在站点的根目录中创建一个名为robots.txt的文件

在其中，写下：

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt的更多信息。

在站点根目录中创建一个名为robots.txt的文件

在其中，写下：

User-agent: *
Allow: /
Disallow: /path/to/disclaimer

您可以找到有关robots.txt的更多信息。

无论如何，您可能都不想依赖cookie，因为用户可以在常规浏览器上禁用cookie

出于您的目的使用UA，只需获取大型爬虫，不时更新。

无论如何，您可能不想依赖cookie，因为用户可以在常规浏览器上禁用cookie

出于您的目的使用UA，只需获取大型爬虫程序，不时更新。

您可以让爬虫程序查看免责声明页面，但不通过向页面添加“noindex”元标记对其进行索引。这可以部分解决您的问题

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>


免责声明
...

通过这种方式，爬虫程序将能够访问免责声明后面的页面，但它们实际上不会根据免责声明页面上的条款编制索引。

您可以让爬虫程序查看免责声明页面，但不通过向页面添加“noindex”元标记来编制索引。这可以部分解决您的问题

<html>
    <head>
        <meta name="robots" content="noindex" />
        <title>Disclaimer</title>
    </head>
    <body>
        ...
    </body>
</html>


免责声明
...

这样，爬虫程序将能够访问免责声明后面的页面，但实际上它们不会根据免责声明页面上的条款编制索引。

但它们将无法进入下一页（因为免责声明重定向了它们）@Himberjack:这就产生了一个设计问题：如果您不希望用户访问“内容”页面无需首先阅读免责声明，然后如果内容页面在搜索引擎上建立了索引，则用户可以在搜索引擎上找到该页面，并直接点击该页面而无需查看免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时，他得到了免责声明，然后他单击OK，页面返回为相同的URL但不同的文本，可能由后端控制。否。如果页面在谷歌上，用户点击它，他就会转到免责声明，因为我会检查他是否在会话中接受了每个请求，你会在服务器上检查吗？用户如何接受免责声明？通过点击链接？或者通过选中一个框并提交一篇帖子？帖子和服务器将其放在他的会话中，但他们将无法进入下一页（因为免责声明重定向了他们）@Himberjack:这就产生了一个设计问题：如果你不想让用户在没有先阅读免责声明的情况下访问“内容”页面，然后，如果内容页在搜索引擎上被索引，用户可以在搜索引擎上找到它，并直接点击到它，而不会看到免责声明。我能想到的唯一解决办法是使免责声明和内容具有相同的URL。i、 e.当用户第一次看到页面时，他得到了免责声明，然后他单击OK，页面返回为相同的URL但不同的文本，可能由后端控制。否。如果页面在谷歌上，用户点击它，他就会转到免责声明，因为我会检查他是否在会话中接受了每个请求，你会在服务器上检查吗？用户如何接受免责声明？通过点击链接？或者通过选中一个框并提交一篇帖子？帖子然后服务器将其放在他的会话中。您是否希望爬虫看到免责声明页面“保护”的内容？是的。这就是为什么我想让他们有“特权”跳过它。你想让爬虫看到免责声明页面“保护”的内容吗？是的。这就是为什么我希望他们有“特权”跳过它。