Javascript 如何制作HTML标记,使搜索引擎爬虫无法访问它们
我的问题是关于锚定标记和web搜索引擎的HTML链接。据我所知,网络爬虫在索引页面时会访问页面内的所有或大部分链接,对吗?如果我不想让搜索引擎爬虫访问某些链接,该怎么办? 我不想这样做,因为我计算了这些链接被点击的次数——这是我的web应用程序的一个基本功能——这会影响点击次数。 我可以使用javascript吗?您可以添加使用: 建议网络爬虫不要跟随链接。您可以添加使用:Javascript 如何制作HTML标记,使搜索引擎爬虫无法访问它们,javascript,html,hyperlink,search-engine,Javascript,Html,Hyperlink,Search Engine,我的问题是关于锚定标记和web搜索引擎的HTML链接。据我所知,网络爬虫在索引页面时会访问页面内的所有或大部分链接,对吗?如果我不想让搜索引擎爬虫访问某些链接,该怎么办? 我不想这样做,因为我计算了这些链接被点击的次数——这是我的web应用程序的一个基本功能——这会影响点击次数。 我可以使用javascript吗?您可以添加使用: 建议网络爬虫不要跟随链接。您可以添加使用: 这是一个建议,让网络爬虫不要跟随链接。这样做可能有也可能没有一个傻瓜式的技巧。但是,为了安全起见,您可以执行以下操作: 禁
这是一个建议,让网络爬虫不要跟随链接。这样做可能有也可能没有一个傻瓜式的技巧。但是,为了安全起见,您可以执行以下操作: 禁止文件中的这些链接。这需要创建一个名为/robots.txt的文件并添加以下行:
Disallow: /YourPage.html
到文件中
您还可以使用以下链接:
然而,据调查,大多数(如果不是全部的话)搜索引擎仍然会跟踪链接,只是不会索引它或在排名中使用它
另一个想法是根本不使用URL,而是使用脚本。比如:
<a href="javascript:void(0)" onclick="GoSomewhere()">Google Can't Find Me!</a>
<script>
function GoSomewhere()
{
window.location = '/YourPage.html';
}
</script>
您可能还想重新考虑如何计算点击数。也许您可以使用Javascript注册命中,而不是将命中作为任何HTTP请求计算,因为机器人通常不会在页面上执行任何脚本。事情就是这样的
您还可以排除来自包含该单词的用户代理的任何点击
希望这有帮助 做这件事可能有也可能没有一种万无一失的技巧。但是,为了安全起见,您可以执行以下操作: 禁止文件中的这些链接。这需要创建一个名为/robots.txt的文件并添加以下行:
Disallow: /YourPage.html
到文件中
您还可以使用以下链接:
然而,据调查,大多数(如果不是全部的话)搜索引擎仍然会跟踪链接,只是不会索引它或在排名中使用它
另一个想法是根本不使用URL,而是使用脚本。比如:
<a href="javascript:void(0)" onclick="GoSomewhere()">Google Can't Find Me!</a>
<script>
function GoSomewhere()
{
window.location = '/YourPage.html';
}
</script>
您可能还想重新考虑如何计算点击数。也许您可以使用Javascript注册命中,而不是将命中作为任何HTTP请求计算,因为机器人通常不会在页面上执行任何脚本。事情就是这样的
您还可以排除来自包含该单词的用户代理的任何点击
希望这有帮助 nofollow选项将阻止遵守web标准的搜索引擎跟踪链接。如果您还想保护链接免受机器人程序、略读程序等的攻击,我建议在DOM就绪时使用Javascript将链接添加到html内容中
这将防止大多数机器人程序和所有搜索引擎在一开始就看到链接,并防止人们在浏览您的网站时查找表单/电子邮件地址/电话号码等时无意中跟随链接。nofollow选项将阻止遵守web标准的搜索引擎跟随链接。如果您还想保护链接免受机器人程序、略读程序等的攻击,我建议在DOM就绪时使用Javascript将链接添加到html内容中
这将阻止大多数机器人和所有搜索引擎在第一时间看到链接,并且可以防止人们在浏览你的网站时无意中点击链接。如果用户代理属于一个机器人,你可以使用PHP删除链接。如果用户代理属于一个机器人,你可以使用PHP删除链接。因为谷歌希望为其应用程序启用Javascript爬虫
<a href="javascript:void(0)" onclick="openLink()">Link</a>
尽管这可能仍然不起作用,因为DOM中仍然有该元素提供单击处理程序的信息。对于进一步的解决方法,需要向主体添加一个单击事件侦听器,并从坐标推断实际单击了哪个按钮。这在计算上可能非常昂贵。因为谷歌希望为其爬虫程序启用Javascript
<a href="javascript:void(0)" onclick="openLink()">Link</a>
尽管这可能仍然不起作用,因为DOM中仍然有该元素提供单击处理程序的信息。对于进一步的解决方法,需要向主体添加一个单击事件侦听器,并从坐标推断实际单击了哪个按钮。这在计算上可能非常昂贵。这个问题有点老了,但nofollow确实建议搜索机器人不要跟随链接 本页介绍谷歌如何解读nofollow。基本上,它说,一般来说,它不遵循他们,但目标仍然可能出现在索引中,如果其他网站链接到他们没有使用nofollow 谷歌和必应网站管理员工具也有一部分允许你删除其索引中的URL 最后一个选项是robots.txt,就像其他人提到的一样。这个问题 on有点老了,但nofollow确实是一个建议,让搜索机器人不要跟踪链接 本页介绍谷歌如何解读nofollow。基本上,它说,一般来说,它不遵循他们,但目标仍然可能出现在索引中,如果其他网站链接到他们没有使用nofollow 谷歌和必应网站管理员工具也有一部分允许你删除其索引中的URL
最后一个选项是robots.txt,就像其他人提到的那样。对robots.txt进行网络搜索。你可以更具体一些吗?我听说过机器人,但是…我看到stackoverflow使用上下投票作为链接对robots.txt进行网络搜索。你可以更具体一些吗,但是…我看到stackoverflow使用上下投票作为链接,因为我知道nofollow不会阻止搜索引擎加载该链接,而是阻止搜索引擎将您的站点与链接的站点关联起来。@CostelSocianu-我认为您完全正确!我已经更新了我的答案。谢谢你的快速回答,我将尝试使用javascript!我们将页面滚动到顶部,href是否有其他值?没关系,我发现:据我所知,nofollow不会阻止搜索引擎加载该链接,而是阻止搜索引擎将您的站点与链接的站点关联。@CostelSocianu-我认为您完全正确!我已经更新了我的答案。谢谢你的快速回答,我将尝试使用javascript!我们将页面滚动到顶部,href是否有其他值?没关系,我发现:不,不是。这是一个非常糟糕的建议,网络爬虫不应该考虑链接是目标的认可。它可能仍然被跟踪。不,它不是。这是一个非常糟糕的建议,网络爬虫不应该考虑链接是目标的认可。它可能仍然会被跟踪。不,不会的。这是一个非常糟糕的建议,网络爬虫不应该考虑链接是目标的认可。它可能仍然会被跟踪。不,不会的。这是一个非常糟糕的建议,网络爬虫不应该考虑链接是目标的认可。它可能仍然会被跟踪。