阻止某些html元素被搜索引擎索引

阻止某些html元素被搜索引擎索引,html,search-engine,Html,Search Engine,出于样式设计的目的,我想在页面上插入一些虚拟文本,但它不应该链接到实际内容。有没有一种方法可以阻止搜索引擎使用它,或者我必须使用好的旧图片 或者可以通过javascript动态加载它吗?因为我听说谷歌会阅读一定数量的javascript 您能否在无边界iframe中显示内容,并阻止iframe的src(一个完全独立的“页面”)与搜索引擎分离 或者,使用javascript添加内容,将javascript存储在引擎阻止的.js文件中?我想,在页面加载完成后(例如,当document.ready事件

出于样式设计的目的,我想在页面上插入一些虚拟文本,但它不应该链接到实际内容。有没有一种方法可以阻止搜索引擎使用它,或者我必须使用好的旧图片


或者可以通过javascript动态加载它吗?因为我听说谷歌会阅读一定数量的javascript

您能否在无边界iframe中显示内容,并阻止iframe的src(一个完全独立的“页面”)与搜索引擎分离


或者,使用javascript添加内容,将javascript存储在引擎阻止的.js文件中?

我想,在页面加载完成后(例如,当document.ready事件触发时)加载内容将是一种相当安全的方式来执行您所说的操作。不过,对此还不是100%确定。

如果你通过AJAX加载文本,它可能不会被索引——上次我检查时,谷歌机器人实际上并不执行JS(其他爬行器也不执行JS(但一些Spambot显然可以执行)


警告:AJAX响应可能应该包含一个
X-Robots-Tag:noindex
头,以防它的URL实际上链接到了某个地方。

无论您决定使用什么技巧,我都会非常小心。谷歌很可能会认为你试图向用户显示的内容与向用户显示的内容不同

我一直认为Google实际上是通过渲染页面(可能使用Chrome渲染引擎的服务器端版本)然后用OCR软件读取结果,以确认源代码中的文本与用户在启用JS和框架时看到的内容相匹配。谷歌一直公开警告站长不要尝试向用户提供不同的内容,OCR将是最好的发现方式(特别是如果你的“验证者”使用IE的用户代理字符串,并从未经谷歌注册的IP范围进行爬网)

那么,简单回答如下:

  • iframe
  • 物件
  • SVG图像
<> P>既然你清楚地把文档链接到你的页面谷歌,你会认为它是一个独立的资源和速率,因此,特别是如果每页都显示相同的文本。这让我想到:


您是否打算在所有/大多数页面上使用相同的文本装饰?如果是这样的话,谷歌几乎肯定会将其视为“粉饰”而忽略它(它显然是通过菜单之类的方式来实现的)。

即使你阻止了性能良好的搜索引擎,也要注意恶意搜索引擎可能会忽略或规避你在Ingogle中设置的安全性。Google当然不会使用OCR来阅读页面。那太荒谬了,一点也不荒谬。谷歌拥有世界上最强大的数据中心。如果有人能够每秒呈现和扫描数百万个HTML文档,他们就可以了。更不用说他们可能有用于谷歌图书的OCR系统和Gmail的垃圾邮件过滤器,它们可以适应这个目的。谷歌一直声称,他们惩罚那些试图向浏览器提供与搜索引擎不同的页面内容的网站。呈现页面并进行比较似乎是检测这种情况的一种完全合理的方法。如果现在不这样做,很可能只是时间问题。渲染网页图像是荒谬的@模糊棒棒糖:荒谬,但可能;红皇后赛跑的又一步。