Wordpress 如何防止刮擦我的博客';什么是最新消息?

Wordpress 如何防止刮擦我的博客';什么是最新消息?,wordpress,web-scraping,clone,Wordpress,Web Scraping,Clone,我有一个自我托管的wordpress博客,正如我几乎预料的那样,我发现有另一个博客抓取了我的内容,发布了我自己的帖子的完美副本(文本、图像没有热链接,但被抓取并重新连接到克隆服务器,帖子中的html布局),延迟了几个小时 然而,我必须承认,当我在谷歌上搜索与我的帖子相关的关键词时,抓取克隆总是排在第一位,这让我很恼火 所以,在这里,我是开放的建议,你知道如何防止我的网站被成功地刮 技术精度: 克隆博客似乎是自托管的,我也是,我使用的是debian+webmin+virtualmin dedi

我有一个自我托管的wordpress博客,正如我几乎预料的那样,我发现有另一个博客抓取了我的内容,发布了我自己的帖子的完美副本(文本、图像没有热链接,但被抓取并重新连接到克隆服务器,帖子中的html布局),延迟了几个小时

然而,我必须承认,当我在谷歌上搜索与我的帖子相关的关键词时,抓取克隆总是排在第一位,这让我很恼火

所以,在这里,我是开放的建议,你知道如何防止我的网站被成功地刮

技术精度:

  • 克隆博客似乎是自托管的,我也是,我使用的是debian+webmin+virtualmin dedi
  • 我的RSS订阅源已经被“阅读更多”截取了一半。嘿,我只是想我应该发布一篇文章,同时给它指定一个日期,比如2001-01-01,看看它是否出现在克隆博客上,这样就可以知道我的RSS是否仍然被用作“嘿,时间到了!”
  • 我的日志在合法流量中找不到刮板,要么无法识别,要么在合法流量泛滥中丢失
  • 我已经禁止了htaccess和iptables克隆的.com域,但我的内容仍然被克隆
  • 克隆网站使用反向代理,因此我无法追踪它的托管位置以及应该阻止哪些实际IP(好吧,除非我禁止半个欧洲国家禁止其数据存储设施的整个IP范围,但我有点不愿意!)
  • 我相信这不是手工制作的,克隆已经运行了两年了,每天都在进行
  • 只有我的新帖子被克隆,而不是我网站的其他部分(不是侧边栏,不是wordpress页面,而不是wordpress帖子,不是单个页面),因此设置jail.html来记录打开页面的人是不起作用的,没有蜜罐
  • 当我的帖子包含指向我网站另一个页面的内部链接时,克隆上的帖子不会被重写,仍然指向我自己的网站

我很想在这个问题上得到帮助和建议。不是被克隆,而是在我是原始出版商的时候失去了这个机器人的流量。

你最终无法真正阻止它们,但你可能会找到它们,然后把它们搞乱。尝试将请求IP隐藏在HTML注释中,或隐藏在白色文本上,或隐藏在不显眼的地方,然后查看副本上显示的IP。如果你想把文本转换成十六进制字符串或其他什么的话,你也可以试着把它弄糊涂,这样对那些不知道的人来说就不那么明显,或者让它看起来像一个错误代码,只是为了让他们不明白你在做什么

但最后,我不确定它能给你买多少。如果他们真的不注意,你可以在他们的IP出现时,给他们胡言乱语或其他任何东西,而不是关闭他们,提醒他们注意你正在关注他们。这可能很有趣,而且通过将示例文本放入马尔可夫链来生成乱码生成器并不难


编辑:哦,如果页面没有被重写太多,你也许可以添加一些内联JS,使它们链接到你,如果他们没有剥离的话。比如说,一条横幅只有在他们不在你的网站上时才会出现,提供你文章的原始链接并建议人们阅读。

你愿意关闭你的RSS提要吗?如果是这样的话,你可以这样做

function fb_disable_feed() {
wp_die( __('No feed available,please visit our <a href="'. get_bloginfo('url') .'">homepage</a>!') );
}
add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);
功能fb\u禁用\u馈送(){
wp_die(uuuu(‘没有饲料,请访问我们的!));
}
添加_操作('do_feed','fb_disable_feed',1);
添加动作('do_feed_rdf','fb_disable_feed',1);
添加动作(“do_feed_rss”,“fb_disable_feed”,1);
添加动作('do_feed_rss2'、'fb_disable_feed',1);
添加动作('do_feed_atom','fb_disable_feed',1);

这意味着如果你转到一个提要页面,它只会返回第二行
wp\u die()
中的消息。我们将其用于带有if语句的WP软件的“免费”版本,这样他们就无法连接到他们的RSS提要以链接到他们的主要网站,这对我们来说是一个向上销售的机会,这是我的观点,哈哈。

尽管这篇文章有点陈旧,我想,如果其他人看到这篇文章并提出同样的问题,我还是会考虑一下。既然你已经从混合中删除了RSS提要,而且你很有信心这不是手动操作,那么你需要的是更好地停止他们正在使用的机器人

首先,我建议禁止iptable中的代理服务器。您可以从中获取已知代理服务器地址的列表。这将限制他们匿名的能力

第二,这将是伟大的,使他们更难刮。您可以通过以下两种方式之一来实现这一点。您可以用javascript呈现部分或全部站点。如果没有其他内容,至少可以用javascript呈现链接。这将使他们更难刮伤你。或者,您可以将内容放在页面内的iframe中。这也会使爬行和刮擦变得有些困难

所有这些都表明,如果他们真的想要你的内容,他们将很容易通过这些陷阱。老实说,与网络垃圾进行斗争是一场军备竞赛。你不能设置任何静态陷阱来阻止他们,相反,你必须不断发展你的战术


为了充分披露,我是的联合创始人,我们提供一个反刮擦解决方案作为一项服务

在某种程度上,只要你的网站可以公开访问,你就不能阻止别人复制你的所有内容——如果有人可以阅读,就有人可以复制。我认为你最好的选择是努力提高你在谷歌的地位——也许向他们投诉,或者确保你注册了网站管理员工具,并且谷歌机器人对你的网站进行抓取/索引没有问题,等等。我知道CURL可以重新创建Cookies,但它可以重新创建会话吗?如果不是,为什么不在vali