Java 用Bixo构建垂直爬行器

Java 用Bixo构建垂直爬行器,java,web-crawler,nutch,Java,Web Crawler,Nutch,我遇到了一个开源爬虫Bixo。 有人试过吗?你能分享一下你学到的东西吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)? 谢谢 Nayn我在一家大型社交网站(每天100万次页面浏览量)的制作中使用Bixo对用户内容进行分类(基本上是用户制作的任何带有链接的内容) 这是一个相当复杂的工作流程,使用级联到 重复删除URL 使Bixo检索页面内容 通过分类器和 触发帐户撤销垃圾邮件帐户,运行垃圾邮件报告等 如果您知道级联,那么Bixo的工作原理与任何其他级联组件都非常相似,基本上都

我遇到了一个开源爬虫Bixo。 有人试过吗?你能分享一下你学到的东西吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)? 谢谢
Nayn

我在一家大型社交网站(每天100万次页面浏览量)的制作中使用Bixo对用户内容进行分类(基本上是用户制作的任何带有链接的内容)

这是一个相当复杂的工作流程,使用级联到

  • 重复删除URL
  • 使Bixo检索页面内容
  • 通过分类器和
  • 触发帐户撤销垃圾邮件帐户,运行垃圾邮件报告等
如果您知道级联,那么Bixo的工作原理与任何其他级联组件都非常相似,基本上都希望URL作为输入,并将一系列与页面相关的信息作为输出

一开始我低估了一件事,那就是对于很多垂直爬行器来说,爬行方面“只是”拼图中的一小部分。围绕它的整个工作流程可能变得非常复杂,如果您使用另一个独立的爬虫产品,您需要找到一种集成它的方法。使用级联的Bixo只不过是工作流的另一个输入

Bixo本身似乎非常可靠。Ken Krugler(开发负责人)反应灵敏,能够在一天内解决我刚开始遇到的一些悬而未决的问题(我的数据集包含很多“脏”URL)。他有一个非常全面的自动化测试套件,确保Bixo按设计工作


总的来说,我对它的推荐度还不够高。整个系统是我在6-9个月内建成的,我认为我不可能在没有它的情况下在这段时间内完成。

谢谢Eric提供的信息。您能告诉我一些开始使用的示例代码吗?Ken提到要写一些教程,但现在还不存在。欢迎!我开始阅读示例爬虫()的代码,阅读小组帖子并提出问题。但是我同意,一个教程可以帮助人们开始学习。