Java 用Bixo构建垂直爬行器
我遇到了一个开源爬虫Bixo。 有人试过吗?你能分享一下你学到的东西吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)? 谢谢Java 用Bixo构建垂直爬行器,java,web-crawler,nutch,Java,Web Crawler,Nutch,我遇到了一个开源爬虫Bixo。 有人试过吗?你能分享一下你学到的东西吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)? 谢谢 Nayn我在一家大型社交网站(每天100万次页面浏览量)的制作中使用Bixo对用户内容进行分类(基本上是用户制作的任何带有链接的内容) 这是一个相当复杂的工作流程,使用级联到 重复删除URL 使Bixo检索页面内容 通过分类器和 触发帐户撤销垃圾邮件帐户,运行垃圾邮件报告等 如果您知道级联,那么Bixo的工作原理与任何其他级联组件都非常相似,基本上都
Nayn我在一家大型社交网站(每天100万次页面浏览量)的制作中使用Bixo对用户内容进行分类(基本上是用户制作的任何带有链接的内容) 这是一个相当复杂的工作流程,使用级联到
- 重复删除URL
- 使Bixo检索页面内容
- 通过分类器和
- 触发帐户撤销垃圾邮件帐户,运行垃圾邮件报告等
总的来说,我对它的推荐度还不够高。整个系统是我在6-9个月内建成的,我认为我不可能在没有它的情况下在这段时间内完成。谢谢Eric提供的信息。您能告诉我一些开始使用的示例代码吗?Ken提到要写一些教程,但现在还不存在。欢迎!我开始阅读示例爬虫()的代码,阅读小组帖子并提出问题。但是我同意,一个教程可以帮助人们开始学习。