Hadoop 集成爬虫Twitter和HBase

Hadoop 集成爬虫Twitter和HBase,hadoop,solr,web-crawler,hbase,Hadoop,Solr,Web Crawler,Hbase,我有一个twitter爬虫,它通过HBase本机java客户端集成到HBase。当爬网过程开始时,tweets中的每个tweet都将发送到HBase表。我的问题是,集成Crawler和HBase是最佳实践吗?我担心在继续抓取过程并将推文保存到表中时的性能。(我做这些事情是因为在从爬虫到HBASE插入数据之后,这些鸣叫将被SOLR索引)< P>开始,表属于一个区域。写操作可以考虑为单线程模型。拆分将发生。写操作会更快。你可以考虑多线程模型,然后性能取决于客户端的吞吐量。< / P>这些消息将通过S

我有一个twitter爬虫,它通过HBase本机java客户端集成到HBase。当爬网过程开始时,tweets中的每个tweet都将发送到HBase表。我的问题是,集成Crawler和HBase是最佳实践吗?我担心在继续抓取过程并将推文保存到表中时的性能。(我做这些事情是因为在从爬虫到HBASE插入数据之后,这些鸣叫将被SOLR索引)

< P>开始,表属于一个区域。写操作可以考虑为单线程模型。拆分将发生。写操作会更快。你可以考虑多线程模型,然后性能取决于客户端的吞吐量。< / P>这些消息将通过SoR或Cloudera搜索来索引。哪一条?这些推文将在solr上编入索引,稍后用户可以在搜索栏中进行搜索