Hadoop 集成爬虫Twitter和HBase_Hadoop_Solr_Web Crawler_Hbase

Hadoop 集成爬虫Twitter和HBase

hadoop solr web-crawler hbase

Hadoop 集成爬虫Twitter和HBase,hadoop,solr,web-crawler,hbase,Hadoop,Solr,Web Crawler,Hbase,我有一个twitter爬虫，它通过HBase本机java客户端集成到HBase。当爬网过程开始时，tweets中的每个tweet都将发送到HBase表。我的问题是，集成Crawler和HBase是最佳实践吗？我担心在继续抓取过程并将推文保存到表中时的性能。（我做这些事情是因为在从爬虫到HBASE插入数据之后，这些鸣叫将被SOLR索引）< P>开始，表属于一个区域。写操作可以考虑为单线程模型。拆分将发生。写操作会更快。你可以考虑多线程模型，然后性能取决于客户端的吞吐量。< / P>这些消息将通过S

我有一个twitter爬虫，它通过HBase本机java客户端集成到HBase。当爬网过程开始时，tweets中的每个tweet都将发送到HBase表。我的问题是，集成Crawler和HBase是最佳实践吗？我担心在继续抓取过程并将推文保存到表中时的性能。（我做这些事情是因为在从爬虫到HBASE插入数据之后，这些鸣叫将被SOLR索引）

< P>开始，表属于一个区域。写操作可以考虑为单线程模型。拆分将发生。写操作会更快。你可以考虑多线程模型，然后性能取决于客户端的吞吐量。< / P>这些消息将通过SoR或Cloudera搜索来索引。哪一条？这些推文将在solr上编入索引，稍后用户可以在搜索栏中进行搜索