Python MapReduce在处理大文件、抓取大量页面以获取数据并将其插入Hbase时有用吗?

Python MapReduce在处理大文件、抓取大量页面以获取数据并将其插入Hbase时有用吗?,python,hadoop,mapreduce,hbase,hadoop-streaming,Python,Hadoop,Mapreduce,Hbase,Hadoop Streaming,我每天都会运行一些python脚本,这些脚本完成以下任务: parse 1000 text files (gziped) : ~ 100 GB 30 Millions rows Crawl some data from many websites : 40 Millions rows Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance) 对于每一行,我都会

我每天都会运行一些python脚本,这些脚本完成以下任务:

parse 1000 text files (gziped) :
    ~ 100 GB 
    30 Millions rows
Crawl some data from many websites : 
    40 Millions rows    
    Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)
对于每一行,我都会做一些事情,比如确保该行不存在,在插入前搜索数据库中需要添加的数据,最后在Hbase和Solr中插入该行。 要处理所有这些文件并抓取所有这些页面,需要花费大量时间,即使我将脚本分发到多台机器上


我现在不使用MapReduce,我的问题是:MapReduce对我有用吗?我对它了解了一点,我的理解是,如果我想在一些文件中进行计算,比如wordCount示例,我真的需要它。MapReduce是由不同的分销商Apache、Google等实现的编程范例。。。。如果您想使用MapReduce处理数据,您需要配置集群并将数据存储在分布式文件系统hdfs或Hadoop已知的其他实现中。
是的,mapreduce作业将在集群中的不同节点之间并行处理并节省您的时间。

mapreduce对于大数据处理非常有效。