Python MapReduce在处理大文件、抓取大量页面以获取数据并将其插入Hbase时有用吗？_Python_Hadoop_Mapreduce_Hbase_Hadoop Streaming

Python MapReduce在处理大文件、抓取大量页面以获取数据并将其插入Hbase时有用吗？

python hadoop mapreduce hbase

Python MapReduce在处理大文件、抓取大量页面以获取数据并将其插入Hbase时有用吗？,python,hadoop,mapreduce,hbase,hadoop-streaming,Python,Hadoop,Mapreduce,Hbase,Hadoop Streaming,我每天都会运行一些python脚本，这些脚本完成以下任务： parse 1000 text files (gziped) : ~ 100 GB 30 Millions rows Crawl some data from many websites : 40 Millions rows Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance) 对于每一行，我都会

我每天都会运行一些python脚本，这些脚本完成以下任务：

parse 1000 text files (gziped) :
    ~ 100 GB 
    30 Millions rows
Crawl some data from many websites : 
    40 Millions rows    
    Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)

对于每一行，我都会做一些事情，比如确保该行不存在，在插入前搜索数据库中需要添加的数据，最后在Hbase和Solr中插入该行。要处理所有这些文件并抓取所有这些页面，需要花费大量时间，即使我将脚本分发到多台机器上

我现在不使用MapReduce，我的问题是：MapReduce对我有用吗？我对它了解了一点，我的理解是，如果我想在一些文件中进行计算，比如wordCount示例，我真的需要它。MapReduce是由不同的分销商Apache、Google等实现的编程范例。。。。如果您想使用MapReduce处理数据，您需要配置集群并将数据存储在分布式文件系统hdfs或Hadoop已知的其他实现中。

是的，mapreduce作业将在集群中的不同节点之间并行处理并节省您的时间。

mapreduce对于大数据处理非常有效。