hadoop是在一台机器上管理批处理数据的可行解决方案吗?
我有一系列命令行应用程序,它们以3GB数据文件的形式接收原始数据。这些应用程序被链接在一起以产生更小的输出。我有一个6核系统,每个应用程序只需要一个核,所以我想我可以并行运行6个 我一直在尝试自动化这个过程(包括整理结果),并一直在阅读Hadoop作为解决这个问题的可能方法 Hadoop是一个合适的解决方案吗?如果是的话,我应该使用它的哪些部分(或者还有其他更合适的东西) 编辑 为了让这一点更清楚,粗略的管道如下所示:hadoop是在一台机器上管理批处理数据的可行解决方案吗?,hadoop,parallel-processing,batch-processing,Hadoop,Parallel Processing,Batch Processing,我有一系列命令行应用程序,它们以3GB数据文件的形式接收原始数据。这些应用程序被链接在一起以产生更小的输出。我有一个6核系统,每个应用程序只需要一个核,所以我想我可以并行运行6个 我一直在尝试自动化这个过程(包括整理结果),并一直在阅读Hadoop作为解决这个问题的可能方法 Hadoop是一个合适的解决方案吗?如果是的话,我应该使用它的哪些部分(或者还有其他更合适的东西) 编辑 为了让这一点更清楚,粗略的管道如下所示: .-> [A] -> W1 -> [B] -&g
.-> [A] -> W1 -> [B] -> X1 -> [C] -> Y1 -.
/ \
V -< >- [D] -> Z
\ /
`-> [M] -> W2 -> [B] -> X2 -> [C] -> Y2 -`
->[A]->W1->[B]->X1->[C]->Y1-。
/ \
V-<>-[D]->Z
\ /
`->[M]->W2->[B]->X2->[C]->Y2-`
…在哪里
是命令行应用程序[A、B、C、D]
是一个3GB的数据文件(其中有几百个)V
和W1
是~3MB的中间文件W2
和X1
是大约200KB的中间文件X2
和Y1
是大约200KB的中间文件Y2
是最终报告Z
我认为你不应该使用Hadoop,除非你真的需要它 因此,在您的情况下,基于您所说的和合理的数据量,支付使用Hadoop的成本是没有意义的
我的2美分。有其他选择的建议吗。。。或者我应该用Python来实现我自己的想法(这是我最初的想法)?