Hadoop文件大小说明

Hadoop文件大小说明,hadoop,Hadoop,我正在澄清使用Hadoop处理大约200万个大文件的问题。我有由200万行组成的文件数据,我希望将每行拆分为单个文件,在Hadoop文件系统中复制,并使用Mahout执行术语频率计算。Mahout以分布式方式使用map reduce计算。但是对于这个,假设我有一个包含200万行的文件,我想把每一行作为计算术语频率的文档。我最终将有一个目录,其中我将有200万个文档,每个文档由一行组成。这将为n个文件创建n个映射,这里为流程创建200万个映射。这需要大量的计算时间。是否有其他方法来表示文档以加快计

我正在澄清使用Hadoop处理大约200万个大文件的问题。我有由200万行组成的文件数据,我希望将每行拆分为单个文件,在Hadoop文件系统中复制,并使用Mahout执行术语频率计算。Mahout以分布式方式使用map reduce计算。但是对于这个,假设我有一个包含200万行的文件,我想把每一行作为计算术语频率的文档。我最终将有一个目录,其中我将有200万个文档,每个文档由一行组成。这将为n个文件创建n个映射,这里为流程创建200万个映射。这需要大量的计算时间。是否有其他方法来表示文档以加快计算速度。

200万个文件对于hadoop来说非常重要。此外,运行200万个任务将有大约200万秒的开销,这意味着几天的小型集群工作。
我认为这是一个算法性质的问题——如何将你的计算映射到map-reduce范式,这样你就有了数量适中的映射器。请写几行关于您需要的任务的内容,我可能会建议使用算法。

Mahout提供了计算文本TF和IDF的实现。 去mahout图书馆看看, 在hadoop map reduce框架中,将每一行拆分为一个文件并不是一个好主意