Hadoop文件大小说明_Hadoop - Fatal编程技术网

Hadoop文件大小说明

hadoop

Hadoop文件大小说明,hadoop,Hadoop,我正在澄清使用Hadoop处理大约200万个大文件的问题。我有由200万行组成的文件数据，我希望将每行拆分为单个文件，在Hadoop文件系统中复制，并使用Mahout执行术语频率计算。Mahout以分布式方式使用map reduce计算。但是对于这个，假设我有一个包含200万行的文件，我想把每一行作为计算术语频率的文档。我最终将有一个目录，其中我将有200万个文档，每个文档由一行组成。这将为n个文件创建n个映射，这里为流程创建200万个映射。这需要大量的计算时间。是否有其他方法来表示文档以加快计

我正在澄清使用Hadoop处理大约200万个大文件的问题。我有由200万行组成的文件数据，我希望将每行拆分为单个文件，在Hadoop文件系统中复制，并使用Mahout执行术语频率计算。Mahout以分布式方式使用map reduce计算。但是对于这个，假设我有一个包含200万行的文件，我想把每一行作为计算术语频率的文档。我最终将有一个目录，其中我将有200万个文档，每个文档由一行组成。这将为n个文件创建n个映射，这里为流程创建200万个映射。这需要大量的计算时间。是否有其他方法来表示文档以加快计算速度。

200万个文件对于hadoop来说非常重要。此外，运行200万个任务将有大约200万秒的开销，这意味着几天的小型集群工作。

我认为这是一个算法性质的问题——如何将你的计算映射到map-reduce范式，这样你就有了数量适中的映射器。请写几行关于您需要的任务的内容，我可能会建议使用算法。

Mahout提供了计算文本TF和IDF的实现。去mahout图书馆看看，在hadoop map reduce框架中，将每一行拆分为一个文件并不是一个好主意