进一步了解Hadoop/HDFS数据加载_Hadoop_Hdfs

进一步了解Hadoop/HDFS数据加载

hadoop

进一步了解Hadoop/HDFS数据加载,hadoop,hdfs,Hadoop,Hdfs,我正在研究Hadoop和MapReduce（我是初学者！），并且有一个关于HDFS的简单问题。对于HDFS和MapReduce如何协同工作，我有点困惑假设我有来自系统A的日志、Tweets和来自系统B的一堆文档。当这些被加载到Hadoop/HDFS中时，这些都会被扔进一个大的HDFS存储桶中，还是会有3个区域（因为缺少更好的单词）？如果是，正确的术语是什么这些问题源于理解如何执行MapReduce作业。例如，如果我只想专注于日志，那么这是可以做到的，还是所有作业都在集群上存储的整个内容上执行

我正在研究Hadoop和MapReduce（我是初学者！），并且有一个关于HDFS的简单问题。对于HDFS和MapReduce如何协同工作，我有点困惑

假设我有来自系统A的日志、Tweets和来自系统B的一堆文档。当这些被加载到Hadoop/HDFS中时，这些都会被扔进一个大的HDFS存储桶中，还是会有3个区域（因为缺少更好的单词）？如果是，正确的术语是什么

这些问题源于理解如何执行MapReduce作业。例如，如果我只想专注于日志，那么这是可以做到的，还是所有作业都在集群上存储的整个内容上执行

谢谢你的指导！

HDFS是一个文件系统。在本地文件系统中，您可以将所有日志和文档组织到多个文件和目录中。运行MapReduce作业时，通常会使用输入文件指定一个目录。因此，只能在系统a的日志或系统B的文档上执行作业

但是，映射器的输入由

InputFormat

指定。大多数实现源于读取文件的

FileInputFormat

。但是，可以实现自定义

输入格式

，以便从其他来源读取数据。您可以在这里找到有关输入和输出格式的说明。

这正是我要查找的详细信息。谢谢你提供的额外信息，我可以用它继续阅读。