Hadoop 如何处理上传到HDFS的cvs文件的特定部分?

Hadoop 如何处理上传到HDFS的cvs文件的特定部分?,hadoop,hadoop-streaming,hadoop-partitioning,Hadoop,Hadoop Streaming,Hadoop Partitioning,如何处理上传到HDFS的cvs文件的特定部分? 我是Hadoop新手,我有一个问题,如果我将关系数据库导出到cvs文件中,然后将其上载到HDFS中。所以,如何使用MapReduce处理文件中的特定部分(表)。 提前感谢。我假设RDBMS表被导出为每个表的单独csv文件,并存储在HDFS中。我认为,当您提到“特定部分(表)”时,您指的是表中的列数据。如果是这样,请将各个csv文件放在单独的文件路径中,例如/user/userName/dbName/tables/table1.csv 现在,您可以为

如何处理上传到HDFS的cvs文件的特定部分? 我是Hadoop新手,我有一个问题,如果我将关系数据库导出到cvs文件中,然后将其上载到HDFS中。所以,如何使用MapReduce处理文件中的特定部分(表)。
提前感谢。

我假设RDBMS表被导出为每个表的单独csv文件,并存储在HDFS中。我认为,当您提到“特定部分(表)”时,您指的是表中的列数据。如果是这样,请将各个csv文件放在单独的文件路径中,例如/user/userName/dbName/tables/table1.csv


现在,您可以为输入路径和字段引用配置作业。您可以考虑使用默认输入格式,以便映射器在一段时间内得到一行作为输入。根据配置/属性,您可以读取特定字段并处理数据。

允许您快速开始使用MapReduce。它有一个框架,允许您设置
点击
,以访问源文件(您的CSV文件),并在管道中处理它,例如将列A添加到列B中,并通过选择它们作为
字段将总和放入列C

使用BigTable意味着将数据库转换为一个大表

表的特定部分是什么意思?导出的csv文件包含所有表,那么,如何处理文件中任何位置存在的特定表呢