Hadoop 配置单元-从zip文件创建表

Hadoop 配置单元-从zip文件创建表,hadoop,hive,hdfs,Hadoop,Hive,Hdfs,我有一堆CSV的zip文件,我想从中创建配置单元表。我在想最好的办法是什么 解压文件,将其上载到HDFS 有没有办法将文件复制到HDFS,解压 或者还有其他更好/推荐的方法吗 通常的做法是将CSV文件转换为制表符分隔的或Ctrl A或Ctrl B分隔的,然后将其上载到Hadoop/Hive 要将文件上载到HDFS,可以使用以下命令- hadoop fs-将文件放入上传hdfs路径 我想你会想自动化这个。在这种情况下,遵循说明会有所帮助 创建配置单元表,其中列映射到CSV文件(在此步骤中可以删除

我有一堆CSV的zip文件,我想从中创建配置单元表。我在想最好的办法是什么

  • 解压文件,将其上载到HDFS
  • 有没有办法将文件复制到HDFS,解压
  • 或者还有其他更好/推荐的方法吗

通常的做法是将CSV文件转换为制表符分隔的或Ctrl A或Ctrl B分隔的,然后将其上载到Hadoop/Hive

要将文件上载到HDFS,可以使用以下命令-

hadoop fs-将文件放入上传hdfs路径

我想你会想自动化这个。在这种情况下,遵循说明会有所帮助

  • 创建配置单元表,其中列映射到CSV文件(在此步骤中可以删除不必要的字段)。在配置单元create table语句中选择分隔符

  • 将csv文件转换为分隔格式(Ctrl A或Ctrl B)

  • 将文件上载到配置单元表位置
  • 您可以使用python批处理脚本/框架自动化有关步骤

    进一步阅读: