Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在hadoop中摄取数据后的标准过程_Hadoop_Hive_Apache Pig_Sqoop - Fatal编程技术网

在hadoop中摄取数据后的标准过程

在hadoop中摄取数据后的标准过程,hadoop,hive,apache-pig,sqoop,Hadoop,Hive,Apache Pig,Sqoop,我正在将数据从oracle导入Hadoop,然后我想将这些数据保存到hive中 将数据摄取到hadoop中后,需要遵循哪些步骤 如何在摄取的数据中执行数据清理或错误检查 您可以使用sqoop和名为Oraoop的优化连接器将数据直接从oracle摄取到配置单元表。对于数据清理,我假定您的意思是处理空值,如果是这种情况,您可以使用sqoop提供的不同选项,如 --null-string <null-string> --null-non-string <null-strin

我正在将数据从oracle导入Hadoop,然后我想将这些数据保存到hive中

  • 将数据摄取到hadoop中后,需要遵循哪些步骤

  • 如何在摄取的数据中执行数据清理或错误检查


  • 您可以使用sqoop和名为Oraoop的优化连接器将数据直接从oracle摄取到配置单元表。对于数据清理,我假定您的意思是处理空值,如果是这种情况,您可以使用sqoop提供的不同选项,如

    --null-string <null-string>     
    --null-non-string <null-string>
    
    --空字符串
    --空非字符串
    
    1。将数据摄取到hadoop中后,需要遵循哪些步骤? 您不需要自己做(将数据导入hadoop,然后传输到hive)

    根据,

    您只需要在import命令中添加
    --hive import

    更改配置单元表

    默认情况下,配置单元中使用的表名与源表的表名相同。您可以使用
    --hive table
    选项控制输出表名称

    覆盖配置单元表

    如果配置单元表已经存在,则可以指定
    --Hive overwrite
    选项以指示必须替换配置单元中的现有表

    @sachin提到了数据中空值的处理。您可以查看以了解更多详细信息

    2.如何在摄取的数据中执行数据清理或错误检查? 我假设“数据清理”是指在hadoop中清理数据

    将数据导入HDFS或省略此步骤后,Sqoop将生成一个配置单元脚本,其中包含使用配置单元类型定义列的
    CREATE TABLE
    操作,以及一个
    LOAD data INPATH
    语句,以将数据文件移动到配置单元的仓库目录中

    数据被移动到配置单元。因此,临时HDFS位置中没有数据

    中提到了一些常见问题。您可以检查基准误差