在hadoop中摄取数据后的标准过程
我正在将数据从oracle导入Hadoop,然后我想将这些数据保存到hive中在hadoop中摄取数据后的标准过程,hadoop,hive,apache-pig,sqoop,Hadoop,Hive,Apache Pig,Sqoop,我正在将数据从oracle导入Hadoop,然后我想将这些数据保存到hive中 将数据摄取到hadoop中后,需要遵循哪些步骤 如何在摄取的数据中执行数据清理或错误检查 您可以使用sqoop和名为Oraoop的优化连接器将数据直接从oracle摄取到配置单元表。对于数据清理,我假定您的意思是处理空值,如果是这种情况,您可以使用sqoop提供的不同选项,如 --null-string <null-string> --null-non-string <null-strin
您可以使用sqoop和名为Oraoop的优化连接器将数据直接从oracle摄取到配置单元表。对于数据清理,我假定您的意思是处理空值,如果是这种情况,您可以使用sqoop提供的不同选项,如
--null-string <null-string>
--null-non-string <null-string>
--空字符串
--空非字符串
1。将数据摄取到hadoop中后,需要遵循哪些步骤?
您不需要自己做(将数据导入hadoop,然后传输到hive)
根据,
您只需要在import命令中添加--hive import
更改配置单元表
默认情况下,配置单元中使用的表名与源表的表名相同。您可以使用--hive table
选项控制输出表名称
覆盖配置单元表
如果配置单元表已经存在,则可以指定--Hive overwrite
选项以指示必须替换配置单元中的现有表
@sachin提到了数据中空值的处理。您可以查看以了解更多详细信息
2.如何在摄取的数据中执行数据清理或错误检查?
我假设“数据清理”是指在hadoop中清理数据
将数据导入HDFS或省略此步骤后,Sqoop将生成一个配置单元脚本,其中包含使用配置单元类型定义列的CREATE TABLE
操作,以及一个LOAD data INPATH
语句,以将数据文件移动到配置单元的仓库目录中
数据被移动到配置单元。因此,临时HDFS位置中没有数据
中提到了一些常见问题。您可以检查基准误差