Sqoop Oracle导出非常慢
我最近开始在Linux上开发Sqoop Oracle导出非常慢,oracle,sqoop,Oracle,Sqoop,我最近开始在Linux上开发sqoop-hive/hadoop。我必须将配置单元数据从一个表导入oracle表。我使用simplesqoopexport来实现这一点。我在蜂箱表中有600万行 此命令的性能非常差,需要很长时间(85分钟)才能完成此任务 查询-> sqoop export --connect jdbc:oracle:thin:@server:port:db--username user --password password--export-dir /user/hive/wareh
sqoop-hive/hadoop
。我必须将配置单元数据从一个表导入oracle表。我使用simplesqoop
export来实现这一点。我在蜂箱表中有600万行
此命令的性能非常差,需要很长时间(85分钟)才能完成此任务
查询->
sqoop export --connect jdbc:oracle:thin:@server:port:db--username user --password password--export-dir /user/hive/warehouse/tb --table tb--columns 'col1,col2..col33' --input-fields-terminated-by ',' --input-null-string '\\N' --input-null-non-string '\\N' -m 1
是否有任何配置更改可以帮助我加快速度。如果没有任何其他信息,很难提供帮助。我建议重新开始导出工作,并监视环境,看看瓶颈在哪里(数据库?网络?hadoop?)。尝试connector可能也有帮助,因为它通常更快。这是一个“宽”数据集吗?如果列数非常高(以数百列为单位),则可能是sqoop错误,sqoop开始阻塞(cpu上的列数非常高)
当字段的数量很小时,通常情况正好相反——当sqoop很无聊,Oracle跟不上的时候。在这种情况下,我们通常不会超过45-55个映射器。您的链接已失效