Apache spark 将6000亿条记录从一个配置单元表加载到另一个配置单元表

Apache spark 将6000亿条记录从一个配置单元表加载到另一个配置单元表,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,我在1个数据库中有一个配置单元外部表,包含大约6000亿条记录和100列。我需要将数据复制到其他数据库中的同一个表中。我正试图写一个spark代码,但这需要很长时间。有没有建议我如何编写代码?我是新手 不要复制,让它放在原处。在另一个数据库中创建位置指向数据位置的外部表 USE YOUR_DATABASE; CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data'; 必要时使用MSCK修复表abc恢复分区或更改表abc恢复分区如果您在E

我在1个数据库中有一个配置单元外部表,包含大约6000亿条记录和100列。我需要将数据复制到其他数据库中的同一个表中。我正试图写一个spark代码,但这需要很长时间。有没有建议我如何编写代码?我是新手

不要复制,让它放在原处。在另一个数据库中创建位置指向数据位置的外部表

USE YOUR_DATABASE;
CREATE EXTERNAL TABLE abc ... LOCATION 'hdfs://your/data';
必要时使用MSCK修复表abc恢复分区或
更改表abc恢复分区如果您在EMR上

如果您确实需要将数据复制到另一个位置(如果您在Amazon付费EC2集群上,您需要在这方面花钱的理由),请使用:

hadoop distcp hdfs://your/data hdfs://your/data2