Pyspark 配置单元orc表的sqoop导出

Pyspark 配置单元orc表的sqoop导出,pyspark,sqoop,pyspark-sql,Pyspark,Sqoop,Pyspark Sql,我有一个orc格式的配置单元表,由pyspark dataframe_writer填充。 我需要将此表导出到oracle。由于sqoop无法解析orc文件格式,因此导出该表时遇到问题 在导出配置单元orc表时,是否需要使用sqoop命令指定任何特殊注意事项或参数。一个简单的Google查询指向非常明确的标记 如何将配置单元ORC表导出到Oracle数据库 还有一个标签是 读取ORC文件并放入RDBMS 看来你没有做任何研究 顺便问一下,您是否考虑过使用SCAR直接将数据直接发送到Oracle分级

我有一个orc格式的配置单元表,由pyspark dataframe_writer填充。 我需要将此表导出到oracle。由于sqoop无法解析orc文件格式,因此导出该表时遇到问题


在导出配置单元orc表时,是否需要使用sqoop命令指定任何特殊注意事项或参数。

一个简单的Google查询指向非常明确的标记

如何将配置单元ORC表导出到Oracle数据库

还有一个标签是

读取ORC文件并放入RDBMS

看来你没有做任何研究


顺便问一下,您是否考虑过使用SCAR直接将数据直接发送到Oracle分级表,通过JDBC,没有中间的ORC转储?

< P>,我只是从ORC到Oracle使用了相同的SQL OOP。确保使用正确的数据类型预先创建了ORC表,就像在dataframe中一样。相同的列顺序也将简化sqoop。如果您尝试了任何命令,请发布。

我做了研究,看到了使用hcatalog的帖子,并尝试了它。我遇到了一个错误,需要复制到这里发布。