Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database 从HDFS将大型csv(200+;GB)数据加载到Teradata的最佳方法?_Database_Apache Spark_Unix_Hadoop_Apache Nifi - Fatal编程技术网

Database 从HDFS将大型csv(200+;GB)数据加载到Teradata的最佳方法?

Database 从HDFS将大型csv(200+;GB)数据加载到Teradata的最佳方法?,database,apache-spark,unix,hadoop,apache-nifi,Database,Apache Spark,Unix,Hadoop,Apache Nifi,问题很简单,正在寻找一种安全、最佳地将非常大的csv数据(>200gb)加载到Teradata DB的方法。由于存储限制,我们将数据文件保存在hdfs中,需要将其加载到Teradata表中。切碎或分裂CSV到较小的CSV是可能的,但可能会认为它是最后的手段,在这种情况下,任何选项都会起作用。 已经尝试过的可能解决方案:- 1. Sqoop export: Failing due to resources despite pushing maximum number of mappers. 2

问题很简单,正在寻找一种安全、最佳地将非常大的csv数据(>200gb)加载到Teradata DB的方法。由于存储限制,我们将数据文件保存在hdfs中,需要将其加载到Teradata表中。切碎或分裂CSV到较小的CSV是可能的,但可能会认为它是最后的手段,在这种情况下,任何选项都会起作用。 已经尝试过的可能解决方案:-

 1. Sqoop export: Failing due to resources despite pushing maximum number of mappers.
 2. Nifi flow: getHDFS > SplitText > SplitText..... > CSVtoAvro > PutDatabaseRecord. 
但由于内存问题,我觉得处理器似乎挂起了

是否需要某种方法将文件拆分成更小的文件,并将250000批文件插入TD


任何帮助都将不胜感激

它挂在哪个处理器上?您有任何错误吗?它将挂在第一个处理器getHDFS中。我可以看到任务排队,但看不到输入/输出计数器发生变化。如果流文件没有从HDFS传输出去,那么它可能仍在传输文件,它必须将200GB的数据流从HDFS传输到NiFi的内容存储库,这可能需要很长时间,具体取决于网络速度和磁盘容量/O@BryanBende谢谢你的意见,布莱恩!我可以等着看它是否处理它。知道flowfile的大小是否有限制,或者完全取决于群集功能吗?NiFi本身没有限制,它主要受网络和磁盘I/O的限制。作为测试,您可以尝试在同一NiFi节点上安装hadoop客户端,使用hdfs命令行将同一文件从hdfs传输到NiFi服务器本地磁盘,很可能需要与GetHDFS几乎相同的时间?您有任何错误吗?它将挂在第一个处理器getHDFS中。我可以看到任务排队,但看不到输入/输出计数器发生变化。如果流文件没有从HDFS传输出去,那么它可能仍在传输文件,它必须将200GB的数据流从HDFS传输到NiFi的内容存储库,这可能需要很长时间,具体取决于网络速度和磁盘容量/O@BryanBende谢谢你的意见,布莱恩!我可以等着看它是否处理它。知道flowfile的大小是否有限制,或者完全取决于群集功能吗?NiFi本身没有限制,它主要受网络和磁盘I/O的限制。作为测试,您可以尝试在同一NiFi节点上安装hadoop客户端,使用hdfs命令行将同一文件从hdfs传输到NiFi服务器本地磁盘,很可能需要与GetHDFS几乎相同的时间。