Database 从HDFS将大型csv（200+；GB）数据加载到Teradata的最佳方法？_Database_Apache Spark_Unix_Hadoop_Apache Nifi

Database 从HDFS将大型csv（200+；GB）数据加载到Teradata的最佳方法？

database apache-spark unix hadoop apache-nifi

Database 从HDFS将大型csv（200+；GB）数据加载到Teradata的最佳方法？,database,apache-spark,unix,hadoop,apache-nifi,Database,Apache Spark,Unix,Hadoop,Apache Nifi,问题很简单，正在寻找一种安全、最佳地将非常大的csv数据（>200gb）加载到Teradata DB的方法。由于存储限制，我们将数据文件保存在hdfs中，需要将其加载到Teradata表中。切碎或分裂CSV到较小的CSV是可能的，但可能会认为它是最后的手段，在这种情况下，任何选项都会起作用。已经尝试过的可能解决方案：- 1. Sqoop export: Failing due to resources despite pushing maximum number of mappers. 2

问题很简单，正在寻找一种安全、最佳地将非常大的csv数据（>200gb）加载到Teradata DB的方法。由于存储限制，我们将数据文件保存在hdfs中，需要将其加载到Teradata表中。切碎或分裂CSV到较小的CSV是可能的，但可能会认为它是最后的手段，在这种情况下，任何选项都会起作用。已经尝试过的可能解决方案：-

1. Sqoop export: Failing due to resources despite pushing maximum number of mappers. 2. Nifi flow: getHDFS > SplitText > SplitText..... > CSVtoAvro > PutDatabaseRecord.
但由于内存问题，我觉得处理器似乎挂起了
是否需要某种方法将文件拆分成更小的文件，并将250000批文件插入TD

任何帮助都将不胜感激
它挂在哪个处理器上？您有任何错误吗？它将挂在第一个处理器getHDFS中。我可以看到任务排队，但看不到输入/输出计数器发生变化。如果流文件没有从HDFS传输出去，那么它可能仍在传输文件，它必须将200GB的数据流从HDFS传输到NiFi的内容存储库，这可能需要很长时间，具体取决于网络速度和磁盘容量/O@BryanBende谢谢你的意见，布莱恩！我可以等着看它是否处理它。知道flowfile的大小是否有限制，或者完全取决于群集功能吗？NiFi本身没有限制，它主要受网络和磁盘I/O的限制。作为测试，您可以尝试在同一NiFi节点上安装hadoop客户端，使用hdfs命令行将同一文件从hdfs传输到NiFi服务器本地磁盘，很可能需要与GetHDFS几乎相同的时间？您有任何错误吗？它将挂在第一个处理器getHDFS中。我可以看到任务排队，但看不到输入/输出计数器发生变化。如果流文件没有从HDFS传输出去，那么它可能仍在传输文件，它必须将200GB的数据流从HDFS传输到NiFi的内容存储库，这可能需要很长时间，具体取决于网络速度和磁盘容量/O@BryanBende谢谢你的意见，布莱恩！我可以等着看它是否处理它。知道flowfile的大小是否有限制，或者完全取决于群集功能吗？NiFi本身没有限制，它主要受网络和磁盘I/O的限制。作为测试，您可以尝试在同一NiFi节点上安装hadoop客户端，使用hdfs命令行将同一文件从hdfs传输到NiFi服务器本地磁盘，很可能需要与GetHDFS几乎相同的时间。