Performance 使用ApacheSpark提高Teradata卸载性能

Performance 使用ApacheSpark提高Teradata卸载性能,performance,apache-spark,Performance,Apache Spark,我在Teradata中有超过1 TB的数据,我必须在spark代码中导入和处理数据,我在spark submit executor内存、core count和driver内存中采用了所有有效的方法,core,即使它在群集环境中需要更多时间。我的群集数据节点大小为4个节点,超过500 gb。所有其他主要考虑因素都是为了提高性能。请提供帮助。如果您发布加载数据帧的代码,我可能可以提供更多帮助。在这种情况下,我通常会发现火花连接器在负载过程中发生了意外的事情。如果您有办法检查Spark在Teradat

我在Teradata中有超过1 TB的数据,我必须在spark代码中导入和处理数据,我在spark submit executor内存、core count和driver内存中采用了所有有效的方法,core,即使它在群集环境中需要更多时间。我的群集数据节点大小为4个节点,超过500 gb。所有其他主要考虑因素都是为了提高性能。请提供帮助。

如果您发布加载数据帧的代码,我可能可以提供更多帮助。在这种情况下,我通常会发现火花连接器在负载过程中发生了意外的事情。如果您有办法检查Spark在Teradata集群上运行的查询,您可能会发现它的加载顺序很低


加载数据后,您将如何处理这些数据?是否有理由在Spark群集中需要100%的数据集存储在内存中?Teradata以比Spark群集内存中更压缩的格式在磁盘上存储数据。您可能会更成功地执行谓词下推,以限制您拉入Spark的数据量。有关更多信息,请参阅和下面的“下推优化”。

寻求调试帮助的问题(“为什么此代码不起作用?”)必须包括所需的行为、特定问题或错误以及在问题本身中重现此问题所需的最短代码。没有明确问题陈述的问题对其他读者没有用处。请参阅:如何创建Sales.registerTempTable(“最终结果”)val Sales\u data=spark.sqlContext.sql(“从最终结果中选择*按有效日期分发”))Sales\u data.write.partitionBy(“有效日期”).saveAsTable(“test.Aggregate\u data”)Sales\u data.write.parquet(“hdfs:///tmp/ENTERPRAISE/SITE_DATA")这是我的代码我正在从Terradata获取数据,同时尝试执行1 TB的销售数据,它正在处理更多的时间,但没有响应?提高性能的最佳方法是什么?KS Benjamin…我正在从5个表获取数据,并执行求和运算和聚合函数,最后执行以下操作Sales.registerTempTable(“最终结果”)val Sales\u data=spark.sqlContext.sql(“从最终结果中选择*按有效日期分发”))Sales\u data.write.partitionBy(“有效日期”).savestable(“test.Aggregate\u data”)Sales\u data.write.parquet(“hdfs:///tmp/ENTERPRAISE/SITE_DATA")这是我的代码,我正在从TealDATA中获取数据,同时尝试做1个TB销售数据。它处理更多的时间它没有响应。什么是改善性能原因的最佳方法:容器被超过22.1的GB GB的物理内存使用。考虑升压Spkk.Ayn.ExcExtuor。内存开销1)这是尝试运行上述代码时出现异常2)我给executor的内存大小是24 gb我的群集有4个节点,大小超过500 gb