Performance 使用ApacheSpark提高Teradata卸载性能_Performance_Apache Spark

Performance 使用ApacheSpark提高Teradata卸载性能

performance apache-spark

Performance 使用ApacheSpark提高Teradata卸载性能,performance,apache-spark,Performance,Apache Spark,我在Teradata中有超过1 TB的数据，我必须在spark代码中导入和处理数据，我在spark submit executor内存、core count和driver内存中采用了所有有效的方法，core，即使它在群集环境中需要更多时间。我的群集数据节点大小为4个节点，超过500 gb。所有其他主要考虑因素都是为了提高性能。请提供帮助。如果您发布加载数据帧的代码，我可能可以提供更多帮助。在这种情况下，我通常会发现火花连接器在负载过程中发生了意外的事情。如果您有办法检查Spark在Teradat

我在Teradata中有超过1 TB的数据，我必须在spark代码中导入和处理数据，我在spark submit executor内存、core count和driver内存中采用了所有有效的方法，core，即使它在群集环境中需要更多时间。我的群集数据节点大小为4个节点，超过500 gb。所有其他主要考虑因素都是为了提高性能。请提供帮助。

如果您发布加载数据帧的代码，我可能可以提供更多帮助。在这种情况下，我通常会发现火花连接器在负载过程中发生了意外的事情。如果您有办法检查Spark在Teradata集群上运行的查询，您可能会发现它的加载顺序很低

加载数据后，您将如何处理这些数据？是否有理由在Spark群集中需要100%的数据集存储在内存中？Teradata以比Spark群集内存中更压缩的格式在磁盘上存储数据。您可能会更成功地执行谓词下推，以限制您拉入Spark的数据量。有关更多信息，请参阅和下面的“下推优化”。

寻求调试帮助的问题（“为什么此代码不起作用？”）必须包括所需的行为、特定问题或错误以及在问题本身中重现此问题所需的最短代码。没有明确问题陈述的问题对其他读者没有用处。请参阅：如何创建Sales.registerTempTable（“最终结果”）val Sales\u data=spark.sqlContext.sql（“从最终结果中选择*按有效日期分发”））Sales\u data.write.partitionBy（“有效日期”）.saveAsTable（“test.Aggregate\u data”）Sales\u data.write.parquet（“hdfs:///tmp/ENTERPRAISE/SITE_DATA")这是我的代码我正在从Terradata获取数据，同时尝试执行1 TB的销售数据，它正在处理更多的时间，但没有响应？提高性能的最佳方法是什么？KS Benjamin…我正在从5个表获取数据，并执行求和运算和聚合函数，最后执行以下操作Sales.registerTempTable（“最终结果”）val Sales\u data=spark.sqlContext.sql（“从最终结果中选择*按有效日期分发”））Sales\u data.write.partitionBy（“有效日期”）.savestable（“test.Aggregate\u data”）Sales\u data.write.parquet（“hdfs:///tmp/ENTERPRAISE/SITE_DATA")这是我的代码，我正在从TealDATA中获取数据，同时尝试做1个TB销售数据。它处理更多的时间它没有响应。什么是改善性能原因的最佳方法：容器被超过22.1的GB GB的物理内存使用。考虑升压Spkk.Ayn.ExcExtuor。内存开销1）这是尝试运行上述代码时出现异常2）我给executor的内存大小是24 gb我的群集有4个节点，大小超过500 gb