Apache spark pyspark2提取Teradata需要很长时间_Apache Spark_Jdbc_Pyspark

Apache spark pyspark2提取Teradata需要很长时间

apache-spark jdbc pyspark

Apache spark pyspark2提取Teradata需要很长时间,apache-spark,jdbc,pyspark,Apache Spark,Jdbc,Pyspark,我试图通过pyspark2从teradata表中提取最大日期。虽然这个简单的查询在Teradata中运行了几秒钟，但在spark中执行了1小时后，它并没有给我任何答案我正在CLI中执行pyspark2，并且我已经将tdgssconfig.jar、terajdbc4.jar保存在相同的位置 pyspark2 --conf spark.ui.port=45321 --jars tdgssconfig.jar,terajdbc4.jar TD_QUERY = "(select max({a}) a

我试图通过pyspark2从teradata表中提取最大日期。虽然这个简单的查询在Teradata中运行了几秒钟，但在spark中执行了1小时后，它并没有给我任何答案

我正在CLI中执行pyspark2，并且我已经将tdgssconfig.jar、terajdbc4.jar保存在相同的位置

pyspark2 --conf spark.ui.port=45321 --jars tdgssconfig.jar,terajdbc4.jar

TD_QUERY = "(select max({a}) as max_date from {b}) as temp".format(a=Partition_Info,b=SOURCE_TABLE_VIEW)
df_td_date = spark.read\
  .format("jdbc")\
  .option("url",connection_url)\
  .option("driver",connection_driver)\
  .option("dbtable",TD_QUERY)\
  .option("user",user_name)\
  .option("password",pwd)\
  .load()
max_date_temp = df_td_max_date.collect()

请让我知道，如果我需要改进此代码的任何部分