Pyspark 在雅典娜中重命名列

Pyspark 在雅典娜中重命名列,pyspark,apache-spark-sql,pyspark-sql,parquet,amazon-athena,Pyspark,Apache Spark Sql,Pyspark Sql,Parquet,Amazon Athena,Athena表“organization”从s3中的拼花文件中读取数据。我需要将列名从“成本”更改为“费用”。数据文件可追溯到2018年1月。若我只是重命名雅典娜中的列,表将无法在拼花文件中找到新列的数据。请告诉我是否有解决方法。您必须更改架构并指向新列“费用” 但这取决于你的情况 如果有两个数据集,在一个数据集中称为“成本”,在另一个数据集中称为“费用”。 如果是这样的话,那就相当困难,需要更多的思考 如果拼花文件称之为“成本”,但在雅典娜,您希望通过“费用”查询它。 在本例中,添加一个名为

Athena表“organization”从s3中的拼花文件中读取数据。我需要将列名从“成本”更改为“费用”。数据文件可追溯到2018年1月。若我只是重命名雅典娜中的列,表将无法在拼花文件中找到新列的数据。请告诉我是否有解决方法。

您必须更改架构并指向新列“费用”

但这取决于你的情况

  • 如果有两个数据集,在一个数据集中称为“成本”,在另一个数据集中称为“费用”。 如果是这样的话,那就相当困难,需要更多的思考

  • 如果拼花文件称之为“成本”,但在雅典娜,您希望通过“费用”查询它。 在本例中,添加一个名为“费用”的新列。将模式从成本->成本更改为成本->费用


您必须更改模式并指向新列“费用”

但这取决于你的情况

  • 如果有两个数据集,在一个数据集中称为“成本”,在另一个数据集中称为“费用”。 如果是这样的话,那就相当困难,需要更多的思考

  • 如果拼花文件称之为“成本”,但在雅典娜,您希望通过“费用”查询它。 在本例中,添加一个名为“费用”的新列。将模式从成本->成本更改为成本->费用