Pyspark 如何创建EMR群集数据目录设置?

Pyspark 如何创建EMR群集数据目录设置?,pyspark,amazon-emr,aws-glue,aws-glue-data-catalog,hive-metastore,Pyspark,Amazon Emr,Aws Glue,Aws Glue Data Catalog,Hive Metastore,AWS EMR元异常,消息: 全球温度上的湖泊形成许可不足 我正在尝试使用spark会话使用配置单元元存储查询数据。这些桌子用胶水分类。我可以使用spark.read.parquet直接读取s3拼花文件。但是,我想使用spark.sql方法从EMR查询目录 当我运行线路时: spark.sql("show tables from gluedatabase").show() 我得到一个类似这样的错误: 'org.apache.hadoop.hive.ql.metadata.HiveExcept

AWS EMR元异常,消息:

全球温度上的湖泊形成许可不足

我正在尝试使用spark会话使用配置单元元存储查询数据。这些桌子用胶水分类。我可以使用
spark.read.parquet
直接读取s3拼花文件。但是,我想使用
spark.sql
方法从EMR查询目录

当我运行线路时:

spark.sql("show tables from gluedatabase").show() 
我得到一个类似这样的错误:

'org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Insufficient Lake Formation permission(s) on global_temp (Service: AWSGlue; Status Code: 400; Error Code: AccessDeniedException));'
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 767, in sql
    return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
    raise AnalysisException(s.split(': ', 1)[2], stackTrace)
pyspark.sql.utils.AnalysisException: 'org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Insufficient Lake Formation permission(s) on global_temp (Service: AWSGlue; Status Code: 400; Error Code: AccessDeniedException));'

我在设置Glue developer端点时遇到了类似的问题。 尝试将EMR集群的角色添加到湖泊形成中的数据库创建者列表中。 湖泊形成->管理员和数据库创建者

这应该可以解决问题。
祝您好运

您似乎需要向您的用户授予权限。您可以试试吗?这应该会有帮助