如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理？_Pyspark_Hdfs_Pyspark Sql_Biginsights

如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理？

pyspark

如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理？,pyspark,hdfs,pyspark-sql,biginsights,Pyspark,Hdfs,Pyspark Sql,Biginsights,如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理 df = sqlContext.read.parquet("hdfs://<<remote_hdfs_host>>:8020/testDirectory") df=sqlContext.read.parquet（“hdfs://:8020/testDirectory”）非常感谢您的帮助。是从Linux还是Windows？哪个版本的Spark？

如何从本地pyspark程序连接和加载远程BigInsights HDFS（启用kerberos身份验证）中的文件以进行处理

df = sqlContext.read.parquet("hdfs://<<remote_hdfs_host>>:8020/testDirectory")

df=sqlContext.read.parquet（“hdfs://:8020/testDirectory”）

非常感谢您的帮助。

是从Linux还是Windows？哪个版本的Spark？哪种Spark构建（例如“使用Hadoop 2.7”）？来自linux（IBM DSX Spark服务），使用Hadoop 2.7尝试Spark 1.6.0，使用Hadoop 2.7尝试Spark 2.0。它不起作用吗？您是否使用

kinit

创建了kerberos票证？你所说的“它不工作”是什么意思？显示错误堆栈，这是你能提供的最重要的信息！