如何从本地pyspark程序连接和加载远程BigInsights HDFS(启用kerberos身份验证)中的文件以进行处理?

如何从本地pyspark程序连接和加载远程BigInsights HDFS(启用kerberos身份验证)中的文件以进行处理?,pyspark,hdfs,pyspark-sql,biginsights,Pyspark,Hdfs,Pyspark Sql,Biginsights,如何从本地pyspark程序连接和加载远程BigInsights HDFS(启用kerberos身份验证)中的文件以进行处理 df = sqlContext.read.parquet("hdfs://<<remote_hdfs_host>>:8020/testDirectory") df=sqlContext.read.parquet(“hdfs://:8020/testDirectory”) 非常感谢您的帮助。是从Linux还是Windows?哪个版本的Spark?

如何从本地pyspark程序连接和加载远程BigInsights HDFS(启用kerberos身份验证)中的文件以进行处理

df = sqlContext.read.parquet("hdfs://<<remote_hdfs_host>>:8020/testDirectory")
df=sqlContext.read.parquet(“hdfs://:8020/testDirectory”)

非常感谢您的帮助。

是从Linux还是Windows?哪个版本的Spark?哪种Spark构建(例如“使用Hadoop 2.7”)?来自linux(IBM DSX Spark服务),使用Hadoop 2.7尝试Spark 1.6.0,使用Hadoop 2.7尝试Spark 2.0。它不起作用吗?您是否使用
kinit
创建了kerberos票证?你所说的“它不工作”是什么意思?显示错误堆栈,这是你能提供的最重要的信息!