Pyspark 从文件中的列中获取不同的值以创建RDD

Pyspark 从文件中的列中获取不同的值以创建RDD,pyspark,Pyspark,我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值 我有一个逗号分隔的.txt文件,S3上没有列标题 rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])

我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值

我有一个逗号分隔的.txt文件,S3上没有列标题

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10) 

我做错了什么?最后,我想将生成的RDD存储在S3中(还没有实现)。如果文件存在于S3中,我想覆盖它。

您需要在
映射
函数后添加
.distinct()

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)                                                                                                                                                                                                                      

因为某种原因,这对我不起作用。相反,我尝试了以下方法,效果很好
sc.textFile(fileLocation).map(lambda x:x.split(“,”[2]).distinct()
您没有可复制的数据样本。我不得不假设在这一步之前您都知道自己在做什么(即,您使用
x[2]
选择了正确的元素)