Pyspark 从文件中的列中获取不同的值以创建RDD_Pyspark

Pyspark 从文件中的列中获取不同的值以创建RDD

pyspark

Pyspark 从文件中的列中获取不同的值以创建RDD,pyspark,Pyspark,我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值我有一个逗号分隔的.txt文件，S3上没有列标题 rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])

我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值

我有一个逗号分隔的.txt文件，S3上没有列标题

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10)

我做错了什么？最后，我想将生成的RDD存储在S3中（还没有实现）。如果文件存在于S3中，我想覆盖它。

您需要在

映射

函数后添加

.distinct（）

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)

因为某种原因，这对我不起作用。相反，我尝试了以下方法，效果很好

sc.textFile（fileLocation）.map（lambda x:x.split（“，”[2]）.distinct（）

您没有可复制的数据样本。我不得不假设在这一步之前您都知道自己在做什么（即，您使用

x[2]

选择了正确的元素）