Pyspark 从文件中的列中获取不同的值以创建RDD
我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值 我有一个逗号分隔的.txt文件,S3上没有列标题Pyspark 从文件中的列中获取不同的值以创建RDD,pyspark,Pyspark,我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值 我有一个逗号分隔的.txt文件,S3上没有列标题 rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])
rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])
print rddDistinct.take(10)
我做错了什么?最后,我想将生成的RDD存储在S3中(还没有实现)。如果文件存在于S3中,我想覆盖它。您需要在
映射
函数后添加.distinct()
rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)
因为某种原因,这对我不起作用。相反,我尝试了以下方法,效果很好
sc.textFile(fileLocation).map(lambda x:x.split(“,”[2]).distinct()
您没有可复制的数据样本。我不得不假设在这一步之前您都知道自己在做什么(即,您使用x[2]
选择了正确的元素)