Apache spark 为Pyspark中的分区定义了一个局部函数

Apache spark 为Pyspark中的分区定义了一个局部函数,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,因此,我正在尝试使用Python(Pyspark)学习Spark。我想对已分区的数据点运行一个本地算法。为了更清楚,我有一些数据点,并转换成成对: rdd = sc.textFile("/FileStore/tables/lixru3v51509045359106/new__1-c5826.txt"); result = rdd.map(lambda x: (x.split(',')[0], x.split(',')[1:])).partitionBy(2).persist(); 打印结果.

因此,我正在尝试使用Python(Pyspark)学习Spark。我想对已分区的数据点运行一个本地算法。为了更清楚,我有一些数据点,并转换成成对:

rdd = sc.textFile("/FileStore/tables/lixru3v51509045359106/new__1-c5826.txt"); 
result = rdd.map(lambda x: (x.split(',')[0], x.split(',')[1:])).partitionBy(2).persist();
打印结果.glom().collect()[1]

两个被分成两部分

[[(u'1', [u'1', u'1']), (u'3', [u'3', u'4']), (u'5', [u'3', u'5']), (u'7', [u'3', u'4'])], [(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]]
现在我将运行一个局部算法来标记每个分区中的每个数据点。例如,对于分区1,我将运行局部聚类算法

[(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]

如何为每个分区编写函数

您当前的代码是什么样子的?你走了多远?您到底在哪里需要帮助?rdd=sc.textFile(“/FileStore/tables/lixru3v51509045359106/newèu 1-c5826.txt”);result=rdd.map(lambda x:(x.split(',')[0],x.split(','))1:).partitionBy(2.persist();我将为每个分区运行一个函数。我想我应该为每个映射使用mapPartitions(),但我不知道如何使用。对您的代码来说,一个更好的地方是您的问题,使用“编辑”按钮包含您的代码,不要忘了描述代码已经做了什么。您当前的代码看起来如何?你走了多远?您到底在哪里需要帮助?rdd=sc.textFile(“/FileStore/tables/lixru3v51509045359106/newèu 1-c5826.txt”);result=rdd.map(lambda x:(x.split(',')[0],x.split(','))1:).partitionBy(2.persist();我将为每个分区运行一个函数。我想我应该为每个映射使用mapPartitions(),但我不知道如何使用。对您的代码来说,更好的地方是您的问题,使用“编辑”按钮包含您的代码,不要忘了描述代码已经做了什么。
[(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]