Apache spark 为Pyspark中的分区定义了一个局部函数_Apache Spark_Pyspark_Apache Spark Sql

Apache spark 为Pyspark中的分区定义了一个局部函数

apache-spark pyspark

Apache spark 为Pyspark中的分区定义了一个局部函数,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,因此，我正在尝试使用Python（Pyspark）学习Spark。我想对已分区的数据点运行一个本地算法。为了更清楚，我有一些数据点，并转换成成对： rdd = sc.textFile("/FileStore/tables/lixru3v51509045359106/new__1-c5826.txt"); result = rdd.map(lambda x: (x.split(',')[0], x.split(',')[1:])).partitionBy(2).persist(); 打印结果.

因此，我正在尝试使用Python（Pyspark）学习Spark。我想对已分区的数据点运行一个本地算法。为了更清楚，我有一些数据点，并转换成成对：

rdd = sc.textFile("/FileStore/tables/lixru3v51509045359106/new__1-c5826.txt"); 
result = rdd.map(lambda x: (x.split(',')[0], x.split(',')[1:])).partitionBy(2).persist();

打印结果.glom（）.collect（）[1]

两个被分成两部分

[[(u'1', [u'1', u'1']), (u'3', [u'3', u'4']), (u'5', [u'3', u'5']), (u'7', [u'3', u'4'])], [(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]]

现在我将运行一个局部算法来标记每个分区中的每个数据点。例如，对于分区1，我将运行局部聚类算法

[(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]

如何为每个分区编写函数

您当前的代码是什么样子的？你走了多远？您到底在哪里需要帮助？rdd=sc.textFile（“/FileStore/tables/lixru3v51509045359106/newèu 1-c5826.txt”）；result=rdd.map（lambda x:（x.split（'，'）[0]，x.split（'，'））1:）.partitionBy（2.persist（）；我将为每个分区运行一个函数。我想我应该为每个映射使用mapPartitions（），但我不知道如何使用。对您的代码来说，一个更好的地方是您的问题，使用“编辑”按钮包含您的代码，不要忘了描述代码已经做了什么。您当前的代码看起来如何？你走了多远？您到底在哪里需要帮助？rdd=sc.textFile（“/FileStore/tables/lixru3v51509045359106/newèu 1-c5826.txt”）；result=rdd.map（lambda x:（x.split（'，'）[0]，x.split（'，'））1:）.partitionBy（2.persist（）；我将为每个分区运行一个函数。我想我应该为每个映射使用mapPartitions（），但我不知道如何使用。对您的代码来说，更好的地方是您的问题，使用“编辑”按钮包含您的代码，不要忘了描述代码已经做了什么。

[(u'2', [u'1', u'2']), (u'4', [u'5', u'7']), (u'6', [u'4', u'5'])]