Python 如何处理pyspark数据帧或RDD中n个行_Python_Dataframe_Pyspark_Apache Spark Sql_Rdd

Python 如何处理pyspark数据帧或RDD中n个行

python dataframe pyspark

Python 如何处理pyspark数据帧或RDD中n个行,python,dataframe,pyspark,apache-spark-sql,rdd,Python,Dataframe,Pyspark,Apache Spark Sql,Rdd,有火花王吗用例：我有一个100万行的数据帧，我希望一次处理5行json而不失去并行性数据帧（df）示例：当前工作方案 zipwithindex row_id_df = df.rdd.map(lambda x: json.dumps(x.asDict())).zipWithIndex().toDF(["item", "id"]) 上面的行将数据帧转换为数据帧（行id\U df）：到目前为止，我已经有了所有id为的行，现在我使用表达式进行groupby，它将每5个项目分组到一个组中 sp

有火花王吗

用例：我有一个100万行的数据帧，我希望一次处理5行json而不失去并行性

数据帧（df）示例：

当前工作方案

zipwithindex

row_id_df = df.rdd.map(lambda x: json.dumps(x.asDict())).zipWithIndex().toDF(["item", "id"])

上面的行将数据帧转换为

数据帧（行id\U df）：

到目前为止，我已经有了所有id为的行，现在我使用表达式进行groupby，它将每5个项目分组到一个组中

splitBy = (floor(col("id") / lit(5)) * lit(5)) \
                   .cast(IntegerType()).alias("id")

row_id_df.groupBy(splitBy) \
            .agg(collect_list(col("item"))) \
            .select(col("collect_list(item)").alias("items")) \
            .rdd.foreach(process_each_5)

process_each_5(data):
    print(len(data.items)) // 5

我能够做到这一点，并且工作得非常好。但是，我觉得还有一种更简单的方法

最后，从开始到结束以上解释所需的数据帧：

发件人：

致：

PS：我不想使用df.collect（）

不确定，但我想您正在寻找一些类似的东西，我试图找到是否可以使用窗口函数，但是，看起来它对我的用例没有帮助。谢谢

+--------------------------------------+--------+
|                    item              |   id   |
+--------------------------------------+--------+
| {"col_a": "row1a", "col_b": "row1b"} |   0    |
| {"col_a": "row2a", "col_b": "row2b"} |   1    |
| {"col_a": "row3a", "col_b": "row3b"} |   2    |
| {"col_a": "row4a", "col_b": "row4b"} |   3    |
| {"col_a": "row5a", "col_b": "row5b"} |   4    |
| {"col_a": "row6a", "col_b": "row6b"} |   5    |
| {"col_a": "row7a", "col_b": "row7b"} |   6    |
| ..                                   | ..     |
+--------------------------------------+--------+

splitBy = (floor(col("id") / lit(5)) * lit(5)) \
                   .cast(IntegerType()).alias("id")

row_id_df.groupBy(splitBy) \
            .agg(collect_list(col("item"))) \
            .select(col("collect_list(item)").alias("items")) \
            .rdd.foreach(process_each_5)

process_each_5(data):
    print(len(data.items)) // 5

+-------------+---------+
|    col_a    |  col_b  |
+-------------+---------+
| row1a       | row1b   |
| row2a       | row2b   |
| row3a       | row3b   |
| row4a       | row4b   |
| row5a       | row5b   |
| row6a       | row6b   |
| row7a       | row7b   |
| ..          | ..      |
+-------------+---------+

+-------------------------------------------+
|                    items                  |
+-------------------------------------------+
| [{"col_a": "row1a", "col_b": "row1b"},    |
|  {"col_a": "row2a", "col_b": "row2b"},    |
|  {"col_a": "row3a", "col_b": "row3b"},    |
|  {"col_a": "row4a", "col_b": "row4b"},    |
|  {"col_a": "row5a", "col_b": "row5b"}]    |
| [{"col_a": "row6a", "col_b": "row6b"},    |
|  {"col_a": "row7a", "col_b": "row7b"},...]|
| ..                                        |
+-------------------------------------------+