Python 转换数据帧：按顺序将多个列转换为单个列_Python_Apache Spark_Pyspark_Spark Dataframe

Python 转换数据帧：按顺序将多个列转换为单个列

python apache-spark pyspark

Python 转换数据帧：按顺序将多个列转换为单个列,python,apache-spark,pyspark,spark-dataframe,Python,Apache Spark,Pyspark,Spark Dataframe,我使用的是Spark 2.1.1和dataframe。这是我的输入数据框： +----+---------+---------+-------+ | key|parameter|reference| subkey| +----+---------+---------+-------+ |key1| 45| 10|subkey1| |key1| 45| 20|subkey2| |key2| 70| 40|subkey2| |k

我使用的是Spark 2.1.1和dataframe。这是我的输入数据框：

+----+---------+---------+-------+
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1|       45|       10|subkey1|
|key1|       45|       20|subkey2|
|key2|       70|       40|subkey2|
|key2|       70|       30|subkey1|
+----+---------+---------+-------+

我需要将数据帧转换为下一帧：

result data (by pandas):
+-----+-----------+
|label|   features|
+-----+-----------+
|   45|[10.0,20.0]|
|   70|[30.0,40.0]|
+-----+-----------+

我可以在熊猫的帮助下进行转换：

def convert_to_flat_by_pandas(df):
    pandas_data_frame = df.toPandas()
    all_keys = pandas_data_frame['key'].unique()

    flat_values = []
    for key in all_keys:
        key_rows = pandas_data_frame.loc[pandas_data_frame['key'] == key]
        key_rows = key_rows.sort_values(by=['subkey'])

        parameter_values = key_rows['parameter']
        parameter_value = parameter_values.real[0]        

        key_reference_value = [reference_values for reference_values in key_rows['reference']]

        flat_values.append((parameter_value, key_reference_value))

    loaded_data = [(label, Vectors.dense(features)) for (label, features) in flat_values]
    spark_df = spark.createDataFrame(loaded_data, ["label", "features"])

    return spark_df

似乎，我需要使用GroupBy，但我不明白如何将组（几行）排序并转换为单行

工作样品的来源（在熊猫的帮助下）：

在两个答案的帮助下，我得到了两个可能的解决方案：

UPD1解决方案#1

def convert_to_flat_by_sparkpy(df):
    subkeys = df.select("subkey").dropDuplicates().collect()
    subkeys = [s[0] for s in subkeys]
    print('subkeys: ', subkeys)
    assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")
    spark_df = assembler.transform(df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))))    
    spark_df = spark_df.withColumnRenamed("parameter", "label")
    spark_df = spark_df.select("label", "features")
    return spark_df

UPD1解决方案#2

def convert_to_flat_by_sparkpy_v2(df):
    spark_df = df.orderBy("subkey")
    spark_df = spark_df.groupBy("key").agg(first(col("parameter")).alias("label"), collect_list("reference").alias("features"))
    spark_df = spark_df.select("label", "features")
    return spark_df

您可以使用groupby和函数来获取输出

import org.apache.spark.sql.functions._

df.groupBy("parameter").agg(collect_list("reference").alias("features"))

df1.withColumnRenamed("parameter", "label")

输出：

+---------+--------+
|parameter|features|
+---------+--------+
|       45|[10, 20]|
|       70|[40, 30]|
+---------+--------+

希望这有帮助

对于您提供的有限样本数据，您可以将数据帧转换为宽格式，子键作为标题，然后使用

VectorAssembler

将其收集为功能：

from pyspark.sql.functions import first, col
from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler().setInputCols(["subkey1", "subkey2"]).setOutputCol("features")

assembler.transform(
    df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference")))
).show()
+----+---------+-------+-------+-----------+
| key|parameter|subkey1|subkey2|   features|
+----+---------+-------+-------+-----------+
|key1|       45|     10|     20|[10.0,20.0]|
|key2|       70|     30|     40|[30.0,40.0]|
+----+---------+-------+-------+-----------+

动态子键的更新：

假设您有这样一个数据帧：

df.show()
+----+---------+---------+-------+    
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1|       45|       10|subkey1|
|key1|       45|       20|subkey2|
|key2|       70|       40|subkey2|
|key2|       70|       30|subkey1|
|key2|       70|       70|subkey3|
+----+---------+---------+-------+

首先收集所有唯一的子键，然后使用子键创建汇编器：

subkeys = df.select("subkey").dropDuplicates().rdd.map(lambda r: r[0]).collect()
assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")

assembler.transform(    
    df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))).na.fill(0)
).show()
+----+---------+-------+-------+-------+----------------+
| key|parameter|subkey1|subkey2|subkey3|        features|
+----+---------+-------+-------+-------+----------------+
|key1|       45|     10|     20|      0| [20.0,10.0,0.0]|
|key2|       70|     30|     40|     70|[40.0,30.0,70.0]|
+----+---------+-------+-------+-------+----------------+

我需要在pyspark dataframe中分组（不是在pandas中）

功能的类型是什么

，能否显示

printSchema

的输出？模式：

结果数据框的模式：根|--label:string（nullable=true）|--features:vector（nullable=true）

我认为这将创建一个特性数组，而不是矢量，我需要按子键对“特性”进行排序。预期结果：

[10,20]

和

[30,40]

列“参数”上的值不唯一。恐怕我们无法使用

groupBy

中的列。我更新了建议的解决方案：看起来又短又好：

def convert_to_flat_by_sparkpy_v2（df）：spark_df=df.orderBy（“subkey”）spark_df=spark_df.groupBy（“key”）.agg（第一个（col（“参数”）。别名（“标签”），collect_list（“参考”）。别名（“功能”））spark_df=spark_df.select（“label”、“features”）返回spark_df

这是一个很好的示例，但我的真实代码有两个问题：我有随机的子键值，无法创建

向量。稠密（df.features）

而不是

子键=df.select（“subkey”）.dropDuplicates（）.rdd.map（lambda r:r[0]）。collect（）

I添加了

subkey=df.select（“subkey”）.dropDuplicates（）.collect（）子键=[s[0]表示子键中的s]