Python 转换数据帧:按顺序将多个列转换为单个列
我使用的是Spark 2.1.1和dataframe。这是我的输入数据框:Python 转换数据帧:按顺序将多个列转换为单个列,python,apache-spark,pyspark,spark-dataframe,Python,Apache Spark,Pyspark,Spark Dataframe,我使用的是Spark 2.1.1和dataframe。这是我的输入数据框: +----+---------+---------+-------+ | key|parameter|reference| subkey| +----+---------+---------+-------+ |key1| 45| 10|subkey1| |key1| 45| 20|subkey2| |key2| 70| 40|subkey2| |k
+----+---------+---------+-------+
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1| 45| 10|subkey1|
|key1| 45| 20|subkey2|
|key2| 70| 40|subkey2|
|key2| 70| 30|subkey1|
+----+---------+---------+-------+
我需要将数据帧转换为下一帧:
result data (by pandas):
+-----+-----------+
|label| features|
+-----+-----------+
| 45|[10.0,20.0]|
| 70|[30.0,40.0]|
+-----+-----------+
我可以在熊猫的帮助下进行转换:
def convert_to_flat_by_pandas(df):
pandas_data_frame = df.toPandas()
all_keys = pandas_data_frame['key'].unique()
flat_values = []
for key in all_keys:
key_rows = pandas_data_frame.loc[pandas_data_frame['key'] == key]
key_rows = key_rows.sort_values(by=['subkey'])
parameter_values = key_rows['parameter']
parameter_value = parameter_values.real[0]
key_reference_value = [reference_values for reference_values in key_rows['reference']]
flat_values.append((parameter_value, key_reference_value))
loaded_data = [(label, Vectors.dense(features)) for (label, features) in flat_values]
spark_df = spark.createDataFrame(loaded_data, ["label", "features"])
return spark_df
似乎,我需要使用GroupBy,但我不明白如何将组(几行)排序并转换为单行
工作样品的来源(在熊猫的帮助下):
在两个答案的帮助下,我得到了两个可能的解决方案:
UPD1解决方案#1
def convert_to_flat_by_sparkpy(df):
subkeys = df.select("subkey").dropDuplicates().collect()
subkeys = [s[0] for s in subkeys]
print('subkeys: ', subkeys)
assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")
spark_df = assembler.transform(df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))))
spark_df = spark_df.withColumnRenamed("parameter", "label")
spark_df = spark_df.select("label", "features")
return spark_df
UPD1解决方案#2
def convert_to_flat_by_sparkpy_v2(df):
spark_df = df.orderBy("subkey")
spark_df = spark_df.groupBy("key").agg(first(col("parameter")).alias("label"), collect_list("reference").alias("features"))
spark_df = spark_df.select("label", "features")
return spark_df
您可以使用groupby和函数来获取输出
import org.apache.spark.sql.functions._
df.groupBy("parameter").agg(collect_list("reference").alias("features"))
df1.withColumnRenamed("parameter", "label")
输出:
+---------+--------+
|parameter|features|
+---------+--------+
| 45|[10, 20]|
| 70|[40, 30]|
+---------+--------+
希望这有帮助 对于您提供的有限样本数据,您可以将数据帧转换为宽格式,子键作为标题,然后使用
VectorAssembler
将其收集为功能:
from pyspark.sql.functions import first, col
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler().setInputCols(["subkey1", "subkey2"]).setOutputCol("features")
assembler.transform(
df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference")))
).show()
+----+---------+-------+-------+-----------+
| key|parameter|subkey1|subkey2| features|
+----+---------+-------+-------+-----------+
|key1| 45| 10| 20|[10.0,20.0]|
|key2| 70| 30| 40|[30.0,40.0]|
+----+---------+-------+-------+-----------+
动态子键的更新: 假设您有这样一个数据帧:
df.show()
+----+---------+---------+-------+
| key|parameter|reference| subkey|
+----+---------+---------+-------+
|key1| 45| 10|subkey1|
|key1| 45| 20|subkey2|
|key2| 70| 40|subkey2|
|key2| 70| 30|subkey1|
|key2| 70| 70|subkey3|
+----+---------+---------+-------+
首先收集所有唯一的子键,然后使用子键创建汇编器:
subkeys = df.select("subkey").dropDuplicates().rdd.map(lambda r: r[0]).collect()
assembler = VectorAssembler().setInputCols(subkeys).setOutputCol("features")
assembler.transform(
df.groupBy("key", "parameter").pivot("subkey").agg(first(col("reference"))).na.fill(0)
).show()
+----+---------+-------+-------+-------+----------------+
| key|parameter|subkey1|subkey2|subkey3| features|
+----+---------+-------+-------+-------+----------------+
|key1| 45| 10| 20| 0| [20.0,10.0,0.0]|
|key2| 70| 30| 40| 70|[40.0,30.0,70.0]|
+----+---------+-------+-------+-------+----------------+
我需要在pyspark dataframe中分组(不是在pandas中)
功能的类型是什么
,能否显示printSchema
的输出?模式:结果数据框的模式:根|--label:string(nullable=true)|--features:vector(nullable=true)
我认为这将创建一个特性数组,而不是矢量,我需要按子键对“特性”进行排序。预期结果:[10,20]
和[30,40]
列“参数”上的值不唯一。恐怕我们无法使用groupBy
中的列。我更新了建议的解决方案:看起来又短又好:def convert_to_flat_by_sparkpy_v2(df):spark_df=df.orderBy(“subkey”)spark_df=spark_df.groupBy(“key”).agg(第一个(col(“参数”)。别名(“标签”),collect_list(“参考”)。别名(“功能”))spark_df=spark_df.select(“label”、“features”)返回spark_df
这是一个很好的示例,但我的真实代码有两个问题:我有随机的子键值,无法创建向量。稠密(df.features)
而不是子键=df.select(“subkey”).dropDuplicates().rdd.map(lambda r:r[0])。collect()
I添加了subkey=df.select(“subkey”).dropDuplicates().collect()子键=[s[0]表示子键中的s]