Python pyspark dataframe中是否有类似于pandas.io.json.json_normalize的函数
我想执行与pandas.io.json.json类似的操作,normalize is pyspark dataframe。spark中是否有等效函数Python pyspark dataframe中是否有类似于pandas.io.json.json_normalize的函数,python,json,pandas,pyspark,pyspark-dataframes,Python,Json,Pandas,Pyspark,Pyspark Dataframes,我想执行与pandas.io.json.json类似的操作,normalize is pyspark dataframe。spark中是否有等效函数 Spark有一个类似的功能explode(),但它并不完全相同 以下是explode如何在非常高的级别上工作 >>> from pyspark.sql.functions import explode, col >>> data = {'A': [1, 2]} >>> df = spark.
Spark有一个类似的功能
explode()
,但它并不完全相同
以下是explode如何在非常高的级别上工作
>>> from pyspark.sql.functions import explode, col
>>> data = {'A': [1, 2]}
>>> df = spark.createDataFrame(data)
>>> df.show()
+------+
| A|
+------+
|[1, 2]|
+------+
>>> df.select(explode(col('A')).alias('normalized')).show()
+----------+
|normalized|
+----------+
| 1|
| 2|
+----------+
另一方面,您可以使用以下方法将Spark数据帧转换为Pandas数据帧:
-->利用json_normalize(),然后恢复为spark 数据帧spark_df.toPandas()
- 要恢复到Spark数据帧,可以使用
Spark.createDataFrame(pandas\u df)
希望这对你有帮助,祝你好运 Spark有一个类似的函数
explode()
,但它并不完全相同
以下是explode如何在非常高的级别上工作
>>> from pyspark.sql.functions import explode, col
>>> data = {'A': [1, 2]}
>>> df = spark.createDataFrame(data)
>>> df.show()
+------+
| A|
+------+
|[1, 2]|
+------+
>>> df.select(explode(col('A')).alias('normalized')).show()
+----------+
|normalized|
+----------+
| 1|
| 2|
+----------+
另一方面,您可以使用以下方法将Spark数据帧转换为Pandas数据帧:
-->利用json_normalize(),然后恢复为spark 数据帧spark_df.toPandas()
- 要恢复到Spark数据帧,可以使用
Spark.createDataFrame(pandas\u df)
希望这对你有帮助,祝你好运 PySpark中没有直接对应的
json\u normalize
。但是Spark提供了不同的选择。如果在这样的数据帧中有嵌套对象
one
|_a
|_..
two
|_b
|_..
您可以在子列中选择,如下所示:
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("stackoverflow demo").getOrCreate()
columns = ['id', 'one', 'two']
vals = [
(1, {"a": False}, {"b": True}),
(2, {"a": True}, {"b": False})
]
df = spark.createDataFrame(vals, columns)
df.select("one.a", "two.b").show()
+-----+-----+
| a| b|
+-----+-----+
|false| true|
| true|false|
+-----+-----+
如果使用递归的“展平”函数从中构建所有嵌套列的展平列表,那么我们将得到一个展平列结构:
columns = flatten(df.schema)
df.select(columns)
PySpark中没有直接对应的
json\u normalize
。但是Spark提供了不同的选择。如果在这样的数据帧中有嵌套对象
one
|_a
|_..
two
|_b
|_..
您可以在子列中选择,如下所示:
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("stackoverflow demo").getOrCreate()
columns = ['id', 'one', 'two']
vals = [
(1, {"a": False}, {"b": True}),
(2, {"a": True}, {"b": False})
]
df = spark.createDataFrame(vals, columns)
df.select("one.a", "two.b").show()
+-----+-----+
| a| b|
+-----+-----+
|false| true|
| true|false|
+-----+-----+
如果使用递归的“展平”函数从中构建所有嵌套列的展平列表,那么我们将得到一个展平列结构:
columns = flatten(df.schema)
df.select(columns)