Python PySpark-广播火花数据帧
我正在尝试广播spark数据帧,尝试了几种方法,但无法广播它。我想从另一个数据帧中循环所有列以进行某些处理,其中Python PySpark-广播火花数据帧,python,scala,apache-spark,pyspark,Python,Scala,Apache Spark,Pyspark,我正在尝试广播spark数据帧,尝试了几种方法,但无法广播它。我想从另一个数据帧中循环所有列以进行某些处理,其中SchemaWithHeadercolName Result为1。例如,Name、Age和Salary列需要循环 方法1 低于误差 SchemaWithHeader = rdd.map(lambda x: Row(ColName=x[0], Result=bool(x[1]))) AttributeError: 'Broadcast' object has no attribut
SchemaWithHeader
colName Result为1。例如,Name、Age和Salary列需要循环
- 方法1
SchemaWithHeader = rdd.map(lambda x: Row(ColName=x[0], Result=bool(x[1])))
AttributeError: 'Broadcast' object has no attribute 'map'
py4j.Py4JException: Method __getstate__([]) does not exist
Dataframe没有任何广播方法。我不是使用SQL查询来连接两个数据帧,而是使用一些循环来访问SchemaWithHeader
数据帧
- 方法2
SchemaWithHeader = rdd.map(lambda x: Row(ColName=x[0], Result=bool(x[1])))
AttributeError: 'Broadcast' object has no attribute 'map'
py4j.Py4JException: Method __getstate__([]) does not exist
错误说明一切。。。在下面的代码中
rdd = spark.sparkContext.broadcast(SchemaDFWithoutHeader)
rdd是一个广播变量,在其上使用map do rdd.value。下面是使用它的方法
SchemaWithHeader = rdd.value.map(lambda x: Row(ColName=x[0], Result=bool(x[1])))
希望这有助于。。。与社区保持共享:)
编辑1:
由于您正在广播一个列表,rdd.value将为您提供一个列表作为输出。python中的列表没有映射函数。所以你们在评论中提到了错误。此外,如果您尝试广播RDD,您将得到以下错误
您似乎正试图广播RDD或从操作或转换引用RDD。RDD转换和操作只能由驱动程序调用,不能在其他转换内部调用
基本上,您不能广播RDD,因为它已经是一个分布式数据结构,并且具有分区,并且这些分区已经位于多台计算机上
注意:希望您编写的代码只是为了演示这个问题。因为我无法理解你在这背后的思考过程。然而,答案仍然有效。我建议您在项目中实施之前了解广播变量的概念
干杯
哈吉特谢谢哈吉特。。。是的,以上代码用于说明问题。我试图将
value.map
与rdd
一起使用,但获取错误'list'对象没有属性“map”
我的道歉。。。我假设你的代码是scala。。。您正在广播一个列表。。。所以当你尝试访问它时,你会得到一个列表。。。如果广播rdd,则会出现错误。我在回答中补充了解释