Pandas 斯卡拉和熊猫的火花
我想在Spark应用程序中使用Panda的转换,如Melt等。 我正在使用Scala作为Spark,我必须使用一些功能,比如Melt from Pandas,有可能吗 我看到熊猫和Pypark在笔记本电脑中携手共进。(如果没有更多细节,很难提供示例,所以这个答案只包括文档链接等。) 在Spark的最新版本中,支持所谓的Pandas UDF,即获取Pandas系列或dataframe作为参数并返回系列或参数,因此可以执行Pandas函数以获得结果。Pandas UDF比传统Python UDF快得多,因为优化了数据序列化等。有关更多详细信息,请参阅和Pandas 斯卡拉和熊猫的火花,pandas,scala,apache-spark,pyspark,Pandas,Scala,Apache Spark,Pyspark,我想在Spark应用程序中使用Panda的转换,如Melt等。 我正在使用Scala作为Spark,我必须使用一些功能,比如Melt from Pandas,有可能吗 我看到熊猫和Pypark在笔记本电脑中携手共进。(如果没有更多细节,很难提供示例,所以这个答案只包括文档链接等。) 在Spark的最新版本中,支持所谓的Pandas UDF,即获取Pandas系列或dataframe作为参数并返回系列或参数,因此可以执行Pandas函数以获得结果。Pandas UDF比传统Python UDF快
另一种选择是使用Spark的库,该库正在重新实现Pandas API,但正在Spark上执行。有一个问题,但一定要阅读文档,了解行为上可能存在的差异。可能存在重复,但没有合适的解决方案:我想这里是您需要的答案