Apache spark ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较

Apache spark ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较,apache-spark,rdd,Apache Spark,Rdd,ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较 欢迎提出建议以提高我们的知识。map(func) 它有什么作用?通过提供的函数传递RDD的每个元素;i、 e.func flatMap(func) 与映射类似,但每个输入项都可以映射到0个或多个输出项(因此func应该返回一个序列而不是单个项) 将flatMap与下面的map进行比较 映射分区(func) 考虑MeaTimes是一个性能优化的工具。与跨集群运行相比,在

ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较

欢迎提出建议以提高我们的知识。

map(func) 它有什么作用?通过提供的函数传递RDD的每个元素;i、 e.func

flatMap(func) 与映射类似,但每个输入项都可以映射到0个或多个输出项(因此func应该返回一个序列而不是单个项)

将flatMap与下面的map进行比较

映射分区(func) 考虑MeaTimes是一个性能优化的工具。与跨集群运行相比,在本地计算机上运行示例对您没有多大帮助。它与map相同,但可用于Spark RDD分区。记住RDD中的第一个D是“分布式的”——弹性分布式数据集。或者,换句话说,您可以说它是分布在分区上的。

MapPartitionsSwithindex(函数) 与mapPartitions类似,但也提供了一个具有Int值的函数来指示分区的索引位置。

如果我们将上述示例更改为使用具有3个切片的并行化列表,那么我们的输出将发生显著变化: 地图(功能) 它有什么作用?通过提供的函数传递RDD的每个元素;i、 e.func

flatMap(func) 与映射类似,但每个输入项都可以映射到0个或多个输出项(因此func应该返回一个序列而不是单个项)

将flatMap与下面的map进行比较

映射分区(func) 考虑MeaTimes是一个性能优化的工具。与跨集群运行相比,在本地计算机上运行示例对您没有多大帮助。它与map相同,但可用于Spark RDD分区。记住RDD中的第一个D是“分布式的”——弹性分布式数据集。或者,换句话说,您可以说它是分布在分区上的。

MapPartitionsSwithindex(函数) 与mapPartitions类似,但也提供了一个具有Int值的函数来指示分区的索引位置。

如果我们将上述示例更改为使用具有3个切片的并行化列表,那么我们的输出将发生显著变化: