Apache spark ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较_Apache Spark_Rdd

Apache spark ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较

apache-spark

Apache spark ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较,apache-spark,rdd,Apache Spark,Rdd,ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较欢迎提出建议以提高我们的知识。map（func）它有什么作用？通过提供的函数传递RDD的每个元素；i、 e.func flatMap（func）与映射类似，但每个输入项都可以映射到0个或多个输出项（因此func应该返回一个序列而不是单个项）将flatMap与下面的map进行比较映射分区（func）考虑MeaTimes是一个性能优化的工具。与跨集群运行相比，在

ApacheSpark:map与flatMap、mapPartitions与mapPartitionsWithIndex的比较

欢迎提出建议以提高我们的知识。

map（func） 它有什么作用？通过提供的函数传递RDD的每个元素；i、 e.func

flatMap（func） 与映射类似，但每个输入项都可以映射到0个或多个输出项（因此func应该返回一个序列而不是单个项）

将flatMap与下面的map进行比较

映射分区（func） 考虑MeaTimes是一个性能优化的工具。与跨集群运行相比，在本地计算机上运行示例对您没有多大帮助。它与map相同，但可用于Spark RDD分区。记住RDD中的第一个D是“分布式的”——弹性分布式数据集。或者，换句话说，您可以说它是分布在分区上的。

MapPartitionsSwithindex（函数） 与mapPartitions类似，但也提供了一个具有Int值的函数来指示分区的索引位置。

如果我们将上述示例更改为使用具有3个切片的并行化列表，那么我们的输出将发生显著变化： 地图（功能） 它有什么作用？通过提供的函数传递RDD的每个元素；i、 e.func

flatMap（func） 与映射类似，但每个输入项都可以映射到0个或多个输出项（因此func应该返回一个序列而不是单个项）

将flatMap与下面的map进行比较

MapPartitionsSwithindex（函数） 与mapPartitions类似，但也提供了一个具有Int值的函数来指示分区的索引位置。

如果我们将上述示例更改为使用具有3个切片的并行化列表，那么我们的输出将发生显著变化：