RDD跳过标题-Pyspark_Pyspark_Rdd

RDD跳过标题-Pyspark

pyspark

RDD跳过标题-Pyspark,pyspark,rdd,Pyspark,Rdd,我想读取带有标题的RDD。我在这里发现了类似的问题，但它对我不起作用 else iter} 所以我试过了 def f(idx, iter): if idx==0: iter.drop(1) else: yield list(iterator) rdd2 = rdd.mapPartitionsWithIndex(f) 但它说AttributeError:“generator”对象没有属性“drop” 有什么帮助吗？试试这样的方法： def f(i

我想读取带有标题的RDD。我在这里发现了类似的问题，但它对我不起作用

else iter}

所以我试过了

def f(idx, iter): 
    if idx==0:
        iter.drop(1)
    else:
        yield list(iterator)
rdd2 = rdd.mapPartitionsWithIndex(f)

但它说AttributeError:“generator”对象没有属性“drop”

有什么帮助吗？

试试这样的方法：

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])

试着这样做：

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])

通过收集标题并过滤掉找到了简单的方法，但我想了解更多关于mapPartitions如何工作的信息。通过收集标题并过滤掉找到了简单的方法，但我想了解更多关于mapPartitions如何工作的信息。它是如何工作的！谢谢你！谢谢