RDD跳过标题-Pyspark

RDD跳过标题-Pyspark,pyspark,rdd,Pyspark,Rdd,我想读取带有标题的RDD。我在这里发现了类似的问题,但它对我不起作用 else iter} 所以我试过了 def f(idx, iter): if idx==0: iter.drop(1) else: yield list(iterator) rdd2 = rdd.mapPartitionsWithIndex(f) 但它说AttributeError:“generator”对象没有属性“drop” 有什么帮助吗?试试这样的方法: def f(i

我想读取带有标题的RDD。我在这里发现了类似的问题,但它对我不起作用

else iter}

所以我试过了

def f(idx, iter): 
    if idx==0:
        iter.drop(1)
    else:
        yield list(iterator)
rdd2 = rdd.mapPartitionsWithIndex(f)
但它说AttributeError:“generator”对象没有属性“drop”


有什么帮助吗?

试试这样的方法:

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])

试着这样做:

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])

通过收集标题并过滤掉找到了简单的方法,但我想了解更多关于mapPartitions如何工作的信息。通过收集标题并过滤掉找到了简单的方法,但我想了解更多关于mapPartitions如何工作的信息。它是如何工作的!谢谢你!谢谢