Dataframe pyspark中的文本柠檬化返回一个TypeError:';列';对象不可调用

Dataframe pyspark中的文本柠檬化返回一个TypeError:';列';对象不可调用,dataframe,text,pyspark,lemmatization,mining,Dataframe,Text,Pyspark,Lemmatization,Mining,我花了很多时间试图找到解决这个问题的办法。我正在使用pyspark处理标记化的文本列数据帧,并尝试使用nltk对其进行元素化,但这会返回一个错误:TypeError:“column”对象不可调用。我的代码如下: def lemmatize(fullCorpus): lemmatizer = nltk.stem.WordNetLemmatizer() lemmatized = fullCorpus['filtered'].apply(lambda row: list(list(ma

我花了很多时间试图找到解决这个问题的办法。我正在使用pyspark处理标记化的文本列数据帧,并尝试使用nltk对其进行元素化,但这会返回一个错误:
TypeError:“column”对象不可调用
。我的代码如下:

def lemmatize(fullCorpus):
    lemmatizer = nltk.stem.WordNetLemmatizer()
    lemmatized = fullCorpus['filtered'].apply(lambda row: list(list(map(lemmatizer.lemmatize,y)) for y in row))
    return lemmatized
在我想将上述函数应用于我的dataframe字符串列之前,它可以正常工作:

election.withColumn("filtered", lemmatize(col("filtered")))
其中election是我的数据框架,“filtered”是我想用柠檬化的列

它返回以下错误:
AttributeError:“DataFrame”对象没有属性“col”
我尝试了很多类似使用f函数的方法,但都没有成功:
election.withColumn(“filtered”),lemmatize(f.col(“filtered”)

我还在数据帧上尝试了map和apply函数,它抛出了以下错误:
AttributeError:'dataframe'对象没有属性'apply'

请检查此项,很抱歉,无法使用udf找到解决方案。我尝试了udf_引理=udf(lambda x:lemmatize(x),StringType()),然后又尝试了udf_引理(col(“filtered”))为什么要在函数中执行fullCorpus['filtered'?完整语料库是数据帧还是数据列?列字符串的类型是什么?