Dataframe pyspark中的文本柠檬化返回一个TypeError:'；列'；对象不可调用_Dataframe_Text_Pyspark_Lemmatization_Mining

Dataframe pyspark中的文本柠檬化返回一个TypeError:'；列'；对象不可调用

dataframe text pyspark

Dataframe pyspark中的文本柠檬化返回一个TypeError:'；列'；对象不可调用,dataframe,text,pyspark,lemmatization,mining,Dataframe,Text,Pyspark,Lemmatization,Mining,我花了很多时间试图找到解决这个问题的办法。我正在使用pyspark处理标记化的文本列数据帧，并尝试使用nltk对其进行元素化，但这会返回一个错误：TypeError:“column”对象不可调用。我的代码如下： def lemmatize(fullCorpus): lemmatizer = nltk.stem.WordNetLemmatizer() lemmatized = fullCorpus['filtered'].apply(lambda row: list(list(ma

我花了很多时间试图找到解决这个问题的办法。我正在使用pyspark处理标记化的文本列数据帧，并尝试使用nltk对其进行元素化，但这会返回一个错误：

TypeError:“column”对象不可调用

。我的代码如下：

def lemmatize(fullCorpus):
    lemmatizer = nltk.stem.WordNetLemmatizer()
    lemmatized = fullCorpus['filtered'].apply(lambda row: list(list(map(lemmatizer.lemmatize,y)) for y in row))
    return lemmatized

在我想将上述函数应用于我的dataframe字符串列之前，它可以正常工作：

election.withColumn("filtered", lemmatize(col("filtered")))

其中election是我的数据框架，“filtered”是我想用柠檬化的列

它返回以下错误：

AttributeError:“DataFrame”对象没有属性“col”

我尝试了很多类似使用f函数的方法，但都没有成功：

election.withColumn（“filtered”），lemmatize（f.col（“filtered”）

我还在数据帧上尝试了map和apply函数，它抛出了以下错误：

AttributeError:'dataframe'对象没有属性'apply'

请检查此项，很抱歉，无法使用udf找到解决方案。我尝试了udf_引理=udf（lambda x:lemmatize（x），StringType（）），然后又尝试了udf_引理（col（“filtered”））为什么要在函数中执行fullCorpus['filtered'？完整语料库是数据帧还是数据列？列字符串的类型是什么？