Scala java.io.NotSerializableException:org.apache.spark.sql.Column当我使用带有UDF的条件创建一个新列时
我基于文本摘要创建了一个数据框,以查找文档频率(DF)和反向文档频率(IDF) 下面是包含文档频率和单词标记的列- 但是,当我尝试使用用户定义的函数计算数据帧中每一行的IDF时,我得到了上面提到的错误 下面是udf(迭代每行)和函数(计算IDF)的代码Scala java.io.NotSerializableException:org.apache.spark.sql.Column当我使用带有UDF的条件创建一个新列时,scala,apache-spark-sql,Scala,Apache Spark Sql,我基于文本摘要创建了一个数据框,以查找文档频率(DF)和反向文档频率(IDF) 下面是包含文档频率和单词标记的列- 但是,当我尝试使用用户定义的函数计算数据帧中每一行的IDF时,我得到了上面提到的错误 下面是udf(迭代每行)和函数(计算IDF)的代码 您可能不需要自己编写函数来计算IDF,因为它已经在spark mllib中实现,请参见: 此外,如果不了解calcIDF函数是如何定义的,我们就无法对NotSerializableException提供太多帮助。我添加了该函数来计算ID
您可能不需要自己编写函数来计算IDF,因为它已经在spark mllib中实现,请参见:
此外,如果不了解calcIDF函数是如何定义的,我们就无法对NotSerializableException提供太多帮助。我添加了该函数来计算IDF