pyspark:如何在spark 1.6.3上使用法语配置StopWordsRever
我想知道如何在spark 1.6.3中使用法语配置StopWordsRever 我目前正在使用pyspark 谢谢你的帮助pyspark:如何在spark 1.6.3上使用法语配置StopWordsRever,pyspark,stop-words,Pyspark,Stop Words,我想知道如何在spark 1.6.3中使用法语配置StopWordsRever 我目前正在使用pyspark 谢谢你的帮助 非常感谢,基于Python Spark 1.6.3,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“stopwords”参数提供自己的stopwords列表。查看该软件包 我用它来表达葡萄牙语: from pyspark.ml.feature import StopWordsRemover import nltk n
非常感谢,基于Python Spark 1.6.3,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“stopwords”参数提供自己的stopwords列表。查看该软件包 我用它来表达葡萄牙语:
from pyspark.ml.feature import StopWordsRemover
import nltk
nltk.download("stopwords")
...
stopwordList = nltk.corpus.stopwords.words('portuguese')
remover = StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol="stopWordsRem", stopWords=stopwordList)
希望它有帮助有一个参数stopWords
,可以用来指定您自己的列表。您可以使用StopWordsRemover.loadDefaultStopWords('French')
获得法语停止词列表,但这似乎不适用于基于的v1.6.3。