pyspark:如何在spark 1.6.3上使用法语配置StopWordsRever

pyspark:如何在spark 1.6.3上使用法语配置StopWordsRever,pyspark,stop-words,Pyspark,Stop Words,我想知道如何在spark 1.6.3中使用法语配置StopWordsRever 我目前正在使用pyspark 谢谢你的帮助 非常感谢,基于Python Spark 1.6.3,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“stopwords”参数提供自己的stopwords列表。查看该软件包 我用它来表达葡萄牙语: from pyspark.ml.feature import StopWordsRemover import nltk n

我想知道如何在spark 1.6.3中使用法语配置StopWordsRever

我目前正在使用pyspark

谢谢你的帮助


非常感谢,

基于Python Spark 1.6.3,pyspark.ml.feature.StopWordsRemover没有语言参数。但是,您始终可以通过“stopwords”参数提供自己的stopwords列表。

查看该软件包

我用它来表达葡萄牙语:

from pyspark.ml.feature import StopWordsRemover
import nltk
nltk.download("stopwords")

...

stopwordList = nltk.corpus.stopwords.words('portuguese')
remover = StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol="stopWordsRem", stopWords=stopwordList)
希望它有帮助

有一个参数
stopWords
,可以用来指定您自己的列表。您可以使用
StopWordsRemover.loadDefaultStopWords('French')
获得法语停止词列表,但这似乎不适用于基于的v1.6.3。