Apache spark Spark数据帧转换-删除少于3个字母的字

Apache spark Spark数据帧转换-删除少于3个字母的字,apache-spark,apache-spark-mllib,apache-spark-ml,Apache Spark,Apache Spark Mllib,Apache Spark Ml,我正在使用RegexTokenizer和StopWordsRemover来tokenize我的数据集进行模型构建。同时,我想删除少于3个字母的单词。还有http和https。我该怎么做?这是我的密码: ` 在正则表达式生成器中找到setMinTokenLength(3) val trainDF = sqlContext.read.jdbc(url, table, prop) // Tokenize val tokenizer = new RegexTokenizer() .setG

我正在使用
RegexTokenizer
StopWordsRemover
tokenize
我的数据集进行模型构建。同时,我想删除少于3个字母的单词。还有
http
https
。我该怎么做?这是我的密码: `

在正则表达式生成器中找到setMinTokenLength(3)

val trainDF = sqlContext.read.jdbc(url, table, prop)

 // Tokenize
 val tokenizer = new RegexTokenizer()
    .setGaps(false)
    .setPattern("\\p{L}+")
    .setInputCol("posttext")
    .setOutputCol("words")
 val tokenizedDF = tokenizer.transform(trainDF)

 val filterer = new StopWordsRemover()
  .setCaseSensitive(false)
  .setInputCol("words")
  .setOutputCol("tokens")

 val filteredDF = filterer.transform(tokenizedDF)`