将Scala映射转换为Python for Spark 作为随机森林的PAR：_Python_Scala_Apache Spark_Pyspark_Random Forest

将Scala映射转换为Python for Spark 作为随机森林的PAR：

python scala apache-spark pyspark

将Scala映射转换为Python for Spark 作为随机森林的PAR：,python,scala,apache-spark,pyspark,random-forest,Python,Scala,Apache Spark,Pyspark,Random Forest,这里有一些背景 val forest = RandomForest.trainClassifier( trainData, 7, Map(10 -> 4, 11 -> 40), 20, "auto", "entropy", 30, 300) 我不知道映射（10->4，11->40）是什么意思 python或pyspark的等价物是什么这本质上相当于Python字典所以变成 categoricalFeaturesInfo={10: 4, 11: 40} 我不确定是否像

这里有一些背景

val forest = RandomForest.trainClassifier(
  trainData, 7, Map(10 -> 4, 11 -> 40), 20,
  "auto", "entropy", 30, 300)

我不知道映射（10->4，11->40）是什么意思

python或pyspark的等价物是什么

这本质上相当于Python字典

所以

变成

categoricalFeaturesInfo={10: 4, 11: 40}

我不确定是否像这样表示随机林：

model=randomfreest.trainClassifier（trainingData，numclass=7，{10:4,11:40}，numTrees=20，featureSubsetStrategy=“auto”，杂质='熵'，maxDepth=30，maxBins=300）

错误提示：SyntaxError:non-keyword arg在关键字arg之后，因为您要命名参数，您还需要指定此参数的名称，请在上面编辑谢谢@Nick。这至少不会出错，但我仍然不确定10->4和11->40是什么，代码进入无限循环，因为我认为我无法解析数据。抱歉，我以为问题与地图有关。这是为了将分类变量映射到类别数。任何不在此映射/字典中的内容都将被视为连续变量。这表明索引10处的变量有4个不同的值，索引11处的特征有40个。

categoricalFeaturesInfo={10: 4, 11: 40}