将Scala映射转换为Python for Spark 作为随机森林的PAR:
这里有一些背景将Scala映射转换为Python for Spark 作为随机森林的PAR:,python,scala,apache-spark,pyspark,random-forest,Python,Scala,Apache Spark,Pyspark,Random Forest,这里有一些背景 val forest = RandomForest.trainClassifier( trainData, 7, Map(10 -> 4, 11 -> 40), 20, "auto", "entropy", 30, 300) 我不知道映射(10->4,11->40)是什么意思 python或pyspark的等价物是什么 这本质上相当于Python字典 所以 变成 categoricalFeaturesInfo={10: 4, 11: 40} 我不确定是否像
val forest = RandomForest.trainClassifier(
trainData, 7, Map(10 -> 4, 11 -> 40), 20,
"auto", "entropy", 30, 300)
这本质上相当于Python字典 所以 变成
categoricalFeaturesInfo={10: 4, 11: 40}
我不确定是否像这样表示随机林:
model=randomfreest.trainClassifier(trainingData,numclass=7,{10:4,11:40},numTrees=20,featureSubsetStrategy=“auto”,杂质='熵',maxDepth=30,maxBins=300)
错误提示:SyntaxError:non-keyword arg在关键字arg之后,因为您要命名参数,您还需要指定此参数的名称,请在上面编辑谢谢@Nick。这至少不会出错,但我仍然不确定10->4和11->40是什么,代码进入无限循环,因为我认为我无法解析数据。抱歉,我以为问题与地图有关。这是为了将分类变量映射到类别数。任何不在此映射/字典中的内容都将被视为连续变量。这表明索引10处的变量有4个不同的值,索引11处的特征有40个。
categoricalFeaturesInfo={10: 4, 11: 40}