Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/276.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将Scala映射转换为Python for Spark 作为随机森林的PAR:_Python_Scala_Apache Spark_Pyspark_Random Forest - Fatal编程技术网

将Scala映射转换为Python for Spark 作为随机森林的PAR:

将Scala映射转换为Python for Spark 作为随机森林的PAR:,python,scala,apache-spark,pyspark,random-forest,Python,Scala,Apache Spark,Pyspark,Random Forest,这里有一些背景 val forest = RandomForest.trainClassifier( trainData, 7, Map(10 -> 4, 11 -> 40), 20, "auto", "entropy", 30, 300) 我不知道映射(10->4,11->40)是什么意思 python或pyspark的等价物是什么 这本质上相当于Python字典 所以 变成 categoricalFeaturesInfo={10: 4, 11: 40} 我不确定是否像

这里有一些背景

val forest = RandomForest.trainClassifier(
  trainData, 7, Map(10 -> 4, 11 -> 40), 20,
  "auto", "entropy", 30, 300)
  • 我不知道映射(10->4,11->40)是什么意思
  • python或pyspark的等价物是什么
    这本质上相当于Python字典

    所以

    变成

    categoricalFeaturesInfo={10: 4, 11: 40}
    

    我不确定是否像这样表示随机林:
    model=randomfreest.trainClassifier(trainingData,numclass=7,{10:4,11:40},numTrees=20,featureSubsetStrategy=“auto”,杂质='熵',maxDepth=30,maxBins=300)
    错误提示:SyntaxError:non-keyword arg在关键字arg之后,因为您要命名参数,您还需要指定此参数的名称,请在上面编辑谢谢@Nick。这至少不会出错,但我仍然不确定10->4和11->40是什么,代码进入无限循环,因为我认为我无法解析数据。抱歉,我以为问题与地图有关。这是为了将分类变量映射到类别数。任何不在此映射/字典中的内容都将被视为连续变量。这表明索引10处的变量有4个不同的值,索引11处的特征有40个。
    categoricalFeaturesInfo={10: 4, 11: 40}