Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 用贝叶斯方法处理连续数据_Apache Spark_Apache Spark Mllib_Naivebayes - Fatal编程技术网

Apache spark 用贝叶斯方法处理连续数据

Apache spark 用贝叶斯方法处理连续数据,apache-spark,apache-spark-mllib,naivebayes,Apache Spark,Apache Spark Mllib,Naivebayes,根据Spark Bayes的官方文件: 它支持多项式NB(参见此处),它可以有限地处理 支持离散数据 如何处理Spark NaiveBayes中的连续数据(例如:某些文档中某些数据的百分比)?当前的实现只能处理二进制功能,因此为了获得良好的结果,您必须对数据进行离散化和编码。对于离散化,可以使用或。前者成本较低,当您想使用某些特定领域的知识时,可能更适合使用前者 对于编码,可以使用虚拟编码。使用调整后的dropLastParam 因此,总体而言,您需要: 量化器或Bucketizer->one

根据Spark Bayes的官方文件:

它支持多项式NB(参见此处),它可以有限地处理 支持离散数据


如何处理Spark NaiveBayes中的连续数据(例如:某些文档中某些数据的百分比)?

当前的实现只能处理二进制功能,因此为了获得良好的结果,您必须对数据进行离散化和编码。对于离散化,可以使用或。前者成本较低,当您想使用某些特定领域的知识时,可能更适合使用前者

对于编码,可以使用虚拟编码。使用调整后的
dropLast
Param

因此,总体而言,您需要:

  • 量化器
    Bucketizer
    ->
    onehotcoder
    用于每个连续特征
  • StringIndexer
    *->
    onehotcoder
    用于每个离散功能
  • VectorAssembler
    组合上述所有功能
*或预定义的列元数据