Apache spark 用贝叶斯方法处理连续数据
根据Spark Bayes的官方文件: 它支持多项式NB(参见此处),它可以有限地处理 支持离散数据Apache spark 用贝叶斯方法处理连续数据,apache-spark,apache-spark-mllib,naivebayes,Apache Spark,Apache Spark Mllib,Naivebayes,根据Spark Bayes的官方文件: 它支持多项式NB(参见此处),它可以有限地处理 支持离散数据 如何处理Spark NaiveBayes中的连续数据(例如:某些文档中某些数据的百分比)?当前的实现只能处理二进制功能,因此为了获得良好的结果,您必须对数据进行离散化和编码。对于离散化,可以使用或。前者成本较低,当您想使用某些特定领域的知识时,可能更适合使用前者 对于编码,可以使用虚拟编码。使用调整后的dropLastParam 因此,总体而言,您需要: 量化器或Bucketizer->one
如何处理Spark NaiveBayes中的连续数据(例如:某些文档中某些数据的百分比)?当前的实现只能处理二进制功能,因此为了获得良好的结果,您必须对数据进行离散化和编码。对于离散化,可以使用或。前者成本较低,当您想使用某些特定领域的知识时,可能更适合使用前者 对于编码,可以使用虚拟编码。使用调整后的
dropLast
Param
因此,总体而言,您需要:
或量化器
->Bucketizer
用于每个连续特征onehotcoder
*->StringIndexer
用于每个离散功能onehotcoder
组合上述所有功能VectorAssembler