Apache spark 用贝叶斯方法处理连续数据_Apache Spark_Apache Spark Mllib_Naivebayes

Apache spark 用贝叶斯方法处理连续数据

apache-spark

Apache spark 用贝叶斯方法处理连续数据,apache-spark,apache-spark-mllib,naivebayes,Apache Spark,Apache Spark Mllib,Naivebayes,根据Spark Bayes的官方文件：它支持多项式NB（参见此处），它可以有限地处理支持离散数据如何处理Spark NaiveBayes中的连续数据（例如：某些文档中某些数据的百分比）？当前的实现只能处理二进制功能，因此为了获得良好的结果，您必须对数据进行离散化和编码。对于离散化，可以使用或。前者成本较低，当您想使用某些特定领域的知识时，可能更适合使用前者对于编码，可以使用虚拟编码。使用调整后的dropLastParam 因此，总体而言，您需要：量化器或Bucketizer->one

根据Spark Bayes的官方文件：

它支持多项式NB（参见此处），它可以有限地处理支持离散数据

如何处理Spark NaiveBayes中的连续数据（例如：某些文档中某些数据的百分比）？

当前的实现只能处理二进制功能，因此为了获得良好的结果，您必须对数据进行离散化和编码。对于离散化，可以使用或。前者成本较低，当您想使用某些特定领域的知识时，可能更适合使用前者

对于编码，可以使用虚拟编码。使用调整后的

dropLast

Param

因此，总体而言，您需要：

```
量化器
```
或
```
Bucketizer
```
->
```
onehotcoder
```
用于每个连续特征
```
StringIndexer
```
*->
```
onehotcoder
```
用于每个离散功能
```
VectorAssembler
```
组合上述所有功能

*或预定义的列元数据