Apache spark 文本型自变量到数值型spark朴素贝叶斯_Apache Spark_Apache Spark Mllib_Naivebayes

Apache spark 文本型自变量到数值型spark朴素贝叶斯

apache-spark

Apache spark 文本型自变量到数值型spark朴素贝叶斯,apache-spark,apache-spark-mllib,naivebayes,Apache Spark,Apache Spark Mllib,Naivebayes,我对具有数字和非数字特征的朴素贝叶斯表示怀疑。就像我有5个独立的参数，我想对数据进行分类男性，怀疑酗酒，工作日，上午12点至4点，75,30-39 男性，移动交通违规，工作日，上午12点至4点，0,20-24 男性，涉嫌酗酒，周末，凌晨4点至8点，12,40-49 男性，怀疑酗酒，工作日，上午12点至4点，0,50-59 女性，道路交通碰撞，周末，下午12点至4点，0,20-24 男性，道路交通碰撞，工作日，中午12点至下午4点，0,25-29 男性，道路交通碰撞，工作日，晚上8点至12点，0

我对具有数字和非数字特征的朴素贝叶斯表示怀疑。就像我有5个独立的参数，我想对数据进行分类

男性，怀疑酗酒，工作日，上午12点至4点，75,30-39 男性，移动交通违规，工作日，上午12点至4点，0,20-24 男性，涉嫌酗酒，周末，凌晨4点至8点，12,40-49 男性，怀疑酗酒，工作日，上午12点至4点，0,50-59 女性，道路交通碰撞，周末，下午12点至4点，0,20-24 男性，道路交通碰撞，工作日，中午12点至下午4点，0,25-29 男性，道路交通碰撞，工作日，晚上8点至12点，0，其他男性，其他，工作日，上午8点至下午12点，23,60-69 男性，移动交通违规，周末，下午12:00-4:00，26,30-39 女性，道路交通碰撞，周末，上午4点至8点，61,16-19 男性，移动交通违规，周末，下午4点至8点，74,25-29 男性，道路交通碰撞，工作日，上午12点至4点，0，其他男性，移动交通违规，工作日，晚上8点至12点，0,16-19 男性，道路交通碰撞，工作日，晚上8点至12点，0，其他男性，移动交通违规，周末，凌晨4点至8点，0,30-39

您可以看到一些参数是数值的，一些是非数值的。任何人都知道如何将非数字数据转换为数字数据

如何将非数字转换为数字

如果我使用TF，那么它是否正确

如果TF是对的，为什么

您可以从以下内容开始：

通过应用分解器将每个要素转换为分类值。例如：
特征1：男性=0女性=1
功能2：酒精=0碰撞=1移动冲突=2

等等

一个“列”的每个不同可能值在分解结果中都应有其特定的数值表示。希望像

4pm-8pm

这样的事情是不重叠的：但如果它们是重叠的，你可以先忽略这些细节，然后在时间允许的情况下进行一些更智能的手动特性化

输入中的每个条目/行由十几个“特征”组成。然后可以从每条线创建一个特征向量。结果现在是tf idf就绪（TM）。您可以将NB算法应用于新生成的特征向量，并找到相对相似性。

您可以从以下内容开始：

通过应用分解器将每个要素转换为分类值。例如：
特征1：男性=0女性=1
功能2：酒精=0碰撞=1移动冲突=2

等等

一个“列”的每个不同可能值在分解结果中都应有其特定的数值表示。希望像

4pm-8pm

这样的事情是不重叠的：但如果它们是重叠的，你可以先忽略这些细节，然后在时间允许的情况下进行一些更智能的手动特性化

输入中的每个条目/行由十几个“特征”组成。然后可以从每条线创建一个特征向量。结果现在是tf idf就绪（TM）。您可以将NB算法应用于新创建的特征向量，并找到相对的相似性