Apache spark 文本型自变量到数值型spark朴素贝叶斯

Apache spark 文本型自变量到数值型spark朴素贝叶斯,apache-spark,apache-spark-mllib,naivebayes,Apache Spark,Apache Spark Mllib,Naivebayes,我对具有数字和非数字特征的朴素贝叶斯表示怀疑。就像我有5个独立的参数,我想对数据进行分类 男性,怀疑酗酒,工作日,上午12点至4点,75,30-39 男性,移动交通违规,工作日,上午12点至4点,0,20-24 男性,涉嫌酗酒,周末,凌晨4点至8点,12,40-49 男性,怀疑酗酒,工作日,上午12点至4点,0,50-59 女性,道路交通碰撞,周末,下午12点至4点,0,20-24 男性,道路交通碰撞,工作日,中午12点至下午4点,0,25-29 男性,道路交通碰撞,工作日,晚上8点至12点,0

我对具有数字和非数字特征的朴素贝叶斯表示怀疑。就像我有5个独立的参数,我想对数据进行分类

男性,怀疑酗酒,工作日,上午12点至4点,75,30-39 男性,移动交通违规,工作日,上午12点至4点,0,20-24 男性,涉嫌酗酒,周末,凌晨4点至8点,12,40-49 男性,怀疑酗酒,工作日,上午12点至4点,0,50-59 女性,道路交通碰撞,周末,下午12点至4点,0,20-24 男性,道路交通碰撞,工作日,中午12点至下午4点,0,25-29 男性,道路交通碰撞,工作日,晚上8点至12点,0,其他 男性,其他,工作日,上午8点至下午12点,23,60-69 男性,移动交通违规,周末,下午12:00-4:00,26,30-39 女性,道路交通碰撞,周末,上午4点至8点,61,16-19 男性,移动交通违规,周末,下午4点至8点,74,25-29 男性,道路交通碰撞,工作日,上午12点至4点,0,其他 男性,移动交通违规,工作日,晚上8点至12点,0,16-19 男性,道路交通碰撞,工作日,晚上8点至12点,0,其他 男性,移动交通违规,周末,凌晨4点至8点,0,30-39

您可以看到一些参数是数值的,一些是非数值的。任何人都知道如何将非数字数据转换为数字数据

  • 如何将非数字转换为数字
  • 如果我使用TF,那么它是否正确
  • 如果TF是对的,为什么

  • 您可以从以下内容开始:

    • 通过应用分解器将每个要素转换为分类值。例如:

    • 特征1:男性=0女性=1

    • 功能2:酒精=0碰撞=1移动冲突=2
    等等

    一个“列”的每个不同可能值在分解结果中都应有其特定的数值表示。希望像
    4pm-8pm
    这样的事情是不重叠的:但如果它们是重叠的,你可以先忽略这些细节,然后在时间允许的情况下进行一些更智能的手动特性化


    输入中的每个条目/行由十几个“特征”组成。然后可以从每条线创建一个特征向量。结果现在是tf idf就绪(TM)。您可以将NB算法应用于新生成的特征向量,并找到相对相似性。

    您可以从以下内容开始:

    • 通过应用分解器将每个要素转换为分类值。例如:

    • 特征1:男性=0女性=1

    • 功能2:酒精=0碰撞=1移动冲突=2
    等等

    一个“列”的每个不同可能值在分解结果中都应有其特定的数值表示。希望像
    4pm-8pm
    这样的事情是不重叠的:但如果它们是重叠的,你可以先忽略这些细节,然后在时间允许的情况下进行一些更智能的手动特性化

    输入中的每个条目/行由十几个“特征”组成。然后可以从每条线创建一个特征向量。结果现在是tf idf就绪(TM)。您可以将NB算法应用于新创建的特征向量,并找到相对的相似性