朴素贝叶斯文本分类计算,最好在MySQL或java中做

朴素贝叶斯文本分类计算,最好在MySQL或java中做,java,mysql,Java,Mysql,给出了朴素贝叶斯中类条件概率的计算方法 P(t|c) = Log2((n1+1)/(n2+n3)) 在哪里 t=令牌x;c=x类 n1=类x中令牌x的数量 n2=x类中所有令牌的数量 n3=所有类中所有令牌的数量 在MySQL或Java中进行计算(当然我们需要从MySQL中获取数据才能在Java中使用),哪一个更快?朴素贝叶斯分类器在计算上很简单,但需要大量的数据操作。当应用于文本时,您通常会在文本中查找许多不同的术语 我自然倾向于用SQL进行这些类型的计算。我至少认为MySQL是一个合理的环

给出了朴素贝叶斯中类条件概率的计算方法

P(t|c) = Log2((n1+1)/(n2+n3))
在哪里

  • t=令牌x;c=x类
  • n1=类x中令牌x的数量
  • n2=x类中所有令牌的数量
  • n3=所有类中所有令牌的数量

  • 在MySQL或Java中进行计算(当然我们需要从MySQL中获取数据才能在Java中使用),哪一个更快?

    朴素贝叶斯分类器在计算上很简单,但需要大量的数据操作。当应用于文本时,您通常会在文本中查找许多不同的术语


    我自然倾向于用SQL进行这些类型的计算。我至少认为MySQL是一个合理的环境。根据问题的确切性质和数据的结构,您可能会发现全文索引是有帮助的。在应用程序端使用大型语料库(数十或数百GB)时,我会非常谨慎。我的书《使用SQL和Excel进行数据分析》中有一章专门介绍朴素贝叶斯和类似类型的模型。

    哪一个更快?