Data mining 《编程集体智能》一书中的tanimoto系数

Data mining 《编程集体智能》一书中的tanimoto系数,data-mining,Data Mining,我读过《编程集体智慧》一书。对于第二章的课后练习1,有人能告诉我如何计算谷本系数吗?一个具体的数学公式将非常受欢迎。对一个相关问题的广泛搜索为我提供了两个公式: T(a,b)=找到N_交叉点/(N_a+N_b-N_交叉点),这与维基百科上的相同,可读性稍高。 编辑:根据你的评论,这就是OP想要的 (n_11+n_00)/[n_11+2(n_10+n_01)+n_00],其中 n_11:两者都有属性 n_00:两者都没有属性 n_01或n_10:只有第二个/第一个对象具有该属性 对于第二个方程

我读过《编程集体智慧》一书。对于第二章的课后练习1,有人能告诉我如何计算谷本系数吗?一个具体的数学公式将非常受欢迎。

对一个相关问题的广泛搜索为我提供了两个公式:

  • T(a,b)=找到N_交叉点/(N_a+N_b-N_交叉点),这与维基百科上的相同,可读性稍高。 编辑:根据你的评论,这就是OP想要的

  • (n_11+n_00)/[n_11+2(n_10+n_01)+n_00],其中

    • n_11:两者都有属性
    • n_00:两者都没有属性
    • n_01或n_10:只有第二个/第一个对象具有该属性
  • 对于第二个方程式的来源,请查看并根据相异性指数计算相似性指数(1-相异性)


    我相信第二个公式在应用统计和应用营销中很常用。

    是的,我用过谷歌,但我不确定书中提到的哪个是正确的:(我在这个网站上找到了答案,谢谢Joha。书中使用的公式是“1”。感谢您的扩展。