Data mining 《编程集体智能》一书中的tanimoto系数_Data Mining

Data mining 《编程集体智能》一书中的tanimoto系数

Data mining 《编程集体智能》一书中的tanimoto系数,data-mining,Data Mining,我读过《编程集体智慧》一书。对于第二章的课后练习1，有人能告诉我如何计算谷本系数吗？一个具体的数学公式将非常受欢迎。对一个相关问题的广泛搜索为我提供了两个公式： T（a，b）=找到N_交叉点/（N_a+N_b-N_交叉点），这与维基百科上的相同，可读性稍高。编辑：根据你的评论，这就是OP想要的（n_11+n_00）/[n_11+2（n_10+n_01）+n_00]，其中 n_11:两者都有属性 n_00:两者都没有属性 n_01或n_10:只有第二个/第一个对象具有该属性对于第二个方程

我读过《编程集体智慧》一书。对于第二章的课后练习1，有人能告诉我如何计算谷本系数吗？一个具体的数学公式将非常受欢迎。

对一个相关问题的广泛搜索为我提供了两个公式：

T（a，b）=找到N_交叉点/（N_a+N_b-N_交叉点），这与维基百科上的相同，可读性稍高。编辑：根据你的评论，这就是OP想要的

（n_11+n_00）/[n_11+2（n_10+n_01）+n_00]，其中

n_11:两者都有属性
n_00:两者都没有属性
n_01或n_10:只有第二个/第一个对象具有该属性

对于第二个方程式的来源，请查看并根据相异性指数计算相似性指数（1-相异性）

我相信第二个公式在应用统计和应用营销中很常用。

是的，我用过谷歌，但我不确定书中提到的哪个是正确的：（我在这个网站上找到了答案，谢谢Joha。书中使用的公式是“1”。感谢您的扩展。