Database 如何根据“标记”匹配标记的项目;相似性“;
我有一个真正的问题 我有一个模式如下的数据库: 项目Database 如何根据“标记”匹配标记的项目;相似性“;,database,tagging,nearest-neighbor,trigonometry,Database,Tagging,Nearest Neighbor,Trigonometry,我有一个真正的问题 我有一个模式如下的数据库: 项目 身份证 描述 其他垃圾 标记 身份证 名字 item2tag 项目编号 标签号 计数 基本上,每个项目被标记为最多10个项目,具有不同的计数。共有50000个项目和50000个标签,items2tag中约有500000个条目。我想找出,给定一个项目,最相似的项目 “最相似”是指标签组合最相似的物品。。。如果某个东西是“酷”的两倍,那么它是“有趣”的两倍,那么我想找到所有其他几乎是“酷”的东西,它们是“有趣”的两倍。当然,这应该适用
- 身份证
- 描述
- 其他垃圾
- 身份证
- 名字
- 项目编号
- 标签号
- 计数
有什么想法吗?好吧,你可以看看线性代数,给每个项目赋予一个n维向量,然后计算项目之间的距离,找到最接近的项目,但即使是小数据集,这也相当复杂 这就是为什么谷歌推出了MapReduce。这可能是你最好的选择,但即便如此,这也不是小事
-Adam好吧,你可以看看线性代数,给每个项目赋予一个n维向量,然后计算项目之间的距离,找到最接近的项目,但即使是小数据集也很复杂 这就是为什么谷歌推出了MapReduce。这可能是你最好的选择,但即便如此,这也不是小事
-Adam如果将项目标记关系表示为向量, 你所拥有的只是一个例子。
您可以在字段中找到指针。如果您将项目标记关系表示为向量, 你所拥有的只是一个例子。 你可以在这个领域找到指针