Database 如何根据“标记”匹配标记的项目;相似性“;

Database 如何根据“标记”匹配标记的项目;相似性“;,database,tagging,nearest-neighbor,trigonometry,Database,Tagging,Nearest Neighbor,Trigonometry,我有一个真正的问题 我有一个模式如下的数据库: 项目 身份证 描述 其他垃圾 标记 身份证 名字 item2tag 项目编号 标签号 计数 基本上,每个项目被标记为最多10个项目,具有不同的计数。共有50000个项目和50000个标签,items2tag中约有500000个条目。我想找出,给定一个项目,最相似的项目 “最相似”是指标签组合最相似的物品。。。如果某个东西是“酷”的两倍,那么它是“有趣”的两倍,那么我想找到所有其他几乎是“酷”的东西,它们是“有趣”的两倍。当然,这应该适用

我有一个真正的问题

我有一个模式如下的数据库:

项目

  • 身份证
  • 描述
  • 其他垃圾
标记

  • 身份证
  • 名字
item2tag

  • 项目编号
  • 标签号
  • 计数
基本上,每个项目被标记为最多10个项目,具有不同的计数。共有50000个项目和50000个标签,items2tag中约有500000个条目。我想找出,给定一个项目,最相似的项目

“最相似”是指标签组合最相似的物品。。。如果某个东西是“酷”的两倍,那么它是“有趣”的两倍,那么我想找到所有其他几乎是“酷”的东西,它们是“有趣”的两倍。当然,这应该适用于10个标签,而不仅仅是2个


有什么想法吗?

好吧,你可以看看线性代数,给每个项目赋予一个n维向量,然后计算项目之间的距离,找到最接近的项目,但即使是小数据集,这也相当复杂

这就是为什么谷歌推出了MapReduce。这可能是你最好的选择,但即便如此,这也不是小事


-Adam

好吧,你可以看看线性代数,给每个项目赋予一个n维向量,然后计算项目之间的距离,找到最接近的项目,但即使是小数据集也很复杂

这就是为什么谷歌推出了MapReduce。这可能是你最好的选择,但即便如此,这也不是小事


-Adam

如果将项目标记关系表示为向量, 你所拥有的只是一个例子。
您可以在字段中找到指针。

如果您将项目标记关系表示为向量, 你所拥有的只是一个例子。 你可以在这个领域找到指针