Computer science 关键词/标记的空间映射_Computer Science_Taxonomy

Computer science 关键词/标记的空间映射

computer-science

Computer science 关键词/标记的空间映射,computer-science,taxonomy,Computer Science,Taxonomy,我正在试图理解构建相关/常用关键字或标记的空间地图的策略或想法。以SO为例；如果您转到并键入“python”，您将获得所有包含该单词的标记，但没有可能密切相关的标记（WSGI、Google的应用程序引擎、flying等）根据我的问题，您如何构建一个空间地图，可以通过查询从搜索中找到密切相关的标签/关键字，并按其权重排序？但是，如何将tag foo的重量存储到可能更多的标签上，并保持系统的响应性呢我已经看过大卫·温伯格（David Weinberger）的谷歌科技演讲，这是一场让我深思的伟大科

我正在试图理解构建相关/常用关键字或标记的空间地图的策略或想法。以SO为例；如果您转到并键入“python”，您将获得所有包含该单词的标记，但没有可能密切相关的标记（WSGI、Google的应用程序引擎、flying等）

根据我的问题，您如何构建一个空间地图，可以通过查询从搜索中找到密切相关的标签/关键字，并按其权重排序？但是，如何将tag foo的重量存储到可能更多的标签上，并保持系统的响应性呢

我已经看过大卫·温伯格（David Weinberger）的谷歌科技演讲，这是一场让我深思的伟大科技演讲。

你需要一个好的搜索引擎

自己动手：实现一个相似性算法。例如：或

或者使用一些现成的东西，比如。

你需要一个好的搜索引擎

自己动手：实现一个相似性算法。例如：或

或者使用一些随时可用的东西，比如。

似乎构建有关此类关系的数据的最有可能的方法是对最常出现在一起的标记进行分类，同时与最少数量的其他标记一起出现

也就是说，“c++”和“stl”经常一起出现，而“stl”很少在没有“c++”的情况下出现，因此它们是相关的（至少在一个方向上）。“c++”和“algorithm”也经常出现在一起，但它们出现的频率更高，因此它们并不相关。

似乎最有可能建立有关此类关系的数据的方法是，将最常出现在一起的标记编入目录，同时与最少数量的其他标记一起出现

也就是说，“c++”和“stl”经常一起出现，而“stl”很少在没有“c++”的情况下出现，因此它们是相关的（至少在一个方向上）。“c++”和“algorithm”也经常出现在一起，但它们更经常分开出现，因此它们之间没有关联。

在思考如何构造数据时，我的一个想法可能是四表系统。一个表是源数据（例如，必须有某种类型的问题表），它连接到标记表，然后是连接回标记表的标记权重表

#pseudo code
     source table {
     id: int
     source_data: text   
     }

     source_tag table {
        source_id: int
        tag_id: int
     }

     tag table{
      id: int
      tag: String(30)
     }

    tag_weight table {
        base_tag_id: int
        weight: float( 0-10 or 100 ) or int ( count of mutual occurrence )
        source_tag_id: int      
    }

我不知道这个结构的效率有多高，但我想这是需要努力的。否则，为了使其正常工作，对源数据的新接纳可能会触发更新后触发器，或者让后台工作进程在预设时间重新平衡权重。

在考虑如何构建数据时，我的一个想法可能是一个四表系统。一个表是源数据（例如，必须有某种类型的问题表），它连接到标记表，然后是连接回标记表的标记权重表

#pseudo code
     source table {
     id: int
     source_data: text   
     }

     source_tag table {
        source_id: int
        tag_id: int
     }

     tag table{
      id: int
      tag: String(30)
     }

    tag_weight table {
        base_tag_id: int
        weight: float( 0-10 or 100 ) or int ( count of mutual occurrence )
        source_tag_id: int      
    }

我不知道这个结构的效率有多高，但我想这是需要努力的。否则，要使其正常工作，对源数据的新接纳可能会触发更新后触发器，或者让后台工作进程在预设时间重新平衡权重。

检查O'Reilly的聚类概念。

Levenshtein distance在“python”和“pithon”中发现相似之处Levenshtein distance在“python”和“pithon”中找到了相似之处，而不是“python”和“WSGI”，它们听起来更像是一个知情搜索（），通常是基于树的，依赖于人来指定结构。该结构将由现有的标记问题指定，听起来更像是一个知情搜索（）它通常是基于树的，依赖于人来口述结构。该结构将由现有的标记问题口述