Algorithm “我该怎么办?”;相关标签;?

Algorithm “我该怎么办?”;相关标签;?,algorithm,database-design,language-agnostic,machine-learning,tagging,Algorithm,Database Design,Language Agnostic,Machine Learning,Tagging,我在我的网站上有标签,我在创建博客文章时一个接一个地输入它们。我喜欢gmail的新功能,它会问你是否想在邮件中包含X,是否键入Y的名字,以及你是否经常在同一封邮件中包含这两个名字 我想在我的网站上做一些类似的事情,但我不知道如何在对象或数据库中表示标记“相关度”。。。想法?你应该看看这篇文章: 如果您正在寻找用于存储相关标记的模式,它会有所帮助。多个代理参与的相关性搜索通常使用。你可能想看看 这一切归结起来就是在你的文章的某些特征和某些标签之间创建关联,然后——当你按下“发布”按钮时——分析新

我在我的网站上有标签,我在创建博客文章时一个接一个地输入它们。我喜欢gmail的新功能,它会问你是否想在邮件中包含X,是否键入Y的名字,以及你是否经常在同一封邮件中包含这两个名字


我想在我的网站上做一些类似的事情,但我不知道如何在对象或数据库中表示标记“相关度”。。。想法?

你应该看看这篇文章:


如果您正在寻找用于存储相关标记的模式,它会有所帮助。

多个代理参与的相关性搜索通常使用。你可能想看看

这一切归结起来就是在你的文章的某些特征和某些标签之间创建关联,然后——当你按下“发布”按钮时——分析新文章并提出与你的文章特征匹配的所有标签

这可以通过几种方式实现,从“完全硬编码”的关联到某种“学习人工智能”。。。以及介于两者之间的一切

硬编码解决方案 这是要实现的最简单的算法。你应该首先决定你的文章的哪些特征与标记相关(例如:如果你标记它们为“短”或“长”,那么它的长度,如果你标记它们为“多媒体内容”,那么照片或视频的存在等等)。然而,最明显的是关注帖子中使用的词语。例如,您可以构建如下映射:

tag_hint_words = {'code-development' : ['programming', 
                                        'language', 'python', 'function', 
                                        'object', 'method'],
                  'family' : ['Theresa', 'kids', 
                              'uncle Ben', 'holidays']}
然后,您将检查您的帖子是否存在列表中的单词(介于
[
]
之间的代码),并提出标签(在
之前的单词:
)作为可能的候选

一种常见的方法是给出“分数”,或者换句话说,输入一个数字,表示给定标签是正确标签的概率。例如:如果你的帖子包含以下句子

经过几个月的编程,我们终于离开本叔叔的小屋去度暑假了。特里萨和孩子们欣喜若狂

…尽管存在“编程”一词,但该程序应指出最有可能使用的标记是“族”,因为还有更多的词语暗示

学习人工智能 上述方法的一个明显的局限性是——比如说有一天你在python旁边学习java——你可能需要修改你的代码,包括“java”或“oracle”之类的词。如果创建新的标记,同样适用

为了绕过这个限制(并获得一些乐趣!!),您可以尝试实现一个学习算法。学习算法是那些在你使用它们越多的情况下对结果进行改进的算法(因此它们确实……学习!)。有些算法需要初始训练(许多垃圾邮件过滤器和语音识别程序需要初始“入门”)。有些没有

我绝对不是这方面的专家,但两种常见的人工智能是:和一些味道的

尽管WP页面看起来很吓人,但它们的实现却出人意料地简单(至少在Python中是如此)。这是2009年PyCon的一次演讲的录音,主题是“”。我发现这本书内容丰富,甚至令人鼓舞!:)

查找(机器学习算法)。不要被数学吓倒,它是一个非常简单的算法。查看许多机器学习算法和方法的简单解释