Php 文本标注的nlp算法
我正在寻找开源工具,它可以帮助识别社交媒体上任何用户帖子的Php 文本标注的nlp算法,php,algorithm,nlp,data-mining,stanford-nlp,Php,Algorithm,Nlp,Data Mining,Stanford Nlp,我正在寻找开源工具,它可以帮助识别社交媒体上任何用户帖子的标签,并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天,我也找不到任何合适的工具/库 在这里,我提出了自己的算法,用于标记属于7个类别(工作、讨论、事件、文章、服务、买卖、人才)的用户帖子 最初,当用户发布帖子时,他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此,考虑一下我有标签的帖子和它们属于哪个类别。 步骤: 在用户帖子上执行词性标记。 这里可以做两件事 只考虑名词。名词可能代表post more的标记 凭
标签
,并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天,我也找不到任何合适的工具/库
在这里,我提出了自己的算法,用于标记属于7个类别(工作、讨论、事件、文章、服务、买卖、人才)的用户帖子
最初,当用户发布帖子时,他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此,考虑一下我有标签的帖子和它们属于哪个类别。
步骤:
- 只考虑名词。名词可能代表post more的标记 凭直觉我猜
- 把名词和形容词都考虑在内。在这里我们可以收集大的 名词和形容词的数量。此类词语的使用频率 识别该帖子的标签
marketing
标签的10个帖子分别包含SEO和adwords
5次和7次。所以下一次当用户帖子出现时,它没有任何标签,但包含POS单词SEO
<代码>搜索引擎优化在营销标签中出现的次数最多7次
,因此我们将预测这篇文章的营销
标签营销
。现在,我将在数据库中查找营销中最常见的10-15个词性标记(即名词和形容词)
我有那个评论的POS标签。我将检查这篇文章的POS(名词和ADJ)是否包含最频繁的标签(我们可以考虑15-20个这样的POS标签)属于<代码>营销< /代码>。除此之外,机器学习技术还可以帮助学习预测标签和垃圾邮件(主题外)评论的系统任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类
您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类
您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类
您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类
您也可以尝试使用朴素贝叶斯多项式分类器。这是与几个垃圾邮件分类器上的垃圾邮件分类一起使用的。我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间,但这是一个额外的步骤,可能会导致显著的错误率。你真的在乎你是在看
market/N
而不是market/V
大多数使用朴素贝叶斯分类器的主线文本分类实现只是忽略了词性,而只是将每个不同的单词形式作为一个独立的特征进行计数。(您也可以使用蛮力词干分析将市场
、市场
、和营销
简化为单一词干形式,从而简化为单一功能。这通常适用于英语,但如果您实际使用的是另一种语言,则可能不够。)
一种折衷方法是在训练分类器时进行POS过滤。然后,没有名词读物的单词形式在分类器中的得分为零,因此在使用生成的分类器时,您不必做任何事情来过滤掉它们
从经验上看,支持向量机倾向于实现高精度,但它在实现和行为上都以复杂性为代价。朴素贝叶斯分类器的显著优势在于,您可以准确地理解它是如何得出特定结论的。(嗯,我们大多数凡人都不能声称对SVM背后的数学有同样的把握。)一个好的方法可能是用Bayes原型,并且在学习系统作为一个整体的行为的时候,剔除任何扭结,然后在其他部分稳定之后再考虑切换到SVM?< /P>
“垃圾邮件”类别将比任何定义良好的内容类别更难。很有可能会有人认为,任何不符合您的内容类别的内容都是离题的,但如果您打算将结论用于自动垃圾邮件过滤,这可能会导致一些误报,至少在早期阶段是如此。一个可能的替代方案是为特定的垃圾邮件类别训练分类器——一个用于药物,另一个用于跑鞋等。我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间,但这是一个额外的步骤,具有潜在的优势