Php 文本标注的nlp算法_Php_Algorithm_Nlp_Data Mining_Stanford Nlp

Php 文本标注的nlp算法

php algorithm nlp stanford-nlp

Php 文本标注的nlp算法,php,algorithm,nlp,data-mining,stanford-nlp,Php,Algorithm,Nlp,Data Mining,Stanford Nlp,我正在寻找开源工具，它可以帮助识别社交媒体上任何用户帖子的标签，并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天，我也找不到任何合适的工具/库在这里，我提出了自己的算法，用于标记属于7个类别（工作、讨论、事件、文章、服务、买卖、人才）的用户帖子最初，当用户发布帖子时，他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此，考虑一下我有标签的帖子和它们属于哪个类别。步骤：在用户帖子上执行词性标记。这里可以做两件事只考虑名词。名词可能代表post more的标记凭

我正在寻找开源工具，它可以帮助识别社交媒体上任何用户帖子的

标签

，并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天，我也找不到任何合适的工具/库

在这里，我提出了自己的算法，用于标记属于7个类别（工作、讨论、事件、文章、服务、买卖、人才）的用户帖子

最初，当用户发布帖子时，他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此，考虑一下我有标签的帖子和它们属于哪个类别。

步骤：

在用户帖子上执行词性标记。这里可以做两件事

只考虑名词。名词可能代表post more的标记凭直觉我猜
把名词和形容词都考虑在内。在这里我们可以收集大的名词和形容词的数量。此类词语的使用频率识别该帖子的标签

对于每个用户定义的标签，我们将收集属于特定标签的帖子的POS。例子。考虑用户指定的标签<代码>营销< /代码>，此标签包含POS单词<代码> SEO > />代码>代码> AdWords < /代码>。假设

marketing

标签的10个帖子分别包含

SEO和adwords

5次和7次。所以下一次当用户帖子出现时，它没有任何标签，但包含POS单词

SEO

<代码>搜索引擎优化在营销标签中出现的次数最多

7次

，因此我们将预测这篇文章的

营销

标签

接下来的步骤是识别帖子的垃圾邮件或离题评论。考虑一个用户帖子，用于<代码>作业> /代码>类别。这篇文章包含标签

营销

。现在，我将在数据库中查找营销中最常见的10-15个词性标记（即名词和形容词）

我有那个评论的POS标签。我将检查这篇文章的POS（名词和ADJ）是否包含最频繁的标签（我们可以考虑15-20个这样的POS标签）属于<代码>营销< /代码>。

如果评论中的POS与市场营销中最常见、最热门的POS不匹配，则该评论可以说是离题的/span

你有什么建议可以让这个算法更直观吗？？

我想SVM可以帮助分类，有什么建议吗？

除此之外，机器学习技术还可以帮助学习预测标签和垃圾邮件（主题外）评论的系统

任何线性分类器都适用于文本分类。根据我的经验，Logistic回归或SVM适合于文本分类

您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

任何线性分类器都适用于文本分类。根据我的经验，Logistic回归或SVM适合于文本分类

您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

任何线性分类器都适用于文本分类。根据我的经验，Logistic回归或SVM适合于文本分类

您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

任何线性分类器都适用于文本分类。根据我的经验，Logistic回归或SVM适合于文本分类

您也可以尝试使用朴素贝叶斯多项式分类器。这是与几个垃圾邮件分类器上的垃圾邮件分类一起使用的。

我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间，但这是一个额外的步骤，可能会导致显著的错误率。你真的在乎你是在看

market/N

而不是

market/V

大多数使用朴素贝叶斯分类器的主线文本分类实现只是忽略了词性，而只是将每个不同的单词形式作为一个独立的特征进行计数。（您也可以使用蛮力词干分析将

市场

、

市场

、和

营销

简化为单一词干形式，从而简化为单一功能。这通常适用于英语，但如果您实际使用的是另一种语言，则可能不够。）

一种折衷方法是在训练分类器时进行POS过滤。然后，没有名词读物的单词形式在分类器中的得分为零，因此在使用生成的分类器时，您不必做任何事情来过滤掉它们

从经验上看，支持向量机倾向于实现高精度，但它在实现和行为上都以复杂性为代价。朴素贝叶斯分类器的显著优势在于，您可以准确地理解它是如何得出特定结论的。（嗯，我们大多数凡人都不能声称对SVM背后的数学有同样的把握。）一个好的方法可能是用Bayes原型，并且在学习系统作为一个整体的行为的时候，剔除任何扭结，然后在其他部分稳定之后再考虑切换到SVM？< /P>

“垃圾邮件”类别将比任何定义良好的内容类别更难。很有可能会有人认为，任何不符合您的内容类别的内容都是离题的，但如果您打算将结论用于自动垃圾邮件过滤，这可能会导致一些误报，至少在早期阶段是如此。一个可能的替代方案是为特定的垃圾邮件类别训练分类器——一个用于药物，另一个用于跑鞋等。

我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间，但这是一个额外的步骤，具有潜在的优势