Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/278.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 文本标注的nlp算法_Php_Algorithm_Nlp_Data Mining_Stanford Nlp - Fatal编程技术网

Php 文本标注的nlp算法

Php 文本标注的nlp算法,php,algorithm,nlp,data-mining,stanford-nlp,Php,Algorithm,Nlp,Data Mining,Stanford Nlp,我正在寻找开源工具,它可以帮助识别社交媒体上任何用户帖子的标签,并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天,我也找不到任何合适的工具/库 在这里,我提出了自己的算法,用于标记属于7个类别(工作、讨论、事件、文章、服务、买卖、人才)的用户帖子 最初,当用户发布帖子时,他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此,考虑一下我有标签的帖子和它们属于哪个类别。 步骤: 在用户帖子上执行词性标记。 这里可以做两件事 只考虑名词。名词可能代表post more的标记 凭

我正在寻找开源工具,它可以帮助识别社交媒体上任何用户帖子的
标签
,并识别该帖子上的主题/非主题或垃圾邮件评论。即使找了一整天,我也找不到任何合适的工具/库

在这里,我提出了自己的算法,用于标记属于7个类别(工作、讨论、事件、文章、服务、买卖、人才)的用户帖子

最初,当用户发布帖子时,他会标记自己的帖子。标签可以是营销、建议、创业、跨国公司等。因此,考虑一下我有标签的帖子和它们属于哪个类别。

步骤:

  • 在用户帖子上执行词性标记。 这里可以做两件事

    • 只考虑名词。名词可能代表post more的标记 凭直觉我猜

    • 把名词和形容词都考虑在内。在这里我们可以收集大的 名词和形容词的数量。此类词语的使用频率 识别该帖子的标签

  • 对于每个用户定义的标签,我们将收集属于特定标签的帖子的POS。例子。考虑用户指定的标签<代码>营销< /代码>,此标签包含POS单词<代码> SEO > />代码>代码> AdWords < /代码>。假设
    marketing
    标签的10个帖子分别包含
    SEO和adwords
    5次和7次。所以下一次当用户帖子出现时,它没有任何标签,但包含POS单词
    SEO
    <代码>搜索引擎优化在营销标签中出现的次数最多
    7次
    ,因此我们将预测这篇文章的
    营销
    标签

  • 接下来的步骤是识别帖子的垃圾邮件或离题评论。 考虑一个用户帖子,用于<代码>作业> /代码>类别。这篇文章包含标签
    营销
    。现在,我将在数据库中查找营销中最常见的10-15个词性标记(即名词和形容词)

    我有那个评论的POS标签。我将检查这篇文章的POS(名词和ADJ)是否包含最频繁的标签(我们可以考虑15-20个这样的POS标签)属于<代码>营销< /代码>。
  • 如果评论中的POS与市场营销中最常见、最热门的POS不匹配,则该评论可以说是离题的/span

    你有什么建议可以让这个算法更直观吗??

    我想SVM可以帮助分类,有什么建议吗?


    除此之外,机器学习技术还可以帮助学习预测标签和垃圾邮件(主题外)评论的系统

    任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类


    您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

    任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类


    您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

    任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类


    您也可以尝试使用朴素贝叶斯多项式分类器。这与几个电子邮件垃圾邮件分类器上的垃圾邮件分类一起使用。

    任何线性分类器都适用于文本分类。根据我的经验,Logistic回归或SVM适合于文本分类


    您也可以尝试使用朴素贝叶斯多项式分类器。这是与几个垃圾邮件分类器上的垃圾邮件分类一起使用的。

    我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间,但这是一个额外的步骤,可能会导致显著的错误率。你真的在乎你是在看
    market/N
    而不是
    market/V

    大多数使用朴素贝叶斯分类器的主线文本分类实现只是忽略了词性,而只是将每个不同的单词形式作为一个独立的特征进行计数。(您也可以使用蛮力词干分析将
    市场
    市场
    、和
    营销
    简化为单一词干形式,从而简化为单一功能。这通常适用于英语,但如果您实际使用的是另一种语言,则可能不够。)

    一种折衷方法是在训练分类器时进行POS过滤。然后,没有名词读物的单词形式在分类器中的得分为零,因此在使用生成的分类器时,您不必做任何事情来过滤掉它们

    从经验上看,支持向量机倾向于实现高精度,但它在实现和行为上都以复杂性为代价。朴素贝叶斯分类器的显著优势在于,您可以准确地理解它是如何得出特定结论的。(嗯,我们大多数凡人都不能声称对SVM背后的数学有同样的把握。)一个好的方法可能是用Bayes原型,并且在学习系统作为一个整体的行为的时候,剔除任何扭结,然后在其他部分稳定之后再考虑切换到SVM?< /P>
    “垃圾邮件”类别将比任何定义良好的内容类别更难。很有可能会有人认为,任何不符合您的内容类别的内容都是离题的,但如果您打算将结论用于自动垃圾邮件过滤,这可能会导致一些误报,至少在早期阶段是如此。一个可能的替代方案是为特定的垃圾邮件类别训练分类器——一个用于药物,另一个用于跑鞋等。

    我看到的主要问题是您的功能建模。虽然只挑选名词有助于减少特征空间,但这是一个额外的步骤,具有潜在的优势