Tags 如何从文本中提取关键字（标记）_Tags_Nlp_Keyword_Nltk

Tags 如何从文本中提取关键字（标记）

tags nlp

Tags 如何从文本中提取关键字（标记）,tags,nlp,keyword,nltk,Tags,Nlp,Keyword,Nltk,我目前正在尝试用Java实现一个标记引擎，并搜索从文本（文章）中提取关键字/标记的解决方案。我在stackoverflow上找到了一些解决方案，建议使用点式互信息我不能使用pyton和nltk，所以我必须自己实现它。但是我不知道如何计算概率。方程式如下所示： PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ] 我想知道的是如何计算p（术语，doc）我已经有了一个lange文本语料库和一系列文章。这些文章不是语料库的一部分。

我目前正在尝试用Java实现一个标记引擎，并搜索从文本（文章）中提取关键字/标记的解决方案。我在stackoverflow上找到了一些解决方案，建议使用点式互信息

我不能使用pyton和nltk，所以我必须自己实现它。但是我不知道如何计算概率。方程式如下所示：

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

我想知道的是如何计算p（术语，doc）

我已经有了一个lange文本语料库和一系列文章。这些文章不是语料库的一部分。语料库用lucene索引

请帮帮我。

致以最诚挚的问候。

有很多算法可以实现这一点：

开源工具：

kea（）监督方法使用训练数据和受控词汇表

maui indexer（）基本上是kea的扩展，它提供了使用百科全书提取关键短语的工具

carrot2（）用于关键短语提取的无监督方法。它支持输入、输出格式和关键短语提取参数的多种变化

mallet主题建模模块（）

斯坦福主题建模工具（）

Mahout聚类算法（）

商业api:

炼金术API（）

泽曼塔API（）

yahoo term extraction api（）

要提取标记还是计算概率？你的标题建议提取标签，但你的问题是你不知道如何计算概率-为什么你关心概率？我想提取标签，因此我必须计算P（术语，doc），但我不知道如何计算为什么你必须计算任何东西？请定义“提取标签”。我有一个文本，希望从给定的文本内容中提取/生成单个单词标签。PMI似乎是一个很好的解决方案，但我不知道如何正确地实现它，因为我不知道如何计算P（术语，doc）。这个答案是从