Nlp 如何根据上下文从文本中提取单词

Nlp 如何根据上下文从文本中提取单词,nlp,text-mining,extraction,linguistics,Nlp,Text Mining,Extraction,Linguistics,我想从用户提供的文本语句中提取相关单词。 对于一个问题“一个矩形有多少边?” 单词应该是“矩形”、“边”、“多个”、“如何” 我们已经发现,我的目标是建立一个NLP问答系统。 但现在我只想从问题中提取所需的关键字, 这些问题的范围不是很广 我见过各种各样的数据挖掘工具,但不确定它们是否真的有用。它们似乎有点过于先进,或者没有确切的联系 请让我知道是否有任何工具,适合的要求,或者我应该继续并尝试自己编码 请提供您认为可能有帮助的任何类型的指针。如果您只有问题,您可以尝试词性标记(POS)和命名实体

我想从用户提供的文本语句中提取相关单词。 对于一个问题“一个矩形有多少边?” 单词应该是“矩形”、“边”、“多个”、“如何”

我们已经发现,我的目标是建立一个NLP问答系统。 但现在我只想从问题中提取所需的关键字, 这些问题的范围不是很广

我见过各种各样的数据挖掘工具,但不确定它们是否真的有用。它们似乎有点过于先进,或者没有确切的联系

请让我知道是否有任何工具,适合的要求,或者我应该继续并尝试自己编码


请提供您认为可能有帮助的任何类型的指针。

如果您只有问题,您可以尝试词性标记(POS)和命名实体提取(NER)。这些名词特别有意思。有许多开源工具,如Brill的词性标记、Lingpipe、open NLP等。但是,如果你也有一个你感兴趣的领域的语料库,你可以通过使用单词和短语的频率与其他一些基本语料库相比的差异来提取关键词和短语。给出一个问题,然后你可以寻找那些关键词和短语。

除了srean建议使用词性标注和NER外,许多人使用搜索引擎工具(特别是,但还有一些其他工具)来回答问题。他们为一组应该包含答案的文档编制索引,将问题用作查询,检索一组文档并过滤这些文档以找到答案。搜索引擎工具具有内置的术语权重

这是基线设置;对于更高级的系统,他们对问题和文档进行各种预处理,包括停止词过滤、词性标记、解析、NER、遗传算法等


有关此设置的示例,请参阅。

LingPipe不是开源的。他们提供源代码,但仍然是专有的。不过,这是一个好办法。