在JAVA中使用哪个NLP工具包?

在JAVA中使用哪个NLP工具包?,java,nlp,text-mining,Java,Nlp,Text Mining,我正在做一个项目,这个项目由一个网站组成,该网站连接到国家生物技术信息中心(NCBI),并在那里搜索文章。问题是我必须对所有结果进行文本挖掘。 我使用JAVA语言进行文本挖掘,使用AJAX和ICEFACES开发网站。 我有什么: 从搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 其思想是从每个抽象文本中获取关键字。 然后比较所有摘要中的关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词语。 有什么想法吗? 我在网上搜索了很多,我知道有命名实体识别,词性标注,有基因和蛋白质的N

我正在做一个项目,这个项目由一个网站组成,该网站连接到国家生物技术信息中心(NCBI),并在那里搜索文章。问题是我必须对所有结果进行文本挖掘。 我使用JAVA语言进行文本挖掘,使用AJAX和ICEFACES开发网站。 我有什么: 从搜索返回的文章列表。 每篇文章都有一个ID和一个摘要。 其思想是从每个抽象文本中获取关键字。 然后比较所有摘要中的关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词语。 有什么想法吗? 我在网上搜索了很多,我知道有命名实体识别,词性标注,有基因和蛋白质的NER GENIA同义词库,我已经尝试了词干分析。。。停止单词列表等。。。 我只需要知道解决这个问题的最佳方案。
非常感谢。

我建议您使用词性标记和字符串标记相结合的方法来提取每个摘要中的所有名词。。然后使用某种字典/散列来计算每个名词的频率,然后输出N个最多产的名词。。将其与其他一些智能过滤机制相结合,可以很好地为您提供摘要中的重要关键字
有关词性标注,请查看以下位置的词性标注器:


但是,如果您希望语料库中有大量多词术语。。不必只提取名词,您可以选择n=2到4的最丰富的词,这也可能与此相关:

它有停止字,字和ngram频率


它是背后软件的一部分。

有一个Apache项目用于此。。。我没有使用它,但是,它是一个开源的Apache项目。它在培养箱里,所以可能有点生的


这篇文章还有很多其他的建议。

我最终使用了

你能告诉我关于Postagger中的模型吗?它们是什么?我怎样才能训练邮递员?我是否需要不时更新培训?我在哪里可以买到这些模型?几个月前我用过他们的POS标签。。你不必训练任何东西。。他们提供了非常好的默认模型。。这个模型基本上规定了哪些单词应该用哪些词类来标注。。u shud首先下载它,然后按照自述说明获取一些示例输出我不确定,但我认为它使用的标记是“单词级”标记,稍后,您可以根据文本类型训练模型,您希望它是注释性的,但不要在早期阶段就考虑它,因为这将是一件非常繁琐的事情,您可以从java代码中以编程方式调用这些库(我不确定这样做的确切过程)或者只编写一个脚本,从命令行调用该脚本并将其输出存储在一个文件中,然后对该文件进行操作一个简单的方法就是这样做&然后从列表中删除所有已关闭的类标记单词()