Python';NLTK与相关Java库?

Python';NLTK与相关Java库?,java,python,information-retrieval,nltk,wordnet,Java,Python,Information Retrieval,Nltk,Wordnet,在我以前的Java项目中,我使用了LingPipe、斯坦福大学的NER、RiTa和各种句子相似性库,这些项目的重点是对大量英文文本(大约10000个文档,总计超过1gb的文本)进行文本(预)处理(索引、xml标记、主题检测等)。也许我是个糟糕的Java程序员,但当我切换到不同的语料库时,我发现自己输入了很多代码,使用了很多库。总的来说,我觉得这项工作可能有更好的工具 我想我的问题是,切换到Python和NLTK进行信息检索/语言处理是否会让我受益?还是有足够的赞成和反对意见使它变得非常主观?NL

在我以前的Java项目中,我使用了LingPipe、斯坦福大学的NER、RiTa和各种句子相似性库,这些项目的重点是对大量英文文本(大约10000个文档,总计超过1gb的文本)进行文本(预)处理(索引、xml标记、主题检测等)。也许我是个糟糕的Java程序员,但当我切换到不同的语料库时,我发现自己输入了很多代码,使用了很多库。总的来说,我觉得这项工作可能有更好的工具

我想我的问题是,切换到Python和NLTK进行信息检索/语言处理是否会让我受益?还是有足够的赞成和反对意见使它变得非常主观?NLTK足够直观,可以快速学习吗

我会弄脏我的手,但在接下来的几天里我将无法使用个人电脑

有利于自然语言处理。我把它用于我的数据挖掘项目。您可以训练自己的分析器。学习曲线并不陡峭

NLTK为您的分析器的培训提供了大量语料库。您还可以提供自己的一组数据,例如,一份带有词性标记的日志

因为python非常适合文本处理,所以您可以尝试一下。另外,它还有一个在线

请不要忘记使用Python2.x版本。试试python 2.6。
NLTK可能不适合Python3.x,如果您已经了解了NLP的基本知识,我认为NLTK应该很容易掌握。它有一堆文档,两本书,我已经写了很多关于它的文章和教程。如果您不想丢失Java包中的任何东西,理论上可以使用Jython将其与NLTK结合起来(也许还可以)


您可能还想看看图书馆。

谢谢您的建议。这一领域的大多数人似乎更喜欢Python和NLTK,但Java解决方案的数量之多让我觉得我放弃了一艘更具浮力的船。我想我认识你……雅各布,在我的毕业论文中引用了你的一些文章!很酷,被引用总是很好:)你不能使用Jython,因为Jython上没有numpy:(。