Java 管道字典大小_Java_Nlp - Fatal编程技术网

Java 管道字典大小

java nlp

Java 管道字典大小,java,nlp,Java,Nlp,我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在将字典中的值从文件读入MapDictionary。当文件超过100000个条目时，解析器开始返回垃圾：对于10k行（tail-10000 nameList.txt>shortNameList.txt）现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了 Chunker。所有匹配项=false区分大小写=false 短语=|佐伊·罗杰斯|开始=69结束=79类型=球员

我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在将字典中的值从文件读入MapDictionary。当文件超过100000个条目时，解析器开始返回垃圾：

对于10k行（tail-10000 nameList.txt>shortNameList.txt）

现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了

Chunker。所有匹配项=false区分大小写=false 短语=|佐伊·罗杰斯|开始=69结束=79类型=球员得分=1.0

对于100k行（tail-100000 nameList.txt>shortNameList.txt）

现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了

是否有更好的选项来创建MapDictionary

我对虚拟机的内存限制进行了调整，但这似乎没有什么帮助

有什么想法吗？

结果表明，允许MapDictionary中的任何值为null都会破坏chunker。删除任何具有空白值的行后，chunker工作正常