Java 管道字典大小

Java 管道字典大小,java,nlp,Java,Nlp,我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在将字典中的值从文件读入MapDictionary。当文件超过100000个条目时,解析器开始返回垃圾: 对于10k行(tail-10000 nameList.txt>shortNameList.txt) 现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了 Chunker。所有匹配项=false区分大小写=false 短语=|佐伊·罗杰斯|开始=69结束=79类型=球员

我已经基于LingPipe DictionaryChunker示例创建了一个测试程序。我正在将字典中的值从文件读入MapDictionary。当文件超过100000个条目时,解析器开始返回垃圾:

对于10k行(tail-10000 nameList.txt>shortNameList.txt)

现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了

Chunker。所有匹配项=false区分大小写=false 短语=|佐伊·罗杰斯|开始=69结束=79类型=球员得分=1.0

对于100k行(tail-100000 nameList.txt>shortNameList.txt)

现在是所有好人来帮助他们的国家的时候了佐伊·罗杰斯现在是所有好人来帮助他们的国家的时候了

Chunker。所有匹配项=false区分大小写=false 短语=|现在是所有好人的时候了|开始=0结束=32类型=球员得分=1.0 短语=|帮助他们的国家|开始=33结束=68类型=球员得分=1.0 短语=|佐伊·罗杰斯现在是所有人的时间|开始=69结束=103类型=球员得分=1.0 短语=|好男人来帮助|开始=104结束=134类型=球员得分=1.0

是否有更好的选项来创建MapDictionary

我对虚拟机的内存限制进行了调整,但这似乎没有什么帮助


有什么想法吗?

结果表明,允许MapDictionary中的任何值为null都会破坏chunker。删除任何具有空白值的行后,chunker工作正常