Java 斯坦福大学CoreNLP-未知变量:工作日
我使用斯坦福CoreNLP处理英语Gigaword语料库的NYT部分。当仍在进行时,会多次记录以下消息:Java 斯坦福大学CoreNLP-未知变量:工作日,java,stanford-nlp,Java,Stanford Nlp,我使用斯坦福CoreNLP处理英语Gigaword语料库的NYT部分。当仍在进行时,会多次记录以下消息: 未知变量:工作日 每次记录此消息时,内存消耗都会增加。现在大约是23.8GB。有人知道这个问题是关于什么的吗 我使用的是Github提供的Stanford CoreNLP 3.6.0,提交id为4FD28DC48616E568A2DD6EEB09B9769D1E3F4E和以下型号Stanford-english-CoreNLP-2016-01-10-models。我的管道看起来像这样:“注释
未知变量:工作日
每次记录此消息时,内存消耗都会增加。现在大约是23.8GB。有人知道这个问题是关于什么的吗
我使用的是Github提供的Stanford CoreNLP 3.6.0,提交id为4FD28DC48616E568A2DD6EEB09B9769D1E3F4E和以下型号Stanford-english-CoreNLP-2016-01-10-models
。我的管道看起来像这样:“注释器”、“标记化、ssplit、pos、引理、ner、parse、depparse、提纲、coref”
我已经知道这个问题了。但没有人回答 这个问题应该通过这个拉取请求来解决:哎哟!嗯,有两个人有这个问题,所以一定是真的,但我不知道答案。工作日在
english.sutime.txt
和sutime.java
中定义。加载时您是否看到一条日志消息,上面写着从edu/stanford/nlp/models/sutime/english.sutime.txt读取令牌REGEX规则,然后读取267规则?您能否提供导致此错误的命令行或属性文件以及文档?感谢调查!包含自启动管道以来所有消息的完整日志。我无法提供文档,因为Gigaword语料库已获得许可。但是要找到示例代码和相应的语料库文件名。但是,我需要纠正我自己的代码是使用最新的CoreNLP和通过maven提供的模型。非常感谢!我们有英文Gigaword,因此如果您知道导致问题的特定文件或文档ID,这将有助于缩小范围,但我们可以从这里开始。我没有“当前文件处理”日志消息。我的错误。导致日志中coref错误的句子“[…]量子物理的迷人领域[…]”来自文件“NYT_ENG_20060202.0103”。所以我猜“NYT_ENG_20060202”文件可能会触发“工作日”问题。否则,请尝试在此之后处理的“NYT_ENG_20060201”。我不确定是哪个具体文件触发了它。