Java 斯坦福大学CoreNLP-未知变量：工作日_Java_Stanford Nlp

Java 斯坦福大学CoreNLP-未知变量：工作日

java stanford-nlp

Java 斯坦福大学CoreNLP-未知变量：工作日,java,stanford-nlp,Java,Stanford Nlp,我使用斯坦福CoreNLP处理英语Gigaword语料库的NYT部分。当仍在进行时，会多次记录以下消息：未知变量：工作日每次记录此消息时，内存消耗都会增加。现在大约是23.8GB。有人知道这个问题是关于什么的吗我使用的是Github提供的Stanford CoreNLP 3.6.0，提交id为4FD28DC48616E568A2DD6EEB09B9769D1E3F4E和以下型号Stanford-english-CoreNLP-2016-01-10-models。我的管道看起来像这样：“注释

我使用斯坦福CoreNLP处理英语Gigaword语料库的NYT部分。当仍在进行时，会多次记录以下消息：

未知变量：工作日

每次记录此消息时，内存消耗都会增加。现在大约是23.8GB。有人知道这个问题是关于什么的吗

我使用的是Github提供的Stanford CoreNLP 3.6.0，提交id为4FD28DC48616E568A2DD6EEB09B9769D1E3F4E和以下型号

Stanford-english-CoreNLP-2016-01-10-models

。我的管道看起来像这样：

“注释器”、“标记化、ssplit、pos、引理、ner、parse、depparse、提纲、coref”

我已经知道这个问题了。但没有人回答

这个问题应该通过这个拉取请求来解决：

哎哟！嗯，有两个人有这个问题，所以一定是真的，但我不知道答案。工作日在

english.sutime.txt

和

sutime.java

中定义。加载时您是否看到一条日志消息，上面写着从edu/stanford/nlp/models/sutime/english.sutime.txt读取令牌REGEX规则，然后读取267规则？您能否提供导致此错误的命令行或属性文件以及文档？感谢调查！包含自启动管道以来所有消息的完整日志。我无法提供文档，因为Gigaword语料库已获得许可。但是要找到示例代码和相应的语料库文件名。但是，我需要纠正我自己的代码是使用最新的CoreNLP和通过maven提供的模型。非常感谢！我们有英文Gigaword，因此如果您知道导致问题的特定文件或文档ID，这将有助于缩小范围，但我们可以从这里开始。我没有“当前文件处理”日志消息。我的错误。导致日志中coref错误的句子“[…]量子物理的迷人领域[…]”来自文件“NYT_ENG_20060202.0103”。所以我猜“NYT_ENG_20060202”文件可能会触发“工作日”问题。否则，请尝试在此之后处理的“NYT_ENG_20060201”。我不确定是哪个具体文件触发了它。