Stanford nlp 如何使用斯坦福NLP(或其他软件包)来训练我自己的coref(共指消解)模型?

Stanford nlp 如何使用斯坦福NLP(或其他软件包)来训练我自己的coref(共指消解)模型?,stanford-nlp,Stanford Nlp,我有类似的文本:“这项研究是作为工作、家庭和健康网络(www.WorkFamilyHealthNetwork.org)的一部分进行的由国家卫生研究院和疾病控制与预防中心的合作协议资助:Eunice Kennedy Shriver国家儿童健康与人类发展研究所(赠款#U01HD051217、U01HD051218、U01HD051256、U01HD051276)、国家老龄研究所(赠款#U01AG027669),行为和科学研究办公室和国家职业安全与健康研究所(拨款#U01OH008788,U01HD0

我有类似的文本:“这项研究是作为工作、家庭和健康网络(www.WorkFamilyHealthNetwork.org)的一部分进行的由国家卫生研究院和疾病控制与预防中心的合作协议资助:Eunice Kennedy Shriver国家儿童健康与人类发展研究所(赠款#U01HD051217、U01HD051218、U01HD051256、U01HD051276)、国家老龄研究所(赠款#U01AG027669),行为和科学研究办公室和国家职业安全与健康研究所(拨款#U01OH008788,U01HD059773)。“我需要将资助者与他们的拨款号码联系起来,例如:美国国家卫生研究院和疾病预防控制中心:尤尼斯·肯尼迪·施莱弗国家儿童健康和人类发展研究所——U01HD051217、U01HD051218、U01HD051256、U01HD051276国家老龄研究所——U01AG027669。我认为这是一个共指解决问题,并试图训练我自己的模型。你知道我该怎么做吗?我试图按照此处()的说明进行操作,但由于它们使用C0NLL数据集,我不知道如何将自己的数据转换为它们的格式。有人帮忙吗?

java-cp“*”-Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP-annotators tokenize、ssplit、pos、lemma、ner-file-input.txt-outputFormat conll

以上将为您提供conll格式的数据

然后,您可以获取coref的xml并和conll合并以获得完整的数据