Nlp DistSim的文件含义

Nlp DistSim的文件含义,nlp,stanford-nlp,named-entity-recognition,Nlp,Stanford Nlp,Named Entity Recognition,在斯坦福NER软件附带的一个.prop文件示例中,有两个选项我不理解: useDistSim = true distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters 有没有人告诉我DistSim代表什么,我在哪里可以找到更多关于如何使用这些选项的文档 更新:我刚刚发现DistSim意味着分布相似性。我仍然想知道在这种情况下这意味着什么。“DistSim”指的是使用基于词类/簇的功能,使用分布相似性聚类方法(

在斯坦福NER软件附带的一个.prop文件示例中,有两个选项我不理解:

useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters
有没有人告诉我DistSim代表什么,我在哪里可以找到更多关于如何使用这些选项的文档


更新:我刚刚发现DistSim意味着分布相似性。我仍然想知道在这种情况下这意味着什么。

“DistSim”指的是使用基于词类/簇的功能,使用分布相似性聚类方法(例如,Brown聚类、exchange聚类)构建。单词类对语义和/或句法上相似的单词进行分组,使NER系统能够更好地概括,包括更好地处理NER系统训练数据中没有的单词。我们的许多分布式模型使用分布式相似性聚类特征以及单词标识特征,并从中获得了显著的收益。在Stanford NER中,有一大堆标志/属性会影响分布相似性的解释/使用方式:
useDistSim
distSimLexicon
distSimFileFormat
distSimMaxBits
casedistsim
numberrequirevalencedistsim
未知或distsimclass
,您需要查看
NERFeatureFactory.java
中的代码来解码细节,但在简单的情况下,您只需要前两个,并且需要在训练模型时以及测试时使用它们。词典的默认格式只是一个文本文件,其中包含一系列行,其中有两列以制表符分隔的
word clusterName
。群集名称是任意的。

Stanford有一大堆未记录和未使用的选项。这些可能是很久以前用于某个实验的,有人忘了删除它们。谢谢,但是这个在示例文件中,所以知道它的作用可能会很好。我还发现培训需要非常长的时间,并且需要大量的迭代,有没有办法限制这些?NER的选项在文档中整洁地记录了下来