Tensorflow 注释语料库时如何解释synaxnet的输出_Tensorflow_Syntaxnet

Tensorflow 注释语料库时如何解释synaxnet的输出

tensorflow

Tensorflow 注释语料库时如何解释synaxnet的输出,tensorflow,syntaxnet,Tensorflow,Syntaxnet,我使用预先训练好的syntaxnet模型（即使用Parse-McParseface）对语料库进行注释。我在理解输出时遇到问题。输出中有两个指标。这些是用于词性标记和依赖项分析的吗？如果是，哪个是词性标记性能，哪个是依赖项解析性能以下是输出： INFO:tensorflow:已处理文档总数：21710 信息：tensorflow:num正确令牌数：454150 信息：tensorflow:令牌总数：560993 信息：tensorflow：评估中经过的秒数：1184.63，评估指标：80.95%

我使用预先训练好的syntaxnet模型（即使用Parse-McParseface）对语料库进行注释。我在理解输出时遇到问题。输出中有两个指标。这些是用于词性标记和依赖项分析的吗？如果是，哪个是词性标记性能，哪个是依赖项解析性能

以下是输出：

INFO:tensorflow:已处理文档总数：21710
信息：tensorflow:num正确令牌数：454150
信息：tensorflow:令牌总数：560993
信息：tensorflow：评估中经过的秒数：1184.63，评估指标：80.95%
信息：tensorflow：已处理206个文档
信息：tensorflow：已处理文档总数：21710
信息：tensorflow:num正确标记：291851
信息：tensorflow:令牌总数：504496
信息：tensorflow：评估中经过的秒数：1193.17，评估指标：57.85%

如果您使用

然后第一个指标是POS标签准确度，第二个是UAS。只有当您输入的conll数据包含gold POS标记和gold dependencies时，它们才有意义。

这是有意义的。我想知道为什么它会显示不同数量的已处理文档和总令牌。我有一个金色的数据集，为POS标记和依赖项解析做了注释。我无法在多个文件上运行解析器，但它在单个文件上运行。我综合了所有的注释，以CoNLL格式保存到单个文件中，以便我可以轻松地将其传递给解析器。文档和标记总数的统计数据应该是相同的。我认为词性标记和依赖性分析的总标记数的区别在于，依赖性分析中的一些标记（如标点符号）没有被考虑在内评价