Python 口译培训.log in Flair（Zalando Research）_Python_Word Embedding

Python 口译培训.log in Flair（Zalando Research）

python

Python 口译培训.log in Flair（Zalando Research）,python,word-embedding,Python,Word Embedding,我玩Flair库是为了看看微调（单独实现）和嵌入投影之间是否有很大的差异（在结果方面）。我面临的问题是阅读结果（在本例中，实验是通过使用BERT嵌入完成的）。在training.log中，我得到以下信息： 2019-10-10 16:27:02,964 Testing using best model ... 2019-10-10 16:27:02,966 loading file best-model.pt 2019-10-10 16:37:23,793 0.7539 0.7539 0

我玩Flair库是为了看看微调（单独实现）和嵌入投影之间是否有很大的差异（在结果方面）。我面临的问题是阅读结果（在本例中，实验是通过使用BERT嵌入完成的）。在training.log中，我得到以下信息：

2019-10-10 16:27:02,964 Testing using best model ...
2019-10-10 16:27:02,966 loading file best-model.pt

2019-10-10 16:37:23,793 0.7539  0.7539  0.7539

2019-10-10 16:37:23,795

MICRO_AVG: acc 0.605 - f1-score 0.7539
MACRO_AVG: acc 0.5467 - f1-score 0.6925

0 tp: 1420 - fp: 438 - fn: 144 - tn: 363 - precision: 0.7643 - recall: 0.9079 - accuracy: 0.7093 - f1-score: 0.8299
1 tp: 363 - fp: 144 - fn: 438 - tn: 1420 - precision: 0.7160 - recall: 0.4532 - accuracy: 0.3841 - f1-score: 0.5551

2019-10-10 16:37:23,796

我的测试数据集包含2365个二进制文本分类任务的实例。最后两行是什么意思？0和1之后是真正的积极性、精确性、召回率等等？什么是0？1是什么？我还分别加载了最佳模型，并在测试数据集上进行了测试，得到了不同的结果

任何帮助都将不胜感激。

因为您正在对二进制分类进行微调，精度、召回率和F1度量是评估模型的一种方法，无论您看到什么，都是对模型的评估

第一个字符0或1表示类别0或类别1（2个类别，作为其二进制分类）。对于每一类，它提到了真阳性（tp）、假阳性（fp）、假阴性（fn）和真阴性（tn）的数量。您可以将它们相加，这将等于测试集中的示例数

tp、tn、fp、fn的简要说明：

对于0类（作为正类）：

tp：0类的实际示例数，正确预测为0类

fn：1类的实际示例数，正确预测为1类

fp：类1的实际示例数，错误预测为类0

tn：0类的实际示例数，错误预测为1类

1班的第二行也是如此。

谢谢您抽出时间！我已经知道那是什么意思了。让我困惑的是它的书写方式。现在我看到0的真正数和1的真负数是一样的，实际上是一样的。