Python 口译培训.log in Flair(Zalando Research)

Python 口译培训.log in Flair(Zalando Research),python,word-embedding,Python,Word Embedding,我玩Flair库是为了看看微调(单独实现)和嵌入投影之间是否有很大的差异(在结果方面)。我面临的问题是阅读结果(在本例中,实验是通过使用BERT嵌入完成的)。 在training.log中,我得到以下信息: 2019-10-10 16:27:02,964 Testing using best model ... 2019-10-10 16:27:02,966 loading file best-model.pt 2019-10-10 16:37:23,793 0.7539 0.7539 0

我玩Flair库是为了看看微调(单独实现)和嵌入投影之间是否有很大的差异(在结果方面)。我面临的问题是阅读结果(在本例中,实验是通过使用BERT嵌入完成的)。 在training.log中,我得到以下信息:

2019-10-10 16:27:02,964 Testing using best model ...
2019-10-10 16:27:02,966 loading file best-model.pt

2019-10-10 16:37:23,793 0.7539  0.7539  0.7539

2019-10-10 16:37:23,795

MICRO_AVG: acc 0.605 - f1-score 0.7539
MACRO_AVG: acc 0.5467 - f1-score 0.6925

0 tp: 1420 - fp: 438 - fn: 144 - tn: 363 - precision: 0.7643 - recall: 0.9079 - accuracy: 0.7093 - f1-score: 0.8299
1 tp: 363 - fp: 144 - fn: 438 - tn: 1420 - precision: 0.7160 - recall: 0.4532 - accuracy: 0.3841 - f1-score: 0.5551

2019-10-10 16:37:23,796
我的测试数据集包含2365个二进制文本分类任务的实例。最后两行是什么意思?0和1之后是真正的积极性、精确性、召回率等等?什么是0?1是什么? 我还分别加载了最佳模型,并在测试数据集上进行了测试,得到了不同的结果


任何帮助都将不胜感激。

因为您正在对二进制分类进行微调,精度、召回率和F1度量是评估模型的一种方法,无论您看到什么,都是对模型的评估

第一个字符0或1表示类别0或类别1(2个类别,作为其二进制分类)。对于每一类,它提到了真阳性(tp)、假阳性(fp)、假阴性(fn)和真阴性(tn)的数量。您可以将它们相加,这将等于测试集中的示例数

tp、tn、fp、fn的简要说明:

对于0类(作为正类):

tp:0类的实际示例数,正确预测为0类

fn:1类的实际示例数,正确预测为1类

fp:类1的实际示例数,错误预测为类0

tn:0类的实际示例数,错误预测为1类


1班的第二行也是如此。

谢谢您抽出时间!我已经知道那是什么意思了。让我困惑的是它的书写方式。现在我看到0的真正数和1的真负数是一样的,实际上是一样的。