Deep learning 多任务学习框架中的损失效应_Deep Learning_Neural Network_Pytorch_Multitasking

Deep learning 多任务学习框架中的损失效应

deep-learning neural-network pytorch

Deep learning 多任务学习框架中的损失效应,deep-learning,neural-network,pytorch,multitasking,Deep Learning,Neural Network,Pytorch,Multitasking,我设计了一个多任务网络，其中第一层在两个输出层之间共享。通过研究多任务学习原理，我了解到应该有一个权重标量参数，如alpha，用于抑制从两个输出层输出的两个损失。我的问题是关于这个参数本身。它对模型的最终性能有影响吗？可能是的这是我计算损失的代码片段的一部分： ... mtl_loss = (alpha) * loss_1 + (1-alpha) * loss_2 mtl_loss.backward() ... 如上所述，损耗_1为MSELoss，损耗_2为CrossEntropyLos

我设计了一个多任务网络，其中第一层在两个输出层之间共享。通过研究多任务学习原理，我了解到应该有一个权重标量参数，如alpha，用于抑制从两个输出层输出的两个损失。我的问题是关于这个参数本身。它对模型的最终性能有影响吗？可能是的

这是我计算损失的代码片段的一部分：

...

mtl_loss = (alpha) * loss_1 + (1-alpha) * loss_2
mtl_loss.backward()

...

如上所述，损耗_1为MSELoss，损耗_2为CrossEntropyLoss。因此，选择alpha=0.9，我将在训练步骤中获得以下损失值：

[2020-05-03 04:46:55,398 INFO] Step 50/150000; loss_1: 0.90 + loss_2: 1.48 = mtl_loss: 2.43 (RMSE: 2.03, F1score: 0.07); lr: 0.0000001;  29 docs/s;     28 sec
[2020-05-03 04:47:23,238 INFO] Step 100/150000; loss_1: 0.40 + loss_2: 1.27 = mtl_loss: 1.72 (RMSE: 1.38, F1score: 0.07); lr: 0.0000002;  29 docs/s;     56 sec
[2020-05-03 04:47:51,117 INFO] Step 150/150000; loss_1: 0.12 + loss_2: 1.19 = mtl_loss: 1.37 (RMSE: 0.81, F1score: 0.08); lr: 0.0000003;  29 docs/s;     84 sec
[2020-05-03 04:48:19,034 INFO] Step 200/150000; loss_1: 0.04 + loss_2: 1.10 = mtl_loss: 1.20 (RMSE: 0.55, F1score: 0.07); lr: 0.0000004;  29 docs/s;    112 sec
[2020-05-03 04:48:46,927 INFO] Step 250/150000; loss_1: 0.02 + loss_2: 0.96 = mtl_loss: 1.03 (RMSE: 0.46, F1score: 0.08); lr: 0.0000005;  29 docs/s;    140 sec
[2020-05-03 04:49:14,851 INFO] Step 300/150000; loss_1: 0.02 + loss_2: 0.99 = mtl_loss: 1.05 (RMSE: 0.43, F1score: 0.08); lr: 0.0000006;  29 docs/s;    167 sec
[2020-05-03 04:49:42,793 INFO] Step 350/150000; loss_1: 0.02 + loss_2: 0.97 = mtl_loss: 1.04 (RMSE: 0.43, F1score: 0.08); lr: 0.0000007;  29 docs/s;    195 sec
[2020-05-03 04:50:10,821 INFO] Step 400/150000; loss_1: 0.01 + loss_2: 0.94 = mtl_loss: 1.00 (RMSE: 0.41, F1score: 0.08); lr: 0.0000008;  29 docs/s;    223 sec
[2020-05-03 04:50:38,943 INFO] Step 450/150000; loss_1: 0.01 + loss_2: 0.86 = mtl_loss: 0.92 (RMSE: 0.40, F1score: 0.08); lr: 0.0000009;  29 docs/s;    252 sec

正如training loss所示，我的第一个使用MSELOST的网络似乎收敛得非常快，而第二个网络尚未收敛。RMSE和F1score是两个指标，我分别用来跟踪第一个和第二个网络的进度

我知道选择最佳alpha有点实验性，但是有没有提示可以让选择过程更容易？具体地说，我希望网络能够相互协调，而不是像上面所说的那样，第一个网络能够快速收敛。alpha参数有助于控制这一点吗？

使用该alpha，损失1对结果的贡献更大，并且由于反向传播按误差成比例更新权重，因此改进更快。尝试使用更均衡的alpha来平衡两个任务中的性能

您也可以在培训期间尝试更改alpha。

谢谢您的回答。我的第一项任务是我最关心的。不过，这比第二项任务相对容易。从一个较大的alpha开始，比如说0.9，然后在n个训练步骤后尝试减少它，是否有助于改进task-1？我的直觉是，更容易的任务将有助于改进更难的任务MTL原则，此后，更难的任务将得到改进，直到使用更容易的任务时，它可以帮助更容易的任务得到改进。此alpha参数似乎对两个任务相互学习最多的优化非常有用。很抱歉延迟。我建议将较大的alpha放在最困难的任务上，如果简单任务改进得更快，它将不会对NN做出贡献，并且几乎就像只训练第二个任务一样。