Machine learning 基于强化学习的多准则优化

Machine learning 基于强化学习的多准则优化,machine-learning,power-management,reinforcement-learning,Machine Learning,Power Management,Reinforcement Learning,我正在研究一个系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个单一目标函数,具有两个目标的线性加权和: C=w.P_avg+(1-w).L_avg, where w belongs to (0,1) 我使用Q-learning通过改变权重w和设置对功耗和平均延迟的不同偏好来找到帕累托最优折衷曲线。我确实得到了一条帕累托最优曲线。现在,我的目标是提供一个约束(例如,平均延迟L_avg),从而调整/找到w的值以满足给定的标准。Mine是一个在线算法,因此w的调整应该以在线方式

我正在研究一个系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个单一目标函数,具有两个目标的线性加权和:

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)
我使用Q-learning通过改变权重w和设置对功耗和平均延迟的不同偏好来找到帕累托最优折衷曲线。我确实得到了一条帕累托最优曲线。现在,我的目标是提供一个约束(例如,平均延迟L_avg),从而调整/找到w的值以满足给定的标准。Mine是一个在线算法,因此w的调整应该以在线方式进行


在这方面我能得到一些提示或建议吗?

社区中有一个多目标强化学习分支

理想是:

为每个目标分配一系列代理。将一个族中的代理获得的解与其他族中代理获得的解进行比较。协商机制用于找到满足所有目标的折衷解决方案

还有一篇文章可能会引起您的兴趣:

电力系统调度和电压稳定的强化学习多目标优化


但我没有找到它的公共url

谢谢你的建议。但推荐的多智能体RL论文/方法适用于非策略学习或情景任务。就我而言,我有一个在线学习问题。