反映实时供需互动的Stackelberg博弈模型及其强化学习求解

包涛; 张孝顺; 余涛; 刘希喆; 王德志中国电机工程学报 2018年第10期

摘要：为充分挖掘供给侧发电机和需求侧柔性负荷的联合优化调度空间，实现分布式自律计算与集中协调的互动框架，满足供需互动快速决策的需求，最大化系统的整体效益，搭建了基于stackelberg博弈的电力系统实时供需互动模型，并提出了一种全新的深度迁移强化学习（deep transfer reinforcement leaming，DTRL）算法。该算法通过对历史优化任务的有效信息进行知识存储，利用深度学习实现高精度的非线性迁移学习，并借助分布式计算优势，可快速获得高质量的最优解。算例仿真表明：DTRL在保证最优解质量的同时，其求解速度可达其他6种对比算法的419倍以上，适合求解大规模电力系统的供需互动快速决策问题。

关键词：深度学习迁移学习强化学习实时供需互动 stackelberg博弈