摘要:AGC是一个动态多级决策问题一一马尔可夫决策过程(MDP),应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学算法,将CPS值看作包含AGC的电力系统“环境”所给的“奖励”,依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大,从而快速自动地在线优化CPS控制系统的输出。仿真研究显示,引入强化学习自校正控制后显著增强了整个AGc系统的鲁棒性和适应性,有效提高了CPS考核合格率。
关键词:强化学习 q学习算法 自动发电控制 cps标准 自校正控制
单位:华南理工大学电力学院 广东广州510640
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社