基于强化学习的互联电网CPS自校正控制

余涛周斌电力系统保护与控制 2009年第10期

摘要：AGC是一个动态多级决策问题一一马尔可夫决策过程（MDP），应用强化学习算法可有效地实现控制策略的在线学习和动态优化决策。引入Q学习算法作为强化学算法，将CPS值看作包含AGC的电力系统“环境”所给的“奖励”，依靠奖励值Q函数与CPS控制动作形成的闭环控制结构实现在线学习。学习目标是使CPS控制动作从环境获得的长期积累奖励值最大，从而快速自动地在线优化CPS控制系统的输出。仿真研究显示，引入强化学习自校正控制后显著增强了整个AGc系统的鲁棒性和适应性，有效提高了CPS考核合格率。

关键词：强化学习 q学习算法自动发电控制 cps标准自校正控制