基于平均报酬模型全过程R（λ）学习的互联电网CPS最优控制

余涛袁野电力系统自动化 2010年第21期

摘要：提出了一种新颖的基于平均报酬模型的全过程R（λ）学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制（AGC）追求较高的考核时间段内的10min平均控制性能标准（CPS）指标合格率的目标相吻合,且所提出的基于平均报酬模型的R（λ）学习算法与基于折扣报酬模型的Q（λ）学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R（λ）控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线＂模仿学习＂所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R（λ）控制器的学习效率及其在实际电力系统中的应用性。

关键词：平均报酬模型模仿学习