线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

一种新的基于值函数迁移的快速Sarsa算法

傅启明; 刘全; 尤树华; 黄蔚; 章晓芳 电子学报 2014年第11期

摘要:知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度.

关键词:强化学习自模拟度量值函数迁移

单位:苏州大学计算机科学与技术学院; 江苏苏州215006; 吉林大学符号计算与知识工程教育部重点实验室; 吉林长春130012

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子学报

北大期刊

¥1272.00

关注 25人评论|0人关注