基于强化学习的冰壶比赛策略生成方法研究

发布时间：2020-05-22 09:17

【摘要】：随着强化学习的飞速发展,越来越多的强化学习算法涌现出来,对于离散状态空间环境,已经有许多成熟的强化学习方法,并逐渐应用于各行各业的人工智能体中。但是在连续状态空间领域,强化学习的能力仍然捉襟见肘,仅存在一些理论上的研究,并未落地开展实际测试。本课题针对冰壶场地环境,对连续状态空间下的策略生成方法进行了研究,尝试通过强化学习算法生成冰壶的投掷策略,并结合搜索算法,对冰壶投掷策略进行相关的探索。冰壶场地环境下,状态与动作空间均位于连续空间,且有多维自由变量,想要将经典的强化学习算法迁移到此场景中是很难实现的。而且冰壶场地环境存在许多不确定因素,投掷策略在执行时会产生误差,偏离原定轨迹,也对策略生成算法的能力产生了很大的挑战。本文利用多种方法对冰壶投掷策略生成方法进行了研究,主要研究内容如下:(1)冰壶仿真对抗平台建设。首先需要将冰壶比赛场景转化为合理的动力学模型。将实际场景转化为动力学模型,不仅要合理的设计系统的状态与动作,还要考虑投掷误差对场景及算法的影响。其次进行冰壶仿真对抗平台前端的设计。冰壶仿真对抗平台前端用于接收用户输入,并将设计成型的数学模型直观的展现出来,对冰壶投掷进行可视化处理。最后完成对冰壶仿真对抗平台后台的体系架构。后台将投掷过程中的滑行过程与碰撞过程以数据的方式进行记录,并能够执行回放、撤销等功能。冰壶仿真对抗平台是冰壶投掷策略生成所依靠的必要基础,为冰壶投掷策略生成提供海量的数据参考与支持。(2)设计冰壶投掷策略生成算法。首先应对PSO粒子群算法进行了合理的优化,调整到合适的参数,保证其在有限时间内生成可靠的投掷策略;其次尝试将蒙特卡洛树与监督学习网络结合起来,探寻投掷策略的生成模式;最后设计强化学习算法结构的四要素:策略、回报函数、动作值函数和环境数学模型。只有建立合适的数学模型,设计合理的回报函数,计算机才能够通过强化学习算法训练得到最优策略。(3)冰壶对抗策略的量化分析。各国家运动员依靠比赛经验制定了许多冰壶投掷策略,可以将其与强化学习生成的投掷策略进行比较,互相借鉴,互相进步。既通过已有的比赛策略经验对强化学习算法进行适当的修改,又可以将强化学习算法生成的投掷策略供给运动员作为比赛参考。
【图文】：

图像,倒立摆,平衡控制

SARSA 学习更新 Q 函数时需要用到( , , , ′,的名字 SARSA。与 Q-learning 相同，SARSA精确 Q 值并输出确定性策略方案[12]。习方法应用于各种离散状态空间的系统中，当强化学习的方法也已取得一些成果。最典型的题，通过控制小车的移动来维持车上摆杆的平-learning 算法[13]，并对倒立摆进行了仿真控态离散化，，再使用可以处理离散空间的 Q-lea空间的倒立摆平衡控制[14]。Anderson 等人通过的函数拟合，并采用 AHC(Adaptive Heuristic散化处理的情况下完成了倒立摆的平衡控制果。之后研究者又探索了其他领域，Koutnik开发了连续状态空间下的强化学习系统[16-17]，神经网络结合起来，成功实现了赛车游戏中的

网络结构图,网络结构

哈尔滨工业大学工学硕士学位论文1.2.2 深度强化学习近年来随着深度学习的快速发展，国内外学者将离散空间下的强化学习算法与深度学习相结合[18-20]，进行了诸多的研究与创新，目前已取得大量成果：2013 年 Mnih 等人提出了深度强化学习的开创性工作深度 Q 网络(DQN)[21]，通过深度神经网络对 Q 函数进行函数逼近，在视频游戏 Atari 等领域取得突破。
【学位授予单位】：哈尔滨工业大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：G862.6;TP181

【参考文献】