应用于感知决策任务的策略算法研究

发布时间：2024-04-07 19:09

　　强化学习是一类通过与环境的交互以调整其策略,从而获得最多奖励的学习算法。强化学习算法不仅在机器人和棋类等应用问题中得到了广泛的应用,近来还常用于对人的行为和决策进行建模。尤其是,大脑中多巴胺神经元的发放与强化学习算法中的估计误差具有相同的变化模式,许多学者甚至推测大脑在求解决策问题时可能采用了与强化学习类似的算法。然而,按照经典强化学习的决策结果往往会获得最佳的收益,而许多的行为实验却表明动物或者人类的决策并非完全理性。尽管可以通过调整强化学习算法中如学习率等参数来拟合非理性的行为数据,但当决策结果同时存在理性和非理性的结果时,简单通过调整参数的方法在拟合行为数据时就变得异常困难。因此,需要通过设计新的强化学习算法来解释在执行感知决策任务时,为何其行为可同时存在理性(最优)和非理性(次优)这两种模式。通过拟合行为数据从而拓展出新的强化学习算法,不仅能为大脑的决策计算方式提供新的建模工具,还能为设计新的强化学习算法提供重要参考。本研究基于强化学习的策略梯度算法,设计了两类能在感知决策任务中同时满足理性和非理性决策结果的策略算法,并通过对比分析策略算法与人类在执行相同的感知决策任务时数据的...

【文章页数】：102 页

【学位级别】：硕士

【部分图文】：

图１－２决策任务＾??Ｆｉｇｕｒｅ?１－２．?Ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋ??

支持非理性决策的理论除了匹配律之外，还有概率匹配［５６］。其中，概率学习??任务常用于检测人类的非理性行为。例如，２０１７年，ＳｉｌｖａｔＭ根据概率学习任务设??计了一个实验（如图１－２所示），要求被试童复地在黑色球会出现在左侧（按Ｌ键）??还是右侧（按Ｒ键）的框内做出选择，并且....

图1一论文组织结构图

鹰用予感知决策住务的策略算法研．究??Ｈ章，提出了一个受奖励调制的策略参数算法。该箅法从目标函数导得到，策略参数包括奖励和经验两个组成部分。利用该算法证明单阶段决策任务时，奖励会通过提取不同的经验值来形成决策。按的决策结果即可是获得最佳收益的理性决策，也可是获得次优的非四章，提出....

图2一时间差分预测误差与多巴胺能神经元发放的比较[l4州

浙江工业大学硕士学位论文得奖励后，这种多巴胺神经元的激活就停止了。类似地，囡为提示本励，所以在训练之前不应该导致预测误差。低是在训练之后，—且它值（即Ｆ（ｃｗｅ）＞０），这种意外出现的提示就应该会产生预测误差（?ｆＦ（ｃｗｅ）?－?Ｆ（？ｏｃｗｅ）?＝?ｆＦ（ｃｗｅ）?＞?０），....

图３－２单阶段决策任务的用例图??Ｆｉｇｕｒｅ?３－２．?Ｕｓｅ?ｃａｓｅ?ｏｆ?ｓｉｎｇｌｅ－ｓｔａｇｅ?ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋｓ??

化键?数数??图３－１单阶段决策任务的功能设计图??Ｆｉｇｕｒｅ?３－１．?Ｆｕｎｃｔｉｏｎａｌ?ｄｅｓｉｇｎ?ｄｉａｇｒａｍ?ｏｆ?ｓｉｎｇｌｅ－ｓｔａｇｅ?ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋｓ??根据上述的功能设计，以下将用用例图与活动图对该决策任务的主要功能进??行详....

本文编号：3947834

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3947834.html

上一篇：基于电涡流的板形检测
下一篇：数控机床位置伺服系统的控制研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|