同城医药问答网

 找回密码
 立即注册
查看: 99|回复: 0

从神经科学到人工智能(十九)- 条件反射与强化学习

[复制链接]

2

主题

2

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-11-30 09:54:57 | 显示全部楼层 |阅读模式
(欢迎关注我的公众号:Neuro科学和人工智能)
我们都知道巴甫洛夫的条件反射理论,曾经有一段时间心理学和认知科学被行为心理学一统天下,认为所有的心理活动都可以被归结为类似条件反射之类的行为,当然我们现在知道这是很荒谬的,把本来在某个领域是科学的东西推到极端了。赫布也是通过类似条件反射的现象而猜想出赫布法则的,而坎德尔研究突触长期可塑性等记忆相关机制时也是通过研究海兔(海蜗牛)的类条件反射相关的突触反应而得到诺贝尔奖的。后来,科学家对脑内神经递质更深入的研究,揭示了象多巴胺、内啡肽、血清素等对于行为的奖励和惩罚机制,使得人们对于脑内强化学习机制有了更多的理解。机器学习领域也从中获得了启发,发展了机器学习领域的强化学习,例如DeepMind的AlphaGo系列通过强化学习等手段大幅度提高了围棋能力,通过战胜李世石、柯洁等世界顶尖人类围棋棋手让大家领略到了强化学习的威力。本节就来介绍条件反射和强化学习方面的机制。
坎德尔通过试验研究了海兔的缩鳃反射,也就是当水喷流到海兔的一个称为虹管的肉质区域,虹管和鳃会收缩。坎德尔发现了海兔缩鳃反射的习惯化和敏感化,对应于突触的压抑和突触的易化,这个之间在讨论突触通道电导和突触短期可塑性的时候已经讨论过了。除此之外,研究者还发现海兔也可形成经典的条件反射,也即如果将强电击尾部的非条件刺激与虹管刺激这个条件刺激相结合后,单独刺激虹管所引起的反应要比敏感化引起的反应更强。不过,与巴甫洛夫的实验一样,只有当条件刺激(虹管刺激)先于非条件刺激(尾部刺激)不超过0.5秒,条件反射才会出现。
传统上,条件反射分为两类:经典条件反射,以及操控性条件反射,或者叫工具性条件反射。经典条件反射涉及不同的训练和测试过程以及相应的行为现象,如下表所示:
条件反射类型训练前训练期间结果
巴甫洛夫条件反射s→rs→‘r’
消除条件反射s→rs→·s→‘·’
部分条件反射s→r     s→·s→α‘r’
阻塞条件反射s1→rs1+s2→rs1→‘r’     s2→‘·’
抑制条件反射s1+s2→·    s1→rs1→‘r’     s2→﹣‘r’
遮蔽条件反射s1+s2→rs1→α1‘r’     s2→α2‘r’
二级条件反射s1→rs2→s1s2→‘r’
表格中,s、s1和s2表示第一个或第二个刺激,r表示奖励,‘r’表示对奖励的预期,·表示没有奖励,‘·’表示对没有奖励的预期,α、α1和α2表示部分或减弱的预期,负号表示对奖励预期的抑制。
经典巴甫洛夫条件反射:训练时给被试动物一个刺激,然后给一个奖励,训练的结果就会是只要给一个刺激,就会产生一个对奖励的预期;
消除条件反射:如果在训练前被试动物已经养成刺激和奖励之间的条件反射,训练时给出同样的刺激,但是不再给奖励,经过一段时间的训练,被试动物就会消除该刺激会带来奖励的预期;
部分条件反射:在训练期间给出刺激时,以一定的概率有时有奖励,有时没有,训练的结果就是当给出刺激时,被试动物对奖励的预期会比经典巴甫洛夫条件反射时的预期弱一些;
阻塞条件反射:如果在训练前被试动物已经养成刺激和奖励之间的条件反射,训练时在给出一个刺激s1的同时给出另一个刺激s2,而奖励和之前一样,则训练的结果就是预期s1会带来奖励,而预期s2不会带来奖励;
抑制条件反射:在训练期间给出第一个刺激s1时有奖励,而在给出第一个刺激s1的同时给出另一个刺激s2则没有奖励,则训练的结果就是预期s1会带来奖励,而预期s2会使奖励消失;
遮蔽条件反射:在训练期间同时给出第一个刺激s1和第二个刺激s2时有奖励,则训练的结果就是当给出第一个刺激s1或第二个刺激s2时,被试动物都会预期到奖励,但是对奖励的预期都会比经典巴甫洛夫条件反射时的预期弱一些;
二级条件反射:如果在训练前被试动物已经养成第一个刺激s1和奖励之间的条件反射,训练时每当给出第二个刺激s2都会带来第一个刺激s1,则训练的结果则是只要给出第二个刺激s2,就会同样产生一个对奖励的预期。
雷斯科拉和瓦格纳在1972年提出了一个模型来描述经典条件反射( Rescorla-Wagner rule,https://zhuanlan.zhihu.com/p/24437724)。我们用v代表预期奖励,u代表多个刺激组成的向量,w是与刺激带来的奖励相应的权重,则v=w·u,雷斯科拉-瓦格纳法则就是用随机梯度下降来最小化预期奖励与实际奖励之间的差:ww+εδu,其中δ=r-v,这个法则可以解释上表中的各种条件反射。
除了将奖励和惩罚与刺激关联起来之外,被试动物也可以学习预测实施强化因素的时间。Sutton和Barto在1990年提出可以通过预测从时间t到试验结束的未来总奖励v(t)来代表预测奖励出现的时间,从而每次优化迭代步骤为:w(τ)→w(τ)+εδ(t)u(t-τ)。然而,计算δ(t)需要知道未来总奖励,这是很困难的,实践中可以用v(t+1)来代替,也即:


这样,δ(t)=r(t)+v(t+1)-v(t),因此这个法则被称为时序差分法则(https://zhuanlan.zhihu.com/p/51091335)。下图是学习预测奖励时根据时序差分法则计算出来的结果:


刺激出现在t=100处,而奖励是在t=200处。经过学习,时序误差δ从t=200逐渐顺着时间往回移动,最终稳定在了几乎和刺激的同一时间,而v也正确地预测了未来的总奖励。
在Rescorla-Wagner法则和时序差分法则中,预测误差δ起到了至关重要的作用,而在实际的生物神经元系统中,中脑腹侧被盖区(Ventral Tegmental Area,VTA)中的多巴胺能神经元扮演了类似的角色。计算神经学教材(Theoretical Neuroscience,或翻译为理论神经科学)一书的作者,Peter Dayan,就是由于解开了大脑奖赏系统的秘密而获得了2017年的格雷特·伦德贝克欧洲大脑研究奖。从下图可以看到,在猴子执行一个反应时间任务时脑中VTA中多巴胺能神经元的活动与上面的预测误差δ的时序非常类似:


在经典条件反射的实验中,奖励直接与刺激联系,而在更自然的环境中,奖赏与惩罚将与动物的行为联系,动物通过策略或计划来增加奖励。这被称为操控性条件反射,或者叫工具性条件反射。我们介绍两种场景,一种是固定行为选择,也即一旦动物做出行为,将立即得到奖赏或惩罚,另一种是系列行为选择,奖励将延迟到系列行为完成后才给予。
对于固定行为选择,一般用多臂老虎机(Multi-armed Bandit)问题来描述(https://zhuanlan.zhihu.com/p/32335683),它的核心问题是什么时候探索(Exploration),什么时候利用(Exploitation)。选择一个行为a的概率为:


向量m代表行为的价值,而β决定了行为的变化率,当β较小时行为倾向于探索(Exploration),而β较大时行为倾向于利用(Exploitation)。有两种解决任务的方法,一种叫做间接行为者方法,一种叫做直接行为者方法。
间接行为者方法是将某一行为价值设为该行为得到的奖励,然后应用Rescorla-Wagner法则来优化迭代该行为的预期奖励。还可以引入主观效用来代替行为的奖励,以避免由于奖励的不可靠带来的风险回避行为。
直接行为者方法是选择行为用随机梯度下降法以最大化平均预期奖励:


当选择了一个行为a时,所有a'的行为价值更新迭代为:


对于系列行为选择,问题将变得复杂很多,一般在工程中叫做动态规划问题。在强化学习中,一般研究一种特定类型的动态规划问题,叫做马尔科夫决策过程(Markov decision process,MDP,https://zhuanlan.zhihu.com/p/365488751),然后通常用行为者-评论者算法(actor-critic algorithm,https://zhuanlan.zhihu.com/p/36494307)来解决这类问题。具体来说,是将行为向量m扩展为行为矩阵M进行迭代:


我们可以将δaa'理解为当选择了一个行为a时神经元细胞a'的输出,它的均值为P[a';u],u是该神经元细胞的输入,对比赫布学习法则,可以发现学习是由强化信号δ来进行门控的。在实际生物神经系统中,基底神经节中背侧纹状体参与了行为的选择和序列化。密部黑质投射的轴突末梢释放多巴胺进入纹状体的突触,暗示着它们起着类似门控的作用,这些多巴胺能神经元的行为类似上面谈到的VTA神经元中的δ。
在机器学习中,主要就是对马尔科夫决策过程进行求解,对其中的期望的具体形式是用Bellman期望方程(https://zhuanlan.zhihu.com/p/381821556)来表达的,然后通过解Bellman最优性方程找到最优策略,一般采用近似方法,包括Value Iteration、Policy Iteration、Q-learning和SARSA(State-Action-Reward-State-Action)等。将深度学习和强化学习结合起来的方法的基本思路是,用神经网络建模Q function,也就是Deep Q Network(DQN)。DQN可以很好的解决高维状态空间问题,但对连续动作空间或者是动作空间非常大的情况并不适用。DDPG(Deep Deterministic Policy Gradient)尝试通过actor-critic architecture来解决连续动作空间的问题,具体可参看:
强化学习虽然取得了很多骄人的成绩,但是仍然存在不少问题:
强化学习与函数近似结合,尤其与深度学习结合,存在“死亡三组合” (deadly triad) 问题。就是说,在异策略、函数近似、自助法同时结合时,训练可能会碰到不稳定或发散的问题。样本效率、稀疏奖赏、成绩分配、探索-利用、表征等是常见问题。深度强化学习还有可复制性的问题,实验结果可能会受到网络结构、奖赏比例、随机种子、随机实验、环境、程序实现等的影响。强化学习同机器学习一样面临一些问题,比如时间效率、空间效率、可解释性、安全性、可扩展性、鲁棒性、简单性等等。从积极的角度看待,研发人员一直在这些方面努力工作。

(本文来自我的公众号,原文地址:


上一篇:

参考书籍:
计算神经学教材(Theoretical Neuroscience, Computational and Mathematical Modeling of Neural Systems, by Peter Dayan and L. F. Abbott):
(无购买链接)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|同城医药问答网

GMT+8, 2025-3-16 03:28 , Processed in 0.117568 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表