迭代版本:2
多巴胺——主要负责:行为动机、强化学习、运动控制,核心词:奖励预测。
1. 行为动机:执行一个行为内在的驱动力。对于多巴胺来说:是指多巴胺浓度。多巴胺越多,就越容易触发一个行为(说明动机强),多巴胺越少,就越难以触发一个行为(说明动机弱);
2. 强化学习:基于环境信息的反馈,不断调整行为,从而获得最大化的利益。行为带来奖励(如快乐),触发正向强化学习,这就是「趋利」;行为带来惩罚(如痛苦),触发反向强化学习,这就是「避害」;
所以,在这个角度,多巴胺是一种神经反馈信号,用来衡量行为结果(化学奖励)的好坏,从而引导我们进行试错,更新颅内模型 , 快速做错趋利避害的判断;
分布式学习——是指不同通道的多巴胺细胞,对预测误差的计算是不同的,或说是独立的。换言之,对同一个奖励信号,不同通道的多巴胺细胞,将会给出不同的预测误差,结果有些得到了正误差(奖励超出预期),有些则得到了负误差(奖励低于预期)。
3. 运动控制,就是运动的自控与调节,比如保持一个姿势,或是执行一个动作,更复杂的就是完成有难度和技巧的运动。
大脑通过「奖励预测」将行为动机、强化学习和运动控制串联起来。即,动机预测可能,学习预测误差,运动预测轨迹。就是说,预测到奖励就会有产生——动机;实际奖励与预测有误差就会产生——学习。任何运动过程都会耗费更多的能量——所以需要动机,同时运动轨迹的精确控制——需要学习。
多巴胺首先利用先验信息产生行为动机,接着利用运动控制试图消除预测误差,最后则利用强化学习将无法消除的误差更新入先验信息。
最原始的先验信息,就是基因算法所编写的本能欲望,就如食物与繁衍,天然就会带来预期奖励。
例如:第一次吃冰激凌,发现很好吃,感觉到快乐,这就是大脑获得的体验奖励。当我们在某一天看到一个新款草莓冰激淋,便会对新品产生一种预期奖励,从而产生一种「想吃」的行为动机,而且以前吃的冰激凌越多,这种动机越强烈。当我们完成一系列运动控制后,吃到新品草莓冰激淋,体验奖励和预期奖励便会产生误差,正误差——大脑学习到新品更好吃,负误差——大脑学习到新品不好吃,零误差——大脑什么也没有学习到。
同理,那些不愉快与痛苦的经历,就会带来预期惩罚,这会降低某些区域的多巴胺的浓度,从而减少动机,抑制行为的发生——但也会增加另些区域的多巴胺浓度,以激活避害行为的发生。例如,被热水壶烫过,再次遇到热水壶,就会降低**“动机多巴胺”,增加“运动多巴胺”,前者负责减少对触碰热水壶的动机,后者负责增加避免触碰热水壶的运动——从此也可以看出,为什么多巴胺系统是分布式学习**,即对同一个信息,不同的多巴胺细胞会学习到不同的结果。
多巴胺所预期的奖励——其实是颅内的化学奖励(即正面感受),所预期的惩罚——其实是颅内的化学惩罚(即负面感受)。
**化学奖励——有追逐的动机,如:对于快乐体验,**我们喜欢它能更多,但容易忽略已有的利
化学惩罚——有逃避的动机,如:对于痛苦体验,我们会重视的更多,也容易记住已有的害。
所以,快乐与痛苦、好消息与坏消息,对于我们的记忆与影响,具有神经性的**“选择不对称性”**。
趋利**“利要多”——就不能沉迷过往(轻视拥有),避害“害要少”——就不能忘记经历(记忆深刻),所以对于化学奖励与惩罚,为了实现最大化的趋利避害**,我们必然会演化出不对称的身心反应。
而实际奖励低于预期奖励,即奖励负误差,也可以看成是一种惩罚——它带来失望情绪,以及降低下次相同行为的动机(或说驱动力)。因此可以说,负面情绪——就是心理预期与现实(或在感觉上)的奖励负误差,正面情绪——就是心理预期与现实(或在感觉上)的奖励正误差,现实与未来——就是在这两种情绪下被慢慢插值计算的结果。
那么按此视角,我们会发现,有关多巴胺参与的功能,就都能够解释的通了。
例如,注意力需要行为动机与运动控制(眼球),昼夜节律需要运动控制(身体),情绪感受来自预期误差,时间感知来自运动预测,以及等等。
我们每一个行为都需要奖励,而在执行一个行为之前,大脑都会一遍遍地预测,以做出选择与判断,并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。多巴胺一直在**「励」**你去完成某个动作。
最后,对于预测与误差,神经科学有这样一种观点,即:预测是大脑中一切活动的通货,不同的脑区之间交易的,就是不同种类的预测。
换言之,大脑的**“预测”是货币,购买的是“误差”,那么“通货膨胀”就是无视误差(就像抑郁症、自闭症),“通货紧缩”**就是消除一切误差(就像强迫症)。
多巴胺系统的主要通路有三条,如下:
第一条,中脑皮层通路(Mesocortical Pathway)——从腹侧被盖区到 => 前额叶皮层(Prefrontal Cortex)、前扣带回皮层(Anterior Cingulate Cortex)、眼眶额叶皮层(Orbitofrontal Cortex)。
第二条,中脑边缘通路(Mesolimbic Pathway),又称奖励回路(Reward Pathway)——从从腹侧被盖区到 => 伏隔核(Nucleus Accumbens)。
第三条,黑质纹状体通路(Nigrostriatal Pathway)——从黑质致密部到 => 纹状体(Striatum)。
显然,从通路所抵达的脑区功能,就可以大体看出这条通路的作用,这对应了前文所说的多巴胺的主要三种功能,如下:
第一,中脑皮层通路——负责行为动机,这条通路上的脑区,与复杂认知、逻辑推理、模式识别、长远计划相关,也就是我们通常所说的理性思维。
第二,中脑边缘通路——负责强化学习,伏隔核被认为主导了奖励、激励和成瘾,因此这条通路除了学习,还能调控重复想要的欲望。当然,控制学习与欲望的基础是,控制注意力。所以这条通路,很容易主导我们的注意力。
第三,黑质纹状体通路——负责运动控制,纹状体的功能在于,调节肌肉张力和协调复杂运动,如果黑质细胞死亡就没有多巴胺投射到纹状体,这会导致运动控制相关的疾病,如震颤、癫痫、多动症、帕金森等。
关于中脑皮层通路有一个深刻的洞见,即:理性思维其实是服务于感性思维的,也就是前者为后者提供行动的理由。
前额叶皮层包括两个子区域:背外侧-前额叶皮层(Dorsolateral Prefrontal Cortex)与腹内侧-前额叶皮层(Ventromedial Prefrontal Cortex),前者负责理性思维,后者负责感性思维,两者合作即综合理性与感性,做出决策。
主导我们的一直都只是感性,当然感性动机有多种可能与路径,而所谓理性,只是在“倾听”感性的各种动机,并给出决策依据,以选出“获胜”的感性动机。
**根据(感性)感觉找观点,然后根据观点找(理性)理由,**而感觉来自环境信息的刺激。
理性可以告诉你现实是什么有哪些可能,但应该怎么办是感性的判断、决策和选择。
至于那些,忍痛与延迟,是预测到未来可能的巨大奖励,致使多巴胺系统战胜了当前的化学惩罚,从而激活了动机、理性、学习与行为控制的神经通路。
当然,如果预测眼前奖励大于未来奖励——也就是想象即时享乐的多巴胺浓度,大于想象延迟享乐的多巴胺浓度——那么理性思维就会(找出理由)说服自己接受短期诱惑(如娱乐),反之理性思维则会(找出理由)说服自己坚持长远计划(如自律)
事实上,多巴胺、奖励、惩罚、动机、想要、欲望等等,都是基因构造的产物,我们一直也只能遵循基因算法的逻辑行事——理性只是一个**“配角”**。
只不过,理性系统中的智能,是一个可以独立演化的系统,它已经从逻辑角度,看出了本能的种种缺陷与问题,也探索出了各种方法,去对抗本能。
如今,在基因演化之后,顺着人类文明的发展,模因(meme,文化基因)的演化已经拉开了序幕,而智能与本能的博弈才刚刚才开始。
多巴胺与快乐的关系已经显而易见,即:多巴胺是对快乐的预测,有多巴胺不一定快乐,但快乐一定会有多巴胺。
有快乐就会有多巴胺。这是因为,在获得快乐之后,奖励预测的误差就会出现,多巴胺开始驱动强化学习,即:如果快感上升,就要学习趋利,快感下降就要学习避害,快感不变就要学习路径。
同时这也解释了,为什么我们在做快乐的事情时(如游戏、美食和繁衍),难以中断停止,充满了不顾一切都要继续的动力。
例如,像情不自禁地看美女,就是为了维持快乐,多巴胺系统会控制身体、头部与眼睛,跟随美女的运动轨迹,否则就会出现奖励预测误差,并让我们产生有消除这个误差的欲望——至于为啥看美女就会快乐,还不是因为基因想要繁衍,而繁衍的前提就是“锁定目标”(与“学习目标”),基因会奖励繁衍路径上的“点点滴滴”,即可能促成繁衍的所有操作。
1.多巴胺思维:就是把多巴胺看成是基因奴役我们的魔药,其关键点就在于把握住——奖励与误差。
奖励是由基因编辑的算法——如盐、糖、脂肪、繁衍等,可称之为**“先验奖励”(先天),以及算法冗余性所带来的“意外”激发物——如药物、宗教、运动、设备等,可称之为“后验奖励”(后天)**。
2.为什么吃喝繁衍,做起来如此容易毫不费力,而工作学习,却做起来如此困难耗时费劲?
前者是先验奖励,后者是后验奖励。只有体验过工作学习的奖励(越多越好),才能建立起多巴胺对它的**“预测强度”**,而总是体验到痛苦或不愉快(得不到奖励),多巴胺不仅不会激活,还会抑制,从而降低你的行动力。
后验奖励也要通过先验奖励的预设路径才能起效,因为奖励落实到神经层面,都是相同的神经反馈,如:内啡肽与花生四烯乙醇胺,而基因算法的“Bug”就是冗余性带来的毫无生存意义的奖励,如:迷幻蘑菇与颅内电击。
变化即会带来预测误差,而多巴胺的作用就是消除误差,所以:
如果变化指向确定奖励,就会感到——兴趣与热爱。
如果变化指向意外奖励,就会感到——好奇与喜欢。
如果变化指向不确定性,就会感到——排斥与抗拒。
如果变化指向没有变化,就会感到——无聊与乏味。
强化学习动态地设定了**“奖励感”**——这取决于最终奖励获得的情况,包括即时性、可能性和预测误差。换言之,确定的小奖励(奖励感高)会比不确定的大奖励(奖励感低),激发更多的多巴胺。
注意,这里**“确定奖励”是指,奖励存在的确定性(体验过就确定性高),但其过程和强度**仍具有不确定性,这是变化的来源。
因此,多巴胺学习的目标不是奖励最大化,而是利益最大化,即:奖励与耗能比率的最优。
所以,太困难、太复杂、太辛苦、太耗时等等,都会拉低我们对预期奖励的渴望,进而感受到多巴胺浓度降低所带来的**“排斥、抗拒、无聊、乏味”——尽管我们(的智能)知道,延迟享乐与延迟满足,在未来将会有巨大的奖励,但也无法改变“多巴胺现实”**。
更或许,永远无法消除的预测误差就是——遗憾,即:整个人生都将为这个误差,而处在永复往返地负强化学习之中。
最后,从某种角度来看,脑神经科学是心理学的源头,心理学是心理痛苦的解药,因此可以说,所有的心理痛苦,都可以在脑神经科学中找到解答,而奖励预测误差,就是大部分心理痛苦的神经性根源所在。
因此,降低奖励预测,就可以缓解很多的心理问题,但奖励预测真的可以“手动”降低吗?
3.很多人,都无法控制自己的欲望,进而就无法控制自己的行为,最终就无法得到想要的结果,其实这都是被**“魔药多巴胺”**控制的表现和结果。
我们就应该将——欲望与目标区分开:欲望是先验奖励,来自本能的预测;目标是后验奖励,来自智能的预测。
重要的是,相对于智能模型,本能模型是短视与陈旧的,满足欲望的结果未必是好的,例如无法自控地上瘾,这是多巴胺系统被劫持的表现,属于基因算法无法适应当今时代的缺陷,因为**“盐、糖、脂肪”早已不再是稀缺资源,“药物、设备、网络”是丛林时代所没有的,而本能预测**却没有及时地调整策略。
相反,智能模型是长远规划与快速更新的,因为它来自神经网络的逻辑推理与强化学习,就像健身会遭遇反复的疼痛,开始本能会强烈地排斥,但长期健身必会受益,最终在获得巨大的后验奖励之后,连本能也会支持智能的决策。
欲望带来的是想要。控制本能欲望的关键,就在于对多巴胺的调控,而调控多巴胺的关键,就在于找到那个——“多巴胺旋钮”。
与多巴胺浓度密切相关的是**“奖励感”,而它就是调控多巴胺的“旋钮”**。
换言之,欲望控制执行了某个行为,欲望就想从某个行为中获得奖励,如果这个奖励被“打断”(即奖励感降低),就会削弱欲望的动机——也就是降低了多巴胺的浓度。
例如:动物触碰机关就会得到食物,经过多次训练,动物就会产生触碰机关的欲望,而消除它欲望最快的方法,不是在它触碰机关的时候电击它(惩罚),而是在触碰机关后什么也得不到(打断正反馈的奖励)——可见没有奖励的欲望,其脑回路就会(为了节能而)被重塑。
而打断**“欲望奖励循环”**的方法有很多,例如:
转移注意力——运动、游戏、看剧、吃东西,
切换新欲望——做另一个特别感兴趣的事情,
激发目标感——用故事唤醒脑回路中的意义,
等等。
关键点就在于,让欲望得不到满足,以削弱多巴胺系统对奖励的正向预测。
**多巴胺旋钮”**除了逆时针减弱——本能欲望,还有顺时针增强——智能目标。
按照规律,奖励感 = 即时性 + 可能性 + 预测误差,但智能目标必然是:“高延迟 + 低可能性”的——这还如何提高奖励感呢?
解决方案就是:创造短期的小目标,完成可控的小任务,获得即时的正反馈(增强输入行为),训练高效的脑回路。
换言之,就是把大目标分解成各种小目标,把小目标分解成各种小任务,从小任务中获得正反馈,从正反馈中获得即时奖励与控制感(或掌控感),通过这个任务**“游戏化”的过程,就可以像“玩游戏”一样,用一个个小胜利与小进步,塑造希冀、可控与期待的脑回路**。
需要强调的是,没有正反馈,多巴胺就会疲软,从而丧失控制感、掌控感、奖励感,更不会有心流体验,最终就无法行动。
而养成好习惯,还有一个额外的好处,就是**“习惯回路”一旦建立,打破习惯就会受到化学惩罚**——这是对抗欲望强有力的**“化学武器”**。
养成好习惯需要三样东西:
第一,线索(Cue)——启动习惯,遇到相应情境,如:时间、地点、情绪、交互。
第二,例程(Routine)——训练习惯,执行具体动作。
第三,奖励(Reward)——完成习惯,要给予正反馈,如:满足欲望的物质或活动。
养成好习惯,还有一个额外的好处,就是**“习惯回路”一旦建立,打破习惯就会受到化学惩罚**——这是对抗欲望强有力的**“化学武器”**。
若想快速转动**“多巴胺旋钮”,对于简单重复的行为——可以用时间间隔来获得变化(熟悉的意外),而对于复杂艰难的行为——可以用深入探索**来获得变化(未知的意外)。
例如,电影看过了可以间隔重看,技艺学习了可以精益至臻,而繁衍既可以间隔冷却,也可以深度解锁。
相反,本身就充满多样性的行为,如游戏、购物、旅行等,拥有充足的变化(参差多态的意外),所以调控**“多巴胺旋钮”**,就需要避免接触与抑制想象。
所以无论是(逆时针转动)抑制欲望,还是(顺时针转动)追求目标,必不可少的一步都是,在变化过后一定要注入——正反馈的奖励,因为它能带来回路增强的,动机、学习和控制,否则大概率会遭遇到,无聊、懈怠和失控。
例如,要把事情做到极致的**“十倍思维”(即数量级的差异)——就是要创造远远超越市场的变化阈值**,从而能带给用户非凡的正反馈奖励,这样一下就能让用户的多巴胺激增,从而获得他们的注意力、好奇心与新鲜感,进而获得他们的情绪认可与偏好追逐——相反,不够极致(即多巴胺激发不足),就学习不到——“你是谁,你有何不同?”,那么——“为何选你?”。
**《反脆弱》**中,所说:“我们对变化的注意,远远多过扮演重要角色但不变的事物。局部的变化,总是比全局更容易被大脑注意(和存储),需要的内存空间也更小。这种心理启发法(通常,我们自己也意识不到它的运作),即:以变化取代整体的错误是相当普遍的,甚至很容易被观察到。”
可见,人类文明的整体进化,其实是依赖于个人本能的局部追求,即被**“变化欲望”无止尽地驱使的,那么如何在整体进化与局部追求之间取得平衡,就在于——我们是利用变化来提高生活品质,还是被变化利用成为一台“欲望机器”**。
所以,我们不是学会掌控变化,就会被变化所掌控——对此,如果我们能够(通过正念冥想)养成一个时刻反思自己**“内在动机”的行为习惯,或许就不至于在“多巴胺奴役之路”上,越陷越深以至于无法自拔到积重难返**。
