多巴胺--1

迭代版本：2

一

多巴胺——主要负责：行为动机、强化学习、运动控制，核心词：奖励预测。

1. 行为动机：执行一个行为内在的驱动力。对于多巴胺来说：是指多巴胺浓度。多巴胺越多，就越容易触发一个行为（说明动机强），多巴胺越少，就越难以触发一个行为（说明动机弱）；

2. 强化学习：基于环境信息的反馈，不断调整行为，从而获得最大化的利益。行为带来奖励（如快乐），触发正向强化学习，这就是「趋利」；行为带来惩罚（如痛苦），触发反向强化学习，这就是「避害」；

所以，在这个角度，多巴胺是一种神经反馈信号，用来衡量行为结果（化学奖励）的好坏，从而引导我们进行试错，更新颅内模型， 快速做错趋利避害的判断；

分布式学习——是指不同通道的多巴胺细胞，对预测误差的计算是不同的，或说是独立的。换言之，对同一个奖励信号，不同通道的多巴胺细胞，将会给出不同的预测误差，结果有些得到了正误差（奖励超出预期），有些则得到了负误差（奖励低于预期）。

3. 运动控制，就是运动的自控与调节，比如保持一个姿势，或是执行一个动作，更复杂的就是完成有难度和技巧的运动。

大脑通过「奖励预测」将行为动机、强化学习和运动控制串联起来。即，动机预测可能，学习预测误差，运动预测轨迹。就是说，预测到奖励就会有产生——动机；实际奖励与预测有误差就会产生——学习。任何运动过程都会耗费更多的能量——所以需要动机，同时运动轨迹的精确控制——需要学习。

多巴胺首先利用先验信息产生行为动机，接着利用运动控制试图消除预测误差，最后则利用强化学习将无法消除的误差更新入先验信息。

最原始的先验信息，就是基因算法所编写的本能欲望，就如食物与繁衍，天然就会带来预期奖励。

例如：第一次吃冰激凌，发现很好吃，感觉到快乐，这就是大脑获得的体验奖励。当我们在某一天看到一个新款草莓冰激淋，便会对新品产生一种预期奖励，从而产生一种「想吃」的行为动机，而且以前吃的冰激凌越多，这种动机越强烈。当我们完成一系列运动控制后，吃到新品草莓冰激淋，体验奖励和预期奖励便会产生误差，正误差——大脑学习到新品更好吃，负误差——大脑学习到新品不好吃，零误差——大脑什么也没有学习到。

同理，那些不愉快与痛苦的经历，就会带来预期惩罚，这会降低某些区域的多巴胺的浓度，从而减少动机，抑制行为的发生——但也会增加另些区域的多巴胺浓度，以激活避害行为的发生。例如，被热水壶烫过，再次遇到热水壶，就会降低**“动机多巴胺”，增加“运动多巴胺”，前者负责减少对触碰热水壶的动机，后者负责增加避免触碰热水壶的运动——从此也可以看出，为什么多巴胺系统是分布式学习**，即对同一个信息，不同的多巴胺细胞会学习到不同的结果。

多巴胺所预期的奖励——其实是颅内的化学奖励（即正面感受），所预期的惩罚——其实是颅内的化学惩罚（即负面感受）。

**化学奖励——有追逐的动机，如：对于快乐体验，**我们喜欢它能更多，但容易忽略已有的利

化学惩罚——有逃避的动机，如：对于痛苦体验，我们会重视的更多，也容易记住已有的害。

所以，快乐与痛苦、好消息与坏消息，对于我们的记忆与影响，具有神经性的**“选择不对称性”**。

趋利**“利要多”——就不能沉迷过往（轻视拥有），避害“害要少”——就不能忘记经历（记忆深刻），所以对于化学奖励与惩罚，为了实现最大化的趋利避害**，我们必然会演化出不对称的身心反应。

而实际奖励低于预期奖励，即奖励负误差，也可以看成是一种惩罚——它带来失望情绪，以及降低下次相同行为的动机（或说驱动力）。因此可以说，负面情绪——就是心理预期与现实（或在感觉上）的奖励负误差，正面情绪——就是心理预期与现实（或在感觉上）的奖励正误差，现实与未来——就是在这两种情绪下被慢慢插值计算的结果。

那么按此视角，我们会发现，有关多巴胺参与的功能，就都能够解释的通了。

例如，注意力需要行为动机与运动控制（眼球），昼夜节律需要运动控制（身体），情绪感受来自预期误差，时间感知来自运动预测，以及等等。

我们每一个行为都需要奖励，而在执行一个行为之前，大脑都会一遍遍地预测，以做出选择与判断，并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。多巴胺一直在**「励」**你去完成某个动作。

最后，对于预测与误差，神经科学有这样一种观点，即：预测是大脑中一切活动的通货，不同的脑区之间交易的，就是不同种类的预测。

换言之，大脑的**“预测”是货币，购买的是“误差”，那么“通货膨胀”就是无视误差（就像抑郁症、自闭症），“通货紧缩”**就是消除一切误差（就像强迫症）。

二

多巴胺系统的主要通路有三条，如下：

第一条，中脑皮层通路（Mesocortical Pathway）——从腹侧被盖区到 => 前额叶皮层（Prefrontal Cortex）、前扣带回皮层（Anterior Cingulate Cortex）、眼眶额叶皮层（Orbitofrontal Cortex）。
第二条，中脑边缘通路（Mesolimbic Pathway），又称奖励回路（Reward Pathway）——从从腹侧被盖区到 => 伏隔核（Nucleus Accumbens）。
第三条，黑质纹状体通路（Nigrostriatal Pathway）——从黑质致密部到 => 纹状体（Striatum）。

显然，从通路所抵达的脑区功能，就可以大体看出这条通路的作用，这对应了前文所说的多巴胺的主要三种功能，如下：

第一，中脑皮层通路——负责行为动机，这条通路上的脑区，与复杂认知、逻辑推理、模式识别、长远计划相关，也就是我们通常所说的理性思维。
第二，中脑边缘通路——负责强化学习，伏隔核被认为主导了奖励、激励和成瘾，因此这条通路除了学习，还能调控重复想要的欲望。当然，控制学习与欲望的基础是，控制注意力。所以这条通路，很容易主导我们的注意力。
第三，黑质纹状体通路——负责运动控制，纹状体的功能在于，调节肌肉张力和协调复杂运动，如果黑质细胞死亡就没有多巴胺投射到纹状体，这会导致运动控制相关的疾病，如震颤、癫痫、多动症、帕金森等。

关于中脑皮层通路有一个深刻的洞见，即：理性思维其实是服务于感性思维的，也就是前者为后者提供行动的理由。

前额叶皮层包括两个子区域：背外侧-前额叶皮层（Dorsolateral Prefrontal Cortex）与腹内侧-前额叶皮层（Ventromedial Prefrontal Cortex），前者负责理性思维，后者负责感性思维，两者合作即综合理性与感性，做出决策。

主导我们的一直都只是感性，当然感性动机有多种可能与路径，而所谓理性，只是在“倾听”感性的各种动机，并给出决策依据，以选出“获胜”的感性动机。

**根据（感性）感觉找观点，然后根据观点找（理性）理由，**而感觉来自环境信息的刺激。

理性可以告诉你现实是什么有哪些可能，但应该怎么办是感性的判断、决策和选择。

至于那些，忍痛与延迟，是预测到未来可能的巨大奖励，致使多巴胺系统战胜了当前的化学惩罚，从而激活了动机、理性、学习与行为控制的神经通路。

当然，如果预测眼前奖励大于未来奖励——也就是想象即时享乐的多巴胺浓度，大于想象延迟享乐的多巴胺浓度——那么理性思维就会（找出理由）说服自己接受短期诱惑（如娱乐），反之理性思维则会（找出理由）说服自己坚持长远计划（如自律）

事实上，多巴胺、奖励、惩罚、动机、想要、欲望等等，都是基因构造的产物，我们一直也只能遵循基因算法的逻辑行事——理性只是一个**“配角”**。

只不过，理性系统中的智能，是一个可以独立演化的系统，它已经从逻辑角度，看出了本能的种种缺陷与问题，也探索出了各种方法，去对抗本能。

如今，在基因演化之后，顺着人类文明的发展，模因（meme，文化基因）的演化已经拉开了序幕，而智能与本能的博弈才刚刚才开始。

多巴胺与快乐的关系已经显而易见，即：多巴胺是对快乐的预测，有多巴胺不一定快乐，但快乐一定会有多巴胺。

有快乐就会有多巴胺。这是因为，在获得快乐之后，奖励预测的误差就会出现，多巴胺开始驱动强化学习，即：如果快感上升，就要学习趋利，快感下降就要学习避害，快感不变就要学习路径。

同时这也解释了，为什么我们在做快乐的事情时（如游戏、美食和繁衍），难以中断停止，充满了不顾一切都要继续的动力。

例如，像情不自禁地看美女，就是为了维持快乐，多巴胺系统会控制身体、头部与眼睛，跟随美女的运动轨迹，否则就会出现奖励预测误差，并让我们产生有消除这个误差的欲望——至于为啥看美女就会快乐，还不是因为基因想要繁衍，而繁衍的前提就是“锁定目标”（与“学习目标”），基因会奖励繁衍路径上的“点点滴滴”，即可能促成繁衍的所有操作。

三

1.多巴胺思维：就是把多巴胺看成是基因奴役我们的魔药，其关键点就在于把握住——奖励与误差。

奖励是由基因编辑的算法——如盐、糖、脂肪、繁衍等，可称之为**“先验奖励”（先天），以及算法冗余性所带来的“意外”激发物——如药物、宗教、运动、设备等，可称之为“后验奖励”（后天）**。

2.为什么吃喝繁衍，做起来如此容易毫不费力，而工作学习，却做起来如此困难耗时费劲？

前者是先验奖励，后者是后验奖励。只有体验过工作学习的奖励（越多越好），才能建立起多巴胺对它的**“预测强度”**，而总是体验到痛苦或不愉快（得不到奖励），多巴胺不仅不会激活，还会抑制，从而降低你的行动力。

后验奖励也要通过先验奖励的预设路径才能起效，因为奖励落实到神经层面，都是相同的神经反馈，如：内啡肽与花生四烯乙醇胺，而基因算法的“Bug”就是冗余性带来的毫无生存意义的奖励，如：迷幻蘑菇与颅内电击。

变化即会带来预测误差，而多巴胺的作用就是消除误差，所以：

如果变化指向确定奖励，就会感到——兴趣与热爱。
如果变化指向意外奖励，就会感到——好奇与喜欢。
如果变化指向不确定性，就会感到——排斥与抗拒。
如果变化指向没有变化，就会感到——无聊与乏味。

强化学习动态地设定了**“奖励感”**——这取决于最终奖励获得的情况，包括即时性、可能性和预测误差。换言之，确定的小奖励（奖励感高）会比不确定的大奖励（奖励感低），激发更多的多巴胺。

注意，这里**“确定奖励”是指，奖励存在的确定性（体验过就确定性高），但其过程和强度**仍具有不确定性，这是变化的来源。

因此，多巴胺学习的目标不是奖励最大化，而是利益最大化，即：奖励与耗能比率的最优。

所以，太困难、太复杂、太辛苦、太耗时等等，都会拉低我们对预期奖励的渴望，进而感受到多巴胺浓度降低所带来的**“排斥、抗拒、无聊、乏味”——尽管我们（的智能）知道，延迟享乐与延迟满足，在未来将会有巨大的奖励，但也无法改变“多巴胺现实”**。

更或许，永远无法消除的预测误差就是——遗憾，即：整个人生都将为这个误差，而处在永复往返地负强化学习之中。

最后，从某种角度来看，脑神经科学是心理学的源头，心理学是心理痛苦的解药，因此可以说，所有的心理痛苦，都可以在脑神经科学中找到解答，而奖励预测误差，就是大部分心理痛苦的神经性根源所在。

因此，降低奖励预测，就可以缓解很多的心理问题，但奖励预测真的可以“手动”降低吗？

3.很多人，都无法控制自己的欲望，进而就无法控制自己的行为，最终就无法得到想要的结果，其实这都是被**“魔药多巴胺”**控制的表现和结果。

我们就应该将——欲望与目标区分开：欲望是先验奖励，来自本能的预测；目标是后验奖励，来自智能的预测。

重要的是，相对于智能模型，本能模型是短视与陈旧的，满足欲望的结果未必是好的，例如无法自控地上瘾，这是多巴胺系统被劫持的表现，属于基因算法无法适应当今时代的缺陷，因为**“盐、糖、脂肪”早已不再是稀缺资源，“药物、设备、网络”是丛林时代所没有的，而本能预测**却没有及时地调整策略。

相反，智能模型是长远规划与快速更新的，因为它来自神经网络的逻辑推理与强化学习，就像健身会遭遇反复的疼痛，开始本能会强烈地排斥，但长期健身必会受益，最终在获得巨大的后验奖励之后，连本能也会支持智能的决策。

欲望带来的是想要。控制本能欲望的关键，就在于对多巴胺的调控，而调控多巴胺的关键，就在于找到那个——“多巴胺旋钮”。

与多巴胺浓度密切相关的是**“奖励感”，而它就是调控多巴胺的“旋钮”**。

换言之，欲望控制执行了某个行为，欲望就想从某个行为中获得奖励，如果这个奖励被“打断”（即奖励感降低），就会削弱欲望的动机——也就是降低了多巴胺的浓度。

例如：动物触碰机关就会得到食物，经过多次训练，动物就会产生触碰机关的欲望，而消除它欲望最快的方法，不是在它触碰机关的时候电击它（惩罚），而是在触碰机关后什么也得不到（打断正反馈的奖励）——可见没有奖励的欲望，其脑回路就会（为了节能而）被重塑。

而打断**“欲望奖励循环”**的方法有很多，例如：

转移注意力——运动、游戏、看剧、吃东西，
切换新欲望——做另一个特别感兴趣的事情，
激发目标感——用故事唤醒脑回路中的意义，
等等。

关键点就在于，让欲望得不到满足，以削弱多巴胺系统对奖励的正向预测。

**多巴胺旋钮”**除了逆时针减弱——本能欲望，还有顺时针增强——智能目标。

按照规律，奖励感 = 即时性 + 可能性 + 预测误差，但智能目标必然是：“高延迟 + 低可能性”的——这还如何提高奖励感呢？

解决方案就是：创造短期的小目标，完成可控的小任务，获得即时的正反馈（增强输入行为），训练高效的脑回路。

换言之，就是把大目标分解成各种小目标，把小目标分解成各种小任务，从小任务中获得正反馈，从正反馈中获得即时奖励与控制感（或掌控感），通过这个任务**“游戏化”的过程，就可以像“玩游戏”一样，用一个个小胜利与小进步，塑造希冀、可控与期待的脑回路**。

需要强调的是，没有正反馈，多巴胺就会疲软，从而丧失控制感、掌控感、奖励感，更不会有心流体验，最终就无法行动。

而养成好习惯，还有一个额外的好处，就是**“习惯回路”一旦建立，打破习惯就会受到化学惩罚**——这是对抗欲望强有力的**“化学武器”**。

养成好习惯需要三样东西：

第一，线索（Cue）——启动习惯，遇到相应情境，如：时间、地点、情绪、交互。
第二，例程（Routine）——训练习惯，执行具体动作。
第三，奖励（Reward）——完成习惯，要给予正反馈，如：满足欲望的物质或活动。

养成好习惯，还有一个额外的好处，就是**“习惯回路”一旦建立，打破习惯就会受到化学惩罚**——这是对抗欲望强有力的**“化学武器”**。

若想快速转动**“多巴胺旋钮”，对于简单重复的行为——可以用时间间隔来获得变化（熟悉的意外），而对于复杂艰难的行为——可以用深入探索**来获得变化（未知的意外）。

例如，电影看过了可以间隔重看，技艺学习了可以精益至臻，而繁衍既可以间隔冷却，也可以深度解锁。

相反，本身就充满多样性的行为，如游戏、购物、旅行等，拥有充足的变化（参差多态的意外），所以调控**“多巴胺旋钮”**，就需要避免接触与抑制想象。

所以无论是（逆时针转动）抑制欲望，还是（顺时针转动）追求目标，必不可少的一步都是，在变化过后一定要注入——正反馈的奖励，因为它能带来回路增强的，动机、学习和控制，否则大概率会遭遇到，无聊、懈怠和失控。

例如，要把事情做到极致的**“十倍思维”（即数量级的差异）——就是要创造远远超越市场的变化阈值**，从而能带给用户非凡的正反馈奖励，这样一下就能让用户的多巴胺激增，从而获得他们的注意力、好奇心与新鲜感，进而获得他们的情绪认可与偏好追逐——相反，不够极致（即多巴胺激发不足），就学习不到——“你是谁，你有何不同？”，那么——“为何选你？”。

**《反脆弱》**中，所说：“我们对变化的注意，远远多过扮演重要角色但不变的事物。局部的变化，总是比全局更容易被大脑注意（和存储），需要的内存空间也更小。这种心理启发法（通常，我们自己也意识不到它的运作），即：以变化取代整体的错误是相当普遍的，甚至很容易被观察到。”

可见，人类文明的整体进化，其实是依赖于个人本能的局部追求，即被**“变化欲望”无止尽地驱使的，那么如何在整体进化与局部追求之间取得平衡，就在于——我们是利用变化来提高生活品质，还是被变化利用成为一台“欲望机器”**。

所以，我们不是学会掌控变化，就会被变化所掌控——对此，如果我们能够（通过正念冥想）养成一个时刻反思自己**“内在动机”的行为习惯，或许就不至于在“多巴胺奴役之路”上，越陷越深以至于无法自拔到积重难返**。

zkmark

多巴胺--1

一

二

三

zkmark