# 多巴胺--1

By [zkmark](https://paragraph.com/@zkmark) · 2021-12-12

---

> 迭代版本：2

一
-

**多巴胺**——主要负责：行为动机、强化学习、运动控制，核心词：**奖励预测**。

**1\. 行为动机**：执行一个行为内在的驱动力。对于多巴胺来说：是指**多巴胺浓度**。多巴胺越多，就越容易触发一个行为（说明动机强），多巴胺越少，就越难以触发一个行为（说明动机弱）；

**2\. 强化学习**：基于环境信息的反馈，不断调整行为，从而获得最大化的利益。行为带来奖励（如快乐），触发正向强化学习，这就是「趋利」；行为带来惩罚（如痛苦），触发反向强化学习，这就是「避害」；

所以，在这个角度，多巴胺是一种神经反馈信号，用来衡量行为结果（**化学奖励**）的好坏，从而引导我们进行**试错**，更新**颅内模型 ，** 快速**做错趋利避害的判断；**

**分布式学习**——是指不同通道的多巴胺细胞，对预测误差的计算是不同的，或说是独立的。换言之，对同一个奖励信号，不同通道的多巴胺细胞，将会给出不同的预测误差，结果有些得到了正误差（奖励超出预期），有些则得到了负误差（奖励低于预期）。

**3\. 运动控制**，就是运动的自控与调节，比如保持一个姿势，或是执行一个动作，更复杂的就是完成有难度和技巧的运动。

大脑通过「**奖励预测」将行为动机、强化学习和运动控制串联起来。即，动机预测可能，学习预测误差，运动预测轨迹**。就是说，预测到奖励就会有产生——**动机**；实际奖励与预测有误差就会产生——**学习**。任何运动过程都会耗费更多的能量——所以需要**动机**，同时运动轨迹的精确控制——需要**学习**。

多巴胺首先利用**先验信息**产生**行为动机**，接着利用**运动控制**试图消除**预测误差**，最后则利用**强化学习**将无法消除的误差更新入**先验信息**。

**最原始的**先验信息，就是基因算法所编写的本能欲望，就如**食物与繁衍**，天然就会带来**预期奖励**。

例如：第一次吃冰激凌，发现很好吃，感觉到快乐，这就是大脑获得的**体验奖励**。当我们在某一天看到一个新款草莓冰激淋，便会对新品产生一种**预期奖励，从而产生一种「想吃」的行为动机，而且以前吃的冰激凌越多，这种动机越强烈。当我们完成一系列运动控制**后，吃到新品草莓冰激淋，**体验奖励**和**预期奖励**便会产生误差，**正误差**——大脑学习到新品更好吃，**负误差**——大脑学习到新品不好吃，**零误差**——大脑什么也没有学习到。

同理，那些不愉快与痛苦的经历，就会带来**预期惩罚**，这会降低**某些区域的**多巴胺的浓度，从而减少动机，抑制行为的发生——但也会增加**另些区域的**多巴胺浓度，以激活避害行为的发生。例如，被热水壶烫过，再次遇到热水壶，就会降低\*\*“动机多巴胺”**，增加**“运动多巴胺”**，前者**负责减少**对触碰热水壶的动机，后者**负责增加**避免触碰热水壶的运动——从此也可以看出，为什么多巴胺系统是**分布式学习\*\*，即对同一个信息，不同的多巴胺细胞会学习到不同的结果。

多巴胺所预期的奖励——其实是颅内的**化学奖励**（即正面感受），所预期的惩罚——其实是颅内的**化学惩罚**（即负面感受）。

\*\*化学奖励——**有追逐的动机，如：对于**快乐体验，\*\*我们喜欢它能更多，但容易忽略已有的利

**化学惩罚——有逃避的动机，如：对于痛苦体验**，我们会重视的更多，也容易记住已有的害。

所以，快乐与痛苦、好消息与坏消息，对于我们的**记忆与影响**，具有神经性的\*\*“选择不对称性”\*\*。

趋利\*\*“利要多”**——就不能沉迷过往（轻视拥有），避害**“害要少”**——就不能忘记经历（记忆深刻），所以对于化学奖励与惩罚，为了实现最大化的**趋利避害\*\*，我们必然会演化出**不对称的**身心反应。

而实际奖励**低于**预期奖励，即**奖励负误差**，也可以看成是一种惩罚——它带来失望情绪，以及降低下次相同行为的动机（或说驱动力）。因此可以说，**负面情绪**——就是心理预期与现实（或在感觉上）的奖励负误差，**正面情绪**——就是心理预期与现实（或在感觉上）的奖励正误差，**现实与未来**——就是在这两种情绪下被慢慢插值计算的结果。

那么按此视角，我们会发现，有关多巴胺参与的功能，就都能够解释的通了。

例如，**注意力**需要行为动机与运动控制（眼球），**昼夜节律**需要运动控制（身体），**情绪感受**来自预期误差，**时间感知**来自运动预测，以及等等。

我们每一个行为都需要**奖励**，而在执行一个行为之前，大脑都会一遍遍地**预测**，以做出选择与判断，并从中学习到更好的**决策模型**——这背后都需要**多巴胺**的参与支持。多巴胺一直在\*\*「励」\*\*你去完成某个动作。

最后，对于**预测**与**误差**，神经科学有这样一种观点，即：**预测**是大脑中一切活动的**通货，不同的脑区之间交易的，就是不同种类的预测**。

换言之，大脑的\*\*“预测”**是货币，购买的是**“误差”**，那么**“通货膨胀”**就是无视误差（就像抑郁症、自闭症），**“通货紧缩”\*\*就是消除一切误差（就像强迫症）。

二
-

**多巴胺系统**的主要通路有三条，如下：

*   第一条，[**中脑皮层**](https://www.zhihu.com/search?q=%E4%B8%AD%E8%84%91%E7%9A%AE%E5%B1%82&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra=%7B%22sourceType%22%3A%22article%22%2C%22sourceId%22%3A112438603%7D)**通路**（Mesocortical Pathway）——从腹侧被盖区到 => 前额叶皮层（Prefrontal Cortex）、前扣带回皮层（Anterior Cingulate Cortex）、眼眶额叶皮层（Orbitofrontal Cortex）。
    
*   第二条，**中脑边缘通路**（Mesolimbic Pathway），又称**奖励回路**（Reward Pathway）——从从腹侧被盖区到 => 伏隔核（Nucleus Accumbens）。
    
*   第三条，**黑质纹状体通路**（Nigrostriatal Pathway）——从黑质致密部到 => 纹状体（Striatum）。
    

显然，从通路所抵达的脑区功能，就可以大体看出这条通路的作用，这对应了前文所说的多巴胺的主要三种功能，如下：

*   **第一，中脑皮层通路**——负责**行为动机**，这条通路上的脑区，与复杂认知、逻辑推理、模式识别、长远计划相关，也就是我们通常所说的**理性思维**。
    
*   **第二，中脑边缘通路**——负责**强化学习**，伏隔核被认为主导了奖励、激励和成瘾，因此这条通路除了学习，还能调控重复想要的欲望。当然，控制学习与欲望的基础是，控制注意力。所以这条通路，很容易主导我们的注意力。
    
*   **第三，黑质纹状体通路**——负责**运动控制**，[纹状体](https://www.zhihu.com/search?q=%E7%BA%B9%E7%8A%B6%E4%BD%93&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra=%7B%22sourceType%22%3A%22article%22%2C%22sourceId%22%3A112438603%7D)的功能在于，调节肌肉张力和协调复杂运动，如果**黑质细胞**死亡就没有多巴胺投射到纹状体，这会导致运动控制相关的疾病，如震颤、癫痫、多动症、[帕金森](https://www.zhihu.com/search?q=%E5%B8%95%E9%87%91%E6%A3%AE&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra=%7B%22sourceType%22%3A%22article%22%2C%22sourceId%22%3A112438603%7D)等。
    

关于**中脑皮层通路**有一个深刻的洞见，即：**理性思维**其实是服务于**感性思维**的，也就是前者为后者提供**行动的理由**。

`前额叶皮层包括两个子区域：背外侧-前额叶皮层（Dorsolateral Prefrontal Cortex）与腹内侧-前额叶皮层（Ventromedial Prefrontal Cortex），前者负责理性思维，后者负责感性思维，两者合作即综合理性与感性，做出决策。`

主导我们的一直都只是**感性**，当然**感性动机**有多种可能与路径，而所谓**理性**，只是在“倾听”**感性**的各种动机，并给出决策依据，以选出“获胜”的**感性动机**。

\*\*根据（感性）感觉找观点，然后根据观点找（理性）理由，\*\*而感觉来自环境信息的刺激。

**理性**可以告诉你现实是什么有哪些可能，但应该怎么办是**感性**的判断、决策和选择。

至于那些，**忍痛**与**延迟**，是预测到未来可能的巨大奖励，致使**多巴胺系统**战胜了当前的**化学惩罚**，从而激活了动机、理性、学习与行为控制的**神经通路**。

当然，如果预测**眼前奖励**大于**未来奖励**——也就是想象**即时享乐**的多巴胺浓度，大于想象**延迟享乐**的多巴胺浓度——那么**理性思维**就会（找出理由）说服自己**接受短期诱惑**（如娱乐），反之**理性思维**则会（找出理由）说服自己**坚持长远计划**（如自律）

事实上，多巴胺、奖励、惩罚、动机、想要、欲望等等，都是基因构造的产物，我们一直也只能遵循**基因算法**的逻辑行事——**理性**只是一个\*\*“配角”\*\*。

只不过，理性系统中的**智能**，是一个可以独立演化的系统，它已经从逻辑角度，看出了**本能**的种种缺陷与问题，也探索出了各种方法，去对抗**本能**。

如今，在基因演化之后，顺着人类文明的发展，模因（meme，文化基因）的演化已经拉开了序幕，而**智能**与**本能**的博弈才刚刚才开始。

**多巴胺与快乐**的关系已经显而易见，即：多巴胺是对快乐的预测，有多巴胺不一定快乐，但快乐一定会有多巴胺。

**有快乐就会有多巴胺。这是因为，在获得快乐之后，奖励预测的误差就会出现，多巴胺开始驱动强化学习**，即：如果快感上升，就要学习**趋利**，快感下降就要学习**避害**，快感不变就要学习**路径**。

同时这也解释了，为什么我们在做快乐的事情时（如游戏、美食和繁衍），难以中断停止，充满了**不顾一切**都要继续的动力。

例如，像**情不自禁**地看美女，就是为了维持快乐，**多巴胺系统**会控制身体、头部与眼睛，跟随美女的运动轨迹，否则就会出现**奖励预测误差**，并让我们产生有消除这个误差的欲望——至于为啥看美女就会快乐，还不是因为基因想要繁衍，而繁衍的前提就是“锁定目标”（与“学习目标”），基因会奖励繁衍路径上的“点点滴滴”，即可能促成繁衍的所有操作。

三
-

**1.多巴胺思维：就是把多巴胺**看成是**基因奴役**我们的**魔药**，其关键点就在于把握住——**奖励与误差**。

奖励是由基因编辑的算法——如盐、糖、脂肪、繁衍等，可称之为\*\*“先验奖励”（先天）**，以及**算法冗余性**所带来的“意外”激发物——如药物、宗教、运动、设备等，可称之为**“后验奖励”（后天）\*\*。

2.为什么吃喝繁衍，做起来如此容易**毫不费力**，而工作学习，却做起来如此困难**耗时费劲**？

前者是**先验奖励**，后者是**后验奖励**。只有体验过工作学习的奖励（越多越好），才能建立起多巴胺对它的\*\*“预测强度”\*\*，而总是体验到痛苦或不愉快（得不到奖励），多巴胺不仅不会激活，还会抑制，从而降低你的行动力。

**后验奖励**也要通过**先验奖励**的预设路径才能起效，因为奖励落实到神经层面，都是相同的神经反馈，如：内啡肽与花生四烯乙醇胺，而基因算法的“Bug”就是**冗余性**带来的毫无生存意义的奖励，如：**迷幻蘑菇**与**颅内电击**。

变化即会带来**预测误差**，而多巴胺的作用就是**消除误差**，所以：

*   如果变化指向**确定奖励**，就会感到——兴趣与热爱。
    
*   如果变化指向**意外奖励**，就会感到——好奇与喜欢。
    
*   如果变化指向**不确定性**，就会感到——排斥与抗拒。
    
*   如果变化指向**没有变化**，就会感到——无聊与乏味。
    

强化学习动态地设定了\*\*“奖励感”\*\*——这取决于最终奖励获得的情况，包括即时性、可能性和预测误差。换言之，确定的小奖励（奖励感高）会比不确定的大奖励（奖励感低），激发更多的多巴胺。

注意，这里\*\*“确定奖励”**是指，奖励存在的确定性（体验过就确定性高），但其**过程和强度\*\*仍具有不确定性，这是变化的来源。

因此，**多巴胺学习**的目标不是奖励最大化，而是利益最大化，即：奖励与耗能比率的最优。

所以，太困难、太复杂、太辛苦、太耗时等等，都会拉低我们对**预期奖励**的渴望，进而感受到多巴胺浓度降低所带来的\*\*“排斥、抗拒、无聊、乏味”**——尽管我们（的智能）知道，延迟享乐与**延迟满足，**在未来将会有巨大的奖励，但也无法改变**“多巴胺现实”\*\*。

更或许，永远无法消除的**预测误差**就是——**遗憾**，即：整个人生都将为这个误差，而处在**永复往返**地负强化学习之中。

**最后，从某种角度来看，脑神经科学是心理学的源头，心理学是心理痛苦的解药，因此可以说，所有的心理痛苦，都可以在脑神经科学中找到解答，而奖励预测误差**，就是大部分心理痛苦的**神经性根源**所在。

因此，降低**奖励预测**，就可以缓解很多的心理问题，但**奖励预测**真的可以“手动”降低吗？

3.很多人，都无法控制自己的欲望，进而就无法控制自己的行为，最终就无法得到想要的结果，其实这都是被\*\*“魔药多巴胺”\*\*控制的表现和结果。

我们就应该将——**欲望与目标**区分开：欲望是**先验奖励**，来自**本能**的预测；目标是**后验奖励**，来自**智能**的预测。

重要的是，相对于智能模型，**本能模型**是短视与陈旧的，**满足欲望**的结果未必是好的，例如无法自控地**上瘾**，这是多巴胺系统被劫持的表现，属于**基因算法**无法适应当今时代的缺陷，因为\*\*“盐、糖、脂肪”**早已不再是稀缺资源，**“药物、设备、网络”**是丛林时代所没有的，而**本能预测\*\*却没有及时地调整策略。

相反，**智能模型**是长远规划与快速更新的，因为它来自神经网络的**逻辑推理**与**强化学习**，就像**健身**会遭遇反复的疼痛，开始本能会强烈地排斥，但长期**健身**必会受益，最终在获得巨大的**后验奖励**之后，连本能也会支持智能的决策。

**欲望**带来的是想要。控制**本能欲望**的关键，就在于对**多巴胺**的调控，而调控**多巴胺**的关键，就在于找到那个——**“多巴胺旋钮”**。

与**多巴胺浓度**密切相关的是\*\*“奖励感”**，而它就是调控多巴胺的**“旋钮”\*\*。

换言之，欲望控制执行了某个行为，欲望就想从某个行为中获得奖励，如果这个奖励被“打断”（即奖励感降低），就会削弱欲望的动机——也就是降低了多巴胺的浓度。

例如：动物触碰机关就会得到食物，经过多次训练，动物就会产生触碰机关的欲望，而消除它欲望最快的方法，不是在它触碰机关的时候电击它（惩罚），而是在触碰机关后什么也得不到（打断正反馈的奖励）——可见没有奖励的欲望，其脑回路就会（为了节能而）被重塑。

而打断\*\*“欲望奖励循环”\*\*的方法有很多，例如：

*   转移注意力——运动、游戏、看剧、吃东西，
    
*   切换新欲望——做另一个特别感兴趣的事情，
    
*   激发目标感——用故事唤醒脑回路中的意义，
    
*   等等。
    

关键点就在于，让欲望得不到满足，以削弱**多巴胺系统**对奖励的正向预测。

\*\*多巴胺旋钮”\*\*除了逆时针减弱——**本能欲望**，还有顺时针增强——**智能目标**。

按照规律，**奖励感 = 即时性 + 可能性 + 预测误差**，但**智能目标**必然是：**“高延迟 + 低可能性”的——这还如何提高奖励感**呢？

解决方案就是：创造短期的**小目标**，完成可控的**小任务**，获得即时的**正反馈**（增强输入行为），训练高效的**脑回路**。

换言之，就是把大目标分解成各种**小目标**，把小目标分解成各种**小任务**，从**小任务**中获得**正反馈**，从**正反馈**中获得**即时奖励**与**控制感**（或掌控感），通过这个任务\*\*“游戏化”**的过程，就可以像**“玩游戏”**一样，用一个个小胜利与小进步，塑造希冀、可控与期待的**脑回路\*\*。

需要强调的是，没有正反馈，多巴胺就会疲软，从而丧失**控制感**、**掌控感**、**奖励感**，更不会有**心流体验**，最终就无法行动。

而养成好习惯，还有一个额外的好处，就是\*\*“习惯回路”**一旦建立，打破习惯就会受到**化学惩罚\*\*——这是**对抗欲望**强有力的\*\*“化学武器”\*\*。

养成好习惯需要三样东西：

*   第一，**线索**（Cue）——启动习惯，遇到相应情境，如：时间、地点、情绪、交互。
    
*   第二，**例程**（Routine）——训练习惯，执行具体动作。
    
*   第三，**奖励**（Reward）——完成习惯，要给予正反馈，如：满足欲望的物质或活动。
    

养成好习惯，还有一个额外的好处，就是\*\*“习惯回路”**一旦建立，打破习惯就会受到**化学惩罚\*\*——这是**对抗欲望**强有力的\*\*“化学武器”\*\*。

若想快速转动\*\*“多巴胺旋钮”**，对于**简单重复**的行为——可以用**时间间隔**来获得变化（熟悉的意外），而对于**复杂艰难**的行为——可以用**深入探索\*\*来获得变化（未知的意外）。

例如，电影看过了可以**间隔重看**，技艺学习了可以**精益至臻**，而繁衍既可以**间隔冷却**，也可以**深度解锁**。

相反，本身就充满**多样性**的行为，如游戏、购物、旅行等，拥有充足的变化（参差多态的意外），所以调控\*\*“多巴胺旋钮”\*\*，就需要避免接触与抑制想象。

所以无论是（逆时针转动）抑制欲望，还是（顺时针转动）追求目标，必不可少的一步都是，在变化过后一定要注入——**正反馈的奖励**，因为它能带来回路增强的，动机、学习和控制，否则大概率会遭遇到，无聊、懈怠和失控。

例如，要把事情做到**极致**的\*\*“十倍思维”**（即数量级的差异）——就是要创造**远远超越**市场的**变化阈值\*\*，从而能带给用户非凡的**正反馈奖励，这样一下就能让用户的多巴胺激增**，从而获得他们的注意力、好奇心与新鲜感，进而获得他们的**情绪认可**与**偏好追逐**——相反，**不够极致**（即多巴胺激发不足），就学习不到——“你是谁，你有何不同？”，那么——“为何选你？”。

\*\*《反脆弱》\*\*中，所说：“我们对变化的注意，远远多过扮演重要角色但不变的事物。局部的变化，总是比全局更容易被大脑注意（和存储），需要的内存空间也更小。这种心理启发法（通常，我们自己也意识不到它的运作），即：**以变化取代整体的错误是相当普遍的**，甚至很容易被观察到。”

可见，人类文明的**整体进化**，其实是依赖于个人本能的**局部追求**，即被\*\*“变化欲望”**无止尽地驱使的，那么如何在**整体进化**与**局部追求**之间取得平衡，就在于——我们是利用**变化**来提高生活品质，还是被**变化**利用成为一台**“欲望机器”\*\*。

所以，我们不是学会掌控**变化**，就会被**变化**所掌控——对此，如果我们能够（通过正念冥想）养成一个时刻反思自己\*\*“内在动机”**的行为习惯，或许就不至于在**“多巴胺奴役之路”**上，越陷越深以至于无法自拔到**积重难返\*\*。

---

*Originally published on [zkmark](https://paragraph.com/@zkmark/1)*