我认为当下这轮AI热潮关键点在于大语言模型的成功。 OpenAI的成功是偶然的吗?当然不是,哲学里讲偶然中蕴含着必然。 那么它成功的必然在哪呢?我认为和复杂科学里一个概念有关——涌现。 凝聚态物理学家Paul.w.Anderson著名的论文指出:more is different 实际上,诸如GPT-4此类Large Language Models产品的成功,恰恰说明 即便在神经网络这种计算机模拟出来的数字空间里,Anderson教授的预言 依然神奇般的在发挥着统治作用。 在Arxiv中检索emergent abilities,相关文章结果截止到今天仍为个位数。 当然,复杂科学从来都不是一门简单的学问, 另外,检索过程中发现,在Large language models中,另一个概念似乎 更直指问题核心:grokking。 Grokking是一种什么现象呢?大抵就是讲神经网络在过拟合后仍然存在的泛化性, 不用说但看描述就够反直觉了,因为一个common sense是,过拟合和泛化性是冲突的。 但在scaling law的神奇作用下,模型是可以在达到某个参数规模后性能暴涨的。