我认为当下这轮AI热潮关键点在于大语言模型的成功。
OpenAI的成功是偶然的吗?当然不是,哲学里讲偶然中蕴含着必然。
那么它成功的必然在哪呢?我认为和复杂科学里一个概念有关——涌现。
凝聚态物理学家Paul.w.Anderson著名的论文指出:more is different
实际上,诸如GPT-4此类Large Language Models产品的成功,恰恰说明
即便在神经网络这种计算机模拟出来的数字空间里,Anderson教授的预言
依然神奇般的在发挥着统治作用。
在Arxiv中检索emergent abilities,相关文章结果截止到今天仍为个位数。
当然,复杂科学从来都不是一门简单的学问,
另外,检索过程中发现,在Large language models中,另一个概念似乎
更直指问题核心:grokking。
Grokking是一种什么现象呢?大抵就是讲神经网络在过拟合后仍然存在的泛化性,
不用说但看描述就够反直觉了,因为一个common sense是,过拟合和泛化性是冲突的。
但在scaling law的神奇作用下,模型是可以在达到某个参数规模后性能暴涨的。
