<100 subscribers

每一代大模型的参数在使用一种非线性的数学算法来进行构建。这中算法导致了参数规模越来越大,最后烧的是算力,然后,突然有了一个数学上的突破,出现了一种把神经元计算变回线性计算的方案,通过这样的转换,相当于我们的复杂性降低到了线性增长的规模。
那么在这样的数学底层下,大模型公司的兴盛和衰亡转折点会很快到来。
未来我们的模型需要的不是巨大的参数量来实现模型性能,而是小小的模型,在构建认知能力上,核心稳定,不去记忆很多事,而是在做的过程学,不执行任务的时候,直接放弃已有的记忆,存档到某个地方,类似于人类的笔记本。
人类的大脑很强,但是再强也比不过一个大脑加一个纸笔,通过工具我们的认知核心扩展了,在和世界的交互过程里面实现了“增参”。理论上,LLM也是如此,现在有一个很小的模型,7M左右,就已经在前沿基准测试里面取得了几乎媲美最顶级大模型的能力。从参数利用率来说,几乎完虐其他大模型,这里说的是openAI,deepseek等模型公司。
那么在自己的个人电脑上,我们可以运行的模型,超越几万亿的规模参数的模型不可能都能够部署,要么你买最新的英伟达桌面芯片,要么就是买云服务器,但这对普通用户来说很费事,没有技术能力的人来说,这是极度艰难的。
那么在小模型这里,效果就会不一样,可以实现在电脑和手机自动部署,类似于安装APP,而不是远程调用,这样的范式下,每个人都有属于自己的AI助理,数据私有,智能程度很高,足够日常使用。这样的竞争优势会导致一个情况,大模型公司的市场份额被占领了,这部分用户使用的场景是日常所需。而大模型公司的场景变成专业研究人员创新或者技术人员调用API完成复杂任务,但是随着小模型的增长,这部分能力还是会被小模型吞并。

参考文献:
Share Dialog
No comments yet