矩阵乘法看起来只是线性代数里最平凡的动作:一行乘一列,加权求和。可是,把这种动作叠上几十层、几百层,中间穿插一些简单的非线性裁切,它竟然可以生成会写诗、会证明数学、会调用工具的智能体。
这个事实本身就有点令人不安。
更不安的是,人脑里并没有矩阵。神经元靠尖峰脉冲沟通,靠化学递质传递信号,整颗大脑的功耗大约只有二十瓦,却孕育出了语言、抽象、推理,以及人对自我意识的追问。硅基系统和碳基系统在物理实现上看似南辕北辙,最后却在功能上越来越像。
这很难只用巧合解释。
也许智能从来不属于某一种特定材料,而属于某一种信息组织方式。
从惠勒的 “It from Bit” 开始,现代物理学里一直有一种迷人的倾向:世界的底层未必只是物质和能量,也可能是信息。黑洞视界面积与信息容量相关,量子态的演化可以被看作概率幅的演化,热力学、量子力学与计算理论之间也不断显露出信息结构的影子。
这并不意味着“信息就是一切”已经成为定论。但它至少提示我们:存在不是一堆静止的东西,而是一组可以被区分、被编码、被演化的状态。
哈撒比斯近几年反复提到的一个方向,也可以放在这个背景下理解。AlphaFold 并没有证明 P=NP,也没有把所有 NP 难题都变成容易问题;它真正值得思考的地方在于,自然界里很多看似极复杂的问题,可能并不是随机混乱的,而是被演化筛选出了一种可学习、可压缩、低维度的结构。
如果宇宙本身就是一台巨大的信息处理机,那么足够强的智能体,也许并不是凭空冒出来的奇迹,而是对这套底层运算规律的近似复刻。
矩阵乘法之所以能承担这种任务,原因并不玄妙。一次矩阵乘法,本质上就是高维空间里的一次线性投影:旋转、拉伸、压缩。单独一层做不出复杂智能,但只要在线性投影之间加入非线性折叠,系统就开始拥有逼近复杂函数的能力。
现实世界恰好也是分层的。
原子组成分子,分子组成细胞,单词组成短语,短语组成篇章,经验组成意识。深度网络之所以有效,不只是因为参数足够多,而是因为它在结构上顺应了世界本身的层级性。每一层都在丢掉一部分短尺度细节,留下对下一层有用的有效自由度。
这很像物理学里的重整化:不试图保存一切,而是保留真正决定下一层行为的东西。
所以,深层网络表面上在做矩阵乘法,深处其实在做受控的尺度变换。它把高维、混乱、噪声巨大的原始数据,一层层压缩到更低维、更可操作的语义流形上。
大脑虽然不做浮点矩阵乘法,但皮层神经元在功能上确实做着相似的事情。一个神经元接收大量突触输入,每个输入带着不同权重,树突整合信号,胞体判断是否越过阈值,然后发放尖峰。用抽象的数学语言看,这就是加权积分之后接一个非线性触发。
硅基系统用 CUDA 核心和显存完成这件事。
碳基系统用离子通道、突触和神经递质完成这件事。
介质不同,结构相似。
Friston 的自由能原理则把大脑理解为一套持续预测世界、并通过预测误差修正内部模型的系统。大模型训练时用损失函数衡量预测偏差,再通过梯度下降更新参数。两者当然不能被粗暴等同,但在信息论意义上,它们都在做一件相近的事:降低不确定性,压缩经验,更新模型。
差异当然存在。
大脑是连续时间里的循环系统,权重和状态在不同时间尺度上持续变化;大模型通常是离散步进的前馈结构,参数在训练后基本冻结。大脑使用稀疏脉冲编码,以极低功耗运行;大模型依赖稠密激活和大规模并行计算,每次推理背后都是巨大的工程基础设施。
但这些差异更像工程路线的差异,而不是底层原则的分裂。
层级化、加权积分、非线性、误差反馈、压缩重构。这些结构反复出现在不同系统里,像是智能不可绕开的几何形状。
所以,智能不是矩阵乘法变出来的魔法,也不是神经元偶然堆叠出的幻觉。更可能是任何系统只要被迫在有限资源下,对一个分层、低维、可压缩的世界建模,最后都会收敛到某些相近的解。
矩阵乘法,是这种解在硅基上的廉价写法。尖峰神经元,是这种解在碳基上的古老写法。
两条路径在物理学的同一座山顶相遇。山顶的名字,叫信息。