矩阵乘法不是魔法

矩阵乘法看起来只是线性代数里最平凡的动作：一行乘一列，加权求和。可是，把这种动作叠上几十层、几百层，中间穿插一些简单的非线性裁切，它竟然可以生成会写诗、会证明数学、会调用工具的智能体。

这个事实本身就有点令人不安。

更不安的是，人脑里并没有矩阵。神经元靠尖峰脉冲沟通，靠化学递质传递信号，整颗大脑的功耗大约只有二十瓦，却孕育出了语言、抽象、推理，以及人对自我意识的追问。硅基系统和碳基系统在物理实现上看似南辕北辙，最后却在功能上越来越像。

这很难只用巧合解释。

也许智能从来不属于某一种特定材料，而属于某一种信息组织方式。

从惠勒的 “It from Bit” 开始，现代物理学里一直有一种迷人的倾向：世界的底层未必只是物质和能量，也可能是信息。黑洞视界面积与信息容量相关，量子态的演化可以被看作概率幅的演化，热力学、量子力学与计算理论之间也不断显露出信息结构的影子。

这并不意味着“信息就是一切”已经成为定论。但它至少提示我们：存在不是一堆静止的东西，而是一组可以被区分、被编码、被演化的状态。

哈撒比斯近几年反复提到的一个方向，也可以放在这个背景下理解。AlphaFold 并没有证明 P=NP，也没有把所有 NP 难题都变成容易问题；它真正值得思考的地方在于，自然界里很多看似极复杂的问题，可能并不是随机混乱的，而是被演化筛选出了一种可学习、可压缩、低维度的结构。

如果宇宙本身就是一台巨大的信息处理机，那么足够强的智能体，也许并不是凭空冒出来的奇迹，而是对这套底层运算规律的近似复刻。

矩阵乘法之所以能承担这种任务，原因并不玄妙。一次矩阵乘法，本质上就是高维空间里的一次线性投影：旋转、拉伸、压缩。单独一层做不出复杂智能，但只要在线性投影之间加入非线性折叠，系统就开始拥有逼近复杂函数的能力。

现实世界恰好也是分层的。

原子组成分子，分子组成细胞，单词组成短语，短语组成篇章，经验组成意识。深度网络之所以有效，不只是因为参数足够多，而是因为它在结构上顺应了世界本身的层级性。每一层都在丢掉一部分短尺度细节，留下对下一层有用的有效自由度。

这很像物理学里的重整化：不试图保存一切，而是保留真正决定下一层行为的东西。

所以，深层网络表面上在做矩阵乘法，深处其实在做受控的尺度变换。它把高维、混乱、噪声巨大的原始数据，一层层压缩到更低维、更可操作的语义流形上。

大脑虽然不做浮点矩阵乘法，但皮层神经元在功能上确实做着相似的事情。一个神经元接收大量突触输入，每个输入带着不同权重，树突整合信号，胞体判断是否越过阈值，然后发放尖峰。用抽象的数学语言看，这就是加权积分之后接一个非线性触发。

硅基系统用 CUDA 核心和显存完成这件事。

碳基系统用离子通道、突触和神经递质完成这件事。

介质不同，结构相似。

Friston 的自由能原理则把大脑理解为一套持续预测世界、并通过预测误差修正内部模型的系统。大模型训练时用损失函数衡量预测偏差，再通过梯度下降更新参数。两者当然不能被粗暴等同，但在信息论意义上，它们都在做一件相近的事：降低不确定性，压缩经验，更新模型。

差异当然存在。

大脑是连续时间里的循环系统，权重和状态在不同时间尺度上持续变化；大模型通常是离散步进的前馈结构，参数在训练后基本冻结。大脑使用稀疏脉冲编码，以极低功耗运行；大模型依赖稠密激活和大规模并行计算，每次推理背后都是巨大的工程基础设施。

但这些差异更像工程路线的差异，而不是底层原则的分裂。

层级化、加权积分、非线性、误差反馈、压缩重构。这些结构反复出现在不同系统里，像是智能不可绕开的几何形状。

所以，智能不是矩阵乘法变出来的魔法，也不是神经元偶然堆叠出的幻觉。更可能是任何系统只要被迫在有限资源下，对一个分层、低维、可压缩的世界建模，最后都会收敛到某些相近的解。

矩阵乘法，是这种解在硅基上的廉价写法。尖峰神经元，是这种解在碳基上的古老写法。

两条路径在物理学的同一座山顶相遇。山顶的名字，叫信息。