在旧版PDP-11上运行AI模型:爱好者使用了6 MHz CPU和64 KB RAM
5
hardware
微软资深人士在老旧电脑上演示变压器模型的工作
*戴夫·普拉默(Dave Plummer)——知名 Windows 开发者,*
*展示了即使在十年前的设备上也能训练现代 AI 模型。*
完成情况
- 设备:PDP‑11 / 44,47 年前的电脑,6 MHz CPU 和 64 KB RAM。
- 模型:“Attention 11”——由 PDP‑11 汇编语言编写的变压器网络,由 Damien Buret 开发。
- 训练任务:生成八个数字的逆序。
模型不需要记住示例;它必须学习“翻转”序列的规则。
工作原理
1. 初始化——模型以随机权重开始,准确率几乎为零。
2. 训练——每一步执行前向传播(8 位定点)并更新权重。
3. 模式逐步掌握——经过数百次迭代后注意力机制“发现”规则,模型从猜测转向真正的知识。
> “我们观察到学习本身的简化解剖……机器最终跨越了看不见的界限——从猜测到知识。” – 普拉默
结果
- 准确率:逆序任务 100 %。
- 速度:约 350 次训练步,耗时 ~3.5 分钟,在带缓存的 PDP‑11/44 上。
这对现代 AI 的意义
普拉默强调,学习的基本原理——重复算术运算和错误校正——即使在如此简单的系统中也完全实现。
“这台老机器没有神秘思维;它只是更新数千个数字。现代 AI 的核心是扩展这一过程。”
因此,作者证明了变压器的基本机制保持不变,无论其运行在哪种硬件上。
评论 (0)
分享你的想法——请保持礼貌并围绕主题。
登录后发表评论