在旧版PDP-11上运行AI模型:爱好者使用了6 MHz CPU和64 KB RAM

在旧版PDP-11上运行AI模型:爱好者使用了6 MHz CPU和64 KB RAM

5 hardware

微软资深人士在老旧电脑上演示变压器模型的工作

*戴夫·普拉默(Dave Plummer)——知名 Windows 开发者,*

*展示了即使在十年前的设备上也能训练现代 AI 模型。*

完成情况
- 设备:PDP‑11 / 44,47 年前的电脑,6 MHz CPU 和 64 KB RAM。

- 模型:“Attention 11”——由 PDP‑11 汇编语言编写的变压器网络,由 Damien Buret 开发。

- 训练任务:生成八个数字的逆序。
模型不需要记住示例;它必须学习“翻转”序列的规则。

工作原理
1. 初始化——模型以随机权重开始,准确率几乎为零。

2. 训练——每一步执行前向传播(8 位定点)并更新权重。

3. 模式逐步掌握——经过数百次迭代后注意力机制“发现”规则,模型从猜测转向真正的知识。

> “我们观察到学习本身的简化解剖……机器最终跨越了看不见的界限——从猜测到知识。” – 普拉默

结果
- 准确率:逆序任务 100 %。

- 速度:约 350 次训练步,耗时 ~3.5 分钟,在带缓存的 PDP‑11/44 上。

这对现代 AI 的意义
普拉默强调,学习的基本原理——重复算术运算和错误校正——即使在如此简单的系统中也完全实现。

“这台老机器没有神秘思维;它只是更新数千个数字。现代 AI 的核心是扩展这一过程。”

因此,作者证明了变压器的基本机制保持不变,无论其运行在哪种硬件上。

评论 (0)

分享你的想法——请保持礼貌并围绕主题。

暂无评论。留下评论,分享你的观点!

要发表评论,请先登录。

登录后发表评论