我要投稿

仅70块钱的板子256M内存跑起了10亿参数大模型，这个项目让我惊掉下巴，这是真大佬，我服

发布日期：2026-02-22 11:40:27 浏览次数： 2159

作者：老码小张

微信搜一搜，关注“老码小张”

事情是这样的，我在 github 上刷到了一个直觉感受不可能的项目，他里面的一行描述让我停下来：

"Run a 1-billion parameter LLM on a $10 board with 256MB RAM"

我的第一反应是——这不可能。

不是不可能跑，是不可能用256MB RAM跑。我下意识地做了个估算：1B参数的模型，哪怕用最激进的INT4量化，也得……等等，我得认真算一下。

先把这道基础题做对

在看这个项目之前，我觉得有必要先把数字搞清楚。因为我发现很多人说"模型太大跑不了"，但从来没算过"到底有多大"。

一个参数，用不同精度存储：

• FP32（全精度）：4 字节 → 1B 参数 = 4 GB
• FP16（半精度）：2 字节 → 1B 参数 = 2 GB
• INT8（8位量化）：1 字节 → 1B 参数 = 1 GB
• INT4（4位量化）：0.5 字节 → 1B 参数 = ~500 MB

500MB。就算最激进的INT4量化，权重本身就要500MB。

然后 256MB 的设备要跑它？

这个时候我意识到，一定有什么东西不对——要么这 256MB 的说法有问题，要么这个推理方式根本不是我们平时理解的那种"全部加载进内存"。

等等，"运行"不等于"全部加载"

我重新去读了作者 Jaber 在 X 上发的那条推文： x^[1]

"model sits on the sd card, streams one layer at a time through 45mb of ram"

这句话让我停顿了一下。

"streams one layer at a time"——逐层流式推理。

好，这里有个关键认知需要建立：

Transformer 推理的本质，是把输入 token 依次经过每一层（Layer），最后输出下一个 token。而每一层在处理完之后，其权重在当前 token 的推理中就不再需要了。

所以，有没有可能——我们不把整个模型放进内存，而是每次只加载当前需要的那一层，用完就扔，再加载下一层？

答案是：可以。这就是 picolm 的核心设计。真的是太妙了，但是想想，这不是和 skills 的实现方式类似吗，说他是渐渐式加载也不为过吧，只不过他用完就丢，做得更狠了，这似乎又和动态规划算法原理有点类似，用完前面的推导了就可以丢了，所以朋友们，你们看，有些原理其实就是这么美妙而直接，他会反复的被用到各种工程之处，并不是我们发明了多少，而是我们成功组合了多少。

推导一遍这个方案

我来把这个设计思路完整推一遍，因为光知道结论不够，要知道"为什么这样做"。

传统的推理流程是这样的：

[完整模型权重] → 全部加载进 RAM → 输入 Token → 逐层计算 → 输出 Token

这要求 RAM 足够装下整个模型。

picolm 的方案是：

[SD 卡上的量化模型] 
         ↓（逐层读取，每次只读一层）
[45MB RAM 缓冲区]
    ├── 当前层权重（从 SD 卡流入）
    ├── 激活值（当前 token 的中间状态）
    └── KV Cache（注意力机制的缓存）
         ↓
[CPU 计算当前层]
         ↓（计算完毕，当前层权重可以丢弃）
[读入下一层权重] → 重复...
         ↓
[最终输出 Token]

这样最关键的问题就变成：45MB 能不能装下一层的权重 + 激活值 + KV Cache？

对于一个标准的 1B 参数 Transformer（比如 Llama 架构），通常有 16-32 层，每层参数量大约是总参数的 1/层数。以 32 层为例，每层约 31M 参数，用 INT4 存储约 15-16MB。

加上激活值和 KV Cache 的开销，挤一挤，45MB 是可以装下的。

这里有个代价：每个 token 推理都需要从 SD 卡读取所有层的权重一遍。 这就是为什么速度是 10-21 tokens/秒，而不是 GPU 上的几百 tokens/秒。但在这个硬件条件下，这已经非常出色。

量化到底做了什么

讲完架构，再往下挖一层：模型怎么量化才能塞进 SD 卡，而且还能保持语言能力？

量化的基本原理是用低精度整数来近似浮点数。最常见的方式是 INT4 量化，也就是把每个权重从 FP32（4字节，约40亿个取值）压缩到 4bit（0.5字节，16个取值）。

这显然会有精度损失。关键在于：怎么把损失控制到"基本不影响语言理解"的程度？

目前主流的方案有几种思路：

• 按层分组量化（Group Quantization）：不是整个权重矩阵用一个缩放因子，而是每 128 个或 64 个权重一组，各自有独立的缩放参数。这样可以大幅减少量化误差。
• 异常值处理（Outlier handling）：某些权重值特别大，直接量化误差会很严重。现代量化方案（如 GPTQ、AWQ）会特别处理这些异常权重。 blog.4geeks^[2]

picolm 大概率使用了 GGUF 格式的量化模型（从配套的 PicoClaw 生态来看），这是 llama.cpp 生态里最成熟的量化格式，对 INT4/INT3/INT2 都有良好支持。 hackster^[3]

80KB 二进制，纯 C，零依赖——这是什么意思

作者特别强调了几个数字：80KB 二进制，pure C，zero dependencies。

我琢磨了一下，这三个约束其实互相解释：

首先，为什么要纯 C？

因为目标平台是嵌入式 Linux（Raspberry Pi）和 RISC-V 裸板（LicheeRV Nano）。这两类设备：

• 没有 Python 运行时（或者有但很慢）
• 没有 PyTorch/TensorFlow/ONNX Runtime
• 内存本来就只有 256MB，运行时自身不能占太多

纯 C 是在嵌入式世界里的通用语言，编译出来的二进制小、启动快、内存可控。
为什么只有 80KB？

这是纯 C + 零依赖的直接结果。没有引入任何第三方库，整个推理引擎从头实现。80KB 的二进制意味着：

• 启动速度极快
• 可以在任何 Linux/RISC-V 设备上直接跑
• 不需要 pip install 任何东西

这让我想到了 llama.cpp 早期的设计哲学——当时作者 Georgi Gerganov 也是用纯 C/C++ 从头实现推理引擎，正是因为这个才能跑在苹果 M1 上超越 GPU。picolm 把这个思路推到了更极端的硬件边界。

整个系统的数据流

现在把完整的系统流程画出来，从硬件到推理输出：

┌─────────────────────────────────────────────────┐
│              硬件层（LicheeRV Nano / Pi）          │
│                                                  │
│  ┌──────────┐    ┌─────────────────────────┐    │
│  │  SD 卡   │───>│   45MB RAM 工作缓冲区    │    │
│  │          │    │  ┌───────────────────┐  │    │
│  │ 量化模型  │    │  │ 当前层权重 ~15MB   │  │    │
│  │ (INT4)   │    │  │ 激活值 (中间状态)  │  │    │
│  │          │    │  │ KV Cache          │  │    │
│  │ ~500MB   │    │  └───────────────────┘  │    │
│  └──────────┘    └──────────┬──────────────┘    │
│                             │                    │
│                    ┌────────▼───────────┐        │
│                    │   CPU 推理引擎     │        │
│                    │  (80KB 纯C二进制)  │        │
│                    └────────┬───────────┘        │
│                             │                    │
└─────────────────────────────│────────────────────┘
                              │
                    ┌─────────▼──────────┐
                    │  Token 输出        │
                    │  ~10-21 tokens/s   │
                    └────────────────────┘
                              │
                    ┌─────────▼──────────┐
                    │  PicoClaw 接口     │
                    │  (完整离线AI助手)   │
                    └────────────────────┘