微信扫码
添加专属顾问
我要投稿
仅70块钱的板子跑10亿参数大模型?这个开源项目用逐层加载的黑科技颠覆了传统推理方式!核心内容: 1. 传统大模型推理对内存的严苛需求与计算瓶颈 2. picolm项目突破性的逐层流式加载技术原理 3. 工程思维中"组合创新"的经典案例解析
事情是这样的,我在 github 上刷到了一个直觉感受不可能的项目,他里面的一行描述让我停下来:
"Run a 1-billion parameter LLM on a $10 board with 256MB RAM"
我的第一反应是——这不可能。
不是不可能跑,是不可能用256MB RAM跑。我下意识地做了个估算:1B参数的模型,哪怕用最激进的INT4量化,也得……等等,我得认真算一下。
在看这个项目之前,我觉得有必要先把数字搞清楚。因为我发现很多人说"模型太大跑不了",但从来没算过"到底有多大"。
一个参数,用不同精度存储:
500MB。就算最激进的INT4量化,权重本身就要500MB。
然后 256MB 的设备要跑它?
这个时候我意识到,一定有什么东西不对——要么这 256MB 的说法有问题,要么这个推理方式根本不是我们平时理解的那种"全部加载进内存"。
我重新去读了作者 Jaber 在 X 上发的那条推文 : x[1]
"model sits on the sd card, streams one layer at a time through 45mb of ram"
这句话让我停顿了一下。
"streams one layer at a time"——逐层流式推理。
好,这里有个关键认知需要建立:
Transformer 推理的本质,是把输入 token 依次经过每一层(Layer),最后输出下一个 token。而每一层在处理完之后,其权重在当前 token 的推理中就不再需要了。
所以,有没有可能——我们不把整个模型放进内存,而是每次只加载当前需要的那一层,用完就扔,再加载下一层?
答案是:可以。这就是 picolm 的核心设计。 真的是太妙了,但是想想,这不是和 skills 的实现方式类似吗,说他是渐渐式加载也不为过吧,只不过他用完就丢,做得更狠了,这似乎又和动态规划算法原理有点类似,用完前面的推导了就可以丢了,所以朋友们,你们看,有些原理其实就是这么美妙而直接,他会反复的被用到各种工程之处,并不是我们发明了多少,而是我们成功组合了多少。
我来把这个设计思路完整推一遍,因为光知道结论不够,要知道"为什么这样做"。
传统的推理流程是这样的:
[完整模型权重] → 全部加载进 RAM → 输入 Token → 逐层计算 → 输出 Token
这要求 RAM 足够装下整个模型。
picolm 的方案是:
[SD 卡上的量化模型]
↓(逐层读取,每次只读一层)
[45MB RAM 缓冲区]
├── 当前层权重(从 SD 卡流入)
├── 激活值(当前 token 的中间状态)
└── KV Cache(注意力机制的缓存)
↓
[CPU 计算当前层]
↓(计算完毕,当前层权重可以丢弃)
[读入下一层权重] → 重复...
↓
[最终输出 Token]
这样最关键的问题就变成:45MB 能不能装下一层的权重 + 激活值 + KV Cache?
对于一个标准的 1B 参数 Transformer(比如 Llama 架构),通常有 16-32 层,每层参数量大约是总参数的 1/层数。以 32 层为例,每层约 31M 参数,用 INT4 存储约 15-16MB。
加上激活值和 KV Cache 的开销,挤一挤,45MB 是可以装下的。
这里有个代价:每个 token 推理都需要从 SD 卡读取所有层的权重一遍。 这就是为什么速度是 10-21 tokens/秒,而不是 GPU 上的几百 tokens/秒。但在这个硬件条件下,这已经非常出色。
讲完架构,再往下挖一层:模型怎么量化才能塞进 SD 卡,而且还能保持语言能力?
量化的基本原理是用低精度整数来近似浮点数。最常见的方式是 INT4 量化,也就是把每个权重从 FP32(4字节,约40亿个取值)压缩到 4bit(0.5字节,16个取值)。
这显然会有精度损失。关键在于:怎么把损失控制到"基本不影响语言理解"的程度?
目前主流的方案有几种思路:
picolm 大概率使用了 GGUF 格式的量化模型(从配套的 PicoClaw 生态来看),这是 llama.cpp 生态里最成熟的量化格式,对 INT4/INT3/INT2 都有良好支持。 hackster[3]
作者特别强调了几个数字:80KB 二进制,pure C,zero dependencies。
我琢磨了一下,这三个约束其实互相解释:
首先,为什么要纯 C?
因为目标平台是嵌入式 Linux(Raspberry Pi)和 RISC-V 裸板(LicheeRV Nano)。这两类设备:
纯 C 是在嵌入式世界里的通用语言,编译出来的二进制小、启动快、内存可控。
为什么只有 80KB?
这是纯 C + 零依赖的直接结果。没有引入任何第三方库,整个推理引擎从头实现。80KB 的二进制意味着:
pip install 任何东西这让我想到了 llama.cpp 早期的设计哲学——当时作者 Georgi Gerganov 也是用纯 C/C++ 从头实现推理引擎,正是因为这个才能跑在苹果 M1 上超越 GPU。picolm 把这个思路推到了更极端的硬件边界。
现在把完整的系统流程画出来,从硬件到推理输出:
┌─────────────────────────────────────────────────┐
│ 硬件层(LicheeRV Nano / Pi) │
│ │
│ ┌──────────┐ ┌─────────────────────────┐ │
│ │ SD 卡 │───>│ 45MB RAM 工作缓冲区 │ │
│ │ │ │ ┌───────────────────┐ │ │
│ │ 量化模型 │ │ │ 当前层权重 ~15MB │ │ │
│ │ (INT4) │ │ │ 激活值 (中间状态) │ │ │
│ │ │ │ │ KV Cache │ │ │
│ │ ~500MB │ │ └───────────────────┘ │ │
│ └──────────┘ └──────────┬──────────────┘ │
│ │ │
│ ┌────────▼───────────┐ │
│ │ CPU 推理引擎 │ │
│ │ (80KB 纯C二进制) │ │
│ └────────┬───────────┘ │
│ │ │
└─────────────────────────────│────────────────────┘
│
┌─────────▼──────────┐
│ Token 输出 │
│ ~10-21 tokens/s │
└────────────────────┘
│
┌─────────▼──────────┐
│ PicoClaw 接口 │
│ (完整离线AI助手) │
└────────────────────┘
推理的每一个 token,都会触发一次"从 SD 卡按层读取 → RAM 计算 → 丢弃上一层"的循环。这个循环的瓶颈在 SD 卡的读取速度,而不是 CPU 算力。
作者给出的性能数据是:
10 tokens/秒是什么感觉?大概就是每秒出现10个字,比人类阅读速度快一点,但明显比 GPU 推理慢很多。
但换个角度想:这是在 $10 的板子 上,跑 1B 参数的语言模型,完全 离线,不需要任何云服务。
这个对比才是关键。如果你的应用场景是:
10 tokens/秒就完全够用了。
我把这个项目反复看了几遍,有一个问题一直在脑子里转:
为什么是现在才出现这个?
技术上,逐层流式推理不是新思路,INT4量化也已经成熟,纯C推理引擎 llama.cpp 早就存在。但 picolm 把这些东西组合起来,特别针对 256MB 内存的嵌入式板子做了工程优化,并且把配套的 PicoClaw 整个生态也建起来了。
这里有一个技术密度极高但被低估的工程选择:内存 budget 的精确分配。
45MB 这个数字不是随便选的。作者需要在以下几项之间精确平衡:
总计需要在 256MB 里抠出 45MB 干净的工作内存,同时系统不崩溃。这需要对每一个字节的去向都了如指掌。这种程度的内存控制能力,在现代 AI 工程师里已经很少见了。
说实话,1B 参数的语言模型,能力上限就摆在那里。
能做的:
不能做的:
但这不是这个项目的目标。picolm 的价值不在于"打败 GPT-5",而在于把 AI 推理的硬件门槛降到极限。
我做技术这些年,见过很多"用大力气做小事"的项目,也见过很多"用小力气做大事"的项目。
picolm 属于后者。
80KB 的二进制,一个人写的,解决了一个清晰而真实的问题:让最便宜的硬件也能跑语言模型。
这背后没有什么神奇的新技术,用的都是已有的东西——量化、逐层推理、纯C实现。但工程上的每一个选择都很克制,很扎实。
有时候,工程问题的答案不是"找到一个更好的算法",而是"想清楚什么东西是真的必要的,把其他的全部扔掉"。
picolm 就是把"不必要的"扔干净之后,剩下的那 80KB。
项目地址:github.com/RightNow-AI/picolm
配套 AI 助手:github.com/sipeed/picoclaw
[1] x: https://x.com/Akashi203/status/2024295010615661008[2] blog.4geeks: https://blog.4geeks.io/deploying-a-small-language-model-slm-on-an-edge-device-a-practical-guide/[3] hackster: https://www.hackster.io/news/creating-cross-platform-small-ai-with-picollm-3cf6076db9ec
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-22
GPU要凉?前英伟达AMD大神将AI刻在芯片上!17000 tokens/秒屠榜
2026-02-22
手机芯片就能跑的AI视觉大模型!这家创业公司基于国产算力干出全球SOTA水准
2026-02-17
笔与屏:AI硬件为何分化出两条路?
2026-02-15
几天手搓的Claude Code拓麻歌子火了:成本几乎为0,一句话做硬件时代来了
2026-02-15
OpenAI首款硬件“Dime”定档:Jony Ive操刀,只有声音的“反手机”实验
2026-02-13
OpenClaw 技术闭门:测试将比代码更值钱,Agent Computer 会是新的硬件形态
2026-02-12
皮皮虾也来了!超低成本超高效版OpenClaw
2026-02-10
超越豆包手机!“ClawPhone”炸裂登场,OpenClaw将二手安卓机变为AI神器
2025-12-05
2025-12-09
2025-12-01
2025-12-08
2026-01-29
2026-02-12
2025-12-15
2025-12-01
2025-12-03
2026-01-13