珀刻机 — 研究笔记：小模型让底线可测量

研究笔记：小模型让底线可测量

2026 年 5 月发布

离网问题不是“口袋设备能否运行最大模型”。真正的问题是：在严格功耗预算下，1B、3B、7B 或 13B 参数分别能让哪些任务变得有用？Pockot 需要模型大小阶梯，才能谈自主性。

Meta 的 Llama 3.2 发布包含轻量文本 1B 与 3B 模型，面向部分端侧与移动设备。来源：Meta Llama 3.2。
同一 Meta 发布说明，Llama 3.2 的 1B 与 3B 模型支持 128K-token 上下文长度。来源：Meta Llama 3.2。
LoRA 报告称，与使用 Adam 微调 GPT-3 175B 相比，可训练参数减少 10,000 倍，GPU 内存需求减少 3 倍。来源：arXiv 2106.09685。

小模型改变了设备问题，因为它们允许任务特定的有用性。配合检索时，1B 或 3B 模型可能足够用于本地摘要、简单抽取、命令解析或文档搜索。它也可能在推理深度或广域知识上失败。这两个判断可以同时为真。

压缩与适配也不同。量化让模型用更少内存装下并运行。LoRA 类 adapter 减少某个任务需要训练的部分。它们都不会自动创造自我改进设备。它们只是离线系统在清晰限制下可能使用的旋钮。

Pockot 会显式建模参数量与每参数 bit。3B 4-bit 模型应呈现为内存估算，而不是质量主张。下一版工具应加入按设备与运行时实测的 tokens/s。