Pockot珀刻机

Pockot

研究笔记:小模型让底线可测量

研究笔记:小模型让底线可测量

问题

离网问题不是“口袋设备能否运行最大模型”。真正的问题是:在严格功耗预算下,1B、3B、7B 或 13B 参数分别能让哪些任务变得有用?Pockot 需要模型大小阶梯,才能谈自主性。

来源支持的数据点

  • Meta 的 Llama 3.2 发布包含轻量文本 1B 与 3B 模型,面向部分端侧与移动设备。来源:Meta Llama 3.2
  • 同一 Meta 发布说明,Llama 3.2 的 1B 与 3B 模型支持 128K-token 上下文长度。来源:Meta Llama 3.2
  • LoRA 报告称,与使用 Adam 微调 GPT-3 175B 相比,可训练参数减少 10,000 倍,GPU 内存需求减少 3 倍。来源:arXiv 2106.09685

解读

小模型改变了设备问题,因为它们允许任务特定的有用性。配合检索时,1B 或 3B 模型可能足够用于本地摘要、简单抽取、命令解析或文档搜索。它也可能在推理深度或广域知识上失败。这两个判断可以同时为真。

压缩与适配也不同。量化让模型用更少内存装下并运行。LoRA 类 adapter 减少某个任务需要训练的部分。它们都不会自动创造自我改进设备。它们只是离线系统在清晰限制下可能使用的旋钮。

工具规则

Pockot 会显式建模参数量与每参数 bit。3B 4-bit 模型应呈现为内存估算,而不是质量主张。下一版工具应加入按设备与运行时实测的 tokens/s。