珀刻機 — 研究筆記：小模型讓底線可測量

研究筆記：小模型讓底線可測量

2026 年 5 月發布

離網問題不是「口袋設備能否運行最大模型」。真正的問題是：在嚴格功耗預算下，1B、3B、7B 或 13B 參數分別能讓哪些任務變得有用？Pockot 需要模型大小階梯，才能談自主性。

Meta 的 Llama 3.2 發布包含輕量文字 1B 與 3B 模型，面向部分端側與移動設備。來源：Meta Llama 3.2。
同一 Meta 發布說明，Llama 3.2 的 1B 與 3B 模型支持 128K-token 上下文長度。來源：Meta Llama 3.2。
LoRA 報告稱，與使用 Adam 微調 GPT-3 175B 相比，可訓練參數減少 10,000 倍，GPU 記憶體需求減少 3 倍。來源：arXiv 2106.09685。

小模型改變了設備問題，因為它們允許任務特定的有用性。配合檢索時，1B 或 3B 模型可能足夠用於本地摘要、簡單抽取、命令解析或文件搜尋。它也可能在推理深度或廣域知識上失敗。這兩個判斷可以同時為真。

壓縮與適配也不同。量化讓模型用更少記憶體裝下並運行。LoRA 類 adapter 減少某個任務需要訓練的部分。它們都不會自動創造自我改進設備。它們只是離線系統在清晰限制下可能使用的旋鈕。

Pockot 會明確建模參數量與每參數 bit。3B 4-bit 模型應呈現為記憶體估算，而不是品質主張。下一版工具應加入按設備與執行環境實測的 tokens/s。