研究筆記:小模型讓底線可測量
2026 年 5 月發布
問題
離網問題不是「口袋設備能否運行最大模型」。真正的問題是:在嚴格功耗預算下,1B、3B、7B 或 13B 參數分別能讓哪些任務變得有用?Pockot 需要模型大小階梯,才能談自主性。
來源支持的資料點
- Meta 的 Llama 3.2 發布包含輕量文字 1B 與 3B 模型,面向部分端側與移動設備。來源:Meta Llama 3.2。
- 同一 Meta 發布說明,Llama 3.2 的 1B 與 3B 模型支持 128K-token 上下文長度。來源:Meta Llama 3.2。
- LoRA 報告稱,與使用 Adam 微調 GPT-3 175B 相比,可訓練參數減少 10,000 倍,GPU 記憶體需求減少 3 倍。來源:arXiv 2106.09685。
解讀
小模型改變了設備問題,因為它們允許任務特定的有用性。配合檢索時,1B 或 3B 模型可能足夠用於本地摘要、簡單抽取、命令解析或文件搜尋。它也可能在推理深度或廣域知識上失敗。這兩個判斷可以同時為真。
壓縮與適配也不同。量化讓模型用更少記憶體裝下並運行。LoRA 類 adapter 減少某個任務需要訓練的部分。它們都不會自動創造自我改進設備。它們只是離線系統在清晰限制下可能使用的旋鈕。
工具規則
Pockot 會明確建模參數量與每參數 bit。3B 4-bit 模型應呈現為記憶體估算,而不是品質主張。下一版工具應加入按設備與執行環境實測的 tokens/s。