Pockot珀刻機

Pockot

研究筆記:小模型讓底線可測量

研究筆記:小模型讓底線可測量

問題

離網問題不是「口袋設備能否運行最大模型」。真正的問題是:在嚴格功耗預算下,1B、3B、7B 或 13B 參數分別能讓哪些任務變得有用?Pockot 需要模型大小階梯,才能談自主性。

來源支持的資料點

  • Meta 的 Llama 3.2 發布包含輕量文字 1B 與 3B 模型,面向部分端側與移動設備。來源:Meta Llama 3.2
  • 同一 Meta 發布說明,Llama 3.2 的 1B 與 3B 模型支持 128K-token 上下文長度。來源:Meta Llama 3.2
  • LoRA 報告稱,與使用 Adam 微調 GPT-3 175B 相比,可訓練參數減少 10,000 倍,GPU 記憶體需求減少 3 倍。來源:arXiv 2106.09685

解讀

小模型改變了設備問題,因為它們允許任務特定的有用性。配合檢索時,1B 或 3B 模型可能足夠用於本地摘要、簡單抽取、命令解析或文件搜尋。它也可能在推理深度或廣域知識上失敗。這兩個判斷可以同時為真。

壓縮與適配也不同。量化讓模型用更少記憶體裝下並運行。LoRA 類 adapter 減少某個任務需要訓練的部分。它們都不會自動創造自我改進設備。它們只是離線系統在清晰限制下可能使用的旋鈕。

工具規則

Pockot 會明確建模參數量與每參數 bit。3B 4-bit 模型應呈現為記憶體估算,而不是品質主張。下一版工具應加入按設備與執行環境實測的 tokens/s。