研究筆記:離線更新不等於自動自我改進
2026 年 5 月發布
問題
Pockot 的北極星包含一個能持續變得更有用的本地系統。這必須謹慎處理。更新檢索語料、添加筆記、訓練小型 adapter,以及更換基礎模型,是不同動作,風險也不同。
來源支持的資料點
- LoRA 於 2021 年作為一種低秩適配方法提出:凍結預訓練權重,並訓練小型秩分解矩陣。來源:arXiv 2106.09685。
- QLoRA 將凍結基礎模型以 4-bit 形式儲存,並報告在單張 48 GB GPU 上微調 65B 參數模型。來源:arXiv 2305.14314。
- 一篇 NLP continual learning 綜述圍繞序列任務學習與減少遺忘的方法組織問題。來源:arXiv 2211.12701。
解讀
最安全的離線改進路徑不是模型訓練,而是語料維護:保存更好的文件,去重筆記,保留來源連結,並改善檢索。這可以在不改變模型權重的情況下讓回答更好。
Adapter 訓練是中間層。它可能對狹窄習慣或格式有用,但需要資料衛生、回滾、評估,以及偵測 adapter 讓性能變差的方法。基礎模型更換更重,因為它可能破壞既有行為,並需要更大驗證。
因此,「自我改進」應拆成運行層級:檢索更新、prompt/tool 更新、adapter 更新、基礎模型更新。每一層都需要日誌和回滾路徑。
工具規則
v1 測算器不會給自我改進打分。它只暴露硬體包絡。後續版本可以在 Pockot 測量各類更新的儲存、電池成本與驗證工作量後,再加入更新層級。