研究笔记:离线更新不等于自动自我改进
2026 年 5 月发布
问题
Pockot 的北极星包含一个能持续变得更有用的本地系统。这必须谨慎处理。更新检索语料、添加笔记、训练小型 adapter,以及更换基础模型,是不同动作,风险也不同。
来源支持的数据点
- LoRA 于 2021 年作为一种低秩适配方法提出:冻结预训练权重,并训练小型秩分解矩阵。来源:arXiv 2106.09685。
- QLoRA 将冻结基础模型以 4-bit 形式存储,并报告在单张 48 GB GPU 上微调 65B 参数模型。来源:arXiv 2305.14314。
- 一篇 NLP continual learning 综述围绕序列任务学习与减少遗忘的方法组织问题。来源:arXiv 2211.12701。
解读
最安全的离线改进路径不是模型训练,而是语料维护:保存更好的文档,去重笔记,保留来源链接,并改善检索。这可以在不改变模型权重的情况下让回答更好。
Adapter 训练是中间层。它可能对狭窄习惯或格式有用,但需要数据卫生、回滚、评估,以及检测 adapter 让性能变差的方法。基础模型更换更重,因为它可能破坏既有行为,并需要更大验证。
因此,“自我改进”应拆成运行层级:检索更新、prompt/tool 更新、adapter 更新、基础模型更新。每一层都需要日志和回滚路径。
工具规则
v1 测算器不会给自我改进打分。它只暴露硬件包络。后续版本可以在 Pockot 测量各类更新的存储、电池成本与验证工作量后,再加入更新层级。