Pockot珀刻机

Pockot

研究笔记:离线更新不等于自动自我改进

研究笔记:离线更新不等于自动自我改进

问题

Pockot 的北极星包含一个能持续变得更有用的本地系统。这必须谨慎处理。更新检索语料、添加笔记、训练小型 adapter,以及更换基础模型,是不同动作,风险也不同。

来源支持的数据点

  • LoRA 于 2021 年作为一种低秩适配方法提出:冻结预训练权重,并训练小型秩分解矩阵。来源:arXiv 2106.09685
  • QLoRA 将冻结基础模型以 4-bit 形式存储,并报告在单张 48 GB GPU 上微调 65B 参数模型。来源:arXiv 2305.14314
  • 一篇 NLP continual learning 综述围绕序列任务学习与减少遗忘的方法组织问题。来源:arXiv 2211.12701

解读

最安全的离线改进路径不是模型训练,而是语料维护:保存更好的文档,去重笔记,保留来源链接,并改善检索。这可以在不改变模型权重的情况下让回答更好。

Adapter 训练是中间层。它可能对狭窄习惯或格式有用,但需要数据卫生、回滚、评估,以及检测 adapter 让性能变差的方法。基础模型更换更重,因为它可能破坏既有行为,并需要更大验证。

因此,“自我改进”应拆成运行层级:检索更新、prompt/tool 更新、adapter 更新、基础模型更新。每一层都需要日志和回滚路径。

工具规则

v1 测算器不会给自我改进打分。它只暴露硬件包络。后续版本可以在 Pockot 测量各类更新的存储、电池成本与验证工作量后,再加入更新层级。