研究ノート:オフライン更新は自動的な自己改善ではない
2026 年 5 月公開
問い
Pockot の北極星には、ローカルシステムがより有用になり続けることが含まれます。これは慎重に扱う必要があります。検索コーパスの更新、ノートの追加、小さな adapter の訓練、基盤モデルの変更は、それぞれ異なる行為であり、異なるリスクを持ちます。
出典付きデータ点
- LoRA は 2021 年に、事前学習済み重みを凍結し、小さな低ランク分解行列を訓練する適応方法として導入されました。出典:arXiv 2106.09685。
- QLoRA は凍結した基盤モデルを 4-bit 形式で保持し、単一の 48 GB GPU で 65B パラメータモデルを微調整したと報告しています。出典:arXiv 2305.14314。
- NLP の continual learning に関する調査は、逐次タスク学習と忘却を減らす方法を中心に問題を整理しています。出典:arXiv 2211.12701。
読み方
最も安全なオフライン改善経路はモデル訓練ではありません。コーパス保守です。より良い文書を保存し、ノートを重複排除し、出典リンクを保ち、検索を改善することです。これはモデル重みを変えずに回答を良くできます。
Adapter 訓練は中間層です。狭い習慣や形式には有用かもしれませんが、データ衛生、ロールバック、評価、adapter が性能を悪化させた時の検出が必要です。基盤モデル変更はさらに重く、以前の挙動を壊す可能性があり、より大きな検証を必要とします。
したがって「自己改善」は、検索更新、prompt/tool 更新、adapter 更新、基盤モデル更新という運用階層に分けるべきです。各階層にはログとロールバック経路が必要です。
ツール規則
v1 カリキュレーターは自己改善を採点しません。ハードウェア包絡だけを表示します。後続版では、各更新タイプのストレージ、バッテリーコスト、検証作業量を Pockot が測定した後に、更新階層を追加できます。