PockotPockot 珀刻機

Pockot

研究ノート:小さなモデルは下限を測れるようにする

研究ノート:小さなモデルは下限を測れるようにする

問い

オフグリッドの問いは「ポケットデバイスが最大モデルを動かせるか」ではありません。「厳しい電力予算の下で、1B、3B、7B、13B パラメータのどのタスクが有用になるか」です。Pockot は自律性を語る前に、モデルサイズの階段を必要とします。

出典付きデータ点

  • Meta の Llama 3.2 リリースには、特定のエッジおよびモバイルデバイス向けの軽量テキスト専用 1B と 3B モデルが含まれます。出典:Meta Llama 3.2
  • 同じ Meta リリースは、Llama 3.2 の 1B と 3B モデルが 128K-token context length をサポートすると述べています。出典:Meta Llama 3.2
  • LoRA は、Adam による GPT-3 175B 微調整と比べて、訓練可能パラメータを 10,000 倍、GPU メモリ要求を 3 倍削減したと報告しています。出典:arXiv 2106.09685

読み方

小さなモデルは、タスク特化の有用性を可能にするため、デバイスの問いを変えます。検索と組み合わせれば、1B または 3B モデルは、ローカル要約、簡単な抽出、コマンド解析、文書検索に十分かもしれません。一方で、推論の深さや広い知識では失敗するかもしれません。どちらも同時に正しい可能性があります。

圧縮と適応も別です。量子化はモデルを少ないメモリに収めて動かせるようにします。LoRA 型 adapter は、タスクのために訓練する部分を減らします。どちらも自動的に自己改善デバイスを作りません。明確な制限の下でオフラインシステムが使えるつまみを作るだけです。

ツール規則

Pockot はパラメータ数とパラメータあたり bit を明示的にモデル化します。3B 4-bit モデルは品質主張ではなく、メモリ推定として表示されるべきです。次のツール版では、デバイスとランタイムごとの測定済み tokens/s を追加します。