創始筆記:有用的本地智能有功耗預算
發表於 2026 年 5 月
缺口
雲端 AI 從一個假設開始:網絡、電力、帳戶和資料中心會持續工作。珀刻機從移除這個假設開始。
問題不是口袋設備能否模仿大型資料中心模型。它不能。問題是當設備必須活在真實包絡內時,還剩下什麼有用的本地智能:加速器吞吐、持續功耗、電池瓦時、記憶體、儲存、模型大小、熱限制與離線語料。
這個下限正在移動。Apple 稱 M4 Neural Engine 最高可提供 38 trillion operations per second。來源:Apple M4。Raspberry Pi AI HAT+ product brief 列出 13 和 26 TOPS 的加速器版本。來源:Raspberry Pi AI HAT+ product brief。Qualcomm Snapdragon X Elite 頁面稱該平台可以在設備端運行超過 13B 參數的生成式 AI 模型。來源:Qualcomm Snapdragon X Elite。
這些數字有用,但不夠。TOPS 不說明系統能運行多久、模型可用記憶體多少、執行環境是否成熟、本地知識還能留多少儲存,也不說明熱降頻出現時會發生什麼。
珀刻機存在,是為了讓這些約束可見。
為什麼現在重要
小模型已經擁有正式的端側路徑。Meta 的 Llama 3.2 發布包含面向部分 edge 與 mobile devices 的輕量文本 1B 和 3B 模型,並稱 1B 與 3B 模型具備 128K-token context length。來源:Meta Llama 3.2。
這改變了問題。一個本地設備不再只能按是否運行最大模型來判斷。它可以按任務適配來判斷。它能否總結本地文件?搜尋已存語料?輔助現場筆記?解釋維修手冊?維護私人日誌?基於本地參考起草程式碼?在沒有網絡時翻譯?這些任務比雲端通用性更窄,但更窄不等於無用。
功耗邊界同樣具體。FAA 面向航空旅客與電池的頁面將 100 Wh 視為備用鋰離子電池與行動電源的標準邊界,更大電池在規定限制下需要航空公司批准。來源:FAA batteries。珀刻機把 100 Wh 用作務實參考點,而不是產品主張。在 10 W 持續功耗下,100 Wh 意味著扣除轉換損耗、熱效應與工作負載變化之前,簡單模型續航為 10 小時。這是計算,不是保證。
新的工作不是寫生存故事,而是測量設備在去掉雲依賴後還能繼續做什麼。
這種測量必須保持本地。冷卻實驗室裡接牆電跑出的 benchmark 有用,但它不同於一個必須用電池運行、儲存自身參考資料,並在斷電後乾淨恢復的小型外殼。一個能快速回答一條 prompt 然後過熱的模型,和一個能緩慢工作數小時的工具,是不同對象。珀刻機會把這些情況分開。
珀刻機會研究什麼
珀刻機從六個問題開始。
第一:針對具體離線任務,最小有用模型是什麼?1B、3B 與 13B 模型不可互換。答案取決於任務、量化、上下文、延遲與記憶體。
第二:現實的持續功耗是多少?峰值加速器數字不是持續系統數字。設備還包含 CPU、記憶體、儲存、顯示、無線電、感測器與熱開銷。
第三:多少本地知識才夠?離線有用性取決於語料。一個能運行模型卻不能存放相關手冊、筆記、地圖或參考資料的設備,並不具備韌性。
第四:哪些執行環境可測?珀刻機會優先選擇可複現實測,而不是含糊的相容性主張。一條有用記錄應該命名晶片、模型、量化、如有測量則列 tokens per second、持續功耗與運行條件。
第五:什麼可以離線更新?「自改進」必須謹慎處理。本地設備也許支持檢索更新、筆記整合、工具日誌或小型 adapter 實驗。這不同於關於自主模型改進的無支持主張。
第六:什麼會先失敗?在口袋系統中,限制因素可能是電池、熱、記憶體頻寬、儲存、模型品質,或使用者維護語料的能力。
我們的方式
第一個工具是離線算力可行性測算器。v0 要求輸入 TOPS、持續功耗、電池 Wh、模型大小、量化、儲存與語料大小。它返回模型續航、近似模型記憶體、剩餘儲存、儲存適配、每 B 參數算力,以及保守假設層級。
這個測算器故意克制。它不保證性能,不認證安全,不聲稱自主性。它只把假設做得足夠可見,讓人可以反駁。
第一批研究筆記會比較設備類別:手機級 NPU、筆電級 NPU、Raspberry Pi 加加速模組,以及小型專用 edge boxes。輸出應該是一張活表:什麼能本地運行、能運行多久、受哪些約束。
項目也會追蹤維護。離線有用性不只是推理。它包括更新本地語料、檢查檔案完整性、保存私人筆記、匯出狀態,以及當本地參考集不完整時解釋低置信度。這些約束普通,卻是 demo 與一個人真能長期保有的設備之間的差異。
珀刻機的運行問題很簡單:當網絡消失時,仍然有用的最小棧是什麼,而這個棧中仍然缺失的是哪一部分?