隨著 AI 推論需求從文字轉向長文本與影音生成,記憶體容量瓶頸已成為效能殺手。SK 海力士與 SanDisk 聯手推動的「高頻寬快閃記憶體」(HBF)技術,正與 HBM 形成互補架構。HBF 採用 NAND 堆疊技術,容量可達 HBM 的 8 至 16 倍,並透過矽穿孔(TSV)實現高速互連。在推論過程中,HBM 負責處理即時運算的「極熱數據」,而 HBF 則承擔存放完整 AI 模型與龐大 KV 快取(KV Cache)的任務。這種「雙層記憶體」設計能有效擴大上下文視窗,將首個 Token 的延遲大幅降低,並解決 HBM 成本過高且容量受限的問題,讓 GPU 能更流暢地處理 TB 級的資料流。
記憶體大廠積極布局 HBF,核心動能在於 AI 應用正從「訓練」轉向「推論」,市場對低成本、大容量儲存的需求已超越單純的頻寬追求。對 SK 海力士與三星而言,HBF 是擺脫 DRAM 產能限制並重塑 NAND 獲利結構的關鍵棋子。透過將 KV 快取分級管理並卸載至 HBF,企業能以更少的硬體節點達成高效能推論,顯著降低總擁有成本(TCO)。這場變革預示著未來 AI 伺服器將從單一 HBM 架構轉向「HBM+HBF+eSSD」的三層式階層,不僅緩解了供應鏈短缺壓力,也讓邊緣運算設備具備運行大型模型的能力。隨著 2027 年商用化落地,這套協作模式將成為決定 AI 晶片大廠競爭勝負的新戰場。