image
20251015李娟萍/台北報導

LLM推論應用擴張 啟動記憶體超級循環

 AI大型語言模型(LLM)推論應用全面擴張,全球記憶體市場正進入前所未見的爆發期。根據研調機構的報告指出,以OpenAI的GPT-5為例,其推論過程所帶來的HBM、DRAM與NAND需求,將足以啟動一波記憶體超級循環(Memory Supercycle)。

 該報告指出,AI應用正從訓練階段轉向推論階段,這一轉變徹底改變了記憶體的使用結構。AI伺服器通常採三層記憶體架構:一是HBM(高頻寬記憶體):直接整合於GPU封裝內,負責即時高速資料交換;二是DRAM(系統記憶體):容量較大,承擔模型載入、暫存及快取延展。三是NAND Flash(SSD儲存層):負責模型權重載入、KV快取溢出及RAG(檢索式生成)查詢。該報告指出,AI推論需要持續載入模型參數、生成KV快取並進行檢索操作,造成對高頻寬與大容量記憶體的雙重壓力。

 以GPT-5為例,估算該模型擁有4.5兆參數(trillion parameters),採用 Mixture-of-Experts(MoE)架構。每次推論僅有部分專家模型被啟用,平均每個模型複本需約1TB HBM。若以全球用戶同時生成每秒2,400萬tokens計算,總高頻寬記憶體需求約26.8PB,其中模型權重佔約24PB,KV快取占約2.8PB。此外,為支撐推論過程中的快取重用與上下文再取(Context Reuse),需搭配9.1EB DRAM 儲存中繼資料;同時,RAG資料庫與多重備援結構,使NAND需求高達200EB。另據TrendForce資料,2025年全球DRAM總供給為36.5EB、NAND為925EB。

 惟研調報告指出,僅GPT-5一款模型即新增約全球DRAM供給的25%、NAND供給的22%。若2026年Token生成量再倍增,其對應需求將分別提升至43%與39%,意味AI推論流量,已足以吞噬全球記憶體新增產能。TrendForce亦預測,2026年DRAM與NAND供給僅將年增17%與12%;惟LLM推論所帶動的記憶體需求可能年增逾100%,導致市場出現明顯供需落差。AI推論的即時性、連續性與超高頻存取特性,使HBM、DRAM、NAND成為AI時代的基礎戰略資源。

 隨著主要記憶體廠仍維持保守擴產策略,全球供給缺口恐於2026年進一步擴大,記憶體價格上漲趨勢可望延續數年。