大陸人工智慧(AI)技術積極創新,阿里雲推出的「Aegaeon」計算池化解決方案,獲電腦作業系統界的「奧斯卡」、第31屆作業系統原理研討會(SOSP)大會收錄,可解決AI模型服務中普遍存在的GPU資源浪費問題,將所需輝達(NVIDIA)H20 GPU用量削減82%。
南華早報報導,SOSP於18日在韓國首爾舉行,這是電腦作業系統領域的頂尖會議,平均每年收錄數十篇論文,入選論文被視為作業系統和軟體領域最具代表性的研究成果。
其中,阿里雲推出的「Aegaeon」獲大會收錄,通過創新的GPU資源池化技術,允許單個GPU動態服務於多個不同的AI模型。在阿里雲模型市場進行為期超過三個月的Beta測試中,Aegaeon系統展現卓越的效能。數據顯示,服務數十個參數量高達720億的大模型,所需的輝達H20 GPU數量從1,192個成功減少至213個,用量削減82%。
IT之家報導,中國正推動科技自主,力拼降低對輝達依賴。同時,現行雲服務商在提供AI模型服務時,面臨嚴重的資源效率低下問題。平台需要同時託管數千個AI模型以處理海量併發API調用,但用戶請求往往高度集中在少數幾個熱門模型上,例如阿里巴巴的Qwen系列模型等。
研究人員發現,這種「長尾效應」導致嚴重的資源閒置,在阿里雲的模型市場中,有17.7%的GPU算力僅被用於處理1.35%的請求,造成巨大的成本浪費。
由北京大學與阿里雲合作的最新研究成果,被認為是首個揭示並解決市場上併發大語言模型服務存在過高成本的公開工作,為行業提供全新的優化思路。