曾以低成本開源大模型衝擊全球市場的大陸AI企業DeepSeek,根據多方消息指出,將在農曆新年前後的2月中旬,正式推出新一代旗艦模型DeepSeek-V4。根據創辦人梁文鋒近期發表的論文,該模型或將具有「條件記憶」等新概念功能,有機會再度挑戰ChatGPT等美國主流閉源模型的地位。
美國科技媒體The Information引述知情人士的報導,DeepSeek將於2月公布其最新旗艦模型DeepSeek-V4。該人士稱,在內部基準測試中已超越Anthropic Claude與OpenAI GPT等西方主流模型,尤其在處理超長程式碼方面展現顯著優勢,V4模型的回答將更具條理性與邏輯性,顯示其推理能力獲得強化。
此外,DeepSeek創辦人梁文鋒近期發表兩篇論文,提出「條件記憶」概念與「流形約束超連接」架構,條件記憶用以提升相同算力下模型的知識調用能力,在推理、程式碼生成與數學解題上有顯著優勢。
而流形約束超連接則解決大模型訓練中維持穩定性的難題,並使其具備更加的擴展性,能夠更好地理解並推理,這為大模型架構設計提供了新方向。兩項新概念或技術,都被視為新一代DeepSeek模型的技術基礎。
自從一舉成名後,DeepSeek已推出多款模型,包括V3.2、R1等,在程式碼生成、數學運算與推理等領域都有亮眼表現。R1模型更曾以低成本訓練方式登上自然雜誌(Nature)封面,成為大陸人工智慧研究的重要里程碑。在商業化領域,DeepSeek自2025年起就已快速推廣至大陸各行業。
不過,隨其他功能更全面AI模型相繼推出,主打低成本的DeepSeek一度沉寂,不僅在美國大模型在生成圖像等領域開枝散葉時未能趕上,百度文心、通義千問、字節跳動豆包等與應用生態深度結合的大陸AI模型發展之際,DeepSeek也顯得力不從心。
目前,DeepSeek仍面臨顯著挑戰,其備受矚目的R2模型原定於2025年中推出,卻最終流產,有外媒將原因歸咎於美國的晶片出口管制。後續推出的模型亦沒能再度掀起轟動,導致外界質疑DeepSeek的後續表現乏力,此次V4模型的公布能否打一場翻身仗,將是外界觀察大陸AI發展的重要指標。