DoNews2月14日消息,據(jù)澎湃新聞報道,近日,DeepSeek 網(wǎng)頁/ APP 正在測試新的長文本模型結(jié)構(gòu),支持 1M 上下文。其API 服務(wù)不變,仍為 V3.2,僅支持 128K 上下文。
這也被外界認為,DeepSeek或?qū)⒃诮衲甏汗?jié)再次“炸場”發(fā)布新模型,復(fù)刻去年春節(jié)現(xiàn)象級轟動。
今年1月12日,DeepSeek曾發(fā)布一篇新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(基于可擴展查找的條件記憶:大語言模型稀疏性的新維度),梁文鋒位列作者名單中,這篇論文為北京大學(xué)和DeepSeek共同完成。據(jù)分析,這篇論文的核心直指當前大語言模型存在的記憶力“短板”,提出了“條件記憶”這一概念。
當時行業(yè)就普遍猜測,DeepSeek的下一代模型V4或?qū)⒃诮衲甏汗?jié)前后正式發(fā)布。
去年12月1日,DeepSeek曾經(jīng)同時發(fā)布兩個正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,官方網(wǎng)頁端、App和API均已更新為正式版 DeepSeek-V3.2,Speciale版本目前僅以臨時API服務(wù)形式開放,以供社區(qū)評測與研究。
據(jù)介紹,DeepSeek-V3.2的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用Agent(智能體)任務(wù)場景。在公開的推理類Benchmark測試中,DeepSeek-V3.2達到GPT-5的水平,僅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少計算開銷與用戶等待時間。