07:52
DeepSeek新模型MODEL1曝光 代码预示新架构
格隆汇1月21日|据量子位,DeepSeek-R1发布一周年之际,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代码,横跨114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。

2026-01-21655.4k

商务、渠道、广告合作/招聘立即咨询

相关文章

事关节能降碳工作,中办、国办重磅发布!

华一席 · 3小时前

cover_pic

伊朗批美方“冷淡无诚意”,新一轮谈判尚未决定

默德君 · 4小时前

cover_pic

特斯拉Q1“大考”!华尔街紧盯两大变量

林春木 · 50分钟前

cover_pic