921 字
5 分钟
突然发布新模型 V3.1,DeepSeek 在下一盘什么棋?

img

昨天晚上,DeepSeek 又搞了个大动作——V3.1 模型正式上线。朋友圈、社群里一片热闹,大家都在刷“128K 上下文”“新 Base Model”,但是其中最重要的还是「模型融合」

省流:别被“128K”忽悠了,真正的重点是—— V3.1 把 Chat 和 Reasoning 融了!

deepseek

很多人第一眼被吸引的就是“128K 上下文”,觉得这是突破。可实际上,DeepSeek V3/R1 一直都能跑 128K,只是 API 端之前只开放到 64K。这次所谓的升级,更多是“放开限制”而不是“技术飞跃”。

所以,128K 很重要,但不是这次更新的灵魂。

这次的 V3.1 最大的变化,就是把 Chat 和 Reasoning 融到了一起。以前要对话可以用 V3,要深度推理就必须使用用 R1;现在只剩一个模型。

听起来很美好:一套模型,省下部署成本,还能提升算力利用率。可是,融合的副作用也很明显——幻觉又开始频繁出现,中英文混杂的老毛病也回来了。

我个人感觉:V3.1 有进步,但远不如预期。

V3.1 更新亮点#

本次开源的 V3.1 模型拥有 685B 参数,且支持多种精度格式,从BF16到FP8。

国外基准跑分(SVGBench)实测推理跑分相比 DeepSeek-R1-0528 的得分提高了 13%,总体排名第 13,最佳中国模型第 2,最佳开源权重模型第 2,以及无视觉能力模型中排名第 2deepseek-ai-deepseek-v3-1-base-hugging-face-v0-98rp44t400kf1

在架构上,V3.1 采用了模型融合方式,基本可以说 V3.1 = V3 + R1

成本上节约了六十分之一,完整编程任务仅需1.01美元

DeepSeek V3.1 Base 的模型地址已经出了,但是还没有 model card,官方的Benchmark成绩和能力说明还未公布

image-20250820142939031

这盘棋,DeepSeek 下对了吗?#

其实,这不是 DeepSeek 一家在探索模型融合的道路。Qwen3 也尝试过模型融合,结果后来还是分开出了 Instruct 和 Thinking。GPT-5 则更稳健,走的是 “Chat + Reasoning + Router” 路线,而不是生硬地融成一个模型,更不用说前段时间 GPT-5 被社区的人吐槽这个问题

所以,DeepSeek 的做法,究竟是“捷径”,还是“弯路”,还需要时间验证。

同时在 HuggingFace 上,讨论非常两极化,大部分喷的都是因为 DeepSeek 每次更新版本都会直接覆盖原始的 API 版本,会导致本身在使用老版本的用户出现问题,以及融合后的幻觉问题严重等

image-20250820145605867

但同样因为 V3.1,更多的人也在期待 R2 的上线

image-20250820144438158

更有意思的是,V3.1 的推出,其实和 DeepSeek 的「算力博弈」脱不开关系。 根据路透社报道,DeepSeek 原本被要求用华为 Ascend 芯片训练 R2,但因为多次失败,最后只能退回 Nvidia GPU。现在的情况是:推理用国产芯片,训练依然逃不脱英伟达。(期待国产芯片彻底摆脱 Nvidia 的一天)

这也解释了为什么 R2 始终不见踪影,而 V3.1 却急忙上线。某种程度上,它更像是“过渡产物”。所以这次的 V3.1 更像是一次实验,真正的看点,还是要等 R2 或 V4

AI 的世界,总是在“期待”与“失望”之间来回摇摆。 GPT-5 前段时间也是先被骂,再慢慢赢回口碑。V3.1 也许是一次失败的实验,也可能是未来“大一统模型”的起点。

所以,我的建议是: 别急着下结论,让子弹再飞一会儿。

突然发布新模型 V3.1,DeepSeek 在下一盘什么棋?
https://kaiho.tech/posts/deepseek-v3-1/
作者
Kaiho
发布于
2025-08-20
许可协议
CC BY-NC-SA 4.0