DeepSeek-V3.2:以推理为重点的大型语言模型
DeepSeek-V3.2由DeepSeek于2025 年 12 月 1 日发布。它是 2025 年 9 月 29 日发布的早期V3.2-Exp 模型的演进版本,提供主要版本和“特别”版本,可用于研究和生产。
DeepSeek-V3.2 是一款基于 Transformer 的大型语言模型(LLM),它采用了稀疏的专家混合 (MoE) 架构,并结合了定制的“DeepSeek稀疏注意力”机制,以在保持高质量的同时减少计算量。它面向编码、数学、研究辅助和多步骤推理等任务,旨在为自主智能体和工具调用工作流提供支持,而非仅仅是简单的聊天。
DeepSeek-V3.2效率与性能
基准测试和报告称,它在推理密集型任务上与顶级前沿模型(如 GPT-5.1 或Gemini 3 Pro)具有竞争力,尤其是在其计算能力更强的变体中。
DeepSeek-V3.2的不同版本
- DeepSeek-V3.2:主流版本,针对通用推理和日常部署进行了优化。
- DeepSeek-V3.2- 特别版:适用于高级任务的高计算变体,在专业领域表现出色,但令牌使用量较高;暂时仅限 API,评估期至 2025 年 12 月中旬。
DeepSeek-V3.2与其他先进模型的比较
DeepSeek-V3.2在关键基准测试中与GPT-5.1和Gemini 3 Pro等前沿模型不相上下,甚至有所超越,尤其是在数学、编码和长上下文任务方面。以下是这些模型之间的比较摘要:
| 方向 | DeepSeek-V3.2 | DeepSeek-V3.2- 特别版 | GPT-5.1 | Gemini 3 Pro |
| 开发者 | DeepSeek AI (中国) | DeepSeek AI (中国) | OpenAI (美国) | Google DeepMind (美国) |
| 发布日期 | 2025年12月1日 | 2025年12月1日(最初仅限API) | 2025年11月12日 | 2025年11月17日 |
| 参数量 | 671B 总参数 (MoE),~37B 激活参数 | 671B 总参数 (MoE),~37B 激活参数 | 未披露(估计 >1T) | 未披露(估计 >1T) |
| 上下文长度 | 128K-131K tokens | 128K-131K tokens(针对更长的推理进行了优化) | >128K tokens(可能1M+) | 1M+ tokens (部分模式可达 2M) |
| 主要功能 | 推理优先, DeepSeek稀疏注意力 (DSA) 提升效率,将工具使用与思考集成,实现智能体工作流。 | 高计算推理变体,放宽复杂任务的长度限制,擅长数学/编程奥林匹克竞赛。 | 更智能的推理、更好的语气/个性、强大的通才表现、多模态 | 原生多模态、最先进的推理/工具使用、长上下文掌握、创造性/战略性规划 |
| 访问 | 开源(MIT), Hugging Face,API,免费应用/网页 | 初期仅提供API(2025年12月中旬开放) | API/订阅(付费套餐) | API/订阅(付费套餐) |
| AIME 2025 (数学) | 93.1% | 96.0% | 94.6% | 95.0%(代码执行时为100%) |
| HMMT 2025 (数学) | 92.5% | 99.2% | 不适用 | 97.5% |
| SWE-Bench 验证通过率 (程式设计) | 大约67%到73%(因评估而异) | 73.1% | 大约62%到70% (推测) | 76.2% |
| Terminal-Bench 2.0 (智能体编码) | 46.4% | 更高(已优化) | 35.2% | 54.2% |
如何使用DeepSeek-V3.2
它可以通过免费和付费渠道访问,包括网页界面、移动应用程序、API以及用于本地部署的直接下载。
- HIX AI:在这里,我们提供对DeepSeek-V3.2以及DeepSeek-V3和DeepSeek-R1等早期版本的即时便捷访问。
- 网页和移动应用程序:普通用户与DeepSeek-V3.2交互的另一种方式是通过 DeepSeek 的官方平台,包括官方网站https://www.deepseek.com/和DeepSeek移动应用程序。
- API 访问: DeepSeek 的 API 与OpenAI兼容,因此可以轻松集成到应用程序或脚本中。
- 本地部署:这是一种以开发者为中心的方法。您可以从Hugging Face页面下载模型: https://huggingface.co/deepseek-ai/DeepSeek-V3.2 ,并在您自己的硬件上运行。
常见问题解答
DeepSeek V3.2 的主要变体有哪些?
主要生产版本是DeepSeek-V3.2 (平衡型,“日常驱动”模型)和DeepSeek-V3.2-特别版(针对非常困难的数学、编码和竞赛风格问题的更高端推理模型)。
DeepSeek-V3.2 的性能与GPT-5.1或Gemini 3 Pro相比如何?
DeepSeek-V3.2在数学/编码和效率方面表现出色,以更低的成本与这些前沿模型相媲美。
DeepSeek-V3.2是否支持图像或视频等多模态输入?
目前, DeepSeek-V3.2仅支持文本输入。它针对长文本/代码/文档的推理进行了优化。
DeepSeek V3.2的上下文窗口是多少?
DeepSeek V3.2 继承了一个长上下文窗口(约 128K tokens),这得益于稀疏注意力机制,使其能够在单个提示中处理数百页的文本。
V3.2与之前的DeepSeek版本相比如何?
V3.2 在 V3.1“Terminus”代的基础上构建,但侧重于效率和推理能力,而不是原始基准分的飞跃,目标是凭借稀疏注意力和更新的训练/对齐方式,以低得多的成本实现相似或更高的质量。
什么是DeepSeek稀疏注意力 (DSA)?它为什么重要?
DeepSeek 稀疏注意力是一种细粒度的稀疏注意力机制,它能够减少每个 token 的注意力操作次数,从而使长上下文处理的成本大大降低,同时还能将模型质量保持在接近早期密集注意力模型的水平。


