刚刚发布

DeepSeek V4
震撼发布

国内最新大模型横向评测对比 · 深度解析V4相较于豆包、通义千问、文心一言、智谱GLM、Kimi等模型的性能差异与优劣势

2026年4月24日 正式发布

DeepSeek V4 核心亮点

历经15个月打磨,DeepSeek V4携多项突破性技术重磅来袭

📏

百万级上下文

全新DSA稀疏注意力机制,1M tokens上下文成为默认配置

1M Tokens
💻

代码能力飞跃

开源代码排行榜第3位,综合排名第14位,较上代提升10倍

#3 开源

极致性价比

V4-Flash每百万token仅需0.28美元,比Claude低99%以上

$0.28/M
🧠

Agent能力增强

内部评测Pass Rate达67%,超越Sonnet 4.5,直逼Opus 4.6

67% Pass
🔧

双版本并行

Pro版对标顶级闭源模型,Flash版主打低成本高速度

Pro + Flash
🌐

开源MIT协议

全系开源,支持本地部署,兼容OpenAI与Anthropic接口

MIT License

国内大模型详细参数对比

基于SuperCLUE、Arena.ai、Vals AI等权威评测平台数据

模型 总分 代码能力 数学推理 Agent能力 上下文 核心特性
DeepSeek V4-Pro
深度求索
69.56 开源第3 75.00 优秀 1M
MoE架构 开源 低成本
DeepSeek V4-Flash
深度求索
65.00 开源领先 72.00 良好 1M
极速推理 低价
豆包 Seed-1.6
字节跳动
68.04 良好 71.00 90.67 256K
多模态 Agent强 商业化领先
通义千问 Qwen3
阿里巴巴
66.50 领先 73.00 良好 128K
开源矩阵最强 云生态
智谱 GLM-5
智谱AI
63.25 开源第1 70.00 良好 128K
代码最强 开源 IPO进行中
文心一言 5.0
百度
62.00 中等 68.00 中等 128K
中文理解强 知识图谱
Kimi K2.5
月之暗面
64.00 良好 69.00 良好 256K
长文本最强 多模态

核心能力维度对比

基于各大评测平台综合数据的能力雷达分析

📝 代码能力

DeepSeek V4
95
GLM-5
92
豆包
85
通义千问
88

🔢 数学推理

DeepSeek V4
98
GLM-5
88
豆包
90
通义千问
92

🤖 Agent能力

豆包
96
DeepSeek V4
92
GLM-5
85
通义千问
82

🌐 中文理解

文心一言
95
DeepSeek V4
90
豆包
88
通义千问
86

📚 长上下文

DeepSeek V4
100
Kimi K2.5
90
豆包
85
通义千问
75

💰 性价比

DeepSeek V4
100
通义千问
92
豆包
88
GLM-5
85

国内大模型综合排行榜

基于SuperCLUE 2026年4月最新评测数据

综合能力
1
DeepSeek V4-Pro
深度求索
69.56
综合能力
2
豆包 Seed-1.6
字节跳动
68.04
综合能力
3
混元 T1
腾讯
63.73
开源代码
1
GLM-5
智谱AI
92
开源代码
2
DeepSeek V4-Pro
深度求索
95
开源代码
3
通义千问 Qwen3
阿里巴巴
88
数学推理
1
DeepSeek R1-0528
深度求索
75.00
Agent能力
1
豆包 Seed-1.6
字节跳动
90.67
长文本
1
DeepSeek V4
深度求索
1M

DeepSeek V4 优劣势分析

客观分析V4相较于其他国产大模型的核心优势与不足

+ 核心优势

  • 极致性价比
    V4-Flash每百万token仅0.28美元,比Claude Opus 4.7低99%以上,是目前成本最低的开源大模型
  • 百万级上下文
    1M tokens上下文窗口,配合DSA稀疏注意力,Single-token FLOPs仅需V3.2的27%
  • 开源生态领先
    MIT开源协议,支持本地部署,兼容OpenAI与Anthropic接口,开发者友好度极高
  • 代码能力跃升
    Arena.ai代码竞技场开源第3,Vals AI Vibe Code Benchmark开源第1,击败Gemini 3.1 Pro
  • Agent能力突出
    内部评测Pass Rate达67%,超越Sonnet 4.5(47%),接近Opus 4.6非思考模式
  • 硬件适配多元
    已在华为昇腾、摩尔线程等国产芯片上完成适配,摆脱对英伟达的单一依赖

- 相对劣势

  • 非多模态模型
    目前V4仅支持文本处理,不具备图像、视频理解能力,相比豆包等多模态模型存在短板
  • 与顶级闭源仍有差距
    官方承认在知识与推理上与GPT-5.4、Claude Opus 4.6等顶级闭源模型仍有3-6个月差距
  • 思考模式性能受限
    在开启思考模式后,部分评测排名反而下降,与Opus 4.6思考模式的差距仍较明显
  • 服务吞吐有限
    官方提示受限于高端算力,Pro版本服务吞吐有限,高峰时段可能出现响应延迟
  • 中文创意写作
    在Arena.ai文本能力排名约20位,中文创意写作、长文理解方面不如百度文心一言
  • 商业落地经验
    豆包已渗透80%头部快消、90%主流车企,DeepSeek在企业级商业化落地方面还需追赶

API价格对比

每百万Token输出价格(美元)

DeepSeek V4-Pro

49B 激活参数
$3.48
/ 百万tokens
对标顶级闭源模型

Claude Sonnet 4.6

闭源对比
$15
/ 百万tokens
性能相近 · 价差4倍

GPT-5.4

闭源对比
$30
/ 百万tokens
顶级闭源参考

通义千问 Qwen-Max

国产对比
$2.5
/ 百万tokens
开源生态完善

豆包 Doubao-Pro

国产对比
$1.5
/ 百万tokens
商业化领先

总结与建议

DeepSeek V4以「开源 + 低成本 + 长上下文」为核心竞争力,在代码、数学推理领域达到开源模型顶尖水平,与豆包、通义千问形成差异化竞争格局。对于追求性价比和开源自由的企业开发者,V4是首选;对于需要多模态能力和企业级服务的场景,豆包更具优势。

追求性价比 → DeepSeek V4 多模态需求 → 豆包 长文本处理 → Kimi / DeepSeek V4 代码开发 → DeepSeek V4 / GLM-5 中文创作 → 文心一言
Created by MiniMax Agent
×