封面

导读

2026年3月,全球AI领域迎来了一场史诗级的密集爆发。

OpenAI、谷歌、Meta等海外巨头持续领跑技术边界,中国大模型则实现了全球调用量反超、旗舰模型登顶国际盲测、端侧与行业应用全面落地的三重突破。

从百万Token上下文成为标配,到原生多模态与电脑控制能力成熟,再到AI智能体(Agent)从概念走向规模化商用——大模型正式告别”参数内卷”,进入效率优先、场景为王、生态重构的实用主义时代。


一、旗舰模型密集发布:上下文军备竞赛白热化

GPT-5.4:从聊天工具到工作代理

3月5日,OpenAI正式发布GPT-5.4,这次升级绝非简单的版本迭代。

核心突破有三:

  1. 百万Token上下文窗口(API版默认开启),意味着AI可以一次性处理约75万字的文档
  2. 「中途响应可控」(Mid-response Steerability)——用户可以在AI回答过程中实时调整输出方向,彻底解决”答非所问””无法中断”的痛点
  3. 原生电脑控制能力,可直接操作网页、执行本地任务(文档编辑、数据爬取等)

更值得关注的是效率提升:推理与编码能力较GPT-5提升30%,同时训练与推理成本降低40%

这意味着GPT-5.4已从”聊天工具”全面升级为”可中断、可协作的工作代理”。

GPT-5.1预览版:千万级上下文的野望

3月21日,OpenAI放出GPT-5.1预览版,直接抛出王炸——千万级Token上下文(1000万Token,约等于750万字)。

这是什么概念?

你可以把一整部《红楼梦》扔进对话框,让AI分析人物关系;可以把整个代码库丢给它,让它进行跨文件重构;可以进行复杂的多轮Agent工作流编排。

同时,GPT-5.1原生支持文/图/音/视频统一处理,无需额外调用多模态接口,推理速度较GPT-5.4提升3倍

预计4月正式开放API。

Gemini 3.1 Pro:谷歌的反击

谷歌于3月12日发布Gemini 3.1 Pro,核心亮点是100万Token长上下文2M超长上下文支持

根据whatllm.org的Intelligence Index数据,Gemini 3.1 Pro Preview以57.18分位居榜首,而GPT-5.4 (xhigh) scored 57.17——两者差距仅0.01分

这说明什么?

旗舰模型之间的能力差距正在缩小到可以忽略不计的程度。用户选择的依据将不再是”谁更聪明”,而是”谁更适合我的场景”、”谁更便宜”、”谁更稳定”。


二、资本狂潮:OpenAI 1100亿美元融资与军方合同

创纪录的融资

2月27日,OpenAI完成1100亿美元融资轮,由Amazon、Nvidia和SoftBank领投,估值达到7300亿美元(pre-money)。

这是什么水平?

  • 超过了Uber、Airbnb、Stripe等一众科技独角兽的估值总和
  • 融资规模是Anthropic最新一轮(35亿美元)的3倍多
  • 几乎追平了字节跳动(约2680亿美元)和SpaceX(约3500亿美元)的估值

五角大楼合同与Anthropic的尴尬

更具戏剧性的是OpenAI与五角大楼的AI合同

2月28日,OpenAI宣布与五角大楼签署AI部署协议,为军方提供机密级别的云端AI服务。

而几乎同一时间,Anthropic因为拒绝放宽自主武器使用限制,被多个美国联邦机构标记为”供应链风险”(Supply-chain Risk)——这个标签通常只用于外国对手。

多个美国机构宣布将在6个月内逐步淘汰Claude模型。

内部消息显示,OpenAI的快速跟进引发了至少一名员工的公开辞职。

这背后是一场关于AI伦理、国家安全与商业利益的复杂博弈。


三、AI裁员潮:Jack Dorsey的Block裁员40%

AI带来的不只是技术革命,还有就业冲击。

2月26日,Jack Dorsey的支付公司Block宣布裁员约4000人,占员工总数的40%

原因?Dorsey在内部信中说得很直白:AI工具现在让小团队也能完成以前大团队的工作量

这并非孤例。摩根士丹利预测,到2028年,仅美国AI数据中心就将面临9-18GW的电网缺口——背后的潜台词是:AI算力需求正在呈指数级增长,而人力需求在相应减少。

Agent的规模化商用正在加速这一趋势。


四、NVIDIA GTC 2026:万亿美元订单背后的野心

3月16-19日,NVIDIA年度开发者大会GTC 2026在圣何塞举行。

黄仁勋 keynote 的核心信息只有一个数字:1万亿美元

“去年我看到Blackwell和即将推出的Rubin芯片到2026年的需求约为5000亿美元。现在,我站在这里告诉你们,到2027年,至少是1万亿美元。”

Blackwell全球出货

等待已经结束。NVIDIA Blackwell架构芯片于2026年3月正式进入全球大规模出货阶段

  • 2080亿晶体管,双芯片设计
  • 推理性能提升30倍
  • 专为万亿参数模型训练优化

Vera Rubin AI平台

下一代Vera Rubin架构首次亮相,声称可将万亿参数模型的训练成本降低10倍。

NVIDIA还发布了:

  • 专用推理芯片
  • 开放的Agent Toolkit
  • Nemotron联盟(Mistral、Perplexity、Cursor等)

物理AI和机器人首次获得 keynote 级别的曝光——这意味着NVIDIA正在将重心从”训练模型”转向”让AI与现实世界交互”。


五、Agent工具爆发:从PPT到产品

3月最显著的趋势是:Agent从概念验证走向规模化商用

公司 产品 特点
Mistral Forge 完全自定义模型训练,零供应商锁定
ByteDance DeerFlow 2.0 开源,带隔离代理环境
Microsoft Copilot Cowork 桌面级Agent
Perplexity 持久本地Agent 本地运行,隐私优先

ByteDance开源DeerFlow 2.0的举动尤其值得关注——这是国产AI框架首次在Agent领域获得国际认可。


六、中国AI崛起:4.69万亿Token的历史性时刻

3月最大的行业变量来自中国。

全球最大AI模型API聚合平台OpenRouter的数据显示,截至3月15日,中国AI大模型的周调用量达到4.69万亿Token,连续第二周超越美国。全球调用量排名前三的位置被中国模型包揽。

什么是Token?

Token是AI模型处理信息的最小计量单位。用户输入的问题、AI生成的代码,最终都要拆解成Token完成运算。Token调用量是衡量AI模型活跃度和产业价值的关键指标

数万亿Token级别的调用量,意味着AI已经深度渗透进金融、跨境电商、游戏、短视频等行业的企业办公场景。

DeepSeek-V3.1登顶开源榜单

在权威的MMLU基准测试(AI界的”高考”)中,DeepSeek-V3.1以93.4分的高分领跑开源模型榜单,而GPT-4o和Gemini 2.5 Pro构成闭源模型的”第一梯队”。

性价比优势

国产大模型MiniMax M2.5连续五周霸榜全球调用量冠军。

据企业负责人透露:达到同样能力水平的海外模型,价格可能有十几倍的差距

这种性价比来自三个因素:

  1. 算法创新:通过底层架构创新降低推理成本,用更少的Token完成同样任务
  2. 能源优势:电费在算力成本中占比70%-80%,中国的稳定能源供应和相对低廉电价形成成本防线
  3. 开源模式:走出了与国外闭源模式不同的道路

摩根大通预测,中国的AI推理Token消耗量将从2025年的约10千万亿增长至2030年的约3900千万亿,五年间增长约370倍


七、行业转向:从”参数内卷”到”实用落地”

回顾3月的AI发展,一个清晰的脉络浮现:

行业关注点正在从”谁能训练更大的模型”转向”谁能让模型更有用”

证据一:上下文成为标配

百万Token上下文已从”高端特性”变成”入门配置”。OpenAI、谷歌、Anthropic在这一维度上的军备竞赛,本质上是在争夺”谁能处理更复杂的真实场景”。

证据二:Agent从概念到产品

Mistral Forge、Microsoft Copilot Cowork、Perplexity本地Agent的发布,标志着Agent不再是demo,而是开始产生实际商业价值。

证据三:多模态与电脑控制

GPT-5.4的电脑控制能力、Gemini的原生视频生成、Claude的grad-level physics——AI正在获得”与现实世界交互”的能力。

证据四:成本下降与调用量爆发

中国模型的调用量反超,证明了**”技术迭代—成本下降—应用爆发”**这一正向循环的可行性。


写在最后

2026年3月,AI行业迎来了一个微妙的转折点。

一方面,GPT-5.4与Gemini 3.1 Pro在Intelligence Index上仅差0.01分,说明顶尖模型之间的能力差距正在消失。

另一方面,OpenAI获得1100亿美元融资、NVIDIA预期1万亿美元订单、中国模型调用量首超美国——说明AI的商业价值正在被资本市场和真实用户同时认可。

或许,我们正站在一个新时代的起点:AI不再是科技巨头的军备竞赛,而是全社会的基础设施


数据来源:The AI Track、OpenRouter、whatllm.org、TechCrunch、CCTV、Reuters、Morgan Stanley

封面图片来源:Picsum随机生成