Anthropic 估值五天暴涨 2000 亿美元,菲尔兹奖得主被 ChatGPT 5.5 Pro 震惊到,FrontierMath 评测系统被发现三分之一题目有致命错误。

今天这几件事放在一起看,挺有意思的。

🔥 重点新闻

1. Anthropic 估值五天暴涨 2000 亿美元

Anthropic 的市场隐含估值在短短五天内从 1.2 万亿美元飙升至 1.4 万亿美元。从 2025 年 10 月算起,涨了 1067%。

这速度,说实话有点离谱。

但你仔细想想,这背后是 Claude 的用户量和 API 调用量在持续爆发。再加上 Anthropic 今天同时开源了金融 AI 全栈模板(10 个端到端智能体、7 个垂直行业插件、11 家金融数据商的 MCP 连接器),覆盖投研、投行、风控等核心工作流。

来源,@kimmonismus

2. 菲尔兹奖得主测试 ChatGPT 5.5 Pro,17 分钟解决数学难题

Timothy Gowers(菲尔兹奖得主)测了一下 ChatGPT 5.5 Pro,AI 在 17 分钟内独立解决了一个加法数论公开难题,产出了博士论文级别的成果。整个过程没有数学指导,就是简单提了个醒。

Gowers 自己说了一句很有分量的话:如果 AI 数学能力继续以这个速度发展,整个数学教育体系需要重新思考。

来源,IT之家

3. FrontierMath 评测发现致命错误,将更新修正后分数

Epoch AI 对 FrontierMath 的 Tiers 1-4 进行 AI 辅助审查后,发现大约三分之一的题目存在致命错误。

这事挺讽刺的,AI 评测系统用 AI 审查后发现自己的题目有问题。不过换个角度看,这种自我纠错的机制本身是好事。现在他们正在做全面人工审核,完成后会发布修正后的分数。

来源,@EpochAIResearch

4. 谷歌披露犯罪黑客利用 AI 发现重大软件漏洞

谷歌威胁分析小组追踪到一起攻击事件,犯罪黑客借助 AI 工具挖掘并利用了一个广泛使用的开源软件中的重大漏洞,可能导致大规模数据泄露。

AI 能力提升是双刃剑,这句话在这条新闻里体现得淋漓尽致。

来源,纽约时报

5. OpenAI 推出 Daybreak 网络安全防御系统

有意思的是,上一条是 AI 被黑客用来攻击,这一条是 OpenAI 推出了面向网络防御者的 AI 系统 Daybreak。

Daybreak 汇集了最强大的 OpenAI 模型、Codex 和安全合作伙伴,目标是加速网络防御。攻防两端同时加速,接下来会是真正的军备竞赛。

来源,@OpenAI

6. Replit 推出并行代理,10 个代理同时运行

Replit 新功能,可以同时跑 10 个代理,每个都有应用的独立副本,在各自的计算机上工作,最后自动合并成果。

单个 Agent 的速度已经很快了,现在开始拼并发。从单兵作战到多 Agent 协作,这个趋势越来越明显。

来源,@Replit

7. 纳德拉出庭反击马斯克诉讼案

微软 CEO 纳德拉在马斯克诉 OpenAI 案中作证,出示了马斯克 2016 年的感谢邮件,证明其当时完全支持微软与 OpenAI 的合作。纳德拉还说了一句挺扎心的话,他明明有我的手机号,但从未抱怨过。

来源,IT之家

💡 值得关注

  • Claude Code v2.1.139 更新:新增 Agent 视图集中管理会话、/goal 命令让 Agent 持续工作、/scroll-speed 命令。GitHub

  • Anthropic 在 AWS 上正式推出 Claude 平台:AWS 客户首次可以通过现有身份验证和账单直接使用完整 Claude 功能。Claude Blog

  • 7B 小模型指挥 GPT-5 和 Claude Sonnet 4:通过强化学习训练的 7B 语言模型,能有效指挥前沿大模型,在 GPQA Diamond 上表现出色。大模型不是唯一的路。@berryxia

  • AntLingAGI 发布万亿参数模型 Ring-2.6-1T:可调节思考强度,5 月 15 日前免费使用。@OpenRouter

  • Karpathy 谈人机交互界面演进:从当前 Markdown 默认输出向 HTML 演进,终极形态是扩散神经网络生成的交互式视频。@karpathy

  • 谷歌 DeepMind 与 Coursera 推出「Gemini for Developers」课程:覆盖推理与行动、工具使用、部署三大模块。@googleaidevs

  • LLM 写入脚本 shebang 行:Simon Willison 分享了把 LLM 工具直接嵌入脚本 shebang 行的玩法,挺有意思。Simon Willison 博客

📝 今日思考

今天最让我感慨的是两件事的对比。

一边是 AI 安全领域,黑客用 AI 挖漏洞,OpenAI 用 AI 做防御,攻防两端同时加速。另一边是 AI 评测领域,FrontierMath 用 AI 审查自己的题目,发现三分之一有致命错误。

这说明什么?AI 正在成为一个无处不在的「基础设施」,不管是好的还是坏的用途,都在被 AI 加速。而我们对 AI 能力的评估体系本身,也需要不断进化。

Anthropic 五天涨 2000 亿这个数字,从另一个角度印证了这一点,资本市场正在用真金白银投票,AI 不是泡沫,至少目前不是。