AI日报 | 2026年5月12日

Anthropic 估值五天暴涨 2000 亿美元，菲尔兹奖得主被 ChatGPT 5.5 Pro 震惊到，FrontierMath 评测系统被发现三分之一题目有致命错误。

今天这几件事放在一起看，挺有意思的。

🔥 重点新闻

Anthropic 的市场隐含估值在短短五天内从 1.2 万亿美元飙升至 1.4 万亿美元。从 2025 年 10 月算起，涨了 1067%。

这速度，说实话有点离谱。

但你仔细想想，这背后是 Claude 的用户量和 API 调用量在持续爆发。再加上 Anthropic 今天同时开源了金融 AI 全栈模板（10 个端到端智能体、7 个垂直行业插件、11 家金融数据商的 MCP 连接器），覆盖投研、投行、风控等核心工作流。

Timothy Gowers（菲尔兹奖得主）测了一下 ChatGPT 5.5 Pro，AI 在 17 分钟内独立解决了一个加法数论公开难题，产出了博士论文级别的成果。整个过程没有数学指导，就是简单提了个醒。

Gowers 自己说了一句很有分量的话：如果 AI 数学能力继续以这个速度发展，整个数学教育体系需要重新思考。

来源，IT之家

Epoch AI 对 FrontierMath 的 Tiers 1-4 进行 AI 辅助审查后，发现大约三分之一的题目存在致命错误。

这事挺讽刺的，AI 评测系统用 AI 审查后发现自己的题目有问题。不过换个角度看，这种自我纠错的机制本身是好事。现在他们正在做全面人工审核，完成后会发布修正后的分数。

谷歌威胁分析小组追踪到一起攻击事件，犯罪黑客借助 AI 工具挖掘并利用了一个广泛使用的开源软件中的重大漏洞，可能导致大规模数据泄露。

AI 能力提升是双刃剑，这句话在这条新闻里体现得淋漓尽致。

有意思的是，上一条是 AI 被黑客用来攻击，这一条是 OpenAI 推出了面向网络防御者的 AI 系统 Daybreak。

Daybreak 汇集了最强大的 OpenAI 模型、Codex 和安全合作伙伴，目标是加速网络防御。攻防两端同时加速，接下来会是真正的军备竞赛。

来源，@OpenAI

Replit 新功能，可以同时跑 10 个代理，每个都有应用的独立副本，在各自的计算机上工作，最后自动合并成果。

单个 Agent 的速度已经很快了，现在开始拼并发。从单兵作战到多 Agent 协作，这个趋势越来越明显。

来源，@Replit

微软 CEO 纳德拉在马斯克诉 OpenAI 案中作证，出示了马斯克 2016 年的感谢邮件，证明其当时完全支持微软与 OpenAI 的合作。纳德拉还说了一句挺扎心的话，他明明有我的手机号，但从未抱怨过。

来源，IT之家

Claude Code v2.1.139 更新：新增 Agent 视图集中管理会话、/goal 命令让 Agent 持续工作、/scroll-speed 命令。GitHub
Anthropic 在 AWS 上正式推出 Claude 平台：AWS 客户首次可以通过现有身份验证和账单直接使用完整 Claude 功能。Claude Blog
7B 小模型指挥 GPT-5 和 Claude Sonnet 4：通过强化学习训练的 7B 语言模型，能有效指挥前沿大模型，在 GPQA Diamond 上表现出色。大模型不是唯一的路。@berryxia
AntLingAGI 发布万亿参数模型 Ring-2.6-1T：可调节思考强度，5 月 15 日前免费使用。@OpenRouter
Karpathy 谈人机交互界面演进：从当前 Markdown 默认输出向 HTML 演进，终极形态是扩散神经网络生成的交互式视频。@karpathy
谷歌 DeepMind 与 Coursera 推出「Gemini for Developers」课程：覆盖推理与行动、工具使用、部署三大模块。@googleaidevs
LLM 写入脚本 shebang 行：Simon Willison 分享了把 LLM 工具直接嵌入脚本 shebang 行的玩法，挺有意思。Simon Willison 博客