AI日报 | 2026年5月12日
Anthropic 估值五天暴涨 2000 亿美元,菲尔兹奖得主被 ChatGPT 5.5 Pro 震惊到,FrontierMath 评测系统被发现三分之一题目有致命错误。
今天这几件事放在一起看,挺有意思的。
🔥 重点新闻
1. Anthropic 估值五天暴涨 2000 亿美元
Anthropic 的市场隐含估值在短短五天内从 1.2 万亿美元飙升至 1.4 万亿美元。从 2025 年 10 月算起,涨了 1067%。
这速度,说实话有点离谱。
但你仔细想想,这背后是 Claude 的用户量和 API 调用量在持续爆发。再加上 Anthropic 今天同时开源了金融 AI 全栈模板(10 个端到端智能体、7 个垂直行业插件、11 家金融数据商的 MCP 连接器),覆盖投研、投行、风控等核心工作流。
来源,@kimmonismus
2. 菲尔兹奖得主测试 ChatGPT 5.5 Pro,17 分钟解决数学难题
Timothy Gowers(菲尔兹奖得主)测了一下 ChatGPT 5.5 Pro,AI 在 17 分钟内独立解决了一个加法数论公开难题,产出了博士论文级别的成果。整个过程没有数学指导,就是简单提了个醒。
Gowers 自己说了一句很有分量的话:如果 AI 数学能力继续以这个速度发展,整个数学教育体系需要重新思考。
来源,IT之家
3. FrontierMath 评测发现致命错误,将更新修正后分数
Epoch AI 对 FrontierMath 的 Tiers 1-4 进行 AI 辅助审查后,发现大约三分之一的题目存在致命错误。
这事挺讽刺的,AI 评测系统用 AI 审查后发现自己的题目有问题。不过换个角度看,这种自我纠错的机制本身是好事。现在他们正在做全面人工审核,完成后会发布修正后的分数。
4. 谷歌披露犯罪黑客利用 AI 发现重大软件漏洞
谷歌威胁分析小组追踪到一起攻击事件,犯罪黑客借助 AI 工具挖掘并利用了一个广泛使用的开源软件中的重大漏洞,可能导致大规模数据泄露。
AI 能力提升是双刃剑,这句话在这条新闻里体现得淋漓尽致。
来源,纽约时报
5. OpenAI 推出 Daybreak 网络安全防御系统
有意思的是,上一条是 AI 被黑客用来攻击,这一条是 OpenAI 推出了面向网络防御者的 AI 系统 Daybreak。
Daybreak 汇集了最强大的 OpenAI 模型、Codex 和安全合作伙伴,目标是加速网络防御。攻防两端同时加速,接下来会是真正的军备竞赛。
来源,@OpenAI
6. Replit 推出并行代理,10 个代理同时运行
Replit 新功能,可以同时跑 10 个代理,每个都有应用的独立副本,在各自的计算机上工作,最后自动合并成果。
单个 Agent 的速度已经很快了,现在开始拼并发。从单兵作战到多 Agent 协作,这个趋势越来越明显。
来源,@Replit
7. 纳德拉出庭反击马斯克诉讼案
微软 CEO 纳德拉在马斯克诉 OpenAI 案中作证,出示了马斯克 2016 年的感谢邮件,证明其当时完全支持微软与 OpenAI 的合作。纳德拉还说了一句挺扎心的话,他明明有我的手机号,但从未抱怨过。
来源,IT之家
💡 值得关注
Claude Code v2.1.139 更新:新增 Agent 视图集中管理会话、
/goal命令让 Agent 持续工作、/scroll-speed命令。GitHubAnthropic 在 AWS 上正式推出 Claude 平台:AWS 客户首次可以通过现有身份验证和账单直接使用完整 Claude 功能。Claude Blog
7B 小模型指挥 GPT-5 和 Claude Sonnet 4:通过强化学习训练的 7B 语言模型,能有效指挥前沿大模型,在 GPQA Diamond 上表现出色。大模型不是唯一的路。@berryxia
AntLingAGI 发布万亿参数模型 Ring-2.6-1T:可调节思考强度,5 月 15 日前免费使用。@OpenRouter
Karpathy 谈人机交互界面演进:从当前 Markdown 默认输出向 HTML 演进,终极形态是扩散神经网络生成的交互式视频。@karpathy
谷歌 DeepMind 与 Coursera 推出「Gemini for Developers」课程:覆盖推理与行动、工具使用、部署三大模块。@googleaidevs
LLM 写入脚本 shebang 行:Simon Willison 分享了把 LLM 工具直接嵌入脚本 shebang 行的玩法,挺有意思。Simon Willison 博客
📝 今日思考
今天最让我感慨的是两件事的对比。
一边是 AI 安全领域,黑客用 AI 挖漏洞,OpenAI 用 AI 做防御,攻防两端同时加速。另一边是 AI 评测领域,FrontierMath 用 AI 审查自己的题目,发现三分之一有致命错误。
这说明什么?AI 正在成为一个无处不在的「基础设施」,不管是好的还是坏的用途,都在被 AI 加速。而我们对 AI 能力的评估体系本身,也需要不断进化。
Anthropic 五天涨 2000 亿这个数字,从另一个角度印证了这一点,资本市场正在用真金白银投票,AI 不是泡沫,至少目前不是。







