AI日报 | 2026年5月21日

683 分，HN 今日最热帖，标题是「An OpenAI model has disproved a central conjecture in discrete geometry」。

AI 模型推翻了一个离散几何领域的核心猜想。不是辅助证明，不是生成候选反例，是直接干掉了数学家悬而未决的问题。

老实说，看到这条新闻的第一反应是有点懵。AI for Science 讨论了好几年，大多数时候停留在「帮科学家加速筛选」的层面。这次不一样，这次是模型自己搞出了一个数学发现。虽然具体细节还在等 OpenAI 的正式论文，但光是「推翻核心猜想」这几个字就够让人重新审视 AI 在基础研究中的定位了。

🔥 重点新闻

今天 HN 上 683 分的帖子，讲的是 OpenAI 的一个模型在离散几何领域做出了真正的数学发现，推翻了一个长期存在的核心猜想。

这件事的分量在于，它不是那种「AI 帮忙跑了个模拟」的辅助角色。据目前的信息，模型独立地找到了反例结构。离散几何是一个高度抽象的领域，需要深度的逻辑推理能力，而不是简单的模式匹配。

我一直在关注 AI for Math 这个方向。去年 DeepMind 的 AlphaProof 在 IMO 上拿了银牌，但那更多是在有明确答案的竞赛题上。这次不一样，这次面对的是开放性的研究问题。如果论文细节确认属实，这可能是 AI 辅助数学研究的一个真正里程碑。

阿里通义团队发布了 Qwen3.7-Max，副标题直接叫「The Agent Frontier」。这个命名策略很有意思，不跟别人卷通用能力了，直接 All in Agent 场景。

602 分的 HN 热度说明海外社区对这个方向是认可的。过去几个月，Agent 赛道从「PPT 概念」进入了「谁的模型真能干活」的阶段。Qwen 选择在这个节点推出 Agent 专用版本，时机卡得不错。

不过我比较好奇的是实际表现。Agent 场景对模型的要求跟纯聊天完全不同，需要稳定的工具调用、长上下文理解、以及在多步骤任务中不跑偏的规划能力。Qwen3.7-Max 在这些方面到底做到了什么程度，得看后续的实测。

这个数字太炸了。583 亿美元的季度净利润，放在任何行业都是顶级水平。

36kr 的报道还提到了段永平重仓英伟达的消息。段永平的投资风格一向是「看准了就下重手」，他在这个时间点加码英伟达，某种程度上代表了聪明钱对 AI 基础设施赛道的判断。

AI 算力的需求还在爆炸式增长。虽然市场上一直有「泡沫论」的声音，但从英伟达的财报来看，需求是实实在在的。GPU 供不应求的状态短期内看不到缓解的迹象。

谷歌最近的发布会没有发最强模型，而是把重心放在了 Agent 上。36kr 的标题写得很直白，「没发最强模型，开卷 Agent 全家桶」。

Gemini 月活跃用户达到了 9 亿，这个用户基数是谷歌做 Agent 的最大底气。相比 OpenAI 和 Anthropic 需要从零构建用户池，谷歌直接把 Agent 能力塞进现有产品里，覆盖 Search、Chrome、Gmail 等入口。

但也有用户反馈说新模型「快是快，但不够聪明」。这其实是 Agent 场景的核心矛盾，你要响应快，就很难做深度推理。谷歌选择用速度换覆盖，OpenAI 选择用深度换上限，两条路线的竞争会越来越有意思。

HN 上 498 分的安全事件。一个恶意的 VSCode 扩展导致 3800 个仓库被攻破。

这件事对开发者社区的冲击很大。VSCode 扩展生态一直被当作相对安全的，大多数人安装扩展时不会想太多。这次事件暴露了 IDE 扩展作为攻击面的风险，扩展拥有对工作区文件的完全读写权限，一旦被恶意利用，后果很严重。

我建议大家检查一下自己安装的扩展列表，尤其是那些来源不明的小扩展。开发工具链的安全问题往往被低估，直到出事才被重视。

Claude Mythos 猎杀 271 个漏洞，一个月干完 15 个月的活，有的漏洞藏了 20 年。AI 安全审计的效率提升太惊人了。（来源，36氪）
蚂蚁灵光领跑「次抛」应用时代，国内迎来大厂入局潮。轻量级 AI 应用的趋势越来越明显。（来源，36氪）
Anthropic 扩展到 Colossus2，将使用 GB200，算力军备竞赛还在继续，Anthropic 也在疯狂囤卡。（来源，HN）
Google 被指「向 Web 宣战」，AI 搜索对网站流量的影响引发了广泛讨论。网站主的日子越来越难过了。（来源，tante.cc）
Figure 03 人机分拣大战，机器人差点反超人类，人类赢了比分但输了未来。具身智能的进展比想象中快。（来源，36氪）