AI日报 | 2026年5月21日
683 分,HN 今日最热帖,标题是「An OpenAI model has disproved a central conjecture in discrete geometry」。
AI 模型推翻了一个离散几何领域的核心猜想。不是辅助证明,不是生成候选反例,是直接干掉了数学家悬而未决的问题。
老实说,看到这条新闻的第一反应是有点懵。AI for Science 讨论了好几年,大多数时候停留在「帮科学家加速筛选」的层面。这次不一样,这次是模型自己搞出了一个数学发现。虽然具体细节还在等 OpenAI 的正式论文,但光是「推翻核心猜想」这几个字就够让人重新审视 AI 在基础研究中的定位了。
🔥 重点新闻
1. OpenAI 模型推翻离散几何核心猜想
今天 HN 上 683 分的帖子,讲的是 OpenAI 的一个模型在离散几何领域做出了真正的数学发现,推翻了一个长期存在的核心猜想。
这件事的分量在于,它不是那种「AI 帮忙跑了个模拟」的辅助角色。据目前的信息,模型独立地找到了反例结构。离散几何是一个高度抽象的领域,需要深度的逻辑推理能力,而不是简单的模式匹配。
我一直在关注 AI for Math 这个方向。去年 DeepMind 的 AlphaProof 在 IMO 上拿了银牌,但那更多是在有明确答案的竞赛题上。这次不一样,这次面对的是开放性的研究问题。如果论文细节确认属实,这可能是 AI 辅助数学研究的一个真正里程碑。
来源,OpenAI(https://openai.com/index/model-disproves-discrete-geometry-conjecture/)
2. Qwen3.7-Max 发布,定位 Agent 前沿
阿里通义团队发布了 Qwen3.7-Max,副标题直接叫「The Agent Frontier」。这个命名策略很有意思,不跟别人卷通用能力了,直接 All in Agent 场景。
602 分的 HN 热度说明海外社区对这个方向是认可的。过去几个月,Agent 赛道从「PPT 概念」进入了「谁的模型真能干活」的阶段。Qwen 选择在这个节点推出 Agent 专用版本,时机卡得不错。
不过我比较好奇的是实际表现。Agent 场景对模型的要求跟纯聊天完全不同,需要稳定的工具调用、长上下文理解、以及在多步骤任务中不跑偏的规划能力。Qwen3.7-Max 在这些方面到底做到了什么程度,得看后续的实测。
来源,Qwen Blog(https://qwen.ai/blog?id=qwen3.7)
3. 英伟达 Q1 净利润 583 亿美元
这个数字太炸了。583 亿美元的季度净利润,放在任何行业都是顶级水平。
36kr 的报道还提到了段永平重仓英伟达的消息。段永平的投资风格一向是「看准了就下重手」,他在这个时间点加码英伟达,某种程度上代表了聪明钱对 AI 基础设施赛道的判断。
AI 算力的需求还在爆炸式增长。虽然市场上一直有「泡沫论」的声音,但从英伟达的财报来看,需求是实实在在的。GPU 供不应求的状态短期内看不到缓解的迹象。
来源,36氪(https://36kr.com/p/3818280989443202)
4. Google 发布会,Agent 全家桶登场
谷歌最近的发布会没有发最强模型,而是把重心放在了 Agent 上。36kr 的标题写得很直白,「没发最强模型,开卷 Agent 全家桶」。
Gemini 月活跃用户达到了 9 亿,这个用户基数是谷歌做 Agent 的最大底气。相比 OpenAI 和 Anthropic 需要从零构建用户池,谷歌直接把 Agent 能力塞进现有产品里,覆盖 Search、Chrome、Gmail 等入口。
但也有用户反馈说新模型「快是快,但不够聪明」。这其实是 Agent 场景的核心矛盾,你要响应快,就很难做深度推理。谷歌选择用速度换覆盖,OpenAI 选择用深度换上限,两条路线的竞争会越来越有意思。
来源,36氪(https://36kr.com/p/3817321803931910)
5. GitHub 确认 3800 个仓库因恶意 VSCode 扩展被攻破
HN 上 498 分的安全事件。一个恶意的 VSCode 扩展导致 3800 个仓库被攻破。
这件事对开发者社区的冲击很大。VSCode 扩展生态一直被当作相对安全的,大多数人安装扩展时不会想太多。这次事件暴露了 IDE 扩展作为攻击面的风险,扩展拥有对工作区文件的完全读写权限,一旦被恶意利用,后果很严重。
我建议大家检查一下自己安装的扩展列表,尤其是那些来源不明的小扩展。开发工具链的安全问题往往被低估,直到出事才被重视。
来源,BleepingComputer(https://www.bleepingcomputer.com/news/security/github-confirms-breach-of-3-800-repos-via-malicious-vscode-extension/)
💡 值得关注
Claude Mythos 猎杀 271 个漏洞,一个月干完 15 个月的活,有的漏洞藏了 20 年。AI 安全审计的效率提升太惊人了。(来源,36氪)
蚂蚁灵光领跑「次抛」应用时代,国内迎来大厂入局潮。轻量级 AI 应用的趋势越来越明显。(来源,36氪)
Anthropic 扩展到 Colossus2,将使用 GB200,算力军备竞赛还在继续,Anthropic 也在疯狂囤卡。(来源,HN)
Google 被指「向 Web 宣战」,AI 搜索对网站流量的影响引发了广泛讨论。网站主的日子越来越难过了。(来源,tante.cc)
Figure 03 人机分拣大战,机器人差点反超人类,人类赢了比分但输了未来。具身智能的进展比想象中快。(来源,36氪)
📝 今日思考
今天最有冲击力的新闻是 OpenAI 模型推翻数学猜想这件事。
我一直觉得,AI 真正改变世界的节点不是「能聊天」,不是「能画图」,而是「能做人类做不到的事」。数学发现正好踩在这个点上。
过去两年,AI 行业的主旋律是「卷模型、卷应用、卷价格」。但如果 AI 开始在基础科学上产出真正的原创发现,那整个叙事就不一样了。这不再是「工具」的故事,而是「参与者」的故事。
当然,在论文细节公布之前保持谨慎。但就算是真的只做到了一次,也足够让人认真想想接下来会发生什么了。






