AI日报 | 2026年5月15日
五天,两个未知 macOS 内核漏洞,一条完整的权限提升攻击链。这不是安全研究员的年度报告,而是 Anthropic 的 Mythos AI 上周交出的作业。
🔥 重点新闻
1. Anthropic Mythos AI 五天内发现两个 macOS 内核零日漏洞
据《华尔街日报》报道,Anthropic 的 Mythos AI 工具在短短五天内,帮助研究人员发现了两个此前未知的 macOS 内核漏洞,并将它们串联成一个完整的权限提升攻击链。
这个攻击直接针对操作系统最底层的核心,绕过了苹果的内存完整性保护机制。
坦率的讲,这件事让我有点不安。以前我们说 AI 能写代码、能做研究,但「发现零日漏洞并构建攻击链」这个能力,已经触及了安全领域的敏感神经。Mythos 的价值在于它能协助形成假设、分析代码行为、推理底层约束并建议利用路径,把传统上需要几个月的手动试错压缩到了五天。
苹果的防御策略也在变。现在 macOS 的重点已经从「防止漏洞被发现」转向「增加漏洞利用难度」,这个思路转变本身就说明了一些问题。
2. AI 智能体在 nanoGPT 优化赛道超越人类基准
Prime Intellect 让 Claude Code 和 Codex 智能体完全自主运行在 nanoGPT 速度挑战的优化器赛道上,利用闲置算力完成了近万次实验,消耗约 1.4 万 H200 小时。
最终结果,Claude Code 把记录提升到了 2930 步,超越了 2990 步的人类基准。
不过有个细节很有意思,在要求真正创新的「新颖性检查」环节,智能体没能突破基线。这说明 AI 现在更擅长系统整合和超参数扫描,在需要真正「灵光一闪」的创新上还有差距。
所有实验记录、日志和代码都已开源,AI 自主研究从概念走向了可复现。
3. Anthropic 与盖茨基金会达成 2 亿美元合作
Anthropic 和盖茨基金会建立了为期四年、总额 2 亿美元的合作。资金、Claude 使用额度加上技术支持,目标聚焦在全球健康、生命科学、教育和经济流动项目上。
重点包括改善中低收入国家约 46 亿人口的基本医疗,用 AI 加速疫苗和疗法研发。
这个合作的信号意义比金额本身更重要。AI 公司开始把资源投向公共卫生和教育,不再只是服务科技圈的自嗨。
4. Anthropic 发布 2028 年全球 AI 领导地位报告
Anthropic 发布了一份研究报告,展望 2028 年中美 AI 竞争的两种前景。
如果美国及盟友维持并扩大在关键计算芯片上的优势,通过加强出口管制、遏制技术窃取并加速 AI 应用,民主国家可以确立 12 到 24 个月的技术领先,主导 AI 规则制定。
反过来,如果政策松动,中国可能借助人才优势、利用管制漏洞实现追赶。
这份报告的政治意图很明显,但也反映了一个现实,AI 竞争已经不只是技术问题了。
5. Codex 推出自动化钩子与程序化令牌
OpenAI 的 Codex 更新了两个重要功能。
「钩子」允许在任务关键节点运行脚本,用来做工作验证、扫描密钥、记录对话或者按仓库定制行为。面向商业和企业团队的「程序化访问令牌」则提供了范围化凭证,可以从 ChatGPT 工作区设置创建,用于 CI/CD、发布流程和内部自动化。
这两个功能让 Codex 从「对话式编码工具」向「可编程的开发基础设施」迈进了一步。钩子机制意味着你可以在 Codex 的工作流里插入自己的质量检查,而不是事后手动 review。
6. OpenEvidence 覆盖 65% 美国医生,shadow AI 模式引关注
OpenEvidence 已经覆盖了 65% 的美国医生,4 月单月临床场景使用达到 2700 万次,平均每位医生每月使用 41 次。
最有趣的是它的扩张模式。平台由医生个人通过执业编号在手机上注册,医院最初根本不知情。Mount Sinai 的 AI 负责人把这叫做「shadow AI」。
你想想看,65% 的美国医生已经在用一个医院管理层可能都不知道的 AI 工具做临床决策。这个渗透速度,比任何企业级部署都快得多。
7. 腾讯开源 Agent Memory,Token 消耗降低 61%
腾讯开源了 Agent Memory 项目,声称可以让 Token 消耗降低 61%。
这个数据如果属实,对整个 Agent 生态的影响会很大。现在 Agent 的主要成本瓶颈就是 Token 消耗,尤其是长对话和复杂任务场景。61% 的降幅意味着同样的预算可以跑更复杂的任务,或者同样的任务成本直接砍半。
具体的技术细节还需要看论文,但方向是对的。
💡 值得关注
Claude Code v2.1.142:新增 8 个 CLI 标志,Fast 模式默认模型升级为 Opus 4.7,插件系统增强,修复 15+ 问题。来源,GitHub
开源 3D 生成工具包:开发者 @neilsonks 开源了一套专为 Claude Code 设计的 3D 生成工具,单张图片即可构建包含物理模拟、灯光和音频的可交互 3D 场景。来源,@berryxia
Kimi 网页桥接扩展:Kimi 推出浏览器扩展,支持 Kimi Code CLI、Claude Code、Cursor、Codex 等多平台,让智能体可以像人类一样与网站互动。来源,@Kimi_Moonshot
xAI Grok Build 测试版:xAI 推出 Grok Build 早期测试版编程智能体,仅限 SuperGrok 订阅用户使用,同时 SuperGrok Heavy 限时六折。来源,IT之家
Runway 进军日本:Runway 在东京设立总部,投入 4000 万美元,过去一年日本企业客户增长 300%。来源,Runway
📝 今日思考
今天最让我感慨的是两条新闻放在一起看。
一条是 Mythos AI 五天发现 macOS 零日漏洞,一条是 65% 的美国医生在用一个医院不知道的 AI 做临床决策。
AI 的能力边界在快速扩张,从写代码到找漏洞到辅助诊断。但与此同时,监管和机构适应的速度远远跟不上。Shadow AI 这个现象可能只是冰山一角。
我自己也还在摸索怎么在日常工作中更好地利用这些工具。但有一点我始终坚信,技术本身是中性的,关键是我们怎么用它,以及能不能跑得比它快一步建立起合适的规则。





