AI日报 | 2026年5月16日

手机上敲一行指令，Mac 端的 Codex 就开始自动写代码、跑测试、提 PR。你关掉手机去喝咖啡，回来发现活已经干完了。

这事今天真的发生了。

重点新闻

1. Codex 正式登陆 ChatGPT 移动端

OpenAI 把 Codex 塞进了 ChatGPT 的手机 App 里。iOS 和安卓同步上线。

你可能会问，手机上写代码能好用吗？其实不是让你在手机上敲代码。它的模式是，你在手机端下达指令，Codex 在云端沙箱里自主执行。你可以实时看到它的进度，但不需要守在电脑前。

坦率的讲，这个产品方向我觉得是对的。之前 Codex 只能在桌面端用，限制了很多人「想起来就让它干活」的场景。现在掏出手机就能启动一个 coding agent，等地铁的时间就够让它帮你重构一个小模块。

OpenAI 还顺手发了一篇关于 Windows 安全沙箱的技术博客，专门讲怎么在 Windows 上构建安全有效的 Codex 运行环境。看得出来他们是真的在认真铺基础设施。

来源，OpenAI 官网 / IT之家

2. Anthropic Mythos 五天挖出两个 macOS 内核漏洞

这条新闻让我愣了好一会儿。

Anthropic 的 Mythos 模型，五天时间，协助安全研究人员发现了两个此前未知的 macOS 内核提权漏洞。注意，是「未知漏洞」，不是那种已知 CVE 的复现。

你想想看，一个 AI 系统在五天内找到两个零日漏洞，安全攻防的范式可能真的要变了。以前挖内核漏洞需要顶级安全研究员花几个月甚至几年，现在 AI 把这个周期压缩到了天级别。

英国财政部、英格兰银行和金融行为监管局今天也联合发了警告，说当前最先进 AI 模型的网络攻击能力已经远超普通专业人员。攻击速度更快、范围更广、成本更低。这不是学术讨论，是政府级别的正式警告。

来源，IT之家 / Anthropic Research

3. 腾讯开源 Agent Memory，Token 消耗降低 61%

腾讯今天开源了一个叫 Agent Memory 的项目，核心卖点是让 Token 消耗降低 61%。

怎么做到的？简单说就是给 AI 智能体加了一层记忆管理。之前每次对话都要把完整上下文塞进去，现在通过记忆压缩和检索机制，只把最相关的部分传给模型。效果上，Token 用量砍了六成多，响应速度自然也快了。

这个项目对做 AI 应用开发的人来说价值很大。你想想，如果你的产品每天处理百万级对话，Token 成本能砍 60%，那省下来的钱是实打实的。

来源，IT之家 / GitHub

值得关注

Anthropic 估值三个月暴涨至 9000 亿美元。 今年 2 月还是 3500 亿，5 月就到了 9000 亿。年化营收从 2025 年底的 90 亿飙到现在的 450 亿。三个月估值翻了近三倍，五个月营收翻了五倍。我有时候觉得这数字看着不太真实，但 Claude 在企业端的渗透速度确实肉眼可见。

来源，@kimmonismus

AI 智能体在 nanoGPT 优化赛道超越人类基准。 这是一个很有意思的信号。nanoGPT 训练优化是个经典的 benchmark，之前一直是人类工程师在刷榜。现在 AI agent 自己调参、自己跑实验、自己迭代，直接把人类选手超了。不是辅助，是自主完成。

来源，@berryxia

xAI 发布 Grok Build CLI 测试版。 马斯克的 xAI 终于入场了。Grok Build 是一个 Agentic CLI 工具，跟 Claude Code、Codex 正面竞争。目前只对 SuperGrok 订阅用户开放。说实话，这个赛道已经有点拥挤了，但多一个玩家总归是好事。

来源，xAI News / IT之家

Anthropic 发布中美 AI 竞争格局报告。 报告的核心观点是算力是关键瓶颈，到 2028 年可能出现两种截然不同的格局。这篇报告还被用来游说美国收紧对华 AI 管制。不管你对这个立场怎么看，报告本身的分析框架值得读一读。

来源，@shao__meng / @berryxia

思维令牌持续提升大模型性能，目前看不到天花板。 Ethan Mollick 分享了一项研究发现，给模型更多「思考时间」（思维令牌）能持续提升性能，而且这种提升没有出现饱和迹象。这对推理模型的发展方向是一个很强的正面信号。

来源，@emollick

七成美国民众反对在家门口建数据中心。 AI 热潮带来了大量数据中心建设需求，但当地居民不买账。噪音、耗水、耗电，这些都是实实在在的社区问题。技术公司在财报电话会上意气风发，但落地到具体社区就是另一回事了。

来源，IT之家

Forward Deployed Engineer 成为 AI 时代新宠岗位。 OpenAI 成立了独立部署公司，Anthropic 跟华尔街巨头合作，Google 也在大力招这类人。FDE 的核心工作是到客户现场去部署和集成 AI 系统。跟传统 SRE 不同，FDE 更偏业务理解和现场问题解决。如果你在考虑职业方向，这个岗位值得关注。

来源，@dotey

Kimi K2.6 登顶金融智能体基准榜首。 月之暗面的 Kimi K2.6 在金融领域的 agent benchmark 上拿了第一。金融场景对准确性和合规性要求极高，能在这个领域拿到榜首说明模型的实际能力确实过硬。

来源，@Kimi_Moonshot