AI日报 | 2026年5月16日
手机上敲一行指令,Mac 端的 Codex 就开始自动写代码、跑测试、提 PR。你关掉手机去喝咖啡,回来发现活已经干完了。
这事今天真的发生了。
重点新闻
1. Codex 正式登陆 ChatGPT 移动端
OpenAI 把 Codex 塞进了 ChatGPT 的手机 App 里。iOS 和安卓同步上线。
你可能会问,手机上写代码能好用吗?其实不是让你在手机上敲代码。它的模式是,你在手机端下达指令,Codex 在云端沙箱里自主执行。你可以实时看到它的进度,但不需要守在电脑前。
坦率的讲,这个产品方向我觉得是对的。之前 Codex 只能在桌面端用,限制了很多人「想起来就让它干活」的场景。现在掏出手机就能启动一个 coding agent,等地铁的时间就够让它帮你重构一个小模块。
OpenAI 还顺手发了一篇关于 Windows 安全沙箱的技术博客,专门讲怎么在 Windows 上构建安全有效的 Codex 运行环境。看得出来他们是真的在认真铺基础设施。
2. Anthropic Mythos 五天挖出两个 macOS 内核漏洞
这条新闻让我愣了好一会儿。
Anthropic 的 Mythos 模型,五天时间,协助安全研究人员发现了两个此前未知的 macOS 内核提权漏洞。注意,是「未知漏洞」,不是那种已知 CVE 的复现。
你想想看,一个 AI 系统在五天内找到两个零日漏洞,安全攻防的范式可能真的要变了。以前挖内核漏洞需要顶级安全研究员花几个月甚至几年,现在 AI 把这个周期压缩到了天级别。
英国财政部、英格兰银行和金融行为监管局今天也联合发了警告,说当前最先进 AI 模型的网络攻击能力已经远超普通专业人员。攻击速度更快、范围更广、成本更低。这不是学术讨论,是政府级别的正式警告。
来源,IT之家 / Anthropic Research
3. 腾讯开源 Agent Memory,Token 消耗降低 61%
腾讯今天开源了一个叫 Agent Memory 的项目,核心卖点是让 Token 消耗降低 61%。
怎么做到的?简单说就是给 AI 智能体加了一层记忆管理。之前每次对话都要把完整上下文塞进去,现在通过记忆压缩和检索机制,只把最相关的部分传给模型。效果上,Token 用量砍了六成多,响应速度自然也快了。
这个项目对做 AI 应用开发的人来说价值很大。你想想,如果你的产品每天处理百万级对话,Token 成本能砍 60%,那省下来的钱是实打实的。
值得关注
Anthropic 估值三个月暴涨至 9000 亿美元。 今年 2 月还是 3500 亿,5 月就到了 9000 亿。年化营收从 2025 年底的 90 亿飙到现在的 450 亿。三个月估值翻了近三倍,五个月营收翻了五倍。我有时候觉得这数字看着不太真实,但 Claude 在企业端的渗透速度确实肉眼可见。
来源,@kimmonismus
AI 智能体在 nanoGPT 优化赛道超越人类基准。 这是一个很有意思的信号。nanoGPT 训练优化是个经典的 benchmark,之前一直是人类工程师在刷榜。现在 AI agent 自己调参、自己跑实验、自己迭代,直接把人类选手超了。不是辅助,是自主完成。
来源,@berryxia
xAI 发布 Grok Build CLI 测试版。 马斯克的 xAI 终于入场了。Grok Build 是一个 Agentic CLI 工具,跟 Claude Code、Codex 正面竞争。目前只对 SuperGrok 订阅用户开放。说实话,这个赛道已经有点拥挤了,但多一个玩家总归是好事。
Anthropic 发布中美 AI 竞争格局报告。 报告的核心观点是算力是关键瓶颈,到 2028 年可能出现两种截然不同的格局。这篇报告还被用来游说美国收紧对华 AI 管制。不管你对这个立场怎么看,报告本身的分析框架值得读一读。
来源,@shao__meng / @berryxia
思维令牌持续提升大模型性能,目前看不到天花板。 Ethan Mollick 分享了一项研究发现,给模型更多「思考时间」(思维令牌)能持续提升性能,而且这种提升没有出现饱和迹象。这对推理模型的发展方向是一个很强的正面信号。
来源,@emollick
七成美国民众反对在家门口建数据中心。 AI 热潮带来了大量数据中心建设需求,但当地居民不买账。噪音、耗水、耗电,这些都是实实在在的社区问题。技术公司在财报电话会上意气风发,但落地到具体社区就是另一回事了。
来源,IT之家
Forward Deployed Engineer 成为 AI 时代新宠岗位。 OpenAI 成立了独立部署公司,Anthropic 跟华尔街巨头合作,Google 也在大力招这类人。FDE 的核心工作是到客户现场去部署和集成 AI 系统。跟传统 SRE 不同,FDE 更偏业务理解和现场问题解决。如果你在考虑职业方向,这个岗位值得关注。
来源,@dotey
Kimi K2.6 登顶金融智能体基准榜首。 月之暗面的 Kimi K2.6 在金融领域的 agent benchmark 上拿了第一。金融场景对准确性和合规性要求极高,能在这个领域拿到榜首说明模型的实际能力确实过硬。
今日思考
今天最让我感慨的是两件事。
第一件是 Codex 上手机。你回想一下三年前,写代码这件事意味着你必须坐在电脑前,打开 IDE,一行行敲。现在呢?你躺在床上跟手机说一句「帮我把这个模块的测试补全」,然后翻身睡觉。第二天醒来看到 PR 已经提好了。这个变化太快了。
第二件是 Mythos 挖内核漏洞。AI 在安全攻防领域的进展一直是大家又期待又害怕的方向。期待是因为防御方也能用 AI 加固系统,害怕是因为攻击方同样能用。今天 Anthropic 的案例说明,AI 挖漏洞已经不是理论推演,是实打实的现实。
这两件事放在一起看,你大概能感受到 2026 年 AI 发展的速度。不是那种「又要颠覆什么」的空洞叙事,而是具体的、你今天就能用上的能力在快速落地。
我始终坚信一件事,与其焦虑 AI 会不会取代你,不如先想清楚怎么让 AI 成为你的杠杆。今天 Codex 上了手机,明天可能又有什么新东西出来。跟不上每一个浪头没关系,但得知道潮水的方向。






