AI日报 2026-04-03|OpenAI进军媒体业,谷歌Gemma 4发布,微软自研模型三箭齐发
今天的 AI 圈热闹非凡。OpenAI 突然宣布收购一家媒体公司,谷歌放出 Gemma 4 开源大招,微软一口气连发三个基础模型——大厂的牌打得一个比一个狠。与此同时,Cursor 3 的发布让整个开发者社区沸腾,AI 编程工具正在经历一次彻底的范式转移。
以下是今日值得关注的 8 条核心动态。
1. OpenAI 收购 TBPN:AI 巨头正式进军媒体业
OpenAI 宣布收购 TBPN(Technology Business Programming Network),这是一档在硅谷极具影响力的科技商业脱口秀节目。这是 OpenAI 首次收购媒体公司,标志着其战略版图从技术研发向内容传播延伸。
TBPN 由前科技创业者 John Coogan 和 Jordi Hays 主持,每天在三小时的直播中讨论科技、商业、AI 和国防话题。这档节目已经成为硅谷权力玩家的「安全空间」——扎克伯格、纳德拉、Benioff、甚至 Sam Altman 本人都是常客,在这里他们可以放下戒备,与同行坦诚交流。
收购后 TBPN 将保持独立运营,但会向 OpenAI 首席政治操盘手 Chris Lehane 汇报。Lehane 是克林顿时代「vast right-wing conspiracy」一词的发明者,被认为是政治暗战的大师级人物。他在 2024 年加入 OpenAI,一手推动了阻止各州监管 AI、放宽数据中心环保限制等政策建议。
这笔交易最引人注目的不是金额,而是信号。OpenAI 显然意识到,技术领先不足以赢得公众信任,掌握话语权同样重要。在即将到来的 IPO 之前,控制一个能够影响科技圈舆论的媒体平台,是极具战略价值的布局。
不过这笔交易也引发了不少质疑。一家即将上市的 AI 实验室收购经常评论自己和竞争对手的节目,这其中的利益冲突不言而喻。Altman 在社交媒体上表示「不指望他们对我们手下留情」,但这种说法能在多大程度上消除外界的担忧,还有待观察。
2. 谷歌 Gemma 4 发布:开源模型的又一次跃进
谷歌 DeepMind 正式推出 Gemma 4 系列开源模型,这是目前最智能的开源模型家族。基于 Gemini 3 的研究和技术构建,Gemma 4 主打「每参数智能最大化」的理念。
新系列包含四个版本:
- Gemma 4 31B IT Thinking:旗舰版本,在 Arena AI 文本评测中得分 1452,远超 Gemma 3 27B 的 1365 分
- Gemma 4 26B A4B IT Thinking:接近旗舰性能,Arena AI 得分 1441
- Gemma 4 E4B/E2B IT Thinking:面向移动和 IoT 设备的轻量版本
Gemma 4 的核心亮点包括:
Agentic 工作流原生支持:内置函数调用能力,可以构建能够规划、导航应用、完成任务的自主 Agent。
多模态推理:强大的音频和视觉理解能力,支持丰富的多模态应用场景。
140 种语言支持:不只是翻译,而是真正理解文化语境的多语言体验。
在基准测试中,Gemma 4 的表现令人印象深刻。AIME 2026 数学测试达到 89.2%,LiveCodeBench v6 编程竞赛题目达到 80.0%,GPQA Diamond 科学知识测试达到 84.3%。最令人惊讶的是 τ2-bench Agentic 工具使用测试,从 Gemma 3 的 6.6% 飙升至 86.4%。
这意味着开源模型在实用性上正在快速追赶闭源商业模型。对于开发者来说,能在本地运行如此强大的模型,将彻底改变 AI 应用的开发和部署方式。
3. 微软连发三款基础模型:MAI 系列正式亮相
微软 AI 实验室(Microsoft AI)由 Mustafa Suleyman 领衔,正式发布三个基础 AI 模型,标志着微软在自研模型道路上的重大突破。
MAI-Transcribe-1:语音识别转录模型,支持 25 种语言,速度比 Azure Fast 快 2.5 倍,定价每小时 0.36 美元。
MAI-Voice-1:音频生成模型,1 秒可生成 60 秒音频,支持自定义声音克隆,定价每百万字符 22 美元。
MAI-Image-2:图像/视频生成模型,文本输入每百万 token 5 美元,图像输出每百万 token 33 美元。
Suleyman 在博客中表示:「我们正在构建人本主义 AI。我们在创建 AI 模型时有独特的视角——以人为中心,优化人们实际的交流方式,为实际用途进行训练。」
值得注意的是,尽管发布自研模型,微软仍然强调与 OpenAI 的合作关系。Suleyman 在接受 The Verge 采访时表示,最近重新谈判的合作协议实际上允许微软真正开展超级智能研究。这种「既要又要」的策略——既保持与 OpenAI 的合作,又大力发展自研能力——体现了微软在 AI 领域的野心。
微软在芯片领域也采取同样策略:既自研芯片,又从英伟达、AMD 购买。这种多元化的布局,让微软在技术路线选择上保持了最大的灵活性。
4. Cursor 3 发布:AI 编程进入「第三纪元」
Cursor 团队正式发布 Cursor 3,这不仅仅是版本升级,而是对整个 AI 编程范式的重新定义。
过去一年,编程方式已经从手动编辑文件转变为与 Agent 协作,由 Agent 编写大部分代码。Cursor 3 的愿景是进入「软件开发的第三纪元」——成群的 Agent 自主工作,持续交付改进。
新界面的核心特性:
多仓库工作空间:人类和 Agent 可以在不同的代码库之间无缝协作,打破了单项目的限制。
并行 Agent 管理:所有本地和云端 Agent 都显示在侧边栏,包括从移动端、网页、Slack、GitHub、Linear 启动的 Agent。云端 Agent 会生成工作演示和截图供你验证。
本地/云端无缝切换:需要编辑和测试时将 Agent 会话从云端移到本地;需要离线运行或处理下一个任务时移到云端。这对于长时间运行的任务尤其有用。
从提交到合并的完整流程:新的差异视图让你更快编辑和审查更改,支持暂存、提交和管理 PR。
Cursor 团队没有 fork VS Code,而是从头开始构建了这个以 Agent 为中心的新界面。这种从零开始的勇气,或许正是 Cursor 能够在 AI 编程工具竞争中保持领先的原因。
5. ElevenLabs 发布 ElevenMusic:AI 音乐生成新玩家
语音 AI 公司 ElevenLabs 正式发布 iOS 应用 ElevenMusic,正式进入 AI 音乐生成领域,与 Suno 和 Udio 展开竞争。
这款应用在 App Store 上架数周后于 4 月 1 日正式发布。用户可以每天免费生成 7 首歌曲,通过自然语言提示调整歌曲长度、是否包含歌词以及写作风格。用户还可以发现他人创作的歌曲并通过文本提示进行混音。
ElevenMusic 提供 Focus、Energy、Relax、Late Night、Cosmic、Chill 等多种情绪电台,还有排行榜、热门和最新发布板块,界面与 Spotify、Apple Music 类似。
Pro 版订阅定价 9.99 美元/月或 95.90 美元/年,每月可创建 500 首歌曲,提供超过 500GB 的存储空间。
这次发布表明 ElevenLabs 不满足于只是一家语音模型公司。CEO 此前曾表示 AI 音频模型最终会商品化,ElevenMusic 是其在音乐领域的防御性布局。今年早些时候,ElevenLabs 还与顶级音乐制作人合作发布了一张 AI 辅助创作的专辑,并推出了能够处理广告生成、配音、翻译、图像生成、视频制作等功能的创意工具。
6. 谷歌 Vids 升级:用提示词「导演」虚拟形象
谷歌为视频编辑应用 Vids 添加了一系列 AI 功能,其中最引人注目的是通过文本提示「导演」虚拟形象的能力。
用户可以使用自然语言提示让虚拟形象在场景中「表演」,包括与产品、道具或设备互动。谷歌表示,尽管输出是动态的,Vids 能够保持角色一致性。
其他更新包括:
- Veo 3.1 支持:可在视频编辑工具中创建 8 秒视频片段,免费用户每月 10 次生成额度
- 直接导出到 YouTube:无需下载再上传,默认设为私密以便先审核
- 屏幕录制 Chrome 扩展:支持带音频或视频的屏幕捕获
Vids 自 2024 年发布以来持续迭代,去年推出了 AI 虚拟形象并扩展至消费者市场,今年 2 月又新增了 2D/3D 卡通风格虚拟形象和 7 种新的配音语言(法语、德语、意大利语、韩语、葡萄牙语、西班牙语、日语)。
这个领域的竞争日趋激烈,Synthesia、HeyGen、D-ID、Lemon Slice 等玩家都在争夺企业视频制作市场。
7. Anthropic 误删 8100 个 GitHub 仓库
Anthropic 陷入了一场尴尬的公关危机。该公司在试图删除泄露的 Claude Code 源代码时,意外导致 GitHub 上约 8100 个代码仓库被下架。
事件起因是周二一名软件工程师发现,Anthropic 在最近一次发布中意外包含了 Claude Code 命令行应用的源代码。AI 爱好者们在 GitHub 上分享了这些代码,试图分析 Anthropic 如何利用底层 LLM。
Anthropic 根据数字千年版权法(DMCA)向 GitHub 发出删除通知,要求下架包含泄露代码的仓库。但 GitHub 记录显示,该通知针对约 8100 个仓库执行——其中包括 Anthropic 自己公开发布的 Claude Code 仓库的合法分支。
愤怒的开发者在社交媒体上表达了不满。Anthropic Claude Code 负责人 Boris Cherny 表示这是一次意外,并撤回了大部分删除通知,仅保留针对包含泄露源代码的一个仓库及其 96 个分支的通知。
对于正在筹备 IPO 的 Anthropic 来说,这次事件是一个警示。泄露源代码已经很糟糕,清理过程中误伤数千个合法仓库更是雪上加霜。正如 TechCrunch 评论的那样:「作为一家上市公司泄露源代码?等着股东诉讼吧。」
8. 阿里 Qwen3.6-Plus 发布:面向真实世界 Agent
阿里巴巴通义千问团队发布 Qwen3.6-Plus 模型,主打「面向真实世界 Agent」的能力。在 Hacker News 上获得了 421 个 upvote 和 147 条评论,热度仅次于 Google Gemma 4。
虽然官方博客页面加载有限,但从社区讨论来看,Qwen3.6-Plus 在工具使用、多步推理和复杂任务执行方面有明显提升。阿里在模型迭代速度上一直保持激进节奏,Qwen 系列已经成为国内开源模型的重要力量。
小结
今天的 AI 圈呈现出几个明显的趋势:
大厂全面布局:OpenAI 进军媒体、微软自研模型、谷歌开源发力——每家都在构建自己的护城河。
Agent 成为焦点:Cursor 3 的多 Agent 工作流、Gemma 4 的 Agentic 工具使用、Qwen3.6 的 real world agents——Agent 正在从概念走向实用。
多模态加速融合:语音、图像、视频生成模型的发布频率越来越高,单一模态的模型已经无法满足市场需求。
开发者工具范式转移:Cursor 3 代表了一种全新的编程方式,人类与 AI Agent 的协作模式正在重新定义软件开发的本质。
明天又会有哪些重磅消息?我们继续关注。
本文信息综合自 TechCrunch、Google DeepMind、Microsoft AI、Cursor、ElevenLabs 等官方渠道及 Hacker News 社区。









