News

Anthropic推Claude Cowork对标OpenClaw,OpenAI发布GPT-5.4 mini/nano深化AI代码代理

Anthropic推Claude Cowork对标OpenClaw,OpenAI发布GPT-5.4 mini/nano深化AI代码代理

Anthropic发布了其名为“Claude Cowork”的新产品,市场普遍认为这是该公司对抗OpenAI“OpenClaw”的关键回应。业界人士如SimonW和Ethan Mollick都对其给予了高度评价,并将其与OpenClaw进行有利比较。此前,Jensen曾指出每家公司都需要有自己的“OpenClaw战略”,而Anthropic作为曾与Clawdbot关系“失误”的公司,如今推出了一个“相当不错”的解决方案。

据了解,Claude Cowork的开发考量了沙盒(sandboxing)和Electron等技术选择。相关信息深入探讨了其起源故事、用例和设计理念。目前,其远程控制功能尚未推出,但预计即将上线。

OpenAI发布GPT-5.4 Mini/Nano,引领小型编程优化模型新趋势

OpenAI同时发布了GPT-5.4 mini和GPT-5.4 nano模型,通过API、ChatGPT和Codex全面上线,将其定位为迄今为止功能最强大、体积最小的模型。据OpenAIDevs透露,GPT-5.4 mini比GPT-5 mini速度提升两倍以上,主要面向编程、计算机使用、多模态理解和子代理(subagents)等应用场景,并在API中提供了400k的上下文窗口。

OpenAI声称,在SWE-Bench Pro和OSWorld-Verified等评估基准上,mini模型已接近大型GPT-5.4的性能,但仅消耗30%的GPT-5.4 Codex配额。这使得它成为许多后台编码工作流和子代理扇出(fan-out)的新默认选择。

市场对其初步反馈主要集中在编程价值,但也关注定价和真实性权衡。开发者迅速强调了mini模型在Codex中的子代理、计算机使用工作负载以及Windsurf等外部产品中的实用性。然而,评论也指出OpenAI一贯的模式:性能提升但价格更高。例如,@scaling01的用户报告称mini模型的输入和输出价格分别为每百万token 0.75美元和4.5美元,nano模型也高于先前的nano层级。

第三方评估结果喜忧参半:Mercor的APEX-Agents测试报告显示,mini模型在xhigh推理下达到24.5%的Pass@1,领先于一些轻量级和中量级竞争对手。然而,BullshitBench则认为这些小型模型在抵御虚假前提/行话陷阱方面的能力相对较低。OpenAI也悄悄承认了行为调整问题,@michpokrass提到最近的5.3即时更新减少了“恼人的标题党”行为。

AI代理基础设施:沙盒、子代理与编排之争

代码执行代理(code-executing agents)正成为产品架构的中心。多项新发布表明,AI技术栈正围绕安全执行、编排和部署人体工程学而非仅仅更好的基础模型而日趋成熟。LangChain就推出了LangSmith Sandboxes,用于安全地执行临时代码。

↗ 阅读原文