Anthropic发布Claude4系列模型可连续进行近7小时代码生成

23 05月 2025

2025-05-23 20:06

【太平洋科技快讯】5月23日，Anthropic正式推出了其新一代语言模型——Claude Opus 4和Claude Sonnet 4。这两款模型均具备混合推理能力，提供两种模式：“快速模式”(Fast Mode)用于低延迟的简短对话任务，“扩展思考模式”(Extended Thinking Mode)用于需要深度推理和多轮代理行为的复杂任务。

这种双模式策略使用户能够根据任务复杂度灵活分配计算资源，大大提高了工作效率。此外，这两款模型可以通过Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多个云平台访问，支持从自主代理到代码分析等多种企业应用场景。

Claude 4系列或许意味着AI正在从辅助工具转变为更接近人类协作者的“AI同事”。尽管Anthropic强调AI的目标是自动化而非取代人类工作，但Claude 4系列强大的能力可能引发对部分职业(如软件开发)自动化程度的担忧。然而，相关研究表明，AI的普及将推动人机协作模式的发展，同时要求人类提升自身技能以适应新的工作环境。

Claude Opus 4：

Claude Opus 4被Anthropic定位为其迄今为止最强大的模型，专为处理复杂的推理流程和软件开发场景而设计。在SWE-bench基准测试中，Claude Opus 4准确率达到72.5%，该测试用于评估模型解决真实GitHub问题的能力。在TerminalBench测试中，其准确率为43.2%，该测试用于验证模型在多步骤终端代码生成任务中的表现。

值得一提的是，Claude Opus 4在软件环境中展现出了强大的自主行为能力。得益于改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制，该模型能够连续进行近7小时的代码生成和任务执行，刷新了AI世界纪录。这一成绩远超其前代Claude 3 Opus，后者在同一任务中的持续工作时间不到1小时。

Claude Sonnet 4：

与Claude Opus 4专注于复杂任务不同，Claude Sonnet 4更注重效率和轻量化。它在处理速度和延迟方面表现更佳，成为Claude.ai免费用户的默认模型，并通过API提供服务。这使得Claude Sonnet 4适用于轻量开发工具、用户助手和分析流程等场景。