claude-3-5-sonnet-20241022新模型概述

阅读量: 1,152

发布公告

本次更新并没有等来opus3-5，并且官方公告中显眼的opus3-5即将到来的提示也已经消失了，这难免有些失望。

不过Anthropic官方在2024年10月22日发布了Claude-3-5-sonnet的新版本，模型代号claude-3-5-sonnet-20241022，现已在聚合AI官网 >>中加入支持，所有用户可以使用，如有需要可前往调用。

sonnet新版本本次最大的亮点在于加入了计算机使用，现在通过API可用，开发者可以指导Claude像人类一样操作计算机，包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中提供计算机使用功能的前沿AI模型。目前这一功能仍处于实验阶段，操作上可能会有些笨重和易出错，算是一个新的开端吧，后面官方承诺会持续改善。

另外还公布了haiku新版本haiku3.5的消息，不过要在今年晚一些时候开放给用户使用。

关于这方面更详细的介绍，查看官方发布的文章，点此阅读>>

性能测评

官方数据：基准测试评估了Claude 3.5 Sonnet模型在关键学术和实践技能上的比较表现。

同时官方还评估了Claude 3.5 Sonnet在需要理解图像和图表等视觉任务上的表现。

来自第三方的数据，可以看到刚发布的10月新版本在所有模型中的综合排名情况，数据来源>>：

一些进步

更新后的Claude 3.5 Sonnet在行业测试上表现非常出色，特别是在主动编码和工具使用方面有明显进步。在编码测试中，它将SWE-bench Verified的表现从33.4%提高到了49.0%，超过了所有公开的模型，不仅包括OpenAI o1-preview这样的推理模型，还有专为主动编码设计的系统。在TAU-bench这个主动工具使用的任务中，它在零售领域的表现从62.6%提升到了69.2%，在更具挑战性的航空领域从36.0%提升到了46.0%。而且，这么多改进是在保持前代产品相同价格和速度的基础上实现的，所以同等条件下，6月份的老版本可以考虑不再使用了，用10月份的新版本代替。

GitLab在对DevSecOps任务测试该模型时发现，它在不增加延迟的情况下提升了多达10%的推理能力，非常适合用于支持多步骤的软件开发流程。

Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估，并与之前的版本相比，编码、计划和问题解决方面也有了显著改进。

官方还给出了其它一些合作用户的使用评价，大概的意思都是说发布的新版本sonnet性能都有不同程度的进步（手动狗头）。

负面评价

从昨晚上发布之后，便有大量的用户进行了实际评测，也有很多人表示新版本的表现并不如预期想象的好，可能从以下方面能力没有增长甚至负增长：

创造力下降，即使更高的温度参数也不如老版本更具创意
新版本遵循指令的能力有所下滑，表现出来就是不太听话
智商下降，甚至9.11和9.9谁大的问题都不容易回答准确了

总结

claude-sonnet3.5新版本在代码方面的能力提升毋庸置疑，已经甩开了与OpenAI主流模型的差距，价格方面还是sonnet老模型的同等价格，所以可以放心大胆的使用。

综合性能方面有待进一步观察，如果是一些日常问题，建议使用更具性价比的gpt-4o。