地表最强大模型再次易主，Claude 3.5碾压GPT-4o，新功能可以在大模型里打游戏

Original 王奕昕李锦辉智能涌现

2024-08-22

文｜王奕昕李锦辉

编辑｜李然

封面来源｜Anthropic官网

Claude 3推出不到半年时间，Anthropic再次更新了他们性能最强的大模型——Claude 3.5 Sonnet。

按照Anthropic官方放出的数据，Claude 3.5 Sonnet的性能在绝大多数测试集上再次碾压了OpenAI最新的模型GPT-4o！

原本多模态能力是Anthropic家的弱项，但是这次Claude 3.5在多模态测试集上的成绩，对比GPT-4o和Gemini Pro，也几乎成吊打之势，比起半年前自家的最强模型Claude 3 Opus，强得不像是一个时代的产品。

而且这次Claude 3.5 Sonnet在成本上的控制也大大强于上一代产品。在200K上下文窗口的条件下，3美元/15美元百万token的价格也低于5美元/15美元百万token的GPT-4o。

而且熟悉Anthropic的用户都知道，从产品线分布来看，Sonnet只是Claude模型的中杯版。未来官方还将放出Claude 3.5 Opus（大杯）和Claude 3.5 Haiku（小杯），还会将Claude 3.5系列模型的能力和能效比的上限继续提升。

要知道，Anthropic在GPT-4发布了几乎快一年之后，才用Claude 3 Opus赶超了Open AI。而今年，Open AI的GPT-4o才刚刚发布了一个多月的时间，就被Claude 3.5用中杯Sonnet完成了跑分上的超越，而且领先幅度还不小。下半年Claude 3.5 Opus以及OpenAI新产品的发布，肯定会延续这种神仙打架的态势。

代码“神器”，让用户实时体验修改生成代码

而且，这次更新Anthropic还专门为Claude推出一个名为Artifacts的功能，能让开发者实时预览由模型生成的代码运行后的效果。

用户让Claude生成文档、代码、美人鱼图、矢量图形，甚至简单的游戏，再打开Artifacts之后，用户可以在聊天窗口旁边实时查看、迭代，非常方便！

这是官方演示的用Claude 3.5生成的代码直接在Artifacts里预览游戏的Demo，异常酷炫。

先在实验选项卡里找到Artifacts功能并打开，然后让Claude生成一个8位的SVG小螃蟹，然后再让它用这写素材做一个网页，最后用这个网页的内容做一个游戏。整个过程一气呵成，在右边的Artifacts选项卡中能非常直观地看到每一步的变化。

网友们也纷纷开始秀起了自己的买家秀：

用Claude 3.5先来一段俄罗斯方块的代码，然后直接在Artifacts里开玩。

贪食蛇也没问题！

有网友让Claude 3.5直接生成了一段深度学习构架历史的JS演示，还可以直接向里面插入图片。

然后再让他做一段代码来演示矩阵乘法：

然后再让它参考其他的美术风格修改演示的代码，都是一次过。

最后，这位网友还让Claude 3.5出了一段解释神经网络的原理的演示。

可以看到，在Artifacts这个功能帮助下，Claude 3.5似乎已经集成了一些简单的智能体能力，让用户的使用体验有了很大的提升。

官方宣称，未来他们会以此能力为基础，在Claude上创建一个协同工作的平台，让用户能更轻松的使用Claude。

现在网友唯一的不满就是，可用数量相比GPT-4o来说太少了。免费用户3小时只有5次对话，收费用户也只有25次，完全不够！

而对于那些不相信跑分的网友，性能优劣最有说服力的还是真题实测。

网友测了一道医学院入学考试中的几何题，一道化学题，都是Claude 3.5胜出。

△Claude答案来源X（@deedydas)

△GPT-4o答案图源：X（@deedydas)

△Claude答案来源X（@deedydas)

△GPT-4o答案图源：X（@deedydas)

代码能力爆表，加量减价，硬刚GPT-4o

官方宣称Claude 3.5 Sonnet 在掌握细微差别、幽默和复杂指令方面表现出色，并且擅长以自然、可理解的语气编写高质量内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升加上具有成本效益的定价，让 Claude 3.5 Sonnet 成为复杂任务的理想选择，例如上下文相关的客户支持和协调多步骤工作流程。

在内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，优于解决 38% 问题的 Claude 3 Opus。这份评估测试了模型修复错误或向开源代码库添加功能的能力，给出了所需改进的自然语言描述。

在获得相关指导和工具后，Claude 3.5 Sonnet可以独立编写、编辑和执行代码，并具备复杂的推理和故障排除功能。它可以轻松处理代码转换，这对于更新旧版应用程序和迁移代码库特别有效。

200K上下文长度，99.7%的召回率

Claude 3.5 Sonnet 在复杂的“大海捞针”（Needle In A Haystack）信息检索任务中显示出卓越的性能，其召回率高达99.7%（高召回率意味着模型能够捕捉到大多数的正类样本，但可能以引入更多的假正例 [False Positives] 为代价），无论是在全部上下文长度还是在高达20万个词符（约10-13万中文字符）的特定长度上均能稳定维持此高水平，超越了Claude 的历史版本。

△来源官方技术报告

△模型所实现的平均召回率

此外，Claude 3.5 Sonnet在金融、法律、医学、哲学、文档处理、创意写作等任务中，相对于基线模型（Helpful-Only）的胜率（Win Rate，模型在特定任务上相对于基线表现的提升程度）也能保持在60%-80%，显著优于历史版本，显示出其在处理专业知识相关任务时具有更高的效率和准确性。

每项任务的人类偏好胜率：常见用例（左）、专家知识（右上）和对抗场景（右下）。由于 Claude 3 Opus 是基线模型，因此它的胜率始终为 50%。（它在 50% 的时间内击败了自己。）

视觉解析：领先的信息提取能力

Claude 3.5 Sonnet 在标准视觉基准上超越了 Claude 3 Opus和GPT-4o，在视觉推理、视觉问答、图表问答、文档视觉问答等测试中都有优异的表现，意味着它可以很好地提取和解释图片与图表中地信息。

Claude 3.5 Sonnet 还可以准确地从不完美的图像中转录文本，这意味着人工智能可以从图像、图形或插图中获得比仅从文本中更多的信息，从而在零售、物流和金融服务中提升工作效率。

Artifacts：协同办公的交互方式

Artifacts，是一项扩展用户与 Claude 交互方式的新功能。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时，这些 Artifacts 会与他们的对话一起出现在专用窗口中。这将创建一个动态工作区，用户可以在其中实时查看、编辑和构建 Claude 的创作，将 AI 生成的内容无缝集成到他们的项目和工作流程中。

这项功能意味着 Claude 从原来的对话式 AI 转而变为一种协作工作的空间。Claude.ai 希望以此为起点，未来扩展到能支持团队协作。

在官方网站的描述中，我们似乎能窥见一个智能体的雏形：

在不久的将来，团队（最终是整个组织）将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中，而 Claude 将成为随时可用的队友。

公共责任：安全、隐私与儿童保护

Claude 3.5 Sonnet 在智能上提升显著的同时也兼顾了安全和隐私。

经内部评估，它目前的安全等级为“ASL-2”（Artificial Safety Level，评估涉及化学、生物、放射性和核 [CBRN] 风险、网络安全和自主能力领域），表明它不会造成灾难性的危害。为了确保一切尽善尽美，OpenAI正与包括英国和美国人工智能安全研究所（UK AISI 和 US AISI）在内的外部专家合作，以测试和改进此最新模型中的安全机制。

OpenAI也非常重视用户隐私，称到目前为止，还没有使用任何客户或用户提交的数据来训练生成模型。

此外，他们还接纳了Thorn儿童安全专家的建议，对模型进行了微调，防止居心不良之人的滥用和对儿童、青少年等弱势群体造成伤害。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个

智能涌现

向上滑动看下一个

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

地表最强大模型再次易主，Claude 3.5碾压GPT-4o，新功能可以在大模型里打游戏

代码“神器”，让用户实时体验修改生成代码

代码能力爆表，加量减价，硬刚GPT-4o

200K上下文长度，99.7%的召回率

视觉解析：领先的信息提取能力

Artifacts：协同办公的交互方式

公共责任：安全、隐私与儿童保护

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

生成图片，分享到微信朋友圈

地表最强大模型再次易主，Claude 3.5碾压GPT-4o，新功能可以在大模型里打游戏

代码“神器”，让用户实时体验修改生成代码

代码能力爆表，加量减价，硬刚GPT-4o

200K上下文长度，99.7%的召回率

视觉解析：领先的信息提取能力

Artifacts：协同办公的交互方式

公共责任：安全、隐私与儿童保护

您可能也对以下帖子感兴趣