查看原文
其他

地表最强大模型再次易主,Claude 3.5碾压GPT-4o,新功能可以在大模型里打游戏

王奕昕 李锦辉 智能涌现
2024-08-22


文|王奕昕 李锦辉

编辑|李然

封面来源|Anthropic官网

Claude 3推出不到半年时间,Anthropic再次更新了他们性能最强的大模型——Claude 3.5 Sonnet。

按照Anthropic官方放出的数据,Claude 3.5 Sonnet的性能在绝大多数测试集上再次碾压了OpenAI最新的模型GPT-4o!

原本多模态能力是Anthropic家的弱项,但是这次Claude 3.5在多模态测试集上的成绩,对比GPT-4o和Gemini Pro,也几乎成吊打之势,比起半年前自家的最强模型Claude 3 Opus,强得不像是一个时代的产品。

而且这次Claude 3.5 Sonnet在成本上的控制也大大强于上一代产品。在200K上下文窗口的条件下,3美元/15美元百万token的价格也低于5美元/15美元百万token的GPT-4o。

而且熟悉Anthropic的用户都知道,从产品线分布来看,Sonnet只是Claude模型的中杯版。未来官方还将放出Claude 3.5 Opus(大杯)和Claude 3.5 Haiku(小杯),还会将Claude 3.5系列模型的能力和能效比的上限继续提升。

要知道,Anthropic在GPT-4发布了几乎快一年之后,才用Claude 3 Opus赶超了Open AI。而今年,Open AI的GPT-4o才刚刚发布了一个多月的时间,就被Claude 3.5用中杯Sonnet完成了跑分上的超越,而且领先幅度还不小。下半年Claude 3.5 Opus以及OpenAI新产品的发布,肯定会延续这种神仙打架的态势。

代码“神器”,让用户实时体验修改生成代码

而且,这次更新Anthropic还专门为Claude推出一个名为Artifacts的功能,能让开发者实时预览由模型生成的代码运行后的效果。

用户让Claude生成文档、代码、美人鱼图、矢量图形,甚至简单的游戏,再打开Artifacts之后,用户可以在聊天窗口旁边实时查看、迭代,非常方便!

这是官方演示的用Claude 3.5生成的代码直接在Artifacts里预览游戏的Demo,异常酷炫。

先在实验选项卡里找到Artifacts功能并打开,然后让Claude生成一个8位的SVG小螃蟹,然后再让它用这写素材做一个网页,最后用这个网页的内容做一个游戏。整个过程一气呵成,在右边的Artifacts选项卡中能非常直观地看到每一步的变化。

网友们也纷纷开始秀起了自己的买家秀:

用Claude 3.5先来一段俄罗斯方块的代码,然后直接在Artifacts里开玩。

贪食蛇也没问题!

有网友让Claude 3.5直接生成了一段深度学习构架历史的JS演示,还可以直接向里面插入图片。

然后再让他做一段代码来演示矩阵乘法:

然后再让它参考其他的美术风格修改演示的代码,都是一次过。

最后,这位网友还让Claude 3.5出了一段解释神经网络的原理的演示。

可以看到,在Artifacts这个功能帮助下,Claude 3.5似乎已经集成了一些简单的智能体能力,让用户的使用体验有了很大的提升。

官方宣称,未来他们会以此能力为基础,在Claude上创建一个协同工作的平台,让用户能更轻松的使用Claude。

现在网友唯一的不满就是,可用数量相比GPT-4o来说太少了。免费用户3小时只有5次对话,收费用户也只有25次,完全不够!

而对于那些不相信跑分的网友,性能优劣最有说服力的还是真题实测。

网友测了一道医学院入学考试中的几何题,一道化学题,都是Claude 3.5胜出。

△Claude答案 来源X(@deedydas)

GPT-4o答案 图源:X(@deedydas)

△Claude答案 来源X(@deedydas)

GPT-4o答案 图源:X(@deedydas)

代码能力爆表,加量减价,硬刚GPT-4o

官方宣称Claude 3.5 Sonnet 在掌握细微差别、幽默和复杂指令方面表现出色,并且擅长以自然、可理解的语气编写高质量内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升加上具有成本效益的定价,让 Claude 3.5 Sonnet 成为复杂任务的理想选择,例如上下文相关的客户支持和协调多步骤工作流程。

在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于解决 38% 问题的 Claude 3 Opus。这份评估测试了模型修复错误或向开源代码库添加功能的能力,给出了所需改进的自然语言描述。

在获得相关指导和工具后,Claude 3.5 Sonnet可以独立编写、编辑和执行代码,并具备复杂的推理和故障排除功能。它可以轻松处理代码转换,这对于更新旧版应用程序和迁移代码库特别有效。

200K上下文长度,99.7%的召回率

Claude 3.5 Sonnet 在复杂的“大海捞针”(Needle In A Haystack)信息检索任务中显示出卓越的性能,其召回率高达99.7%(高召回率意味着模型能够捕捉到大多数的正类样本,但可能以引入更多的假正例 [False Positives] 为代价),无论是在全部上下文长度还是在高达20万个词符(约10-13万中文字符)的特定长度上均能稳定维持此高水平,超越了Claude 的历史版本。


来源官方技术报告


模型所实现的平均召回率

此外,Claude 3.5 Sonnet在金融、法律、医学、哲学、文档处理、创意写作等任务中,相对于基线模型(Helpful-Only)的胜率(Win Rate,模型在特定任务上相对于基线表现的提升程度)也能保持在60%-80%,显著优于历史版本,显示出其在处理专业知识相关任务时具有更高的效率和准确性。

每项任务的人类偏好胜率:常见用例(左)、专家知识(右上)和对抗场景(右下)。由于 Claude 3 Opus 是基线模型,因此它的胜率始终为 50%。(它在 50% 的时间内击败了自己。

视觉解析:领先的信息提取能力

Claude 3.5 Sonnet 在标准视觉基准上超越了 Claude 3 Opus和GPT-4o,在视觉推理、视觉问答、图表问答、文档视觉问答等测试中都有优异的表现,意味着它可以很好地提取和解释图片与图表中地信息。


Claude 3.5 Sonnet 还可以准确地从不完美的图像中转录文本,这意味着人工智能可以从图像、图形或插图中获得比仅从文本中更多的信息,从而在零售、物流和金融服务中提升工作效率。

Artifacts:协同办公的交互方式

Artifacts,是一项扩展用户与 Claude 交互方式的新功能。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些 Artifacts 会与他们的对话一起出现在专用窗口中。这将创建一个动态工作区,用户可以在其中实时查看、编辑和构建 Claude 的创作,将 AI 生成的内容无缝集成到他们的项目和工作流程中。

这项功能意味着 Claude 从原来的对话式 AI 转而变为一种协作工作的空间。Claude.ai 希望以此为起点,未来扩展到能支持团队协作。

在官方网站的描述中,我们似乎能窥见一个智能体的雏形:

在不久的将来,团队(最终是整个组织)将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中,而 Claude 将成为随时可用的队友。

公共责任:安全、隐私与儿童保护

Claude 3.5 Sonnet 在智能上提升显著的同时也兼顾了安全和隐私。

经内部评估,它目前的安全等级为“ASL-2”(Artificial Safety Level,评估涉及化学、生物、放射性和核 [CBRN] 风险、网络安全和自主能力领域),表明它不会造成灾难性的危害。为了确保一切尽善尽美,OpenAI正与包括英国和美国人工智能安全研究所(UK AISI 和 US AISI)在内的外部专家合作,以测试和改进此最新模型中的安全机制。

OpenAI也非常重视用户隐私,称到目前为止,还没有使用任何客户或用户提交的数据来训练生成模型。

此外,他们还接纳了Thorn儿童安全专家的建议,对模型进行了微调,防止居心不良之人的滥用和对儿童、青少年等弱势群体造成伤害。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号
👇🏻 真诚推荐你关注 👇🏻


继续滑动看下一个
智能涌现
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存