昨天晚上,OpenAI 的主要竞争对手之一 Anthropic 正式推出了 Claude 3 系列模型。该系列包括三种最先进的型号:Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。不同的型号拥有不同的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

更重要的是,Claude 3系列模型在多模态和语言能力等方面都表现出了超越GPT-4的能力。用Anthropic的话说,Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准。

Claude 3系列模型的推出,意味着Anthropic正在动摇此前以OpenAl主导的AI压制链。换言之,OpenAl急需发布新的模型,再次宣告其在AI领域的绝对优势,重演一次Sora打压Gemini 1.5的故事。

/ 01 / 全球最强的大模型来了

根据Anthropic的说法,作为旗舰级别的Opus模型,展现出现了不俗的理解和表达能力。

从官方发布的成绩单来看,在知识测试 MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,Claude 3 Opus 模型展现了卓越的性能,其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。

除了智能能力提升外,Claude 3还拥有强大的视觉能力。Claude 3 型号具有与其他领先型号相当的复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。

响应速度方面,Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,这些任务的反映必须立即且实时。其中,作为智能类别市场上速度最快且最具成本效益的型号,Haiku可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。

对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

同时,Claude 3还对此前用户诟病较多的拒绝指令、准确性等问题做出了改善。

与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

而为了提高模型回答的准确性,Anthropic使用了大量复杂的事实问题来针对当前模型中已知的弱点。Claude 3会将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型表示它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案的水平。

除了产生更值得信赖的回复之外,Anthropic很快还将在 Claude 3 模型中启用引用,以便他们可以指向参考材料中的精确句子来验证他们的答案。

上下文长度方面,Claude 3系列的3个模型,都将至少支持20万token的上下文窗口。而且,这三个模型都能处理超过100万token的输入,Anthropic考虑为需要更大上下文窗口的特定客户开放这个功能。

在200Ktoken的「大海捞针」(NIAH)测试中,Claude 3 Opus准确率超过99%。它甚至还能识别出测试本身的局限,比如发现某些「目标」句子明显是后来人为添加进原始文本的。

在提升模型能力的同时,Claude 3模型系列兼顾了模型的安全性和可靠性,依然严格遵循人工智能安全等级 2(ASL-2)的标准。这是一个用于评估和分类人工智能系统潜在风险的等级体系中的一个级别。

ASL-2通常意味着该级别的AI系统具有中等的潜在风险,需要采取一定的安全措施来确保其安全运行,但这些风险是可控的,并且系统在大多数情况下不会对人类或环境构成严重威胁。

/ 02 / Claude 3与GPT-4各有千秋

在Claude 3模型发布的第一时间,网友@op7418就测试了Claude 3,并与GPT-4做了对比。测试主要有三个:

首先,网友拿Claude 3 Opus尝试了一下复杂英文内容的翻译。结论是,Claude 比GPT-4做的好,它会主动对没有排版的内容进行分段和排版时其更加的易读。之前GPT-4从来没有主动进行过这种操作,翻译结果也比GPT-4更加顺畅。

其次,该网友用一个样式比较复杂的设计稿组件截图让Claude 3 Opus还原,在其强调了需要还原样式之后,它对样式细节处理的非常好,相当接近设计稿了,GPT-4之前一直搞不定设计稿细节。

最后,网友又考验了Claude 3 Opus在多模态能力,他找了一个论文让模型解读,模型给出了清晰的分析。但相比GPT-4,Opus在信息丰富度上稍落下风。

与此同时,Anthropic的两位工程师Emmanuel Ameisen和Erik Schluntz也用Opus进行了视频转文章测试,表示结果非常惊艳。

他们首先将大神Andrej Karpathy一则2小时13分钟科普视频的原始字幕、每5秒间隔拍摄的截图、以及两张体现Andrej写作风格的博客和笔记截图投喂给Opus,并给出了一些复杂的指令,包括:直接编写HTML、过滤掉不相关的屏幕截图、如果图像中的代码示例包含完整的示例,请转录它们。

基于所有这些指令,Opus制作出了一篇出色的格式化博客文章。Emmanuel称“输出文档可读性强、清晰明了,比我之前从任何大型语言模型得到的成果要好”。

不仅能力上与GPT-4更有千秋,Claude 3模型的定价与其形成明显的差异化。其中,Opus定价高于GPT-Turbo,而Haiku模型的定价明显低于GPT-3.5。

/ 03 / Anthropic打破AI打压链

Claude 3 系列模型的发布,意味着在今年以来不到三个月的时间里,除了Meta外,国外主流的大模型玩家都发布了自己的最新模型产品。

2月16日大年初七,谷歌放出其大模型核弹——Gemini 1.5,并将上下文窗口长度扩展到100万个tokens。Gemini 1.5 Pro可一次处理1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库,向还没发布的GPT-5发起挑战。

随后OpenAI发布文生视频大模型Sora,引爆了整个AI界,一时风头无二。各家大模型公司纷纷拿出自己的最新成果:

谷歌突然发布开源模型;被称为“法国版 OpenAI”的Mistral AI,发布了其最新的顶级文本生成模型 Mistral Large;到了现在,Anthropic 又推出了 Claude 3 系列模型。

全球模型厂商如此频繁地发布模型,揭示了一个事实:大模型领域的竞争正在被提高到一个新的高度。

根据张俊林说法,当下大模型巨头混战已经形成了打压链:OpenAl→Google &Anthropic & Mistral->Meta→其它大模型公司。OpenAl处于链条顶端,主要打压有潜力追上它的竞争对手:谷歌和Anthropic,Mistral估计也正在被列入OpenAl的打压列表中。

简单来说,OpenAl需要通过新模型,来宣告其在AI领域的绝对优势,并打压其他厂商。而其他大模型厂商则需要通过模型产品,不断证明自己能够跟随且不断缩小与OpenAl差距。

22年底发布的ChatGPT就是临时赶工出来打压Anthropic的Claude。到了现在,OpenAI的的文生视频大模型Sora又把谷歌的Gemini 1.5的风头全都抢走了。

此前市场普遍猜测,OpenAl应该储备了一个用于打压对手的技术储备库,即使做得差不多了也隐而不发,专等竞争对手发布新产品的时候扔出来,以形成宣传优势,如果OpenAl判断对手的产品对自己的威胁越强,就越可能把技术储备库里最强的扔出来。

随着Anthropic 发布Claude 3 系列模型,意味着上述的打压链正在被打破,也将迫使OpenAl改变新产品发布的节奏。接下来,OpenAl会给我们带来怎样的惊喜,可以一起拭目以待。