您的位置:首页 > 互联网

全面超越GPT-4,Claude 3终于来了,有大学生智商,支持百万token

发布时间:2024-03-05 11:58:40  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

性能比 GPT-4强很多。

大模型的纯文本方向,已经卷到头了?

刚刚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude3。

该系列包含三个模型,按能力由弱到强排列分别是 Claude3Haiku、Claude3Sonnet 和 Claude3Opus。其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4和 Gemini1.0Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic 表示,Claude3Opus 拥有人类本科生水平的知识。

在新模型发布后,Claude 首次带来了对多模态能力的支持(Opus 版本的 MMMU 得分为59.4%,超过 GPT-4V,与 Gemini 1.0Ultra 持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让 AI 进行分析和解答。

此外,这三个模型也延续了 Claude 系列模型的传统强项 —— 长上下文窗口。其初始阶段支持200K token 上下文窗口,不过,Anthropic 表示,三者都支持100万 token 的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。

不过,在定价上,能力最强的 Claude3也比 GPT-4Turbo 要贵得多:GPT-4Turbo 每百万 token 输入 / 输出收费为10/30美元 ;而 Claude3Opus 为15/75美元。

Opus 和 Sonnet 现可在 claude.ai 和 Claude API 中使用,Haiku 也将于不久后推出。亚马逊也第一时间宣布新模型登陆了 Amazon Bedrock。以下是 Anthropic 发布的官方 demo:

在 Anthropic 官宣之后,不少得到试用机会的研究者也晒出了自己的体验。有人说,Claude3Sonnet 解出了一道此前只有 GPT-4才能解开的谜题。

不过,也有人表示,在实际体验方面,Claude3并没有彻底击败 GPT-4。

更新苹果ios16 没有灵动岛

Claude3系列模型

Claude3系列模型的三个版本分别是 Claude3Opus、Claude3Sonnet 和 Claude3Haiku。

其中 Claude3Opus 是智能程度最高的模型,支持200k tokens 上下文窗口,在高度复杂的任务上实现了当前 SOTA 的性能。该模型能够以绝佳的流畅度和人类水平的理解能力来处理开放式 prompt 和未见过的场景。Claude3Opus 向我们展示了生成式 AI 可能达到的极限。

Claude3Sonnet 在智能程度与运行速度之间实现了理想的平衡,尤其是对于企业工作负载而言。与同类模型相比,它以更低的成本提供了强大的性能,并专为大规模 AI 部署中的高耐用性而设计。Claude3Sonnet 支持的上下文窗口为200k tokens。

Claude3Haiku 是速度最快、最紧凑的模型,具有近乎实时的响应能力。有趣的是,它支持的上下文窗口同样是200k。该模型能够以无与伦比的速度回答简单的查询和请求,用户通过它可以构建模仿人类交互的无缝 AI 体验。

接下来我们详看一下 Claude3系列模型的特性和性能表现。

全面超越 GPT-4,实现智能水平新 SOTA

作为 Claude3系列中智能水平最高的模型,Opus 在 AI 系统的大多数评估基准上都优于竞品,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA) 、基础数学(GSM8K)等基准。并且,Opus 在复杂任务上表现出接近人类水平的理解力和流畅度,引领通用智能的前沿。

此外,包括 Opus 在内,所有 Claude3系列模型都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面实现了能力增强。

下图为 Claude3模型与竞品模型在多个性能基准上的比较,可以看到,最强的 Opus 全面优于 OpenAI 的 GPT-4。

近乎实时响应

Claude3模型可以支持实时客户聊天、自动补充和数据提取等响应必须立即且实时的任务。

Haiku 是智能类别市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内读完一篇包含密集图表和图形信息的 arXiv 平台论文(约10k tokens)。

对于绝大多数工作,Sonnet 的速度比 Claude2和 Claude2.1快2倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude2和2.1相似,但智能水平更高。

强大的视觉能力

Claude3具有与其他头部模型相当的复杂视觉功能。它们可以处理各种视觉格式数据,包括照片、图表、图形和技术图表。

Anthropic 表示,它们的一些客户50% 以上的知识库以各种数据格式进行编程,例如 PDF、流程图或演示幻灯片。因此,新模型强大的视觉能力非常有帮助。

更少拒绝回复

以前的 Claude 模型经常做出不必要的拒绝,这表明模型缺乏语境理解。Anthropic 在这一领域取得了有意义的进展:与前几代模型相比,即使用户 prompt 接近系统底线,Opus、Sonnet 和 Haiku 拒绝回答的可能性明显降低。如下所示,Claude3模型对请求表现出更细致的理解,能够识别真正的有害 prompt,并且拒绝回答无害 prompt 的频率要少得多。

准确率提高

为了评估模型的准确率,Anthropic 使用了大量复杂的、事实性问题来解决当前模型中的已知弱点。Anthropic 将答案分为正确答案、错误答案(或幻觉)和不确定性回答,也就是模型不知道答案,而不是提供不正确的信息。与 Claude2.1相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误回答。

除了产生更值得信赖的回复之外,Anthropic 还将在 Claude3模型中启用引用,以便模型可以指向参考材料中的精确句子来证实回答。

长上下文和近乎完美的召回能力

Claude3系列型号在发布时最初将提供200K 上下文窗口。然而,官方表示所有三种模型都能够接收超过100万 token 的输入,此能力会被提供给需要增强处理能力的特定用户。

为了有效地处理长上下文提示,模型需要强大的召回能力。Needle In A Haystack(NIAH)评估衡量模型可以从大量数据中准确回忆信息的能力。Anthropic 通过在每个提示中使用30个随机 Needle/question 对在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude3Opus 不仅实现了近乎完美的召回率,超过99% 的准确率。而且在某些情况下,它甚至识别出了评估本身的局限性,意识到针句子似乎是人为插入到原始文本中的。

安全易用

Anthropic 表示,其已建立专门团队来跟踪和减少安全风险。该公司也在开发 Constitutional AI 等方法来提高模型的安全性和透明度,并减轻新模式可能引发的隐私问题。

虽然与之前的模型相比,Claude3模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据研究,新模型处于 AI 安全级别2(ASL-2)以内。

在使用体验上,Claude3比以往模型更加擅长遵循复杂的多步骤指令,更加可以遵守品牌和响应准则,从而可以更好地开发可信赖的应用。此外,Anthropic 表示 Claude3模型现在更擅长以 JSON 等格式生成流行的结构化输出,从而可以更轻松地指导 Claude 进行自然语言分类和情感分析等用例。

技术报告里写了什么

目前,Anthropic 已经放出了42页的技术报告《The Claude3Model Family: Opus, Sonnet, Haiku》。

报告地址:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

小米civi2s详细评测

我们看到了 Claude3系列模型的训练数据、评估标准以及更详细的实验结果。

在训练数据方面,Claude3系列模型接受了截至2023年8月互联网公开可用的专用混合数据的训练,以及来自第三方的非公开数据、数据标签服务商和付费承包商提供的数据、Claude 内部的数据。

Claude3系列模型在以下多个指标上接受了广泛的评估,包括:

  • 推理能力

  • 多语言能力

  • 长上下文

  • 可靠性 / 事实性

  • 多模态能力

首先是推理、编程和问答任务上的评估结果,Claude3系列模型在一系列推理、阅读理解、数学、科学和编程的行业标准基准上与竞品模型展开了比较,结果显示不仅超越了自家以往模型,还在大多数情况下实现了新 SOTA。

Anthropic 在法学院入学考试 (LSAT) 、多州律师考试 (MBE)、美国数学竞赛2023年数学竞赛和研究生入学考试 (GRE) 普通考试中评估了 Claude3系列模型,具体结果如下表2所示。

比特币以太坊大涨

Claude3系列模型具备多模态(图像和视频帧输入)能力,并且在解决超越简单文本理解的复杂多模态推理挑战方面取得了重大进展。

一个典型的例子是 Claude3模型在 AI2D 科学图表基准上的表现,这是一种视觉问答评估,涉及图表解析并以多项选择格式回答相应的问题。

Claude3Sonnet 在0-shot 设置中达到了 SOTA 水平 ——89.2%,其次是 Claude3Opus(88.3%)和 Claude3Haiku(80.6%),具体结果如下表3所示。

针对这份技术报告,爱丁堡大学博士生符尧在第一时间给出了自己的分析。

首先,在他看来,被评估的几个模型在 MMLU / GSM8K / HumanEval 等几项指标上基本没有区分度,真正需要关心的是为什么最好的模型在 GSM8K 上依然有5% 的错误。

他认为,真正能够把模型区分开的是 MATH 和 GPQA,这些超级棘手的问题是 AI 模型下一步应该瞄准的目标。

与 Claude 之前的模型相比,改进比较大的领域是金融和医学。

曝骁龙7 gen 1对比870

视觉方面,Claude3表现出的视觉 OCR 能力让人看到了它在数据收集方面的巨大潜力。

此外,他还发现了其他一些趋势:

从目前的评测基准和体验看来,Claude3在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态。

博客地址:https://www.anthropic.com/news/claude-3-family


返回网站首页

本文评论
微软 OneDrive 将迎来全新升级:Copilot 将为用户提供更多 AI 功能_microsoft onedrive软件
10月8日消息:微软日前宣布将对 OneDrive 进行更新,旨在使人们更容易访问、查看、分享和管理他们的文件。顽皮狗神秘海域5在本周的在线活动中,被称为微软 OneDrive:文件管理的未...
日期:10-08
淘宝双11锦鲤活动怎么参加「双十一将诞生100万拍照锦鲤  淘宝双十一锦鲤怎么参加」
11月3日,天猫开启了迄今为止规模最大的锦鲤活动。用户可通过淘宝拍照功能参与,每晚7:30开奖,共抽100万条锦鲤,一人每天最高可中奖49999元。据悉,节日期间,锦鲤的总数预计将超过100...
日期:11-07
第一季度中国云服务支出增长 6%  生成式 AI 和 AI 大模型为云市场带来新的增长机遇
6月15日消息:据 Canalys 报告显示,2023 年一季度,中国大陆的云基础设施服务支出同比增长 6%,达到 77 亿美元,占全球整体云支出的 12%。美国三大股指上周涨跌企业对于上云的需求...
日期:06-15
第四届5G千兆网产业论坛:夯实泛在千兆网络,加速万兆融合创新「5g千兆是什么意思」
通信世界网消息(CWW)2023年6月4日,第四届5G千兆网产业论坛在北京国家会议中心成功举办。论坛发起“夯实泛在千兆网络,加速万兆融合创新”的倡议,旨在凝聚产业力量,持续落实泛在千...
日期:06-06
TSMC 3nm 工艺的112G-ELR SerDes IP  Cadence在TSMC北美技术研讨会期间展示面向
【】5月20日消息,Cadence 在 2023 年 TSMC 北美技术研讨会期间发布了面向台积电 3nm 工艺(N3E)的 112G 超长距离(112G-ELR)SerDes IP 展示,这是 Cadence 112G-ELR SerDes IP...
日期:09-27
智鉴智能印章「智慧防伪印章亮相警博会,创新赋能助力科技强警」
只需手机扫描印章核验真伪,即可有效避免政务,银行,商务,军队内印章及文件被冒用、盗用,实现了“异地用章”、“远程审批”、“免看管用章”、“易识别真伪”、“一机多章”、“一...
日期:05-13
华为杨汉超简历「华为杨超斌:打开数字世界新机遇, 释放数字世界无限潜能」
通信世界网消息(CWW)5G的高速发展促进移动流量的爆发,当前,80%的移动流量发生在室内,在人流量大的高密场景如商场、机场、火车站、体育馆等,热点流量密度达到平均流量的百倍以上,需...
日期:10-22
招聘人员警告:过度使用AI工具撰写简历可能阻碍求职成功
文章概要:1. 越来越越多求职者利用AI工具如ChatGPT编写简历和求职信。2. 招聘人员警告AI生成的内容可能不利于求职者,尤其是当它夸大自己的经验和技能时。3. 澳大利亚人力资...
日期:09-19
边享受音乐浪漫边体验潮电科技 京东3C数码给你不一样的草莓音乐节
秋意渐浓之际,京东 3C 数码和草莓音乐节之间的梦幻联动再次续航。这一次,草莓音乐节将于 9 月 16 日- 17 日落地珠海市金湾区榄溪沙广场。不仅在音乐节现场有万 能青年旅店、...
日期:09-15
美股周五跌多还是涨多「美股周五:三大股指均跌超1%,苹果跌近2%,阿里跌逾5%」
美国时间周五,美股收盘主要股指全线下跌,纳指跌近200点,三大股指本周均录得跌幅。最新数据显示,美联储最青睐的一项通胀指数高于预期。道琼斯指数收于32816.92点,下跌336.99点,跌...
日期:02-25
国网信通产业集团 辛永「中国信通院辛勇飞:协力推进数字乡村建设面临挑战」
通信世界网消息(CWW)日前,在第31届中国国际信息通信展“TECH4ALL数字包容媒体沙龙”上,中国信通院政策与经济研究所所长辛勇飞表示,经过多年建设,我国数字乡村建设取得了一系列成...
日期:06-08
流浪地球2 票房「《流浪地球2》线下票价300元?万达影城回应:没对外卖过」
1月22日,大年初一,春节档唯一国产科幻电影《流浪地球2》正式上映,截稿前,该片累计票房已突破24亿元。日前,近日,有博主发文称,在万达影城观影时发现,一张《流浪地球2》影票线下标价3...
日期:01-29
全球独角兽遭遇“十年之痛”_世界上存在过独角兽吗
  来源:日经中文网  文/奥平和行 今堀祥和   企业估值超过10亿美元的未上市企业被称为“独角兽”已有10年。从约40家增至逾1100家的“独角兽”目前正面临货币紧缩的逆...
日期:10-01
中国联通营业厅2019版本_中国联通:2019年将全网开通VoLTE
  3月18日消息 早在今年2月,有网友反应在“中国联通微厅”公众号与人工客服沟通,尝试开通 VoLTE时,被告知这项服务已经自2018年11月20日起全国关闭,无法开通使用。   在调...
日期:01-03
苹果手表Series7被曝过热后爆炸 苹果回应称将展开调查「苹果手表爆屏」
10月9日 消息:据9to5Mac报道,一位 Apple Watch Series7用户反映称自己的手表在出现过热、冒烟后最终炸裂。目前此事件已经引起苹果公司的注意,该公司确认将调查该事件。该用户...
日期:10-23
成都被恶犬咬伤女童已获捐超100万:街道办称狗主人愿意赔偿 最高可判7年!
近日,四川崇州一女童被烈性犬咬成重伤,引发社会广泛关注。据北京安剑律师事务所律师周兆成披露,他已成为该案代理律师,和团队抵达成都处理,一定会依法依规去维权。天翼云sim卡据...
日期:10-19
董明珠称格力没买过别人技术:全部通过自己的团队研发出来_董明珠接手格力的时候,格力情况
富士康美国造车剑南春在酒中排名搜索框功能Tech星球5月22日消息,董明珠近日在第三届江苏发展大会上表示,格力电器这30多年来没有合资,没有引进技术,更没有去买别人的技术,“我们...
日期:05-22
男子花32万买比亚迪海豹 内心崩溃:汽配城都没这么难看
1月15日,B站UP主一路向北BYD”发布最新视频《花32万买了比亚迪,我的内心非常崩溃》。视频中,他表示这辆比亚迪650km四驱性能运动套件版刚提车5天,车漆颜色远不及自己预期,甚至汽...
日期:01-15
三星Galaxy M34 5G手机现身谷歌Play管理中心:确认Exynos 1280芯片「三星支持谷歌框架吗」
近日,三星Galaxy M34 5G在Google Play Store Console页面上曝光,显示该手机内置了6GB的内存,并采用了名为"Samsung s5e8825"的芯片,即Exynos 1280芯片。页面还透露Galaxy M34 5G...
日期:07-05
苹果 iPhone 14 卫星紧急求救功能今天开始正式上线_苹果 iphone 14 卫星紧急求救功能今天开始正式上线了
11月15日消息:苹果公司今天在一份新闻稿中宣布,iPhone14 的卫星紧急求救服务将于今天正式开始推出。苹果公司在 9 月份的 iPhone14 发布会上宣布了这一功能,表示其将在 11 月...
日期:11-18