您的位置:首页 > 互联网

全球首个开源GPT-4出世!Llama 3震撼发布,Meta AI免登录可用_开源rti

发布时间:2024-04-20 10:27:26  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

蛰伏许久,Meta刚刚扔出了重磅炸弹:大家期待已久的Llama3,用了24000块GPU训练,一亮相便登上开源大模型铁王座。8B和70B取得同规模参数下开源领域的SOTA,推理编码大幅提升,代码和权重全开源!而且,400B的Llama3,也在路上了。

LLM界的真·Open AI,又来整顿AI圈了!

业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?

一石激起千层浪,Llama3才刚刚发布没几小时,就破纪录地登顶了Hugging Face排行榜。

这次,Meta共开源了Llama38B和Llama370B两款模型,分别有预训练和指令微调两个版本。

小扎、LeCun也纷纷在第一时间开启了宣传模式。

Llama3是在由24000块GPU组成的定制集群上,使用15万亿个token训练的。

甚至就连最小8B版本,有时都能打败大出一个数量级的Llama270B!

值得期待的是,在未来几个月,Llama3还将推出更多版本

不过,虽然上下文长度相较之前实现了翻倍,但依然只有8K。

顺带提一句,Llama3已经可以在网页版Meta AI用上了,还是免登录那种。

对此,Hugging Face联创兼CEO表示:Llama1和Llama2现在已经衍生出了30,000个新模型。我迫不及待地想看到Llama3将会给AI生态带来怎样的冲击了。

400B性能野兽,刷新开源SOTA

然而,8B和70B版本的Llama3,还只是开胃菜,更大的还在后面呢!

真正的性能野兽——Llama3400B不久便要解禁,目前还在训练中。

其中,预训练版本在推理挑战测试集ARC-Challenge上,拿下了96的高分。

而指令微调版的Llama3400B更是在数学(GSM-8K)、代码(Human-Eval)、大规模多任务语言理解基准(MMLU)上,表现非常亮眼。

这些数据是什么概念?

英伟达高级科学家Jim Fan做了一个对比图,与Claude3Opus、GPT-4-2024-04-09和Gemini在同基准数据中的结果:

看得出,Llama3400B已经在多语言推理任务、代码能力,可与GPT-4、Claude3相匹敌。

更亮眼的是,它在所有能力上,均打败了Gemini Ultra1.0。

还有一个更详细的数据对比图,自己体会。

一时间,全网陷入了疯狂。

网友:首个开源GPT-4来了

Karpathy精辟地总结道,400B模型将会是首个开源GPT-4级别的模型。

Jim Fan感慨道:

即将推出的Llama3400B将成为一个分水岭,即社区将获得开源重量级的GPT-4模型。它将改变许多研究工作和草根创业公司的计算方式。

Llama3400B还在训练中,希望在接下来的几个月里会有更好的表现。有了如此强大的后盾,我们可以释放出更多的研究潜能。期待整个生态系统的建设能量激增!

OpenAI研究科学家Will Depue也表达的同样的看法,非常期待一款开源GPT-4级别的模型——Llama3400B,未来的可能性无穷无尽!

昨天刚刚发布的Mixtral8×22B刷新SOTA之后,没想到,却被Llama370B碾压了。

开源模型的SOTA,当属于Llama3400B。

吴恩达的生日,却收到一份别致的礼物。

Meta在博客中预告了,接下来几个月,将发布多个新功能的模型,包括多语言对话、更长上下文,以及整体能力提升。

一旦Llama3完成训练,技术报告将直接发布。

Meta重回开源模型铁王座

在性能上,8B和70B显著优于Llama2,取得了SOTA。

预训练模型和指令微调模型在8B和70B的参数规模上取得了如此先进的性能,都是得益于预训练和训练后的优化改进。

而Meta的研究团队,还对训练后优化过程进行了改进,这就大大降低了错误拒绝执行任务的比率,提高了模型输出与人类意图的一致性,还让模型响应的多样性也增加了。

同时,模型的逻辑推理、代码生成和指令遵循等能力也都大幅提升,让Llama3成为了一个可控性更强的模型。

与近乎同等规模预训练的开源模型相比,Llama38B完全打败了Mistral,以及Gemma。不过推理能力,比Gemma-7B弱一些。

与闭源Gemini Pro1.0,以及开源Mixtral8×22B相比,Llama3-70B在多项基准测试中拔得头筹。

再来看看,Llama3两个参数版本与Llama2-7B、13B、70B的预训练模型对比。

毋庸置疑,Llama38B肯定是要超越Llama27B,甚至碾压了Llama213B。

Llama370B要比Llama270B,尤其在推理(MMLU、ARC-Challenge)、AGIEval基准上上,实现了巨大提升。

gimp开源吗

指令微调版本比较,Llama38B同样超越了开源的Gemma7B,以及Mistral7B Instuct。

70B版本的Llama3在推理(MMLU)、数学(GSM-8K)、甚至代码(HumanEval)基准上,比Gemini Pro1.5和Claude3Sonnet更加亮眼。

再来看看与自家Llama2指令微调不同参数版本的性能对比。

Llama38B与70B都要比相对同等参数的Llama2,得到了很大的提升。

而在Llama3的开发过程中,Meta不仅关注基准测试,还致力于优化模型在真实场景中的表现。

为此,Meta开发了一个高质量人工评估数据集,包含1,800个提示,这些提示了涵盖了12个关键的应用场景,包括询问建议、头脑风暴、分类、选择题、编码、创意写作、信息提取、角色扮演、开放性问答、逻辑推理、改写和总结。

为了防止Llama3在评估数据集上过拟合,建模团队自己也无法访问它。

人工评估结果显示,Llama370B的表现远胜于Llama2、GPT-3.5、Mistral Medium和Claude Sonnet。

大模型发展到如今,再要往哪里创新?

在整个项目中,Meta重点关注了四个关键要素:模型架构、训练数据、扩大训练规模以及指令微调。

128K token分词器+GQA

在架构上,Meta依然为Llama3选择了Transformer架构。

这个架构是相对标准的纯解码器Transformer,不过相比于Llama2做了几个关键改进。

比如,Llama3使用了一个具有128K个token的分词器,可以更有效地编码语言,这就显著提高了模型性能。

而为了提高Llama3模型的推理速度,Meta在8B和70B两种规模上都采用了分组查询注意力(Grouped Query Attention,GQA)机制。

此外,Meta还在8,192个token的序列上训练模型,并通过掩码确保自注意力机制不会跨越文档边界。

15万亿token训练,7倍于Llama2

同时,大型高质量的训练数据集也至关重要。

为了预训练数据,团队投入了大量资源。

旭辉银盛泰产品系列

最终,Llama3在超过15万亿个token上进行了预训练,而这些token都是从公开可用的来源收集的。

它的训练数据集比Llama2的大7倍,并且包含4倍多的代码。

为了应对多语言场景,Llama3的预训练数据集中有超过5%是高质量的非英语数据,涵盖了30多种语言。

同时,为了让训练数据具有足够高的质量,Meta开发了一系列数据过滤管道。

这些管道包括使用了启发式过滤器、NSFW过滤器、语义去重方法和文本分类器,用来预测数据质量。

在这个过程中一个有意思的点就是——

前几代的Llama 在识别高质量数据方面居然出奇得好,因此,Meta使用Llama2来生成了用于训练Llama3的文本质量分类器的训练数据。

此外,为了评估在最终的预训练数据集中混合来自不同来源的数据的最佳方式,Meta还进行了大量实验。

最终,Meta就能够选择一个数据组合,让Llama3在STEM、编码、历史知识等各种使用场景中,都能表现良好。

Scaling Law依旧是王道

为了有效利用预训练数据,团队在扩大预训练规模上,投入了大量精力。

针对下游基准评估,Meta开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。而缩放定律可以帮助团队在实际训练模型之前,预测最大模型在关键任务上的性能,这是至关重要的,因为这就能确保,模型在各种使用场景和能力方面,都有出色的表现。

在这个过程中,团队对缩放行为观察到了有了几个有趣的新现象。

比如,虽然一个8B参数模型的Chinchilla最优训练计算量,对应于约2000亿个token,但Meta发现,即使在模型接受了两个数量级以上的数据训练后,模型性能仍在继续提高!

而8B和70B参数的Llama3在接受了高达15T个token的训练后,继续呈对数线性提高。

更大的模型可以用更少的训练计算,来匹配这些较小模型的性能,不过,由于小模型在推理过程中的效率更高,因此反而更受青睐。

为了训练最大的Llama3模型,团队结合了三种并行化方式:数据并行、模型并行和流水线并行。

由此,团队达到了最高效的实现:在同时使用16K个GPU训练时,每个GPU的计算利用率超过了400TFLOPS。

团队在两个定制的24K GPU集群上进行了训练。为了最大限度地提高GPU正常运行时间,Meta还开发了一个先进的新训练技术栈,可以自动进行错误检测、处理和维护。

同时,Meta还大大提高了硬件可靠性和静默数据损坏的检测机制,开发了新的可扩展存储系统,减少了检查点和回滚的开销。

而这些改进,让总体的有效训练时间超过了95%。

和与Llama2相比,这些改进直接让Llama3的训练效率提高了大概三倍!

创新指令微调

同时,团队也对指令微调进行了创新。

Meta采用的后训练方法,是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。

Meta发现,在SFT中使用的提示和在PPO与DPO中使用的偏好排序,对对齐模型的性能的影响完全超出了预期。

Llama3在性能上取得的最大改进,就是归功于对这些数据的仔细策划,并且对人类标注者提供的标准进行了多轮质量保证。

而通过PPO和DPO从偏好排序中学习,Llama3在推理和编码任务上的性能也大大提高了。

如果问Llama3一个很难回答的推理问题,它有时竟然能产生正确的推理过程。

这个过程中的难点在于,它知道如何得出正确答案,但不知道该如何选择。但通过在偏好排序上进行训练,就能让模型学会如何选择正确答案。

更安全

在部署上,团队采用了一种新的系统级方法。

Meta将Llama模型设想为一个更广泛系统的一部分,让开发者坐在驾驶座上。Llama模型将作为系统的基础部分,开发者在设计时会考虑最终的目标。

在模型安全上,指令微调起了重要作用。

通过内部和外部努力,团队对指令微调模型进行了安全测试。

红队方法会利用人类专家和自动化方法来生成对抗性提示,试图引发有问题的响应,比如化学、生物、网络安全、其他风险领域相关的滥用风险。

在这个过程中,团队让Llama Guard模型,成为安全的基础,并且可以根据应用需求进行微调。

新的Llama Guard2使用MLCommons 分类法。此外,CyberSecEval2在其前作的基础上进行了扩展,增加了评估LLM滥用代码解释器的倾向、攻击性网络安全能力和对提示注入攻击的敏感性的措施。

最后,引入的Code Shield也增加了对生成的LLM不安全代码的推理时过滤的支持。这样就能降低不安全的代码建议、代码解释器的滥用等。

另外,Meta还更新了负责任使用指南(RUG),建议根据适合应用的内容指南,检查和过滤所有输入和输出。

此外,云服务提供商也会提供内容审核API等工具,鼓励开发者进行负责任地部署。

网页版Meta AI免登录,即可聊

与此同时,今天Meta还放出了网页版Meta AI,由最新Llama3加持,号称是全球顶尖的AI助手之一。

整个页面UI设计非常简洁,不仅可以对话,还支持生图功能。

与ChatGPT-3.5免注册登录类似,与Meta AI聊天功能,进入网页随时随地即可开启,无需登录。

传送门:https://www.meta.ai/

不过,作图的话,是个例外。

其实,Meta AI助手在去年的Connect大会上,小扎首次做了预告。

而现在,全世界更多的人可以通过前所未有的方式与之互动。

不仅仅在网页上能聊,Meta AI还集成到了自家旗下社交应用中,比如Facebook、Ins、WhatsApp和Messenger。

接下来,一起感受下,Meta AI助手带来的与众不同的魅力吧。

想要组织周末短途旅行,却来不及做出行计划?不用担心!

Meta AI首先会根据要求提出三个关于旅行问题,再去量身定制一份旅行清单!

- 目的地:您要去哪里?

- 持续时间:您将旅行多少天?

- 旅行类型:是海滩度假、城市探险、户外探险还是其他?

又或是你在数学问题上苦苦挣扎?需要让工作邮件显得更专业?Meta AI都可以提供帮助!

甚至,你可以登录以保存自己与Meta AI的对话,以供将来参考。

让Llama3画一幅自画像。

Ins、Facebook等APP无缝集成

正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。

举个栗子,假设你正在Messenger群聊中计划一次滑雪之旅。

直接通过Messenger的搜索,可以让Meta AI查找从纽约到科罗拉多的航班,并找出时间段人最少的周末去旅行——所有这些都无需跳出Messenger即可完成。

当你正在刷Facebook,看到一个感兴趣的帖子,附有一张冰岛北极光图。

你可以直接问Meta AI,一年中什么时候最适合观赏极光?

除了在网页版,Meta AI的图像功能还可以在WhatsApp中体验。

当你在搜索框开始输入prompt,便会看到一个浮现的图像,会随着你输入的每几个字而变化。

可以清晰看到,Meta AI如何将你的想象变为现实。

据介绍,Meta AI生成的图像更加清晰、质量更好,而且在图像中融入文字的能力也得到了提升。

不论是专辑封面设计、婚礼指示牌、生日装饰,还是服装搭配灵感,Meta AI都可以生成相应的图像,以前所未有的速度和质量将你的想象变为现实。

它甚至会提供有用的提示和建议,提供改进图像的思路,让你可以在初始点的基础上不断迭代。

这还不是全部......

当你找到一张自己喜欢的图片,可以让Meta AI制作动画,以新的风格对其进行改进,甚至将其转化为GIF,与朋友分享。

可以看出,有了强大的Llama3加持,Meta AI的表现比以往更要出色。

不久后,Meta AI即将在Quest头显中推出。

参考资料:

https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/

https://ai.meta.com/blog/meta-llama-3/

https://llama.meta.com/llama3/

gminer 开源


返回网站首页

本文评论
以太坊 8 年挖矿时代结束:V 神、中国矿业,与英伟达「挖矿机以太坊产量」
最后的以太坊矿工,与中国「挖矿」简史。来源:律动 BlockBeats原作者:Jack原标题:以太坊 8 年挖矿时代结束:V 神、中国矿业,与英伟达编者按:2022 年 9 月 15 日 14 点 42 分,成立 8...
日期:09-20
scm供应链比赛「竞争迈入深水区,供应链能力成为MCN行业赛点」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:光也,授权转载发布。拥有供应链能力的MCN机构,是当下颇具竞争力的一种类型。在MCN机构增速放缓,红人竞争加剧的当下...
日期:04-19
宇宙会是假的吗?人类可能生活在虚拟世界中,这是真的吗?_宇宙是假的,人还会是真的吗
在我们的日常生活中,我们常常会将宇宙视为一个真实而客观存在的空间。然而,近年来,越来越多的科学家和哲学家开始提出一个惊人的观点:宇宙可能是假的,人类可能生活在虚拟世界中。...
日期:12-18
一张图多少钱「2张图片1天能卖10w+!这钱到底谁在捡啊?」
声明:本文来自于微信公众号 蝉妈妈(ID:cmmshuju),作者:蝉妈妈,授权转载发布。“我不敢出镜,也不会拍视频,在抖音上卖货赚钱这碗饭,我是吃不上了,诶!”“小美不是也都不会吗,听说她最...
日期:10-12
2023年买5g手机最好「2023年,你还换手机吗?」
2023年了,你还换手机吗?华为手机的“复出”,让手机圈的舆论氛围一下子热了起来,仿佛消费者的换机需求已经非常迫切,将在今年来一次集体换机。苹果手机也被卷入到舆论营销战中,“苹...
日期:09-26
《狂飙》在短视频“狂飙”_播放飙速动画短视频
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:潮关,授权转载发布。2023开年,《狂飙》就上演了一出“高开飙走”大戏。这部以扫黑除恶为主题的主旋律电视剧,在春节档激烈...
日期:02-09
日本乒乓球选手福原爱宣布将直播带货:28号陪大家过早年_日本乒乓球队员福原爱简介
快科技1月27日消息,近日,日本乒乓球选手福原爱宣布将直播带货,她在社交账号发视频配文称28号我陪大家过个早年。”在预告视频中,她提到自己从小学开始就跟着中国教练在中国训练,...
日期:01-27
合作黄了?广汽:埃安AH8项目由与华为联合开发变更为自主开发「广汽埃安 华为」
此前有报道称,接近华为的知情人士透露,华为与广汽埃安深度合作项目已经中止,现在双方是零部件供应和采购关系,埃安负责人曾进行辟谣,但华为方面未做出回应,而如今看来,之前的消息确...
日期:03-27
360扫描u盘报病毒怎么办_360杀毒提醒:打印毕业论文须提防“U盘病毒”
  眼下正是2011年度各大高校毕业答辩的时节,毕业生们在拷贝和打印论文时经常需要使用U盘等移动设备。然而据360安全中心监测,近期U盘病毒的感染量大幅增长了10%以上,为此360...
日期:07-30
字节推多模态理解和图像定位模型LEGO 具备精准定位的能力_lite模型 字节跳动
1月15日 消息:LEGO是一个由字节跳动和复旦大学联合研发的多模态理解和图像定位模型。这一模型具有处理和理解多种类型的输入的能力,包括图像、音频和视频。同时,LEGO还具备精...
日期:01-15
新浪微博推新版活动平台 打造“靠谱”活动_微博微博推广
  近日,新浪微博推出新版活动平台,并举办为期10日的“靠谱百分百”微博活动。该活动将邀请100家新浪微博认证的明星、企业、政府、机构、媒体等可信赖用户,发起100个“靠谱...
日期:07-30
全矩阵惊艳亮相 PGYTECH完美谢幕2023台北摄影器材影音创作设备展
(原标题:全矩阵惊艳亮相 PGYTECH完美谢幕2023台北摄影器材影音创作设备展) 结合科技创新与人性化设计,全球智能摄影周边解决方...
日期:10-17
迅雷:第二季度营收7830万美元 同比增长41.9%(迅雷公司市值)
华为儿童手表4x价格 查看最新行情   讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,83...
日期:08-21
小车被运粪车追尾灌一车粪便 网友看完不淡定:车没法要了
私家车等红灯被拉粪车追尾,这真是没sei了。到达京东营业部能不能自提近日,辽宁沈阳一私家车等红绿灯时被拉动物粪便大货车追尾,结果动物粪便泼了私家车一整车。从视频内容看,该...
日期:08-22
谷歌应用商店在印尼遭反垄断调查:强制开发者使用其支付系统
淘宝双十一折扣规则  讯 北京时间9月15日晚间消息,据报道,印尼反垄断监管机构“竞争管理局” (KPPU)今日宣布,已对谷歌Play Store应用商店展开反垄断调查,因为它强制开发者使用...
日期:09-15
哈佛大学研发出一种更平价和高效的空调_哈佛大学研发出一种更平价和高效的空调方法
夏天的命都是空调给的。这句话正从梗变成现实。在今年的高温下,空调变得越来越必要,但同时,空调用得越多,既会加重用电电压力,而排出的热气也会让户外环境更热,制冷剂也会对环境...
日期:09-18
端点科技再度携手晶科能源,共拓光伏“绿”能新篇_端点科技估值
(原标题:端点科技再度携手晶科能源,共拓光伏“绿”能新篇) 新年伊始,杭州端点网络科技有限公司(以下简称“端点科技”)与晶科能...
日期:01-08
这个“黑五”,亚马逊被中国大厂围攻_亚马逊的黑五
声明:本文来自于微信公众号 霞光社(ID:Globalinsights),作者|麻吉,编辑|宋函,授权转载发布。一年一度的黑五大促已经启幕,对多年占据美国黑五榜首的亚马逊来说,对手正在悄悄变多。今...
日期:11-26
36款单机游戏免费领:含《只狼》《文明6》《仙剑7》等_单机游戏免费平台
快科技7月26日,方块游戏今日宣布,迎来成立6周年,为回报玩家,周年庆典活动将免费送出36款游戏。来自圣诞节的仪式感其中不仅有《只狼》和《仙剑奇侠传7》这种自有游戏大作,也有十...
日期:07-26
京东物流被曝将招聘上万人:多劳多得 激励上不封顶_京东物流招聘是真的吗
2月29日 消息:京东物流近日宣布启动“万人招聘计划”,计划于2024年上半年吸纳约2万名新员工,主要涵盖供应链、运营、管理、销售等关键领域。此举旨在进一步增强京东物流的人才...
日期:02-29