您的位置:首页 > 互联网

开源=最强大模型!Llama3.1发布,405B超越闭源GPT-4o,扎克伯格:分水岭时刻

发布时间:2024-07-24 11:22:26  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:白交,授权转载发布。

刚刚,LIama3.1正式发布,登上大模型王座!

在150多个基准测试集中,405B版本的表现追平甚至超越了现有SOTA模型GPT-4o和Claude3.5Sonnet。

也就是说,这次,最强开源模型即最强模型。

丁耘谈华为技术创新

在此之前,Llama3.1已经被多番曝光泄露,如今可以说千呼万唤始出来。

从今天开始,模型即可在官网上下载使用,Meta AI应用可在线试玩。

更令研究社区赞赏的是发布近100页详细论文,涵盖了创造Llama3.1过程中的一切:预训练数据、过滤、退火、合成数据、缩放定律、基础设施、并行性、训练配方、训练后适应、工具使用、基准测试、推理策略、量化、视觉、语音、视频……

HuggingFace首席科学家赞叹:如果你是从零开始研究大模型,就从这篇论文读起。

小扎扎克伯格还在最新接受彭博社采访时专门嘲讽了一把OpenAI。

奥特曼的领导能力值得称赞,但有点讽刺的是公司名为OpenAI却成为构建封闭式人工智能模型的领导者。

小扎还专门为此撰写了一篇长文:开源AI是前进的道路。

以往,开源模型在性能、功能等方面大多落后于闭源模型,但现在:

就像开源的Linux在一众闭源系统中脱颖而出获得普及,并逐渐变得更先进、更安全,拥有比闭源系统更广泛的生态。

我相信Llama3.1将成为行业的一个转折点。

一元人才网最新招聘信息

迄今为止,所有Llama 版本的总下载量已超过3亿次,Meta也是放下豪言:

这仅仅是个开始。

各大云厂商也在第一时间上线了的Llama3.1的支持,价格是酱婶的:

LIama3.1官方正式发布

首先来看模型能力。

Llama3.1将上下文长度扩展到128K、增加了对八种语言的支持。

其中超大杯405B版本,在常识、可操纵性、数学、工具使用和多语言翻译等能力方面都追平、超越了现有顶尖模型。

除此之外,也推出了8B和70B模型的升级版本,能力与同等参数下的顶尖模型基本持平。

怀疑京东卖假货京东客服人员要求退货退款

再来看模型架构。

官方介绍,要在超15万亿个token上训练 Llama3.1405B模型挑战不小。

为此他们大幅优化了整个训练栈,并把模型算力规模首次扩展到了超过16000个H100GPU。

具体来说,还是采用标准的仅解码器的Transformer架构,并做一些细微改动;并采用迭代的post-traing流程,每轮都有SFT(监督微调)和DPO(直接偏好优化),以提高每个能力的性能。

与Llama以前的版本相比,他们提高了用于预训练和post-training数据的数量和质量。

而为了支持405B这样尺寸模型的大规模生产推理,Meta将模型从16位(BF16)量化到8位(FP8)数值,有效地降低了所需的计算需求,并允许模型在单个服务器节点内运行。

在指令微调方面,Meta还提高了模型对用户指令的响应能力、增强了它遵循详细指令的能力,同时保证安全性。

在post-training阶段,Meta在预训练模型的基础上进行多轮对齐。

每一轮都包括监督微调(Supervised Fine-Tuning, SFT)、拒绝采样(Rejection Sampling, RS)和直接偏好优化(Direct Preference Optimization, DPO)。

他们使用合成数据生成来绝大部分SFT示例,并数次迭代。

此外,还采用了多种数据处理技术来将这些合成数据过滤到最高质量。

总计15T tokens使用Llama2模型做清理和过滤,而代码和数学相关的数据处理流水线则主要借鉴了Deepseek的方法。

除了最基本的根据提示词响应,Meta官方表示,任何普通开发者可以用它做些高级的事情,比如:

  • 实时和批量推理

  • 监督微调

  • 针对特定应用评估模型

  • 持续预训练

  • 检索增强生成 (RAG)

  • 函数调用

  • 合成数据生成

而这背后也是由它的强大生态伙伴支持。

茱莉蔻玫瑰睡眠面膜

小扎撰写长文:开源AI是前进的道路

(以下由大模型翻译,摘取主体内容,如有遗漏错误欢迎更正!)

在高性能计算的早期,当时的大型科技公司都投入巨资开发各自闭源的Unix版本。那时,很难想象除了闭源之外,还有其他途径能够孕育出如此先进的软件。然而,开源的Linux操作系统最终赢得了广泛的欢迎——最初是因为它允许开发者自由地修改代码,成本也更加低廉;随着时间的流逝,Linux不仅变得更加先进和安全,而且构建了一个比任何闭源Unix系统都要广泛的生态系统,支持更多的功能。如今,Linux已成为云计算和大多数移动设备操作系统的行业标准基础,我们所有人都因此享受到了更优质的产品。

我相信人工智能将以类似的方式发展。今天,几家科技公司正在开发领先的闭源模型。但开源正在迅速缩小差距。去年,Llama2只能与落后一代的模型相媲美。今年,Llama3与最先进的模型竞争,并在某些领域领先。从明年开始,我们预计未来的Llama模型将成为行业中最先进的。但即使在那之前,Llama已经在开放性、可修改性和成本效率方面领先。

今天,我们正在朝着“开源人工智能成为行业标准”的方向迈进。我们发布了Llama3.1405B,这是第一个前沿级别的开源人工智能模型,以及改进版Llama3.170B和8B模型。除了与闭源模型相比具有显著更好的成本/性能比之外,405B模型的开放性将使其成为微调和蒸馏更小模型的最佳选择。

除了发布这些模型外,我们正与一系列公司合作,以发展更广泛的生态系统。亚马逊、Databricks和英伟达正在推出一整套服务,支持开发者微调和蒸馏自己的模型。像Groq这样的创新者已经为所有新模型构建了低延迟、低成本的推理服务。这些模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。像Scale.AI、Dell、德勤等公司已准备好帮助企业采用Llama,并用他们自己的数据训练定制模型。随着社区的增长和更多公司开发新服务,我们可以共同使Llama成为行业标准,将AI的好处带给每个人。

Meta致力于开源人工智能。我将概述为什么我认为开源是最好的开发堆栈,为什么开源Llama对Meta有好处,以及为什么开源人工智能对世界有好处,因此是一个长期可持续的平台。

为什么开源人工智能对开发者有好处

当我与世界各地的开发者、首席执行官和官员交谈时,我通常会听到几个主题:

  • 我们需要训练、微调和蒸馏我们自己的模型。。每个组织都有其独特的需求,最适合的是使用不同规模的模型,这些模型可以根据他们特定的数据进行训练或微调。对于设备上的任务和分类任务,小模型足矣;而对于更复杂的任务,则需要大模型。现在,你可以利用最先进的Llama模型,用你自己的数据继续训练它们,然后将它们蒸馏成一个最适合你需要的模型尺寸——而无需让我们或任何其他人看到你的数据。

  • 我们需要控制自己的命运,不要被限制在闭源供应商那里。许多组织不希望依赖他们无法自行运行和控制的模型。他们不希望闭源模型提供者能够更改模型、修改使用条款,甚至完全停止服务。他们也不想被限制在只有一个云平台拥有模型独家使用权。开源允许广泛的公司生态系统拥有兼容的工具链,使你可以轻松地在它们之间迁移。

  • 我们需要保护我们的数据安全。许多组织处理敏感数据,需要加以保护,不能通过闭源模型的云API发送。还有一些组织根本不信任闭源模型提供者处理他们的数据。开源通过允许你在任何地方运行模型来解决这些问题。普遍认为,开源软件通常更安全,因为它的开发过程更加透明。

  • 我们需要一个运行效率高且负担得起的模型。开发者可以在自己的基础设施上,以大约使用闭源模型如GPT-4o一半的成本,运行Llama3.1405B的推理,无论是面向用户的还是离线推理任务。

  • 我们希望投资于将成为长期标准的生态系统。许多人看到开源的发展速度比闭源模型快,他们希望建立他们的系统在将给他们带来最大长期优势的架构上。

为什么开源人工智能对Meta有好处

Meta的商业模式是为人们创造最佳的体验和服务。为此,我们必须确保始终能够获取最佳技术,并且不会被锁定在竞争对手的闭源生态系统中,从而限制了我们的创新能力。

我的一个重要经历是,由于苹果对我们在其平台上能够构建的内容有所限制,我们的服务受到了制约。从他们对开发者征税的方式,到他们随意应用的规则,再到他们阻止发布的所有产品创新,很明显,如果我们能够构建产品的最佳版本,而竞争对手无法限制我们的创新,Meta和其他许多公司将能够为人们提供更好的服务。从哲学上讲,这是我坚信在人工智能和AR/VR中为下一代计算构建开放生态系统的主要原因。

人们经常问我是否担心通过开源Llama放弃技术优势,但我认为这忽略了大局,原因有几个:

首先,为了确保我们能够获取最佳技术,并且长期不会被锁定在闭源生态系统中,Llama需要发展成为一个完整的工具生态系统,包括效率提升、硅片优化和其他集成。如果我们是唯一使用Llama的公司,这个生态系统就不会发展起来,我们的表现也不会比Unix的闭源版本更好。

其次,我预计人工智能的发展将继续非常具有竞争力,这意味着开源任何特定模型并不会在当时给予比下一个最佳模型更大的优势。Llama成为行业标准的道路是通过持续保持竞争力、效率和开放性,一代又一代地发展。

第三,Meta与闭源模型提供者的一个关键区别在于,出售对人工智能模型的访问并不是我们的商业模式。这意味着公开发布Llama并不会削弱我们的收入、可持续性或研究投资能力,而这对于闭源提供者来说则不然。

最后,Meta有着长期的开源项目和成功的历史。我们通过发布服务器、网络和数据中心设计,并让供应链标准化我们的设计,通过Open Compute项目节省了数十亿美元。我们通过开源诸如PyTorch、React等领先工具,从生态系统的创新中受益。长期坚持这种方法对我们始终有效。

为什么开源人工智能对世界有好处

我相信开源对于实现积极的人工智能未来至关重要。人工智能比任何其他现代技术都有更大的潜力来提升人类的生产力、创造力和生活质量——并加速经济增长,同时推动医学和科学研究的进步。开源将确保全球更多的人能够获得人工智能的好处和机会,权力不会集中在少数公司手中,技术可以更均匀、更安全地在社会中部署。

关于开源人工智能模型的安全性正在进行辩论,我的看法是开源人工智能将比替代方案更安全。

我理解安全框架是我们需要防范两类伤害:无意的和故意的。无意的伤害是当一个人工智能系统可能会造成伤害,即使运行它的人没有意图这样做。例如,现代人工智能模型可能会无意中给出不良的健康建议。或者,在更具未来感的情景中,一些人担心模型可能会无意中自我复制或过度优化目标,从而损害人类。故意伤害是当一个不良行为者使用人工智能模型以达到造成伤害的目的。

值得注意的是,无意的伤害涵盖了人们对人工智能的大多数担忧——从人工智能系统将对数十亿使用者产生什么影响,到对人类来说真正灾难性的科幻情景的大部分。在这方面,开源应该更安全,因为系统更透明,可以广泛审查。从历史上看,开源软件因此更安全。同样,使用Llama及其安全系统如Llama Guard可能会比闭源模型更安全、更可靠。因此,关于开源人工智能安全性的大多数对话都集中在故意伤害上。

我们的安全流程包括严格的测试和红队,以评估我们的模型是否有能力造成重大伤害,目标是在发布前降低风险。由于模型是开放的,任何人都可以自己测试。我们必须记住,这些模型是由已经在网络上的信息训练的,所以当考虑伤害时,起点应该是模型是否能促进比从Google或其他搜索结果中快速检索到的信息更多的伤害。

当你考虑未来的机遇时,请记住,当今大多数领先的科技公司和科学研究都是建立在开源软件之上的。如果我们共同投资,下一代公司和研究将使用开源人工智能。

最重要的是,开源人工智能代表了世界上利用这项技术为每个人创造最大经济机会和安全的最佳机会。

让我们一起建设

对于过去的 Llama 模型,Meta 是自己开发然后发布的,但并没有过多关注构建更广泛的生态系统。这次发布我们采取了不同的方法。我们正在内部组建团队,让尽可能多的开发人员和合作伙伴能够使用 Llama,我们也在积极建立合作伙伴关系,以便生态系统中的更多公司也能为其客户提供独特的功能。

我相信Llama3.1的发布将成为行业的一个转折点,大多数开发人员将开始主要使用开源,并且我预计这种方法只会从现在开始发展。我希望你能加入我们的旅程,将人工智能的好处带给世界上的每个人。

最新采访链接:

https://x.com/rowancheung/status/1815763595197616155

参考链接:

[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

[2]https://ai.meta.com/blog/meta-llama-3-1/

—完—


返回网站首页

本文评论
乐视网贾跃亭「贾跃亭没忘记乐视!时隔6年 首次互动」
2013年5月7日,第一代乐视超级电视诞生,标志着互联网智能电视时代到来。到今天,乐视超级电视已经走过整整十年了。就在这个特殊的日子里,贾跃亭个人微博突然为乐视发声,庆祝乐视超...
日期:05-07
极氪 007 官宣 11 月 17 日广州车展正式发布:定位纯电豪华轿车_极氪汽车售价
IT之家 11 月 6 日消息,本月初,有多名博主在 Instagram 上晒出了极氪首款轿车(内部代号 CS1E)的“官方谍照”。据介绍,这款新车基于 PMA2 + 平台打造,此前消息称将在年内亮相,竞争...
日期:11-06
黄仁勋:尽管市值达到 1.1 万亿美元,但英伟达始终处于危险之中
11 月 13 日消息:英伟达是一家在游戏、数据中心和自动驾驶领域扮演关键角色的半导体制造商,正处于人工智能浪潮中央,该浪潮已经重振了硅谷。科技巨头争相购买其昂贵的 AI 芯片...
日期:11-13
苹果 iPhone 14 / Pro 系列配色爆料:紫色将取代粉色和远峰蓝「iphone13pro远峰蓝色和石墨色对比」
IT之家 8 月 31 日消息,一周后,苹果将为大家带来全新的 iPhone 14 和 iPhone 14 Pro 系列机型。Twitter 爆料者 @Jioriku 和 Naver 爆料者透露了一些关于新机的配色信息。基于...
日期:09-28
万众期待!B站 《三体》动画定档12月3日 还有49部国创问世「三体动画上映时间」
10月29日,哔哩哔哩(以下简称B站”)举办了2022-2023国创动画作品发布会,重磅宣布《三体》动画定档12月3日,并将开启《三体》动画全球共创计划。同时B站推出了49部国创作品新内容,包...
日期:11-04
美国用户日均使用手机应用81分钟 超过网页浏览的74分钟
  新浪科技讯 北京时间6月21日凌晨消息,市场研究公司Flurry的数据显示,美国用户日均花费在手机应用上的时间为81分钟,已经超过了网页浏览的74分钟。   数据显示,去年6月,用...
日期:07-30
老年人手机哪个牌子好_老年人手机哪个牌子好一点
老年人手机哪个牌子好?这是一个在市场上备受关注的话题。随着老年人口的增加,老年人日常生活中手机的使用越来越普遍。老年人使用手机的需求与年轻人存在很大的差异,因此在选择...
日期:05-29
中国联通格物Unilink工业互联网平台 入选国家级“双跨”工业互联网平台
通信世界网消息(CWW)9月6日,2023中国国际数字经济博览会开幕式上,工业和信息化部正式发布2023年新增跨行业跨领域工业互联网平台(以下简称“‘双跨’平台”)名单,中国联通格物Unili...
日期:09-06
火箭发射成功!印度信心爆棚:再扔大招 将进行载人航天测试_印度发射失败的火箭
很显然,现在印度在航天飞行方面信心爆棚,其宣布将从明年2月开始为其首次载人航天进行一系列飞行测试。Facebook在哪里上市印度空间研究组织载人航天飞行中心主任乌马马赫什瓦...
日期:11-07
已为近20个行业提供解决方案 「360智脑整体能力提升15%」
【】8月9日消息,在ISC 2023第十一届互联网安全大会“大模型落地实践应用与挑战研讨论坛”上,360智脑总裁张向征介绍,360集团自研认知型通用大模型“360智脑”,其能力经多家评测...
日期:09-18
腾讯绝艺AI登顶日本麻将平台 AI决策能力提升
7月12日 消息:腾讯自研 AI "绝艺 LuckyJ" 在日本麻将平台达到十段水平,并登顶天凤平台。天凤平台是日本在线麻将竞技平台,活跃人数23.8万,能达到十段的仅27人。相比其他麻将 AI...
日期:07-12
加速大规模深度学习训练与推理 英特尔发布全新Gaudi2深度学习加速器
【】7月11日消息,今日英特尔AI产品战略暨Gaudi2新品发布会在京举行。会上,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana® Gaudi®2。作为英特尔从云到端产...
日期:09-21
dota2衰老「沉寂3年后 DOTA2复兴了」
自2019年以来,《DOTA2》的在线玩家数,终于再次突破百万,峰值为1038949。三星s23ultra缺点实际上,过去3年,作为MOBA鼻祖游戏的《DOTA2》,在线玩家数长期徘徊在60~60万。无疑,此次玩...
日期:11-07
联想公司总裁杨元庆「杨元庆退出联想海外控股公司」
10月31日 消息:企查查APP显示,近日,深圳联想海外控股有限公司发生工商变更,杨元庆退出公司法定代表人、执行董事职务,乔松担任公司新任执行董事、法定代表人。深圳联想海外控股...
日期:11-10
B站ChatGPT相关视频播放量超2亿-B站董事长兼CEO陈睿
3月30日消息,第十届中国网络视听大会上,哔哩哔哩(以下简称“B站”)董事长兼CEO陈睿在演讲中分享,年轻人对于科技内容的兴趣越来越浓厚,目前科技类的视频已经成为了B站最受用户欢迎...
日期:10-04
苹果已明确获得FaceTime.com域名所有权(facetime.apple.com)
  据国外媒体报道,苹果已经与FaceTime.com域名的所有者达成协议,获得了该域名的所有权。   早在去年6月7日,当苹果在其全球开发者大会(WWDC)上宣布同步推出iPhone 4和FaceTi...
日期:07-26
华新环保科技_环保改造·绿色转型,华微电子推动公司绿色发展
  绿色发展是以效率、和谐、持续为目标的经济增长和社会发展方式,已经成为当今世界的重要趋势。而且推动绿色发展,可以实现环境保护与经济发展的深度融合,解决生态与发展问...
日期:04-18
苹果最新款智能手表「人工智能悄然重塑苹果 iPhone 15 系列和新款智能手表」
9月13日消息:不同于其他企业试图用人工智能进行重大转型,苹果正在利用这种新兴技术改善其新设备的基本功能。苹果在不使用「人工智能」这个词来描述这种新兴技术的情况下,展示...
日期:09-13
2023中国移动全球合作伙伴大会开幕 数字政企领域多项前沿成果获关注
通信世界网消息(CWW)10月11日,中国移动全球合作伙伴大会在广州保利世贸博览馆开幕。在为期三天的展会中,来自全国通信行业的领导者齐聚一堂,探讨影响未来通信行业发展的主要趋势...
日期:10-11
任天堂博物馆设计图公布 预计2024年3月建成「任天堂展会」
昨晚,任天堂在一场直面会上公布了任天堂博物馆的最新设计图,该博物馆预计将于2024年3月在日本建成。博物馆将位于京都的任天堂厂区,将成为该地区的新地标。 博物馆的展示内容将...
日期:09-16