您的位置:首页 > 互联网

重磅,Meta开源“次世代”大模型Llama 2,扎克伯格:免费可商用「max扎克伯格」

发布时间:2023-07-19 20:32:20  来源:互联网     背景:

<script> var cid = "1544573".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

爱库存是真的吗

手机的未来是可折叠吗

编辑导读:Meta 发布了一款新的开源大模型 Llama 2,该模型可免费用于研究和商业用途。Llama 2 是 Llama 1 的升级版本,在数据质量、训练技术、能力评估、安全训练和负责任的发布方面有了显著的进步。与 GPT-3 相比,Llama 2 的基础模型更强大,并且微调后的聊天模型可以与 ChatGPT 媲美。扎克伯格在 Facebook 上发表了关于 Llama 2 的声明,称其为大模型的次世代产品。Llama 2 的发布将对大模型生态系统带来重大进展,帮助企业实现定制化和降低成本的产品。此外,Llama 2 还通过与微软合作,提供优化版本,支持 Windows 本地运行。这一发布被认为将改变大模型的市场格局。

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权转载发布。

今日凌晨,就在我们还在睡梦中时,大洋彼岸的Meta干了一件大事:发布免费可商用版本Llama2。

max扎克伯格

Llama2是Llama1大模型的延续,在数据质量、训练技术、能力评估、安全训练和负责任的发布方面有实质性的技术进步。

在研究共享意愿历史最低,监管困境历史最高点的当今AI时代,Meta这一步无疑为大模型生态系统带来了重大进展。

从技术报告上看,Llama2的基础模型比GPT3更强,而微调后聊天模型则能ChatGPT匹敌。相信后续Llama2将帮助企业实现更多的定制化和降低成本的产品。

以下是扎克伯格在Facebook上发布的关于Llama2的“宣言”,更是将其称之为大模型的次世代的产品:

我们正在与微软合作,推出Llama2,这是我们开源大语言模型的下一代产品。Llama2将免费提供给研究者和商业使用者。

Meta一直投身于开源事业,从领先的机器学习框架PyTorch,到像Segment Anything,ImageBind和Dino这样的模型,再到作为Open Compute Project部分的AI基础设施。我们一直在推进整个行业的进步,构建更好的产品。

开源推动了创新,因为它让更多的开发者能够使用新技术。同时,软件开源,意味着更多的人可以审查它,识别并修复可能的问题,从而提高了安全性。我相信如果生态系统更加开放,将会释放更多的进步,这就是我们为什么要开源Llama2。

今天,我们发布了预训练和微调的模型Llama2,参数分别为70亿,130亿和700亿。Llama2比Llama1预训练的数据多40%,并对其架构进行了改进。对于微调模型,我们收集了超百万的人类注释样本,并应用了有监督的微调和RLHF,在安全性和质量方面是领先的。

你可以直接下载这些模型,或者通过Azure以及微软的安全和内容工具访问这些模型。我们还提供一个优化版本,支持Windows本地运行。

我非常期待看到你们的创新成果!

对于Llama2的出现和发布,深度学习三巨头之一的Yann LeCun表示,这将改变大模型的市场格局。

max扎克伯格

有网友很快就向Meta发送了申请,并在几个小时内获得了许可,已经在应用了:

max扎克伯格

OpenLLM大模型排行榜对Llama2进行了关于“Eleuther AI Language Model Evaluation Harness” 中的4个关键基准的评估:

max扎克伯格

其中,Llama-2-70b获得了平均分、科学问题ARC、常识推理HellaSwag等指标的第一名;文本多任务准确性MMLU指标被基于Llama-30B 的微调模型Platypus-30B超过;生成问题答案真实性TruthfulQA (MC)指标位列第8名。

论文地址:

https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

项目地址:

https://github.com/facebookresearch/llama

Llama2的一些关键点aw的优势在哪?

Meta发布了多个模型,包括7亿,13亿,34亿,70亿参数的Llama基础模型,以及同等规模的Llama变体。Meta将预训练语料库的大小增加了40%,将模型的上下文长度增加了一倍,并采用了分组查询注意力机制(grouped-query attention)。

具体而言,有以下几个关键点:

  • 能力:广泛测试后,在非编码方面,确定这是第一个能达到ChatGPT水平的开源模型。

  • 代码/数学/推理:论文中关于代码数据的讨论较少,但有一个模型在某些评价中超越了其他模型。

  • 多轮一致性:采用了新的方法,Ghost Attention (GAtt),以改善模型的多轮对话一致性。

  • 奖励模型:为避免安全性和有用性的权衡,采用了两个奖励模型。

  • RLHF过程:采用了两阶段的RLHF方法,强调了RLHF对模型写作能力的重要影响。

  • 安全性/伤害评估:进行了详尽的安全评估,并采用了特定的方法以增强模型的安全性。

  • 许可证:模型可供商业使用,但有一定的用户数量限制,也即日活大于7亿的产品需要单独申请商用权限。

Llama2的技术细节

Huggingface科学家Nathan Lambert在一篇博客也对Llama2的技术报告进行了解析。

这个模型(Llama2)与原始的Llama在结构上相似,主要的改变在于数据和训练过程,以及增加了上下文长度和分组查询注意力(GQA),且在聊天功能的应用性和推理速度方面有所提高。

训练语料库来自公开资源,不包含Meta的产品或服务的数据。模型在2万亿个数据标记(Token)上训练,以提高性能并减少错误,并尽力删除含有大量私人信息的数据。

论文大部分关于评估和微调,而非创建基础模型。

论文接着遵循RLHF流程,训练一个奖励模型并使用强化学习(RL)进行优化。

max扎克伯格

此外,技术报告也证实了一点,奖励模型是RLHF的关键,也是模型的关键。为了得到一个好的奖励模型,Meta收集了大量偏好数据,这些数据远远超过了开源社区正在使用的数据。

Meta收集二元对比数据,而非其他更复杂类型的反馈。这类似于1-8的Likert量表,但更侧重于质性评价如“显著优于、优于、稍优于或差不多/不确定”。

他们使用多轮次偏好,模型的响应来自不同的模型训练阶段;Meta的关注点更在于有用性和安全性,而不是诚实度(honesty),在每个数据供应商的数据收集阶段使用不同的指令。

此外,在数据收集过程中,团队添加了额外的安全元数据,显示每一轮模型的哪些响应是安全的。在建模阶段,他们排除了所有“选择的响应不安全而其他响应安全”的例子,因为他们认为更安全的响应会更受人类喜欢。

奖励模型

研究人员训练了两个奖励模型,一个专注于有益性,另一个专注于安全性。这些模型基于语言模型构建,用线性回归层替换了原模型头部。他们始终使用最新的聊天模型,目的是为了减少在RLHF训练中的分布不匹配。

一些关键的技术细节包括:

  • 起始奖励模型基于开源数据训练,并用于生成早期供应商数据。

  • 他们保留了一些Anthropic的无害数据(占他们自己的90%),但没有给出具体原因。

  • 他们只训练一个epoch,防止奖励模型过拟合。

  • 奖励模型的平均准确率在65-70%范围内,但在"显著不同"的标签上,准确率达到80-90%。

其他有趣的发现:

  • 在奖励模型的损失函数中添加了一个margin项(与偏好的置信度成比例),以提高有益性。

  • 随着模型的训练和改进,数据对模型输出的一致性评价越来越高

  • 训练的奖励模型在评估中表现优于使用GPT-4生成的奖励模型提示。

图表显示,奖励模型的准确性随着时间的推移有所提高。值得注意的是,尽管OpenAssistant奖励模型可能没有得到高度认可,但是GPT-4作为奖励模型的性能表现为其他模型提供了基准。

Meta在讨论微调结果时提到,奖励模型的准确性是Llama2-Chat性能的关键指标。这符合人们对RLHF会充分利用奖励模型知识的理解。

RLHF和微调

Meta通过使用RLHF方法来提升模型性能,如下图所示使用最优秀的奖励模型来评估各种模型,以此展示RLHF如何将生成的文本推向更高的奖励。Meta迭代训练了5个RLHF版本,每个版本的数据分布都有所改进。

max扎克伯格

Meta指出,第三方的SFT(有监督微调)数据多样性和质量往往不足以满足对话式指令的LLM对齐需求。Meta通过筛选第三方数据集中的高质量示例,显著提高了结果。他们也强调了注释数据的数量对于再现性的重要性。

Meta观察到,不同的注释平台和供应商可能会导致模型性能的显著差异,因此在使用供应商获取注释时,数据检查仍然非常重要。他们的做法是通过对比人类注释和模型生成的样本来验证数据质量。

在数据质量确立之后,Meta开始关注强化学习(RL)部分。他们发现,即使有熟练的注释员,每个人的写作风格也会有很大的差异。一个在SFT注释上进行微调的模型会学习这种多样性,但同时也会学习到一些糟糕的注释。他们指出,模型的性能是由技巧最好的注释者的写作能力来限制的。

Meta确实承认,这个过程需要大量的计算和注释资源。在整个RLHF阶段,奖励建模数据对于模型改进至关重要。

结论是,有效的RLHF需要一个中等大小的团队。虽然一个1-3人的团队可以发布一个好的指令模型,但实行RLHF可能需要至少6-10人。这个数字会随着时间的推移而减小,但这种类型的工作需要与外部公司签订合同和保持紧密的联系,这总是会耗费一些时间。

此外,Meta对比了方法间的基本差异以及它们的使用时机:

  • 拒绝抽样(RS)进行更广泛的搜索(每个提示生成更多的数据),而PPO则对奖励模型进行更多的更新。

  • 最终方法之间的差异并不显著(与WebGPT的发现相似)。

  • 在RLHFV4中,仅使用了拒绝抽样,然后在最后一步中使用PPO和拒绝抽样进行微调(在一些评估中,PPO有轻微的优势)。

评估

论文以多种方式评估他们的模型。在自动化基准测试中,例如Open LLM Leaderboard(MMLU,ARC等)的首字母缩略词,Llama2在所有规模上都比其他任何开源模型要好得多。

模型在诸如MMLU这样的不那么显眼的基准测试中也得分更高,这是因为他们的大量数据工作和RLHF的调整。然而,他们的模型在与闭源模型的比较中并未表现出色。

此外,论文还深入研究了当前流行的评估技术,人类注释者和LLM-as-a-judge由于其普遍性和可用性而受到欢迎。尽管人类评估可能受到一些限制和主观性的影响,但结果显示了Meta在开源领域的主导地位。

max扎克伯格

他们采用了模型作为评判的技术,并用Elo图展示了RLHF这个随时间变化的概念,这与Anthropic的AI工作类似。在性能上,他们的模型在RLHFv3之后超过了ChatGPT,这可以在图中看到PPO方法提供了一定的提升:

这篇论文进行了多项评估以展示其一般性能力,包括建立奖励模型。奖励模型的测试亮点:

  • 调整奖励模型分数以适应人类评价者的偏好评估,尽管误差范围较大。

  • 与在开源数据集上训练的奖励模型进行比较,以展示开源领域的可能实现。

人类/模型评估的亮点:

  • 在ChatGPT和Llama-2-Chat的输出上评估模型,避免模型因风格偏好而提高自身结果。

  • 利用评价者间可靠性度量,如Gwet的AC1/2,这些统计工具为此项工作专门设计。

  • 承认人类评估的限制,包括大型评估提示集未覆盖所有实际应用,缺少对编码/推理的评估,只评估最后的对话轮次。

最后,附上Llama2的在线测试地址:

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI?continueFlag=749dd0fc30bb1d0718aaa9576af51980

参考文献

https://twitter.com/i/status/1681354211328507917

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

https://www.interconnects.ai/p/llama-2-from-meta?utm_source=profile&utm_medium=reader2

iphone14黄点

俄罗斯中国品牌汽车销量


返回网站首页

本文评论
年货节攻略:苏宁汽车承包出行服务,为用户回家保驾护航
  2019年,中国汽车产业处于深度调整期,汽车市场整体持续下行,汽车品牌生存空间再次被压缩,寒冬之下,苏宁汽车借助智慧零售逆势增长。在近期苏宁汽车召开的2020年战略发展研讨...
日期:05-22
金山卫士完美搞定流量监控和网速测试_金山卫士网络速度
  自金山网络正式成立之后,金山卫士便与金山毒霸一起成为其两大拳头产品之一。此后,金山卫士研发团队再接再厉,不断推陈出新,在短短的一个月期间,不仅推出了震动业界的金山卫...
日期:07-25
unity官方文档_视频游戏公司Unity拒绝AppLovin 175亿美元收购要约
相关新闻:   AppLovin开价175亿美元收购视频游戏公司Unity   讯 北京时间8月15日晚间消息,据报道,游戏软件平台Unity Software今日拒绝了游戏软件公司AppLovin 175.4亿美元...
日期:08-17
时尚之都的卡萨帝:米兰高定设计师成为体验官_卡萨帝风格
提到时尚,意大利可谓是其公认的代名词,意大利的著 名城市米兰更是被誉为“世界时尚之都”,而它也是卡萨帝布局海外的其中一站。在推进全球化发展的进程中,卡萨帝先后亮相了米兰...
日期:04-12
支付宝所有权腾挪背后:马云“奉命行事”_马云支付宝事件马云是怎么说的
3月3日,马云在北京中国大饭店接受《中国企业家》专访 美国雅虎公司5月12日披露,阿里巴巴集团(下称“阿里”)已放弃对旗下公司支付宝的所有权,并将其转让给集团首席执行官马云...
日期:07-27
2020国际大数据竞赛进入复赛冲刺阶段 “新基建”迎来复合型AI人才生力军
  经过全球580所高校、5000名选手的数月激烈竞逐,2020国际大数据竞赛进入最后的冲刺阶段,决赛即将来袭。7月20日晚,中国工程院副院长、呼吸病学与危重症医学专家王辰院士,百...
日期:07-14
上半年互联网财产保险保费收入530.4亿 同比减少1.4%_互联网保险份额
  中新经纬9月28日电 27日,中国保险行业协会官网发布《2022年上半年互联网财产保险发展分析报告》(以下简称《报告》)。  根据协会统计,2022年上半年,共计73家财产保险公司开...
日期:09-29
抢先推出“元宇宙”饮料,可口可乐赢麻了「可口可乐小宇宙饮料」
声明:本文来自于微信公众号 微果酱(ID:wjam123456),作者:陈出木,授权转载发布。01#可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历史。...
日期:12-21
本山诉天涯谷歌索赔 网站不服一审上诉
  著名演员赵本山的“不差钱”等小品台词及其卡通形象,被天涯在线和谷歌等网络媒体擅自使用,赵本山因此起诉两公司索赔405万元。昨天记者获悉,此案一审判决两被告赔偿赵本山...
日期:07-26
苹果发布Safari技术预览版143(Safari 11)
  苹果今天发布了 Safari Technology Preview 143 的更新,以测试可能会引入到未来版本的 Safari 中的功能。   Safari Technology Preview 143 版包括针对 Web Inspecto...
日期:10-14
公司餐补突然不发违法吗「员工询问2个月餐补未发缘由:结果遭老板辞退」
4月10日消息,据白鹿视频报道,浙江台州一女子因询问2个月餐补费未发缘由遭辞退。当事人万女士介绍,入职时公司明确承诺有餐补,两个月没发餐补后,自己去询问老板,老板称餐补是公司的...
日期:04-10
华为Mate 40 Pro官翻开售:麒麟9000仅4299元「mate40pro官价」
华为Mate 40 Pro在发布之后就面临一机难求的局面,搭载的麒麟9000处理器也被不少用户追捧,近日华为官网开售Mate 40 Pro官翻版,128GB版本的售价为4299元。Mate40Pro采用了极具辨...
日期:05-27
微软CFO:不会收购SAP 对Sybase也没兴趣
  微软首席财务官(CFO)彼德·克莱恩(Peter Klein)周五表示,微软近期没有大型并购计划。   克莱恩认为,随着经济的复苏,业内将会出 现大量并购交易,但微软并无意竞购 Sybase...
日期:07-29
美团优选发布服务规范强化安全保供(美团优选安全管理方针)
  2月3日,美团优选发布《社区电商防控保供配送服务规范》(以下简称规范),从供应商管理、分拨中心配送流程、交付环节无接触自提、退货流程等方面界定了社区电商在特殊时期...
日期:07-16
名创优品昂首店开业 海外门店已突破2000家_名创优品直营店
10月8日 消息:近日,名创优品位于法国里昂大都会圣热尼拉瓦勒的门店正式开业,同时,名创优品海外门店突破2000家。据了解,名创优品里昂店面积为200平方米,位于圣热尼拉瓦勒的Saint-...
日期:10-10
Groupon等互联网新贵初期发展超前辈(groupon创始人)
  风投公司为何对Facebook, Groupon 和Zynga这样的互联网公司做出天文数字般的估值?在下面表格中,这三家公司的营收增长一目了然,风投公司如此青睐这些公司也就不足为奇了。...
日期:07-26
Mate50时隔两年归来,华为的竞争对手已不是苹果?「华为不会再有mate50了么」
Tech星球(微信ID:tech618)文|杨晓鹤封面来源|图虫创意9月6日,时隔两年归来,华为再次发布了Mate系列手机。虽然发布会依旧有“吊打苹果”传统,不过“余大嘴”余承东一句英文简单带...
日期:09-22
运营商 IP 反欺诈服务上线“统一移动基础服务”(UMS),前期验证效果达 97%
  9 月 1 日消息 中国信息通信研究院昨日宣布,中国信通院泰尔终端实验室联合国内电信运营商,联手打造“IP 反欺诈服务”。   该服务是基于运营商固网宽带、手机信令等数...
日期:01-28
小米总裁王翔:清库存初见成效 中国区已回到健康水平「小米王翔股份」
日前,小米集团正式发布了2022年Q3财报,总营收人民币705亿元,经调净利人民币21亿元。智能手机出货量连续两个季度环比提升,市占率稳居全球前三。谷歌手表怎么样财报显示,该季度小...
日期:11-25
Windows Phone一周接连两天出现故障
  据国外媒体报道,Windows Phone系统的用户在本周内接连两天遭遇到服务中断的情况,这也使得人们对于Windows Phone性能稳定性再一次提出质疑。   本周四(5日),Windows Phone...
日期:07-27