您的位置:首页 > 互联网

Llama 2基于UCloud UK8S的创新应用

发布时间:2023-08-24 15:57:42  来源:互联网     背景:

(原标题:Llama 2基于UCloud UK8S的创新应用)

在上期文章中,我们简要回顾了Llama模型的概况,本期文章我们将详细探讨【关于Llama 2】,你需要知道的那些事儿。

1、Llama 2的性能有多好?

作为Meta新发布的SOTA开源大型语言模型,Llama 2是Llama模型的延续和升级。Llama 2家族模型包括了Llama 2预训练模型和Llama 2-chat微调模型,分别有7B、13B和70B参数量的版本,覆盖了不同的应用场景需求。

1.1训练数据

Llama 2在预训练语料上比Llama增加了40%,增至2万亿个token,且训练数据中的文本来源更加的多样化。此外,Llama 2对应的微调模型是在超过100万条人工标注的数据下训练而成。

图1: Llama 2模型概览 [1]

1.2模型评估

简单制作无人机可以飞

从模型评估上看,Llama 2在众多的基准测试中,如推理、编程、对话能力和知识测验上,都优于一代Llama和现有的开源大模型。

图2: Llama 2在不同基准测试上的得分

虽然Llama 2-70B在推理任务上表现接近GPT-3.5,但是在综合性能上还是无法与OpenAI的GPT-4和Google的PaLM-2-L等闭源大模型相媲美,尤其在编程基准上远落后于两者。

图3: Llama 2,GPT和PaLM三者在不同基准测试上的得分

2、解锁Llama 2的模型结构

2.1 Llama 2模型架构

Llama 2在预训练设置和模型架构上和一代模型非常相似。

如图4和图5所示,Llama系列模型都使用了自回归Transformer架构,即Transformer's decoder-only架构。两代模型的一致性体现在:

a. 预归一化(Pre-normalization):对每一个transformer的子层输入都进行归一化,使用RMSNorm归一化函数

b. SwiGLU激活函数:在前馈神经网络(FFN)使用SwiGLU 激活函数替换了Transformer中的 ReLU 激活函数来提升性能

c. 旋转嵌入编码(Rotary Positional Embeddings,RoPE):RoPE可以兼顾相对位置和绝对位置的信息以提高模型的泛化能力

2.2 Llama 2训练亮点

除了上文提到的训练数据的增加,Llama 2在训练过程方面也有两个亮点值得我们关注。第一,上下文长度的扩大提升了模型的理解能力;第二,分组查询注意力机制提高了模型的推理速度。

2.2.1上下文窗口扩大

Llama 2的上下文长度比Llama扩大了一倍,从2048个token拓展至4096个token。更长的上下文窗口意味着更多的聊天用例可被采用,进而模型的理解能力得以提升。

2.2.2 Grouped-Query注意力

在Attention的实现上,Llama 2 30B以上的模型采用了分组查询注意力机制(Grouped-Query Attention,GQA),见图5和图6。

图6: Llama 2使用GQA [2]

自回归模型的解码通过缓存序列先前标记的键(K)值(V)对来加速注意力的计算。然而随着Batch Size和上下文窗口的增大,多头注意力模型(Multi-head Attenrion,MHA)的内存成本会随之显著增大。

图7: "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints" [3]

GQA的优势在于其将Query进行分组,组内共享KV,这样使得K和V的预测可以跨多个头共享,从而显著降低计算和内存需求,提升推理速度 。

2.3 Llama 2-chat微调流程

Meta致力于在偏好数据上训练奖励模型,然后采用强化学习进行优化,从而提高生成的质量。

2.3.1 SFT + RLHF by RS and PPO

和InstructGPT类似,在Llama 2-chat对话模型微调流程分为:

a. 自监督训练后获得Llama 2基座模型

b. 监督微调(Supervised fine-tuning,SFT)

c. 人类反馈强化学习(Reinforcement learning with human feedback,RLHF):拒绝采样 + 近端策略优化

RLHF使用了拒绝采样(Rejection Sampling fine-tuning,RS)和近端策略优化(Proximal Policy Optimization,PPO)两个优化算法。拒绝采样的原理为模型输出时采样K个结果,用当前时刻最好的奖励模型打分,选择奖励值最高的一个。在强化学习阶段进行梯度更新,并结合PPO进行RS加PPO的优化处理。

图8: Llama 2-chat的微调过程[1]

Meta一共迭代了5个RLHF版本,分别从V1-V5,但仅公布了最新的V5版本。V5版本迭代的步骤下图所示。

图9: RLHF-V5迭代流程

2.3.2 Quality Is All You Need

Meta使用用户偏好数据训练的两个独立的奖励模型Helpfulness RM和Safty RM,分别对有用性和安全性进行了优化。在SFT的过程中,Llama 2的官方论文[2]着重强调了只需少量高质量的SFT偏好数据就能显著提升结果质量(Quality Is All You Need)。此外,这篇论文也是第一篇指出“RLHF从根本上提高了大模型性能的上限”的论文。

图10:Llama 2论文中强调的“Quality Is All You Need"[2]

综上,Llama 2训练流程给我们最重要的一个启示是:

奖励模型不仅是RLHF的关键,也是整个大模型效果的关键;数据质量又是奖励模型的关键。[4]

03、Llama 2在UCloud UK8S上的实践

3.1下载模型

3.1.1下载模型

从HuggingFace上克隆Llama 2的模型 [5]。本文使用的是Llama 2-chat-7b模型。

3.1.2安装WebUI工具

oobabooga开源的text-generation-webui [6] 一个大模型的可视化工具包,安装方法如下:

a. 进入Text Generation的github

b. 选择一键安装包安装或者手动安装

c. 我们将Llama 2模型文件放入text-generation-webui/models目录下,文件结构如下图:

3.2构建镜像

根据Uhub容器镜像库的说明:

1. 首先,在Uhub上创建镜像库

2. 其次,在云主机创建镜像,并打标

3. 最后,将云主机镜像推到Uhub中

3.3配置UK8S集群

1. 创建UFS文件系统并挂载。

2. 创建UK8S容器云。创建集群时,Node的配置可参照下图:

集群创建之后,点击“详情”按钮,将“外网凭证”拷贝到~/.kube/config文件中。同时,需要安装和配置Kubectl命令行工具。

3. 在UK8S中使用UFS

用创建好的UFS作为UK8S集群的共享存储。

根据在UK8S中使用UFS文档,创建PV和PVC。

a. 创建Pod:编写配置文件ufspod.yml

执行配置文件

b. 进入Pod

查询Pod Name:

在Pod内部启动一个Bash Shell:

c. 在线推理

运行server.py文件

至此,我们就可以在Web端和Llama 2进行对话了。

本期我们介绍了【关于Llama 2】你需要知道的那些事儿。Llama系列模型由于其体积小且开源的特性,在AI社区的热度和口碑都居于高位,可以预见短期内将有更多基于Llama 2定制化的微调模型和相关服务涌现。

下期文章我们将聚焦“LangChain+大模型+向量数据库”在云端的部署和推理,敬请期待~

4、参考文献

[1] Llama 2官方公告

[2] Llama 2官方论文

[3] "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints " by Google Research

[4] "Llama 2: an incredible open LLM" by Nathan Lambert

[5] Llama 2 models

[6] Text generation web UI github

三星lifestyle


返回网站首页

本文评论
快手电商2022年GMV达9012亿 四季度GMV实现3124亿_快手营收2020
凤凰网科技讯 3月29日消息,快手发布2022年第四季度及年度业绩。财报显示,2022年全年快手电商交易总额(GMV)同比增长32.5%达9012亿,进一步获取市场份额。尽管四季度受到供应链及物...
日期:03-29
乐信:第二季度营收24亿,环比增长40.9%_快看|乐信Q3财报:营收与去年持平,分期消费用户大增
讯8月17日上午消息,乐信今日发布2022年第二季度未经审计财务业绩,财报显示,第二季度乐信促成借款491亿元,环比增13.9%;在贷余额866亿元,环比增3.3%;营收24亿元,环比上升40.9%。   ...
日期:08-17
大模型时代的数据标注:从劳动密集向技能密集升级「劳动密集型转型」
通信世界网消息(CWW)算力、算法和数据是人工智能的“三驾马车”。过去的十多年,算力、算法、数据等技术的创新和迭代,都取得了“大爆炸”式发展。ChatGPT横空出世背后,有海量训练...
日期:06-25
微软警告IT管理员关于Windows 11 2022更新(22H2)的.ppkg预配包被破坏了
正如报道所说,微软上个月开始推出Windows 11的22H2版本。正如人们所预料到的那样,这次推出并非没有问题和漏洞。例如,许多用户报告更新失败,错误代码是"0x800f0806"。还有一些常...
日期:10-08
睡觉时身体为什么会抖一下?或许是大脑的求救信号_睡觉时身体为什么会抖动
你是否有过这样的经历?在即将进入梦乡时,身体不由自主的抖动一下,像是触电一般,瞬间被惊醒。有网友认为,这是大脑发现你很久没有活动,所以它就动动你,想试试死了没有。其实,这是临睡...
日期:07-03
集体降薪后 刘强东启动京东近年来调整!总裁/副总裁大批换人_刘强东卸任京东集团总裁
由于种种原因,刘强东过去很长时间一直身居幕后指挥,但是近日,刘强东高调回到了前台,而且接连出招,脆利落。11月22日,刘强东发布全员内部信,立刻引爆网络。刘强东在信中宣布,京东副总...
日期:12-03
东方甄选及其模仿者们,谁能拥有好未来呢「东方甄选及其模仿者们,谁能拥有好未来?」
声明:本文来自于微信公众号 卡思数据(ID:caasdata6),作者:潮关,授权转载发布。东方甄选最近的新闻有些多。先是“一根玉米引发的血案”,东方甄选被迫站上舆论中心位,与辛巴隔平台...
日期:11-08
机器人时代来临?天九春晚揭开未来科幻世界冰山一角
  伴随着2020年延续至今的新冠疫情,如今世界似乎正因此加速进入“机器人时代”。不谓侠观察到,当很多人为降低风险,隐居在家的时候,机器人却开始充当起“人”的角色。   还...
日期:07-16
上线一天用户突破3000万 Threads为什么这么火爆?
7月7日 消息:新社交媒体产品Threads在上线短短几小时内突破1000万用户,上线一天达到3000万注册用户。作为Meta旗下的产品,Threads被认为是与Twitter竞争的产品,但并不具备直接...
日期:07-07
日本:敞开训练AI不用管版权,LeCun:机器学习天堂
西风 发自 凹非寺量子位 | 公众号 QbitAI大模型狂潮下,日本政府坐不住了。直接宣布:不会对训练AI所使用的数据实施版权保护。这也就意味着,训练AI可以使用任何数据。不管是非营...
日期:06-03
特斯拉宏图之第二篇章_马斯克最新大饼:特斯拉的“宏图”第三篇章猜想
  北京时间 3 月 21 日消息,特斯拉公司 CEO 埃隆・马斯克 (Elon Musk) 上周发布推文称,他正在制定“宏图”(Master Plan) 的第三篇章。那么,马斯克会在这个总体规划的第三篇...
日期:07-09
《窃听风云2》今起热映  360称窃私类手机木马已超600款(窃听风云手机窃听)
  如果说默多克“窃听门”风波让人意识到,窃听并非遥不可及的“科技幻想”,而是真真切切的存在;那么今日起公映的《窃听风云2》,再度以近乎完美的窃听手段,让观众震惊于现代人...
日期:07-22
清科沙丘创业中心线上培训干货满满 南京市玄武创新创业大赛复赛决出20强
  随着时间推移,“凤栖玄梧 才聚硅巷”南京市玄武创新创业大赛的比赛越来越趋于白热化。在初赛中脱颖而出的100强创企,于9月10日—9月12日进行了复赛,“强中强”比拼之后,最...
日期:12-26
抄底的人赚大了 特斯拉股价翻倍:降价到20万出头后供不应求_特斯拉股票大幅涨价
去年底,由于马斯克抛售股票套现等原因,特斯拉股价一路暴跌,市值甚至跌到3000多亿,股价一度跌到100美元左右,当时很多投资者不满。然而特斯拉股价反弹的也很快,周三收盘又回到了200...
日期:02-10
国庆 乡村旅游「携程:国庆后乡村景点门票订单占据整体门票四成以上」
10 月 31 日消息,携程平台数据显示,国庆假期之后,乡村景点门票订单占据整体门票订单四成以上,较去年同期提升超 10 个百分点;乡村民宿订单量不断走高,最近两个周末订单环比上月提...
日期:11-01
谷歌 Chrome 浏览器发现漏洞,需尽快升至 84 及以上版本_谷歌浏览器更新错误3
  8 月 10 日 , 安全研究员在 Windows,Mac 和 Android 的基于 Chromium 的浏览器(Chrome,Opera 和 Edge)中发现了零日 CSP 绕过漏洞(CVE-2020-6519)。该漏洞使攻击者可以完...
日期:07-15
英国的芯片公司「英国芯片设计公司Arm宣布新任CFO」
  财联社9月27日电,英国芯片设计公司Arm当地时间周一宣布任命Jason Child为首席财务官(CFO)。Child拥有超过30年的高增长公司领导经验和全球金融职能扩展经验。Child将于2022...
日期:09-27
文心一词的出处「通义千问、文心一言和ChatGPT回答热点话题 结果意外」
凤凰网科技讯 4月7日晚间消息,阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请符合条件的用户可...
日期:04-08
我国自动驾驶事故案例_国内自动驾驶上路“有法可依” 首次明确事故责任认定
作者: 钱童心   [ 元戎启行预计与车企合作量产后,可以使自动驾驶方案的成本进一步降至3000美元左右。 ]   8月1日,国内首部关于智能网联汽车管理的法规《深圳经济特区智能...
日期:08-03
蓝湖&MasterGo CEO任洋辉:期待更多创新企业和团队参与到共创计划「蓝湖生态休闲酒店」
越来越多的团队和个人意识到,国产化替代不仅仅是要把国内厂商使用的软件替换成国产化的,而是要与数智化转型结合起来,创新发展,形成真正的价值替代。MasterGo作为一款具备完整和...
日期:08-02