您的位置:首页 > 移动互联

基于高性能服务器的ChatGPT模型该如何训练?

发布时间:2023-02-06 12:02:58  来源:互联网     背景:

关键词:深度学习;高性能计算;数据分析;数据挖掘;LLM;PPO;NLP;ChatGPT;人工智能;高性能服务器;HPC;AIGC

随着人工智能、深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP等技术的快速发展,ChatGPT得到快速发展。ChatGPT是OpenAI开发的大型预训练语言模型,GPT-3模型的一个变体,经过训练可以在对话中生成类似人类的文本响应。

小米OTA升级

ChatGPT背后的算法基于Transformer架构,这是一种使用自注意力机制处理输入数据的深度神经网络。Transformer架构广泛应用于语言翻译、文本摘要、问答等自然语言处理任务等领域。ChatGPT可用于创建能与用户进行对话的聊天机器人。

一、何为ChatGPT?和过去的人工智能有哪些区别?

ChatGPT是人工智能革命性的一大进步,众所周知,过去想要寻找某个问题的答案,可以百度、谷歌等搜索页面上手动搜索各种答案,百度和谷歌只通过爬虫技术搜索大量已知问题的相关答案。但是ChatGPT不一样,ChatGPT几乎所有的问题都可以智能地回答,并且保证原创性,答案与以前发表的任何已知答案完全不同!ChatGPT甚至可以编程、绘画、写诗、写文章!

目前,微软正在就ChatGPT开发者OpenAI投资100亿美元进行谈判。如果达成交易,OpenAI估值将达到290亿美元。与此同时,微软正在将OpenAI人工智能技术纳入其办公软件Office。

据悉,OpenAI与微软的合作历史悠久。2019年,OpenAI在微软投资10亿美元后,随后两家公司进行了多年的合作,OpenAI开发微软Azure云计算服务中的人工智能超级计算技术。

二、ChatGPT训练全过程

ChatGPT作为一个智能对话系统,效果极其震撼。记得上一次引起如此轰动的AI技术是两年半以前的事了,那时候人工智能如日中天;多模态领域是以DaLL E2、Stable Diffusion为代表的Diffusion Model,也就是最近一直流行的AIGC模型。

在整体技术路线上,ChatGPT引入了“手动标注数据+强化学习”(RLHF,从人的反馈进行强化学习)来不断Fine-tune预训练语言模型。主要目的是让LLM模型学会理解人类命令的含义(比如写一篇短文生成问题、知识回答问题、头脑风暴问题等不同类型的命令),让LLM学会判断对于给定的提示输入指令(用户的问题)什么样的回答是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。

在“人工标注数据+强化学习”的框架下,具体来说,ChatGPT的训练过程分为以下三个阶段:

1、第一阶段

以GPT 3.5本身来说,虽然强大,但是很难理解不同类型的人类不同指令中所包含的不同意图,也很难判断生成的内容是否是高质量的结果。为让GPT 3.5初步理解指令中包含的意图,首先会随机抽取一批测试用户提交的prompt(即指令或问题),由专业的标注者对指定的提示给出高质量的回答,然后专业人员标注的数据对GPT 3.5模型进行微调。通过这个过程,可以认为GPT 3.5初步具备了理解人类提示所包含的意图,并根据这种意图给出相对高质量答案的能力。

2、第二阶段

在这个阶段里,首先由冷启动后的监督策略模型为每个prompt产生X个结果,人工根据结果质量由高到低排序,以此作为训练数据,通过pair-wise learning to rank模式来训练回报模型。对于学好的RM模型来说,输入,输出结果的质量得分,得分越高说明产生的回答质量越高。

基于高性能服务器的ChatGPT模型该如何训练?

3、第三阶段

本阶段不需要手动标注数据,而是使用前一阶段学习的RM模型,根据RM评分结果更新预训练模型的参数。具体来说,首先从用户提交的prompt中随机抽取一批新的命令(指不同于第一、第二阶段的新提示,实际上非常重要,对于提升LLM模型理解instruct指令的泛化能力很有帮助),由冷启动模型初始化PPO模型的参数。然后对于随机选取的prompt,用PPO模型生成回答answer,用前一阶段训练好的RM模型给出answer质量评估的奖励分数,这是RM对整个答案(由词序列组成)给出的整体reward。有了单词序列的最终回报,每个单词可以视为一个时间步长,把reward由后往前依次传递,由此产生的策略梯度可以更新PPO模型参数。这是标准的强化学习过程,目的是训练LLM产生高reward的答案,也即是产生符合RM标准的高质量回答。

如果我们不断重复第二和第三阶段,很明显,每次迭代都使LLM模型越来越强大。因为在第二阶段,RM模型的能力通过人工标注数据来增强的,而在第三阶段,增强的RM模型对新prompt产生的回答进行更准确的评分,并使用强化学习来鼓励LLM模型学习新的高质量内容,这类似于使用伪标签来扩展高质量的训练数据,所以LLM模型得到进一步增强。显然,第二阶段和第三阶段是相互促进的,这就是为什么不断迭代会有不断增强的效果。

尽管如此,小编认为在第三阶段采用强化学习策略并不一定是ChatGPT模型效果特别好的主要原因。假设第三阶段不采用强化学习,取而代之的是以下方法:类似于第二阶段的做法,对于一个新的prompt,冷启动模型可以生成X个答案,分别由RM模型打分。我们选择得分最高的答案形成新的训练数据,并进入fine-tune LLM模型。假设换成这种模式,相信效果可能会比强化学习更好。虽然没那么精致,但效果不一定差很多。第三阶段无论采用哪种技术模式,本质上很可能都是利用第二阶段学会的RM,起到了扩充LLM模型高质量训练数据的作用。

华为mate20x支持手写笔吗

以上是ChatGPT的训练过程,这是一个改进的instructGPT,改进点主要是标注数据收集方法上的一些差异。其他方面,包括模型结构和训练过程,基本遵循instructGPT。可以预见的是,这种Reinforcement Learning from Human Feedback技术将会迅速蔓延到其他内容生成方向,比如一个很容易想到的方向,类似“A machine translation model based on Reinforcement Learning from Human Feedback”等等。

但个人认为在NLP的某个特定内容生成领域采用这种技术意义不大,因为ChatGPT本身可以处理各种类型的任务,基本涵盖了NLP生成的很多子领域。所以对于某个NLP子领域,单独采用这种技术的价值不大,因为其可行性可以认为已经被ChatGPT验证了。如果将这种技术应用于其他模式的生成,如图片、音频、视频等,可能是更值得探索的方向。也许很快就会看到类似“A XXX diffusion model based on Reinforcement Learning from Human Feedback”之类的东西。

三、蓝海大脑高性能深度学习ChatGPT一体机

蓝海大脑通过多年的努力,攻克了各项性能指标、外观结构设计和产业化生产等关键技术问题,成功研制出蓝海大脑高性能深度学习ChatGPT一体机,支持快速图形处理,GPU 智能运算,性价比高,外形美观,满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。

快速、高效、可靠、易于管理的蓝海大脑液冷工作站具备出色的静音效果和完美的温控系统。在满负载环境下,噪音控制在 35 分贝左右。借助英伟达 NVIDIA 、英特尔Intel、AMD GPU显卡可加快神经网络的训练和推理速度,更快地创作精准的光照渲染效果,提供高速视频和图像处理能力,加速AI并带来更流畅的交互体验。

突破传统风冷散热模式,采用风冷和液冷混合散热模式——服务器内主要热源 CPU 利用液冷冷板进行冷却,其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式,可大幅提升服务器散热效率,同时,降低主要热源 CPU 散热所耗电能,并增强服务器可靠性;支持VR、AI加速计算;深受广大深度学习ChatGPT领域工作者的喜爱。

基于高性能服务器的ChatGPT模型该如何训练?

1、主要技术指标

可 靠 性:平均故障间隔时间MTBF≥15000 h

工作温度:5~40 ℃

工作湿度:35 %~80 %

存储温度:-40~55 ℃

存储湿度:20 %~90 %

声 噪:≤35dB

2、产品特点

集中管理:支持多种异构硬件平台、操作系统和应用程序,提供单一系统镜像,实现计算节点和图形工作站节点的集中管理和统一调度

负载均衡:提供强大的负载均衡能力,保证计算服务器的任务分配尽可能均匀,避免机器忙闲不均的现象。并根据服务器的负载指标(如CPU利用率、可用内存、IO等),可以采取保护措施

资源的有效利用:避免计算任务之间发生冲突,导致任务失败或计算时间延长

优先级管理:确保在资源不足时,紧急的项目或任务可以获得更高的优先级,从而更快地启动,避免影响设计和工程的进度

3、客户收益

实现统一的用户登录、验证、作业管理、数据管理;实现资源跨部门共享以及利用率最大化

加快企业的产品研发进度、大幅缩短研发周期、提升产品的设计开发效率

提供统一平台,最大化提升在深度学习、虚拟图像、HPC等领域的快速响应以及精准预测,带来更流畅的交互体验

提高客户满意度,在图像、视频、声音等提供实时用户体验、加快搜索速度

降低总体拥有成本,简化工作流程,加速多种工作负载,提高生产力,促进企业创新


返回网站首页

本文评论
360OS 奇络AI携手中集集装箱成功打造数字化员工安全项目
  近日,由360OS 奇络AI和中集集装箱共同打造的数字化员工安全项目圆满交付。此项目为中集集装箱第一个全板块重点推广的员工安全类数字化改造项目,基于先进的AI视觉识别技...
日期:07-14
抖音电商启动“春雨计划”,一批官方认证“优质电商内容创作者”即将诞生
  3月28日,抖音电商正式启动“春雨计划”,宣布将充分倾斜资源,提供更多的流量激励、权益保障和业务助力,鼓励商家和达人创作优质电商内容、提升长期经营效率。对于其中符合标...
日期:07-29
青年科普创新大赛:江苏 49 所学校比拼“未来太空车”_江苏省中小学生科技竞赛
刘成贺 / 摄  6 月 11 日,由江苏省科协、共青团江苏省委共同主办的第八届全国青年科普创新实验暨作品大赛江苏赛区的赛事活动,在南京科技馆落下帷幕。通过初赛选拔的 49 所...
日期:07-14
有赞再度闯关IPO谋变,悦商集团希望将所有社交软件私域流量盘活
  日前,中国有赞发布公告:其非全资附属公司有赞科技已向联交所重新申请,有赞科技股份以发售新股份(IPO)的方式于联交所主板上市,这也是有赞第二次提交IPO申请。  根据公告,有...
日期:07-28
2022年6000元预算投影仪怎么选,当贝X3激光投影仪最值得选「投影仪投300寸」
  关于投影仪购买,消费者是越来越注重品质体验,大家对于中高端投影仪选购越来越多。今天来说说6000元左右预算,2022年投影仪哪款值得买怎么选,以2款头部品牌投影仪,年度爆款当...
日期:07-25
以至臻设计,成就典范生活  Garmin佳明MARQ (Gen 2)打造高端运动美学
    近年来,各种潮流运动逐渐在不同圈层兴起,从户外露营的爆火,到飞盘吸引大量眼球,再到橄榄球的一夜成名;从水上运动帆船,到桨板与冲浪,再到冬季滑雪项目,越来越多的人开始加入到...
日期:01-14
何冰演讲《后浪》_何冰再度登台献讲《前浪》,美篇获网友点赞
  1月17日,春节前,美篇年度广告片《前浪》重磅上线,国家一级演员何冰继《后浪》之后再度登台演讲,该视频一经发布凭借首次聚焦中年社会问题随即火遍朋友圈。被人民网、央视网...
日期:08-24
当贝x3激光投影仪怎么样_2021年双十二优惠力度什么时候开始,当贝X3激光投影仪值得买
  2021年双十一刚刚过去,又即将迎来双十二,今天小编全面整理双十二活动什么时候开始优惠力度怎么样,推荐哪几款投影仪值得购买,下面一起来看看具体内容。京东618 手机 排名 ...
日期:07-26
百度智能云 ×美欣达|实现“双碳”目标,看下纺织业的智慧样本
  中国经济正处于由高速增长到高质量发展的转型过程中,伴随着产业升级,中国制造业也将逐步从“中国制造”转向“中国智造”。这就要求制造企业向“绿色”、“高效”发展,在这...
日期:07-28
深蓝畅想,用科技重构深海出行想象
  科技的发展,思维的拓宽,都离不开超前的理论及猜想。当穿行宇宙、瞭望星辰后,畅游深海似乎成为了人类下一个探索的目标……  秉持“用数字科技重构出行想象”的愿景,深蓝品...
日期:12-29
3000元档投影仪推荐:都是1080P分辨率,当贝D3X、坚果G9S、极米NEW Z6X、Z6X Pro为啥画质差距大?
  3000元档智能投影由于体积小巧、价格宜人,一直是销量最多的价格段位。像极米NEW Z6X、坚果G9S、当贝D3X,也都是这个段位的知名选手。  其中,NEW Z6X更是权威第三方机构I...
日期:07-14
肿瘤预防、风湿免疫病缓解、心梗急救……五位院士医生腾讯ME大会揭秘新进展
  有比mRNA更好的疫苗吗?急性心梗可通过药物有效预防?宫颈癌有望成为第一个被消除的癌症?风湿免疫病患者如何获得长期缓解?……  5月19日,2022腾讯医学ME大会(以下简称“...
日期:07-14
短道速滑任子威夺冠_“双金”闪耀 任子威助力中国短道速滑逐梦2022
  中国青年网讯 2022冰雪盛会燃情落幕,中国短道速滑队共收获2金1银1铜,以王者之姿结束了此次逐梦征程。2月16日晚上,收获两枚金牌的“冰上飞象”任子威在社交媒体上写道:“我...
日期:07-30
安徽省信创适配验证中心举办首届媒体开放日「安徽省信息技术应用创新适配验证中心」
  ​安徽省信息技术应用创新适配验证中心(以下简称“安徽省信创适配验证中心”)于2020年8月1日成立以来已经成为安徽省信息技术产业的一张新名片,并在助力开创安徽新局面、...
日期:07-26
harmonyos 2.0怎么退出_HarmonyOS 2版本更新!两个小技巧让你告别隐私泄露烦恼
  如今,手机作为我们的“贴身之物”,储存了太多个人隐私,从照片到聊天记录,从工作文件到身体健康信息。如何保护隐私安全,成为用户和厂商不容忽视的问题。华为一直把用户隐私安...
日期:07-14
重磅!特斯联与重庆市大数据发展局在城市安全大脑、双碳、算力算法领域达成战略合作,全面加速重庆数智化升级
  2022年4月27日,特斯联与重庆市大数据应用发展管理局(以下简称市大数据发展局)达成全面战略合作,特斯联将为重庆打造城市安全大脑、超算中心、双碳融跨平台等智能新基建, 并...
日期:07-14
人脸识别测温一体机部署校园门口,防疫与安全两手抓_校园人脸识别测温系统
  9月开学季来临,各地迎来学生返校高峰,新生注册报到、校园防疫、校园安全等需求集中爆发,传统管理手段和设施设备已无法满足需求,更新迭代势在必行。通过部署人脸识别测温一...
日期:10-12
三星BESPOKE HOME新品来袭,你最Pick谁?「三星bespoke系列」
  2022年4月7日,三星家电新品发布会以 “科技·艺术·家” 为主题重磅推出了全面丰富的智能家居新品,其中备受瞩目的三星BESPOKE HOME系列围绕消费者的生活方式和进阶需求,带...
日期:07-28
云网融合·数智相生——用友建造云亮相2021国际数字科技展_智合云数字科技公司
  近日,以“云网融合·数智相生”为主题、由广东省人民政府支持、中国电信主办的2021国际数字科技展暨天翼智能生态博览会成功拉开帷幕,用友网络高级副总裁徐洋与多位产业顶...
日期:07-26
什么值得买?——AOC电脑一体机探秘(aoc一体机哪款比较好)
  众所周知,冠捷科技是中国电子控股企业,具有强大的中国央企背景,其显示设备产销量自2002年开始一直蝉联全球首位。而AOC作为一体机行业领域的龙头,依托冠捷科技几十年制造经...
日期:09-16