您的位置:首页 > 媒体评论

GPT-4要来了!一文看尽大型语言模型的过去、现在、未来_gpt-3语言模型

发布时间:2023-03-14 02:05:12  来源:互联网     背景:

智东西(公众号:zhidxcom)

作者 | ZeR0

编辑 | 漠影

智东西3月13日报道,昨日,由中国人民大学高瓴人工智能学院主办的AIGC论坛在北京举行,本次会议以“AIGC:从不存在到存在”为议题,探讨对话生成模型、多媒体内容生成等人工智能(AI)前沿技术的发展趋势。

在对话与语言生成模型专场,哈尔滨工业大学计算机学院教授车万翔、中国科学院自动化研究所研究员张家俊、中国人民大学高瓴人工智能学院长聘副教授严睿、新浪微博资深算法专家张俊林分别作报告。

这场学术盛会干货满满,不仅系统性地回顾了自然语言处理(NLP)的五个发展阶段,对大型语言模型研究的三个主要技术路径进行解读,并拆解了ChatGPT的四项关键技术,还就大型语言模型研究重心的变迁与未来趋势进行探讨。

一、NLP五级进阶路:从基于规则到遵循人的价值观

新浪微博资深算法专家张俊林认为,要想探寻大型语言模型未来怎么走,需要先回顾此前是怎么一路变迁的。他将自然语言处理发展到大型语言模型的历程分为五个阶段:规则、统计机器学习、深度学习、预训练、大型语言模型。

机器翻译是NLP中难度最高、综合性最强的任务。因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化,以此展示NLP如何一步步演进。

规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。

统计机器学习阶段大致从1993年到2012年,机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。

深度学习阶段大致从2013-2018年,相对上一阶段突变性较低,从离散匹配发展到embedding连续匹配,模型变得更大。该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等,标注数据量提升到千万级。

预训练阶段是从2018年到2022年,相比之前的最大变化是加入自监督学习,张俊林认为这是NLP领域最杰出的贡献,将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。

大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。

随后他介绍了一个研究工作的结论:在高资源语言上,ChatGPT机器翻译效果与商用MT系统效果接近;在低资源语言上,目前ChatGPT机器翻译效果与商用MT系统相比差得比较远。

从这些阶段中数据、算法、人机关系的变化,可以观察到NLP的发展趋势。

数据方面,从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据,越来越多数据被利用起来,人的介入越来越少,未来会有更多文本数据、更多其它形态的数据被用起来,更远的未来是任何我们能见到的电子数据,都应该让机器自己从中学到知识或能力。

算法方面,表达能力越来越强,规模越来越大,自主学习能力越来越强,从专用向通用,沿着这个趋势往后,未来Transformer预计够用,同时也需要替代Transformer的新型模型,逐步迈向通用人工智能。

人机关系方面,人的角色逐渐从教导者转向监督者,未来可能会从人机协作、机器向人学习,发展成人向机器学习,最后由机器拓展人类。

二、大型语言模型的三大技术路线:Bert、GPT、混合模式

张俊林分享道,近5年来,大型语言模型研究的发展有三条技术路线:Bert模式、GPT模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是GPT技术路线,直到2022年底在GPT-3.5的基础上产生了ChatGPT。

可以看到,到2019年后,Bert路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。从Bert往GPT走,模型越来越大,做的事越来越通用。

大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识;从任务类型来划分,可以分为单一任务和多任务、理解类和生成类。

Bert模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类、做理解类、某个场景的具体任务,专而轻。

GPT模式是由两阶段到一阶段(单向语言模型预训练+zero shot prompt/Instruct),比较适合生成类任务、多任务,重而通。

T5模式将两者的方法结合,有两阶段(单向语言模型预训练+Fine-tuning)。张俊林称这种模式“形似GPT,神似Bert”,生成和理解都行,从效果上看较适合理解类任务,国内很多大型语言模型采用这种模式。

目前的研究结论是,如果模型规模不是特别大,面向单一领域的理解类任务,适合用T5模式。做生成类任务时,用GPT模式效果最好。

如果单独考虑zero-shot,GPT模式效果最好;如果在预训练后引入多任务fine-tuning,则T5模式效果好。不过张俊林认为这个结论存疑,因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。

综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。张俊林分析可能的原因有三点:1、Encoder-Decoder里的双向attention,损害zero shot能力;2、Encoder-Decoder结构在生成Token时,只能对Encoder高层做attention,Decoder-only结构在生成Token时可以逐层Attention,信息更细粒度;3、Encoder-Decoder训练“中间填空”,生成最后单词Next Token,存在不一致性,Decoder-only结构训练和生成方式一致。

三、用提示学习方法,触发大模型通用能力

从GPT的成长路径来看,哈尔滨工业大学计算机学院教授车万翔谈道,2018年第一代GPT真正开启NLP预训练模型时代,但没有引起特别大的关注,其风头被Bert盖住。2019年GPT-2模型的参数变得更多,但仍未引起很大轰动。

语言gdp

2020年GPT-3模型发布,2022年3月InstructGPT模型问世,当时重点是用1%参数达到1750亿参数的GPT-3的效果,也没有特别令人兴奋,直到ChatGPT诞生,直接推向市场和面向终端用户,并凭借惊艳的效果在社会上引起广泛关注。

为什么GPT-3问世两年了,还没有受到足够广泛的关注?车万翔认为,这是因为它只解决了知识存储问题,尚未很好解决“知识怎么调用”的问题,而ChatGPT相当于解决了这一部分。两块打通后,就产生了非常好的应用效果。

中国科学院自动化研究所研究员张家俊介绍了ChatGPT的通用能力基座。OpenAI在2020年用45T文本数据,通过自监督训练获得基础大模型GPT-3,实现了流畅性、知识性;2021年在GPT-3基础上利用179G代码数据,通过自监督训练获得逻辑编程模型Codex;2022年利用更多更新文本数据和代码数据的混合学习,得到了更强的基础大模型GPT-3.5,这成为ChatGPT的基础模型,实现了流畅性、知识性和逻辑性。

据他分享,大模型的通用能力由基础模型决定,GPT-3用提示学习方法触发通用能力。

参数微调通过任务相关的监督数据修改模型参数,能够最大限度激发预训练大模型完成特定任务的能力,但面临数据稀、灾难遗忘、资源浪费、通用性差等难题。

提示学习通过设计提示信息修改输入模式,能够触发预训练大模型完成特定任务,但是单一的外部提示信号难以最大限度地激发预训练大模型的能力,从而高质量完成具体任务。

将两者结合,通过若干任务相关的经过提示增强的监督数据修改模型参数,有助于激发模型的通用能力。

OpenAI聘请数据标注团队,根据各垂直领域问题指令撰写人工答案,并从开放的GPT-3、InstructGPT等API接口收集全球用户的问题指令,对其按照问答、摘要等领域进行分类;同时借助指令学习,在GPT-3.5的基础上利用各领域人工撰写的指令与答案对模型进行微调。

当模型参数规模达到百亿以上时,几十个任务联合指令学习可以解决没有见过的任务。

张家俊强调说,任何大模型都有其能力边界,几乎不可能实现面向无限任务的通用能力,但可以通过让大模型学会与其他模型、工具和环境进行交互,实现大模型通用能力的拓展。

紫东太初多模态大模型便尝试模型交互实现通用多模态对话。这是一个拥有千亿参数规模的图文音三模态大模型,通过学会API的使用,让较小的语言大模型拥有通用的多模态对话能力。3月24日,张家俊将在「GTIC 2023中国AIGC创新峰会」上发表演讲,分享紫东太初大模型的更多进展。

四、解读ChatGPT四大关键技术

下图是车万翔分享的从GPT-3到ChatGPT的技术演化路径。

苹果股东告库克

总体而言,ChatGPT有四个关键技术:

1、大规模预训练模型:只有模型规模足够大,才可能具备推理能力。中国人民大学高瓴人工智能学院长聘副教授严睿谈道,智能涌现不是故意设计出来的,而是大模型规模大到一定程度后,天然具备这样的特性。

2、在代码上进行预训练:可能代码把解决一个大的问题分解成若干个小的问题,这种分布解决问题的方式有助于自然语言推理。和自然语言模型相比,代码语言模型需要更长的上下文的依赖。

3、Prompt/Instruction Tuning:GPT-3模型太大,已经没办法去精调了,只能用prompt,但是如果不精调,模型相当于还是一个语言模型,没办法适应人,只能由人去适应模型。让人适应模型只能用指令的方式,再进行精调,这相比预训练代价要小的多。所以指令上精调就可以把一些不太多的数据,把语言模型的任务掰到适应人类的回答问题。

4、基于人类反馈的强化学习(RLHF):这对于结果好坏的影响不是特别大,甚至会限制语言模型生成的能力,但这种方式可能更好地和人类在安全性、无毒无害等等方面的价值观对齐。当模型上线后,它可以收集到更多用户的反馈。

gpt-3语言

严睿认为Human-in-the-Loop可能是大型语言模型成功的一个重要因素,通过RLHF不断获得人类反馈,将人的指令与机器的理解逐渐对齐,实现智能的不断演化。

展望未来,ChatGPT能发展多久?车万翔发现了一个有意思的规律。如图所示,每个箭头长短代表技术发展的时间长度,可以看到,新技术的发展时间大约是旧技术的一半,以此推演,预训练模型可能发展五年到2023年,再往后可能到2025年左右会有新技术产生。

五、大模型的未来:多模态、具身智能、社会交际

车万翔认为,ChatGPT可以说是继数据库和搜索引擎后的全新一代知识表示和检索的方法。

从知识表示和运用角度来看,知识在计算机内如何表示是人工智能最核心的问题之一。早期是通过关系型数据库的方式,精度较高,因为数据库中每行每列的语义都非常明确,问题是调用的自然度极低,必须由人去学习机器的语言,早期这些存储方式产生了Oracle、微软等科技巨头。

后来互联网上存储了人类全部的知识,这种知识表达方式不如数据库精确,但存储量大、信息多,调取这些知识需要借助搜索引擎、通过关键词的方式,关键词和SQL语句比起来就更为广大用户所接受,表达自然度更好,但仍然不及自然语言,产生谷歌、百度等科技巨头。

到大模型时代,可以认为大模型也是一种知识存储的方式,不是以人能看懂的方式来存储,而是以参数的方式来存储,可读性、精度相对较低,但调用方式非常自然,通过自然语言就能调出大模型中的知识。车万翔相信和前两次革命一样,大模型时代会出现新的科技巨头,现在看来OpenAI非常具有这样的潜力,领先优势明显。

谈到大型语言模型研究的重心,车万翔和张俊林都认为除了语言外,还需要更多知识。

关于NLP的过去、现在、未来,科学家们在2020年提出了一个world scope概念,将NLP的发展进程分为语料库、互联网、多模态、具身智能、社会交际这五个world scope。

早期NLP基于文本,再往后发展要走向多模态、具身认知、社会交际。ChatGPT已经似乎有与人类社会互动的意思,相当于是跳过了中间两步,但车万翔认为,要真正实现通用人工智能,中间这两步是不能跳的,不然就像盲人在学语言。据传GPT-4会是一个多模态大模型,如果解决了多模态这一步,那就只剩下具身了。

多模态大型语言模型的目标是增强更多的现实环境感知能力,包括视觉输入(图片、视频)、听觉输入(音频)、触觉输入(压力)等等。张俊林认为,目前阻碍多模态大模型发展的一个障碍是其很大程度上依赖于人工整理的大数据集,图像处理的自监督技术路线尚未走通,如果走通可能会是又一大技术突破,一些图像理解类任务大概率会被融入大型语言模型,不再单独存在。

多模态大模型是具身智能的基础,相当于大脑,它还需要身体,才能与物理世界的交互。因此下一步就是将大脑与身体(如机器人等)结合的具身智能,利用强化学习,从真实世界获得真实反馈、学习新的知识。

另一个值得探讨的话题是大型语言模型的规模,做大还是做小?

张俊林谈道,一方面,Scaling Law说明了模型规模越大,数据越多,训练越充分,大型语言模型的效果越好;另一方面,训练成本太高了,Chinchilla证明了如果在数据充足的前提下,目前大型语言模型的规模比应有的合理大小更大些,似乎存在参数空间浪费。因此应该是:先把模型做小,充分利用模型参数后,再将模型做大。

除此之外,张俊林认为大型语言模型的复杂推理能力未来将进一步提升。大型语言模型如何与专用工具结合也是非常有前景的方向,但技术尚不成熟,他判断OpenAI应该不会走这条路。

大型语言模型还有很多问题有待克服,包括构建中文评测数据集、优化新知识的获取、优化旧知识的修正、探索私域领域知识的融入、优化更好理解命令的能力、降低训练推理成本等等。

结语:大模型与生成式AI驶入快车道

自然语言处理被誉为人工智能皇冠上的明珠,而其最新代表之作ChatGPT凭借卓越的多轮对话和内容生成能力,正掀起新一轮人工智能研究、商用及创业热潮。

ChatGPT仍有很多问题,比如事实检索性和复杂计算性效果差,无法实现一些实时性、动态变化性的任务等。但优化这些问题以及提升大模型能力的研究正在飞速推进。

如果上周微软德国公司CTO兼AI部门主管Andreas Braun透露的信息为真,那么本周OpenAI将发布更强大的GPT-4多模态大模型,打通认知与感知的连接。百度基于文心大模型研发的生成式对话产品“文心一言”也将于本周四3月16日正式发布。微软将在周五举行主题为“与AI一起工作的未来”的在线活动。大模型与生成式AI领域正变得愈发热闹。


返回网站首页

本文评论
比亚迪盈利能力_2022年赚翻后,比亚迪能不能做好“平衡术”?
文/周雄飞特斯拉刚刚公布完亮眼财报,比亚迪紧接着公布了一份业绩预告。比亚迪预计2022年营收将会突破4200亿元,归母净利润能实现160亿元-170亿元,同比增长425.42%-458.26%。由...
日期:02-02
消失500多天,粉丝跌破1亿,和解后李子柒还能重回“顶流”吗?
“双方达成和解”,12月27日中午,微念发布了一份与李子柒的和解公告,该话题也迅速登上微信热搜。自此,这场持续了500多天的纠纷告一段落。与李佳琦、刘畊宏等带货、健身网红不同,...
日期:12-29
ai虚拟现实_虚拟人AI化 年轻人上演真实版“爱情转移”
“你的网恋对象,不是人!”这并非是针对下头“渣男”的负面评价,而可能是一副科技生活的未来图景。基于AI的虚拟人会自我学习、拟合情感,让你沉溺在没有压力的社交关系中。图源:优...
日期:09-05
霍乱不是甲类传染病吗,为啥武大的病例不危险?「霍乱是甲类传染病吗」
同样是霍乱,有些菌株可能就是个“润肠通便”,而有些菌株却能“吸粉百万”。夏季炎热,高温当前,注意补水,预防腹泻,才是我们真正应该关注的事情。撰文 | 李庆超(山东师范大学)本周初,...
日期:10-10
2021出海_2022亏惨的出海人,2023怎么活?
作者|周月明编辑|苗正卿题图|视觉中国猝不及防,是许多出海人对2022年的印象。今年35岁的王宏平已入行10年,5年前在深圳创办了自己的外贸公司。据其形容,2022年就像在坐过山车,他已...
日期:01-11
ai作画 有人说技术好 有人说颠覆传统审美_人人都能用的“AI 作画”,要成为英伟达的杀手锏?
如果说2021年是“元宇宙”的元年,那么2022年或许就是“AI作画”的元年。苹果手表蜂窝支持联通吗稍微对互联网热点有所关注的人都不难发现,最近,“AI作画”产出的作品似乎已经成...
日期:10-26
国内外接连发布新机,先扬后抑的VR如今走到哪一步了?「vr新设备」
从2014年 Google Carboaed 诞生,科技行业经历一次又一次的“VR元年”,但由于软件生态内容不足、技术发展缓慢以及网络环境等原因。VR行业到了近两年才慢慢的走上正轨。早在198...
日期:10-31
BAT造车小败局_bat车子
文 | 蓝洞商业,作者 | 赵卫卫驾驶一辆新能源汽车,昔日的「沙发+轮子」瞬间变成了「PAD+沙发+轮子」。摄像头相当于眼睛,云端和本地端的计算能力相当于大脑和小脑,车联网的能力相...
日期:03-11
5年翻一倍、规模超千亿 无糖时代催生新商机
国际权威市场调查机构尼尔森数据显示,在全国线下零售市场中,元气森林含汽饮品、即饮茶、功能饮料品类所有产品,2022年上半年销售额对比去年同期增长25%,6月单月同比增长17%。作...
日期:09-23
借道短视频收割用户 这些打擦边球的盲盒APP都属一个“爹”
手工劳动 /兽姐手工编辑 /角叔出品/独角兽挖掘机“如果你还没换手机,千万别浪费钱,现在就来**盲盒,花49元抢走这台手机……”“万万没想到,开了几次,就开出了这样的好东西……”...
日期:09-24
存储压力传导 全球半导体寻突破「全球半导体芯片供应紧张」
21世纪经济报道记者骆轶琪 广州报道半导体行业正处在周期波动、全球宏观环境急剧变化的行情下。此前一度由产品紧俏和需求增加带来的年收入大涨行情正有所变化。据调研机构G...
日期:01-22
不做记者后 我在淘宝打零工
新闻业前辈在工作第二年就跑遍了中国所有省份,我们工作一年了,一次差都没出过。折纸盒子没有任何意义,但也不会给你带来任何痛苦,在那些串珠子和折纸盒子的时刻,我的情绪是稳定的...
日期:12-16
先涨价再打折_“先涨价再降价”老套路为何难禁止
作者/张涛漫画/陈彬10月24日晚8点,各大电商平台的“双十一”预售正式开启,今年“双十一”大促进入实质性阶段。近日有网友发现某平台在售的手机在悄然涨价。山东的沈女士爆料...
日期:10-30
抖音集团焕新,“字节跳动”成为历史?「抖音融资历程字节跳动」
这也是自今年5月字节跳动(香港)有限公司更名抖音集团(香港)有限公司后,公司进一步“去字节跳动”的重要信号。抖音集团已换新装!10月12日,字节跳动被曝出旗下数个公司陆续更名,由“...
日期:10-14
携程这种公司靠什么盈利_携程挺到盈利
作者|张尧编辑|胡展嘉刘德华抖音直播过亿运营|陈佳慧OTA老大携程,终于盈利了。近日,携程发布了2022年四季度及全年财报,业绩报告显示,2022年携程实现营收200亿元,与去年持平,净利润为...
日期:03-11
大脑连接未来,脑机接口进入爆发拐点?_脑机接口发展
六年前,原盛大集团创始人陈天桥向美国加州理工学院捐赠10亿美元用于人脑研究,曾在世界范围内引起广泛关注。如今,他不遗余力支持的这一领域,在国内也有了新的进展。脑机接口作为...
日期:09-10
腾讯地图PC端下线:食之无味,弃之不可惜
腾讯宣布,将在2022年11月11日正式下架腾讯地图PC端,作为国内最早的在线地图服务之一,腾讯地图在2013年由原SOSO地图改名而来,同时整合了搜狗地图的资源(搜狗于2021年被腾讯收购,其...
日期:10-19
小爱同学有没有朗读功能_小爱同学推出朗读屏幕功能
  9月29日消息,小爱同学是小米开发的个人智能助手,今天官方宣布上线朗读屏幕功能。根据介绍,语音或按键唤醒手机上的小爱同学,打开朗读屏幕功能,可以解放双手和眼睛。小米各音...
日期:09-30
不差钱的爱美客 深陷多元化焦虑_爱美客宏观分析
出品 | 子弹财观作者 | 晴天编辑 | 蛋总穷人的烦恼千篇一律,富人的烦恼五花八门。在热钱翻涌的资本市场中,“不缺钱”的爱美客并不淡定。8月24日,爱美客发布2022年上半年财报,上...
日期:08-31
安卓首款:三星 Galaxy Note 10 获得 2023 年 1 月安全更新
  1 月 2 日消息,虽然一些 Galaxy 智能手机仍未获得 2022 年 12 月的安全更新,但 Galaxy Note 10 却遥遥领先,这款智能手机已经成为全球第一款获得 2023 年 1 月安全更新的...
日期:01-04