您的位置:首页 > 互联网

ChatGPT发布一周年了,开源大模型都迎头赶上了吗?_plato 开源

发布时间:2023-11-30 20:09:00  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈海林,焦方锴,李星漩,秦成伟,赵若辰,授权转载发布。

论文旨在成为研究界和商业领域的重要资源,帮助他们了解开源大模型的当前格局和未来潜力。

一年前的今天,ChatGPT 横空出世,人工智能的新时代似乎已经到来。短短两个月,ChatGPT 积累了一亿用户,速度远超 TikTok 和 YouTube 等热门应用;似乎每隔几天就会有新的基于生成式人工智能的创业公司出现;以 ChatGPT 和 GPT-4为核心的智能助手也开始走进各个行业中,帮助普通用户简化工作流程和提高效率。

三星galaxy s22 ultra什么时候发布

但众所周知,ChatGPT 并未开源,不仅技术细节未知,部分国家和地区也不在 OpenAI 的服务范围之内。这种封闭性带来了一系列问题:如服务的稳定度,高昂的 API 成本,数据所有权和隐私问题等。因此,与闭源模型相比,开源社区的力量备受期待。虽然,许多基础模型在发布之初仍然无法接近 ChatGPT 的性能,但随着大量技术上的研究和探索,已经有部分开源大模型或小型专有模型迎头赶上。如图一中所示,在部分任务上,最好的开源大模型已经表现得比 ChatGPT 更好。

本周,来自南洋理工大学,Salesforce Research,以及新加坡科技研究局等机构的研究者们推出了一篇总结性的论文,调研了在各个领域与任务中与 ChatGPT 表现相当甚至优于其的开源大模型。论文旨在成为研究界和商业领域的重要资源,帮助他们了解开源大模型的当前格局和未来潜力。

腾讯公司财报

  • 论文链接:https://arxiv.org/pdf/2311.16989.pdf

  • 陈海林 *,焦方锴 *,李星漩 *,秦成伟 *, Mathieu Ravaut *, 赵若辰 *,Caiming Xiong, Shafiq Joty (* 为共同一作)

  • 数据代码:https://github.com/ntunlp/OpenSource-LLMs-better-than-OpenAI/tree/main

I. 综合能力

Llama-2-70B 是开源社区最核心及衍生模型最多的 LLM,其预训练过程使用了包含两万亿 Token 的大规模语料。Llama-2-70B 作为基础模型已经在综合性基准测试上展示出了极为优秀的性能。而经过了指令微调和对齐的 Llama-70b-chat-70B 则在通用对话任务中表现出进一步的性能提升,并能在 AlpacaEval(测试指令跟随能力的数据集)上取得92.66% 的胜率,领先 ChatGPT10.95% 的绝对性能。此外,GPT-4仍是所有 LLM 中的佼佼者,胜率答到了95.28%。

Zephyr-7B是由 Huggingface 团队训练的小型语言模型。与 ChatGPT 或者 Llama-2不同,它使用 Direct Preference Optiomization(DPO,直接偏好优化)完成对齐。在 AlpacaEval 上,Zephyr-7B 取得了90.6% 的胜率,与70B 级别的 LLM 表现相当,同样也胜过了 ChatGPT。在 MT-Bench(测试多轮对话和指令跟随能力的数据集)上,Zephyr-7B 的性能甚至超过了 Llama-2-chat-70B。

chatplatform

WizardLM-70B利用自动化构造的大量复杂程度不同的指令数据进行微调,成为 MT-Bench 上得分最高的开源 LLM,得分为7.71。它同样在 AlpacaEval 上超过了 ChatGPT。

GodziLLa2-70B把多种专有 LoRA 和 Guanaco Llama21K 数据集与 Llama-2-70B 相结合,在 Open LLM Leaderboard(结合了多个推理和问答任务的数据集)的表现与 ChatGPT 相当。然而,WizardLM-70B 和 GodziLLa-70B 仍然明显落后于 GPT-4。

UltraLlama使用了更多样和质量更高的数据进行微调训练,在其提出的基准测试上(未在上图表中展示)与 ChatGPT 的表现持平,并在回答需要结合专业知识的问题上超过了 ChatGPT 的表现。

II. 具体任务上超越 ChatGPT 的开源大模型

1.AI 智能体(Agent)

Lemur-70B-chat团队探索了训练数据中代码和文本更优的配比。通过在包含90B Token 和300K 示例的代码 - 文本混合语料上进行训练和指令微调,Lemur-70B-chat 在能够接收来自环境以及编码任务的自然语言反馈以完成目标的设置下,超越了 ChatGPT 的表现。AgentTuning 结合自行构建的 AgentInstruct 数据集和通用领域指令数据在 Llama-2上进行指令微调。值得注意的是,AgentLlama-70B 在未见过的智能体任务上达到了与 ChatGPT 持平的表现。

通过在 ToolBench 上对 Llama-2-7B 进行微调,ToolLLaMA 在工具使用评估中展现出与 ChatGPT 相当的表现。

FireAct通过对 Llama-2-13B 进行微调,在 HotpotQA 上胜过基于 ReAct 模式的提示式 ChatGPT。

此外,从 Llama-7B 微调而来的Gorilla在编写 API 调用方面优于 GPT-4。

2. 逻辑推理

WizardCoder和WizardMatch基于 WizardLM,在知识的宽度和广度上对微调使用的指令数据集进行了拓展。实验表明,WizardCoder 在 HumanEval 上比 ChatGPT 表现更好,提升了19.1%。而 WizardMath 在 GSM8K 上与 ChatGPT 相比也取得了了42.9% 的提升。

除了在智能体相关的任务上表现出色,Lemur在编程与求解数学题等考察逻辑的任务上性能也得到了显著提升。同时,Lemur-70B 在不经过特定任务微调的情况下,在 HumanEval 和 GSM8K 上的表现显著优于 ChatGPT。此外,Phi使用高质量教科书语料作为主要数据进行预训练,使得较小的语言模型也可以拥有强大的能力。从结果上看,参数量仅为1.3B 的 Phi-1相比 ChatGPT 在 HumanEval 上取得了约3% 的性能提升。

3. 长文本能力建模

chatplatform

Llama-2-long使用16k 上下文窗口对 Llama-2进行持续训练。其中Llama-2-long-chat-70B在 ZeroSCROLLS 上的表现为37.7,优于 ChatGPT-16k 的36.7。处理长文本任务的方法通常为两种:(1)采用位置插值扩展上下文窗口,这涉及对更长上下文窗口进行另一轮微调;(2)检索增强,需要访问检索器以查找相关信息。通过结合这两种看似相反的技术,Llama2-70B-32k-ret[1]在7个长文本任务(包括来自 ZeroSCROLLS 的4个数据集)上的平均表现超过了 ChatGPT-16k。

4. 其他特定领域的应用能力

(1) 以查询为焦点的摘要:[2] 发现,与 ChatGPT 相比,微调训练在性能上仍然更好。在 CovidET、NEWTS、QMSum 和 SQuALITY 等数据集上,该类方法对比 ChatGPT 平均提升2个点的 ROUGE-1。

(二) 开放域问答:InstructRetro 在 NQ、TriviaQA、SQuAD2.0和 DROP 数据集上展现出比 GPT-3更好的表现。与相似参数量的专有 GPT-instruct 模型相比,InstructRetro 在一系列短文和长文开放域问答数据集上有7-10% 的领先。

(三) 医疗:在心理健康方面,MentalLlama-chat-13B基于 IMHI 训练集微调了一个 Llama-chat-13B 模型。在零样本提示下,MentalLlama-chat-13B 模型在 IMHI 的10项任务中,9项任务的表现优于 ChatGPT。Radiology-Llama-2模型基于放射学报告对 Llama 进行微调,在 MIMIC-CXR 和 OpenI 数据集上的表现远远优于 ChatGPT 和 GPT-4。

(四) 基于结构化数据的生成:Struc-Bench 在结构化生成数据上对 Llama-7B 模型进行微调。微调后的7B 模型在基准测试中优于 ChatGPT。

(五) 评论生成:Shepherd 基于社区收集的评论数据和1317条高质量人工标注数据在 Llama-7B 上进行微调。在以 GPT-4作为评估器的情况下,Shepherd 在60% 以上的情况下胜过或与 ChatGPT 持平。在以人类作为评估者的情况下,Shepherd 几乎与 ChatGPT 持平。

5. 朝着值得信赖的人工智能迈进

可靠性是确保 LLM 在实际应用中至关重要。对 LLM 生成幻觉和不安全内容的担忧会降低用户对 LLM 的信任,并带来巨大的潜在风险。

(1) 幻觉:在微调期间,提高数据的正确性和相关性可以较少模型幻觉的生成。Platypus收集了一个经过内容过滤、以 STEM 领域高质量数据为主的数据集,并基于该数据集在一系列 LLM 上进行微调,最终在 TruthfulQA 上对于 ChatGPT 表现出了实质性改进(约20%)。现有的在推理阶段减少模型幻觉的技术主要有三类:(1)特定的解码策略(Chain-of-Verification)、(2)外部知识增强(Chain-of-Knowledge(CoK),LLM-AUGMENTER,Knowledge Solver,CRITIC,Parametric Knowledge Guiding(PKG)等等)(3)多智能体对话([3],[4])。这些推理技术与仅使用 ChatGPT 的普通提示策略相比,可以提高答案准确性。目前,ChatGPT 也推出了检索插件(OpenAI,2023a 年),用于访问外部知识以减少幻觉。

(二) 安全性:根据现有的评估结果,ChatGPT 和 GPT-4模型在安全性评估方面仍然处于领先地位。这主要归功于人类反馈强化学习(RLHF)。RLHF 需要收集大量昂贵的人类标注,这阻碍了其在开源大模型的使用。目前,通过 AI 反馈来代替人类反馈(RLAIF)和直接偏好优化(DPO)等方法的提出可以大大降低 RLHF 的成本。结合并改进这些方法可以给开源 LLM 的安全性带来潜在的改进。

III. 总结

chatbot 开源

1. 大模型的发展趋势

自从 GPT-3问世以来,研究人员已经做了大量的工作来推动 LLM 的发展,其中一个重要的研究方向就是扩大模型的参数量 (比如 Gopher,MT-NLG 和 PaLM 等)。虽然这些大模型拥有强大的能力,但闭源的特性也限制了它们的广泛应用,因此也有一些工作开始关注开发开源的大语言模型,比如 OPT 和 BLOOM。与此同时,探索如何预训练更小的模型(如 Chinchilla 和 UL2)和指令调整(如 Flan-T5)也是很重要的研究方向。

一年之前 ChatGPT 的出现极大地改变了 NLP 社区的研究重点。为了赶上 OpenAI,Google 和 Anthropic 分别开发了 Bard 和 Claude。虽然它们在许多任务上能够有和 ChatGPT 相似的性能,但它们与 OpenAI 最新的模型 GPT-4之间仍然存在一些差距。并且由于这些模型的成功主要来源于人类反馈的强化学习(RLHF),研究人员也探索了各种方法来改进 RLHF。

为了促进开源 LLM 的研究,Meta 发布了 Llama 系列模型。此后,基于 Llama 的开源模型开始井喷式出现。一个有代表性的研究方向是使用指令数据对 Llama 进行微调,包括 Alpaca、Vicuna、Lima 和 WizardLM 等。研究者们还探索了基于 Llama 的智能体、逻辑推理和长上下文建模能力。此外,与基于 Llama 开发 LLM 不同,还有许多工作致力于从零开始训练 LLM,例如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi 等。我们相信,开发更强大、更高效的开源 LLM 将是一个非常有前途的未来方向。

2. 怎么才能制作出更好的开源大模型?

虽然头部模型的详细做法往往是保密的,但以下也有一些社区普遍认可的最佳实践:

正邦集团林峰简介

(1) 数据:预训练涉及使用来自公开可访问来源的数万亿 token。相比之下,微调数据数量较少,但质量更高。使用优质数据进行微调的 LLM 可以获得一定的性能改进,特别是在专业领域。

(二) 模型架构:尽管大多数 LLM 使用了仅解码器的 Transformer 架构,但很多模型也使用了不同的技术来优化效果。比如 Llama-2采用了 Ghost attention 以提高多轮对话控制能力,Mistral 采用滑动窗口注意力来处理更长的上下文长度。

(三) 训练:使用指令调整数据进行监督微调(SFT)的过程至关重要。对于生成高质量的结果,数万个 SFT 标注就足够了,正如 Llama-2使用了27,540条标注。这些数据的多样性和质量至关重要。在 RLHF 阶段,近端策略优化(PPO)通常是优选的算法,以更好地使模型行为与人类偏好和指令遵循保持一致,这在增强 LLM 的安全性方面起着关键作用。直接偏好优化(DPO)可以作为 PPO 的替代方法。例如,Zephyr-7B 采用了 DPO,在各种常规基准测试中显示出与70B-LLM 相当的结果,甚至在 AlpacaEval 上超过了 ChatGPT。

3. 漏洞和潜在问题

(1)预训练期间的数据污染:数据污染问题的根源在于基准数据的收集来源已经包含在预训练语料中。因此,解决 LLM 的预训练语料检测问题,探索现有基准测试和广泛使用的预训练语料之间的重叠,以及评估对基准测试的过度拟合等挑战是至关重要的。这些工作对于提高 LLM 的忠实度和可靠性至关重要。未来需要建立披露预训练语料细节的标准化实践,并开发方法来减轻模型开发生命周期中的数据污染问题。

(二) 封闭式对齐开发:在广义偏好数据上应用人类反馈的强化学习(RLHF)已经引起了社区越来越多的关注。然而,只有少数几个开源 LLM 使用 RLHF 进行对齐。主要原因为缺乏高质量、公开可用的偏好数据集和预先训练的奖励模型。我们仍然面临着在复杂推理、编程和安全场景中缺乏多样化、高质量和可扩展偏好数据的挑战。

(三)在基本能力上的持续改进难度:回顾本文提到的基本能力的突破揭示了一些具有挑战性的情况:1. 人们已经投入了大量精力来探索改进预训练期间数据混合的方法,以提高构建更强大基础模型的平衡性和鲁棒性。然而,相关的探索成本往往使得这种方法变得不切实际。2. 超越 ChatGPT 或 GPT-4的模型主要基于来自闭源模型的知识蒸馏和额外的专家注释。虽然高效,但过度依赖知识蒸馏可能会掩盖关于将所提出的方法扩展到教师模型时效果的潜在问题。此外,LLM 预计将充当智能体并提供合理的解释以支持决策,而为了使 LLM 适用于现实场景,注释智能体任务形式的数据也是昂贵且耗时的。从本质上讲,仅通过知识蒸馏或专家注释的优化不能实现模型的持续改进,并且可能有上限。未来的研究方向可能涉及探索新的方法论,如无监督或自监督学习范式,以实现对 LLM 基础能力的持续改进,同时减轻相关的成本。

IV. 结论

在 ChatGPT 发布一周年之际,本文对高性能的开源 LLM 进行了系统调研。结果表明,有很多开源大模型在特定领域上的表现已经赶上甚至超越了 ChatGPT。此外,我们提供了对开源 LLM 的见解、分析和潜在问题的讨论。我们相信,这份调查为开源 LLM 的有前景的方向提供了启发,并将激励该领域的进一步研究和发展,有助于弥合其与付费闭源模型的差距。


返回网站首页

本文评论
德国人拒绝Intel_德国拒绝美国
快科技6月12日讯,Intel正就建设欧洲最大的半导体制造工厂在德国选址。不过,媒体报道称,Intel以成本增长为由寻求德国方面更多的补贴支持,但遭到拒绝,原因是预算中没这笔钱。据悉,I...
日期:06-12
腾讯回应出售美团股权:不实!美团市值却跌掉千亿(腾讯收购美团股份)
《科创板日报》8月16日讯(记者 张洋洋) 今日午后,美团港股直线下挫,跌幅扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权,对此,腾讯方面回应《科创板日报》记者称...
日期:08-17
千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?「哔哩哔哩千万up」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-09
尼康z卡口最值得买的定焦镜头「2599元 尼康发布Z卡口电动变焦镜头:广角也能拍特写」
快科技4月19日消息,尼克尔Z DX 12-28mm f/3.5-5.6 PZ VR正式发布,售价2599元,将于今年5月中旬开售。这是一款适用于尼康Z卡口系统的广角变焦镜头,重量仅约205g,在城市中散步或外...
日期:04-19
中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。森海塞尔最贵音响【新智元导读】最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉...
日期:09-25
索尼 Xperia 新品发布会定档,将推 Xperia 1 V 和 Xperia 5 V 两款新机
4月27日消息,索尼 Xperia 新品全球发布会官宣,定于北京时间 5 月 11 日 12:00 举行。索尼表示“新‘1’代,更期待”,预计将推出 Xperia 1 V 和 Xperia 5 V 智能手机。根据索尼发...
日期:04-27
GVS 视声与睿住智能达成深度战略合作:强强联合共建智慧生活新生态
  8月12日,广州视声智能股份有限公司(下称“GVS视声”)与美的置业旗下广东睿住智能科技有限公司(下称“睿住智能”),在佛山顺德签订战略合作协议。   在签约仪式上,GVS...
日期:12-22
数字时代的人才应该具备哪些素养「数字时代如何填补人才鸿沟」
(原标题:数字时代如何填补人才鸿沟) 在大国科技竞争和限制环境中,破局的关键是人才。但目前我国数字人才总体缺口约在2500万至3...
日期:09-25
小鹏汽车法务部晒立案书:造谣人危了
快科技6月16日消息,前段时间,国内造车新势力相继成立法务部,表示将打击网络谣言、水军攻击等行为。今日,小鹏汽车法务部在微博发文表示:汽车行业的网络水军乱象存在已久,随着汽车...
日期:06-16
红魔008l怎么样「红魔8S Pro系列新品发布会」
在今天下午红魔即将推出旗舰手机红魔8S Pro。作为一款专注于电竞体验的游戏手机,红魔8S Pro在性能方面刷新了历史纪录。它将全球首发搭载骁龙8 Gen2领先版处理器,并且配置了惊...
日期:07-06
王慧文因“个人健康原因”辞任美团董事 今年刚创立AI公司「美团王慧文为什么退休」
6月26日消息,25日晚间,美团发布公告称,王慧文因“个人健康原因”已提出辞去本公司非执行董事、本公司董事会之提名委员会成员和本公司之授权代表证券上市规则的职务,自2023年6月...
日期:06-26
微短剧《星动的瞬间》收官 番茄小说IP探索之路再进一步
  2021年7月31日,由番茄小说联合抖音、唐人影视、塔读文学共同出品的微短剧《星动的瞬间》强势收官!   依托于微短剧改编自番茄平台超人气小说《国民影帝暗恋我》,剧集...
日期:07-02
三星称苹果将在2024推出折叠屏_三星折叠屏2021最新消息
11月2日 消息:据国外媒体报道,在三星、华为和小米等厂商推出可折叠屏幕的智能手机后,苹果公司已经开发出一款可折叠屏幕的iPhone。目前,两部iPhone样品被送往富士康,需要进行10...
日期:11-09
荣耀x50什么处理器「荣耀X50入网 首发骁龙6 Gen 1」
荣耀X50今天上午已经通过认证,支持35W快充,新机正面采用一块6.78英寸的OLED曲面屏,分辨率为2652 x 1200像素。苹果2021年财报发布日期galaxy z fold4三星手机优惠活动荣耀X50首...
日期:06-02
15 Pro钛金属蓝色版破发 1TB价格贵899元 iPhone
来源:中关村在线近日,深圳市第三方渠道的报价结果显示,iPhone 15 Pro的三个版本(256GB、512GB和1TB)全部破发。其中,破发机型主要集中在钛金属蓝色款。其中,1TB钛金属蓝色版本的报...
日期:10-01
万柳书院少爷是什么梗 喻少是怎么火的?
最近,一则胯下运球的短视频突然火了,网友纷纷在该视频下留言自称“老奴”。而这个视频之所以会突然爆火,主要是因为他的视频定位在“万柳书院”。据了解,万柳书院是北京海淀区著...
日期:01-09
5.98万起售还嫌贵?五菱缤果上市即热销:当天交付522台「五菱宏光缤瑞」
3月29日,五菱旗下全新微型电动车缤果上市,共计5款,售价区间为5.98-8.38万元,价格公布后,很多人表示5.98万的价格太贵,五菱已经不是人民的五菱了。iqoo8pro有人脸解锁吗不过吐槽归...
日期:04-01
打电话还有烟花特效!中国联通XR通话来了:小米、华为等手机完成测试
快科技10月23日消息,中国联通今日宣布,已成功完成XR通话测试。本次XR通话测试由各方专家在31个省全面展开的大规模端网测试。已完成对小米、OPPO、VIVO、华为、荣耀5个终端厂...
日期:10-24
功耗直降30% 台积电2nm工艺好于预期:2025年量产「台积电12nm功耗」
今天的财报会上,台积电不仅公布了Q3季度业绩,同时也透露了最新的工艺进展,3nm工艺的需求已经超过了预期,明年会满载量产,而2nm工艺也进度喜人,2025年量产。卡萨帝热水器排水台积电...
日期:10-21
致敬《星际迷航》创作者百年诞辰,OTOY宣布数字化档案库巨制
  在《星际迷航》创作者吉恩·罗登伯里(Gene Roddenberry)诞辰100周年即将到来之际, 美国权威云渲染公司OTOY与吉恩·罗登伯里庄园,携手《星际迷航》代表艺术家Denise Okud...
日期:07-17