您的位置:首页 > 互联网

三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5

发布时间:2024-01-18 22:08:22  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

对模型参数量的迷信、执念也许可以放下了,混合多个小模型也是未来构造对话型 AI 的一个光明的方向。

停电导致设备烧毁

在对话型人工智能(AI)研究中,存在趋势即朝着开发参数更多的模型方向发展,如 ChatGPT 等为代表的模型。尽管这些庞大的模型能够生成越来越好的对话响应,但它们同时也需要大量的计算资源和内存。本文研究探讨的问题是:一组小模型是否能够协同达到与单一大模型相当或更好的性能?

本文介绍了一种创新而简单的方法:混合。

作者展示了如果从一组小规模的对话型人工智能中随机选择回复,生成的对话型人工智能具有很强的性能和吸引力,可以胜过参数数量级大很多的系统。作者观察到混合模型似乎具有 “最优” 的特征,通过在对话历史上进行条件化响应,一个具有特定属性的单一模型能够学习其他系统的能力。可以为用户提供更引人入胜和多样化的回复和使用体验。

作者通过在 CHAI 平台上进行大规模 A/B 测试,证明了混合模型的有效性。在真实用户的测试中,包含三个6-13B 参数 LLM 的混合模型,胜过了 OpenAI 的175B + 参数 ChatGPT。并且混合模型的用户留存率显著高于基于 ChatGPT 的对话型人工智能,说明用户认为混合对话型人工智能更具吸引力、娱乐性和实用性,尽管混合模型仅需要消耗少量的推理成本和内存开销。

  • 论文:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

  • 论文链接:https://arxiv.org/pdf/2401.02994.pdf

  • 模型链接:https://huggingface.co/ChaiML

混合模型

对话型 AI

对话型人工智能的目标是设计一个能够生成引人入胜、富有娱乐性的对话系统,供人们进行交互。设 uk 表示用户的第 k 轮对话,其中每个用户轮次是一个单词序列,uk = (w (k)1. . . , w (k) |uk| )。同样地,设 rk 表示系统生成的第 k 个响应,也是一个单词序列,rk = (w (k)1, . . . , w (k) |rk| )。作为一种隐式语言模型,一个特定的对话型人工智能,参数化为 θ,在给定先前对话历史的情况下,建模预测下一个响应出现的概率。

联想小新激光一体机

在训练过程中,系统隐式学习将更高的概率分配给流畅、引人入胜和高质量的响应。因此,可以通过从其分布中随机采样输出,无论是通过随机方法,还是通过像波束搜索这样的近似搜索过程。

受 InstructGPT 的启发,最先进的对话型人工智能通常遵循三阶段的流程。首先,对预训练语言模型 (PrLM) 进行微调,该模型在相关的文本领域进行训练,例如,在设计引人入胜的聊天机器人时使用有趣的文学作品。其次,使用明确的人类反馈来训练奖励模型。最后,使用奖励模型改进原始的 PrLM,可以采用近端策略优化或者采用简单的拒绝抽样策略。

在开发特定的对话型人工智能时,存在许多设计选择,如基础 PrLM、用于微调的对话数据以及用于更新系统的人类反馈。人们可能期望不同的方法和训练数据能产生高度多样的系统,每个系统都展示出独特的优势和特征。然后,可以考虑如何将一组对话型人工智能组合起来,形成具有总体更好特性的系统。

集成

根据贝叶斯统计原理,分配给特定响应的概率可以被概念化为对所有合理的对话型人工智能参数取边际期望,

华为mate30pro手机拍照怎么关闭美颜

在实践中,当只能访问有限的一组对话型人工智能系统 {θ1, θ2...θN} 时,可以将连续积分近似为离散求和。此外可以假设 PΘ(θ) 在这些系统上均匀分布,即 PΘ(θn) =1/N,如果该集合包含性能相似的模型,这是一个有效的假设,可以得到下面的近似式:

混合

作者提出的方法目标是从真实的集成分布 (方程8) 中近似抽样。为了实现这种近似,在每一轮对话混合模型都会随机 (均匀地) 选择生成当前响应的对话型人工智能 θ。这个过程在下面的算法1中有详细描述。需要注意的是,在对话过程中,特定对话型人工智能生成的响应是在先前选择的对话型人工智能生成的所有先前响应的条件下进行的。这意味着不同的对话型人工智能能够隐式地影响当前响应的输出。因此当前响应是个体对话型人工智能优势的混合,它们共同合作以创建整体更吸引人的对话。

实验

对于在 Chai Research 平台上部署的每个对话型人工智能,作者根据 A/B 测试设置中的 (文章4.2节的公式15) 计算每一天 k 的用户参与度。通过考虑第20天 (k=20),图1显示了混合模型、其组成的对话型人工智能以及 OpenAI 的 GPT-3.5的参与度比例。作者观察到中等大小的对话型人工智能 (Pygmillion、Vicuna 和 ChaiLLM) 的参与度明显低于 GPT3.5,这是在预期内的,因为 GPT3.5的参数数量要高一个数量级。然而,混合这三个基本对话型人工智能,混合模型的结果不仅比每个组成系统都具有更高的参与度,而且性能提升显著,以至于混合模型可以胜过 OpenAI 的 GPT3.5。与其他对话型人工智能相比,混合模型的成功也可以通过比较 k=20的用户留存比 (文章4.1节的公式10) 来计算,结果如图1所示。

混合模型总共有25亿参数,而 OpenAI 有1750亿参数。此外,由于混合模型的响应是从单个对话型人工智能中随机抽样的,因此推理成本等同于单个6B/13B 系统的成本。在图2和图3中,可以看出推理速度的显著差异,可以观察到混合模型在参与度和用户留存方面有显著的性能提升,而速度与小型对话型人工智能相当。这具有重要意义:与其扩大系统规模以提高质量,不如简单地混合多个较小的开源系统,而且在不增加任何推理成本的情况下,可以极大地改善用户的对话体验。这证明了在设计引人入胜且成功的对话型人工智能时,模型协作比简单的模型参数扩展更为重要。

作为客观比较,表1报告了单一指标摘要 (论文3.3节)。以 Pygmillion 为控制组,作者提供了测试相对于控制组的参与度比率指标∆α 和∆γ,以及测试相对于控制组的留存比率指标∆ζ 和∆β。混合模型具有最高的相对初始参与度,∆α,以及最佳的参与度比率衰减率,∆γ。尽管 Vicuna 的留存比率衰减率∆β 优于混合模型,但 Vicuna 的初始留存比率∆ζ 明显较低,说明 Vicuna 需要更长的时间来达到混合模型的留存分数6,如前面图2和3所示。总体而言,很明显,混合模型通过协作多个较小的对话型人工智能,在提供比单个更大的对话型人工智能 (OpenAI 的 GPT3.5) 更高质量的对话方面是有效的。

三星galaxy book pro评测


返回网站首页

本文评论
全国政协委员、中国工程院院士邓中翰:以“垂直域创新”带动芯片技术攻关
  “在西方核心技术严密封锁的形势下,芯片领域要攻克关键技术、突破产业瓶颈,开展‘垂直域创新’将是大势所趋。” 全国政协委员、中国工程院院士邓中翰在接受《中国电子...
日期:07-16
Arm 再上市:七年时间,5800 亿美元的芯片行业如何剧变「arm上市了吗」
越来越多的公司想自研芯片,越来越多的参与者不想看到垄断。文丨贺乾明 邱豪编辑丨黄俊杰 龚方毅Arm 是芯片产业里绕不开的一个公司。自它 1990 年在英国剑桥乡间成立,已经有 2...
日期:08-30
华硕新款灵耀 X 14 上架,触控板副屏设计,首发 8799元「华硕灵耀14s触摸板」
IT之家 9 月 14 日消息,华硕新款灵耀X 14 现已上架官方商城,采用了 14 英寸 2.8KOLED屏,还拥有触控板副屏设计,首发价 8799 元。life电动汽车IT之家了解到,该机搭载了英特尔 12...
日期:09-25
机票刚买1分钟就降价了「平台回应机票一分钟三次变价:实时价格变动正常」
你有没有碰见过打车或者买票,App上一会儿一个价的情况?据澎湃报道,近日消费者张女士向澎湃质量观投诉平台反映, 3月21日,她在旅行平台购买上海到西宁的机票,不料一分钟内机票价格...
日期:04-08
哈啰:假日狂欢节单日GTV峰值近4亿,同比增7成_哈啰最新活动
10月10日消息,哈啰宣布第二届假日狂欢节正式收官,平台单日GTV创下近4亿历史最高峰值,同比增速超7成。据悉,哈啰假日狂欢节从9月4日持续至10月8日,活动覆盖平台6亿注册用户。特斯...
日期:10-10
谷歌旗舰影像得分出炉 小米12S Ultra_小米10谷歌相机对比
中关村在线消息:今日,知名评测机构DXO公布了谷歌旗舰手机Pixel 7的的影像得分,这台手机获得了140分的高分。值得一提的是,谷歌旗舰手机的得分比小米徕卡高端旗舰小米12S Ultra还...
日期:11-23
首款天玑9300直屏手机!iQOO Neo9 Pro图赏_vivo天玑900新机曝光
快科技12月27日消息,iQOO正式发布iQOO Neo9系列,包括iQOO Neo9和iQOO Neo9 Pro两款机型。华为手机如何自定义app图标现在iQOO Neo9 Pro已经来到我们评测室,下面为大家带来图赏...
日期:12-28
微软愿意允许索尼通过PlayStation Plus订阅服务出售《使命召唤》游戏
12月13日消息,据国外媒体报道,微软愿意允许索尼通过PlayStation Plus游戏订阅服务出售《使命召唤》游戏。据悉,微软是在今年1月份宣布将以每股95美元的价格收购动视暴雪的,这笔...
日期:12-13
中国信通院 数字经济白皮书「重磅!中国信通院发布《区块链白皮书(2022年)》」
2022年12月29日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会和中国互联网协会指导,可信区块链推进计划、中国互联网协会区块链技术应用工作委员会、中国...
日期:12-29
中国移动 双碳「陕西移动落实“双碳”行动建节能基站」
通信世界网消息(CWW)伴随夏季用电高峰的来临,“节能”重新成为社会关注话题。近年来,陕西省5G网络快速发展,实现大范围覆盖,5G网络能耗问题逐步凸显。作为省内通信服务行业的领头...
日期:06-14
紫光展锐重要人事变更:马道杰被任命为董事长_网易科技_紫光展锐副总名单
6月27日消息,紫光集团旗下核心企业紫光展锐今天公布了一条重要人事变更。紫光集团任命集团执行副总裁马道杰任紫光展锐董事并选派其为紫光展锐董事长。原由紫光集团委任的紫...
日期:06-27
奥迪正逐步淘汰汽油车 将所有工厂转为生产电动汽车「奥迪不在研发汽油车」
12月21日 消息:据外媒Electrek报道,奥迪正准备将其整个全球生产工厂网络转变为生产电动汽车,以准备迎接汽车行业的未来竞争中。奥迪去年宣布,其最后一款内燃机汽车将于2033年下...
日期:12-21
特斯拉德国柏林工厂突发火灾,什么原因?「最近德国火灾」
德国当地时间9月26日凌晨3时许,特斯拉柏林超级工厂突发火灾。事故发生后,特斯拉自己的12名消防员先进行了抢险,但意识到已经无法控制火势后便通知了消防部门。经过50名消防员(包...
日期:09-28
69岁大爷疑因邻居养鸽子染鹦鹉热 医生:发烧咳嗽、呼吸衰竭_养鸽子得鹦鹉热
据烟台日报水母网,常州69岁的钱大爷半个多月前突然发热咳嗽,经过医院检查,发现是感染了鹦鹉热”,两肺遭受严重感染,呼吸衰竭。据了解,鹦鹉热”又被称为鸟疫”,全称叫鹦鹉热衣原体感...
日期:04-26
历时6年 京东诉阿里“二选一”案一审胜诉 判决阿里赔偿10亿元_京东诉阿里巴巴二选一
12月29日消息,京东官方公众号“京东黑板报”发布声明称,今日,北京市高级人民法院对京东诉浙江天猫网络有限公司、浙江天猫技术有限公司、阿里巴巴集团控股有限公司“二选一”案...
日期:12-31
大厂投资的艰难一年:腾讯缩水六成,阿里仅出手十次「阿里蒸发4000亿」
图片来源@视觉中国文 | 新摘商业评论 ,作者 | 毕胥萍大厂降本增效的边界在不断扩张,今年以来,巨头对外投资数量呈断崖式下滑,腾讯投资出手80余次,相比去年同期210次大幅回落,字节...
日期:09-27
刷掌支付属于什么技术「微信上线的刷掌支付功能,有什么优势?」
声明:本文来自微信公众号“唐韧”(ID:RyanTang007),作者:唐韧,授权转载发布。微信上线了一个黑科技新功能,刷掌支付。听过刷脸支付,刷掌支付确实还是第一次听说。如果加上密码支付,...
日期:10-16
腾讯连夜确认!组织大调整坐实,马化腾宣布下个20年战略
9月30日消息,在昨夜媒体曝光之后,今天早上,腾讯官方宣布,将进行成立以来的第三次大规模组织架构......
日期:09-30
ps5最新待发售大作","info":{"wordid":"7090824334538020130"}},{"keywo
来源:中关村在线realme 天玑9000新机上市时间本月,PlayStation Plus Premium会员可以使用PS5云游戏服务。但是,一些玩家可能会问,索尼最新推出的设备PlayStation Portal是否支持...
日期:10-13
魅族20周年「或3699元起售-疑似魅族20系列门店海报曝光」
据官方此前官宣的信息显示,星纪魅族将于3月30日晚19:30在上海-梅赛德斯-奔驰文化中心举行魅族∞领克无界生态发布会,届时堪称官方预热时间最长的机型之一的全新魅族20系列将正...
日期:09-18