您的位置:首页 > 互联网

1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下

发布时间:2023-09-02 14:30:57  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),授权转载发布。

CMU 与清华的研究者联合发布了 Prompt2Model 框架,它可以根据用户提供的 prompt,快速训练一个小型专业模型。仅需投入5美元用于数据收集和20分钟的训练时间,就能获得性能优于 ChatGPT 平均水平20% 的小型模型,同时模型参数规模减小了700倍。

大规模语言模型(LLM)使用户可以借助提示和上下文学习来构建强大的自然语言处理系统。然而,从另一角度来看,LLM 在特定自然语言处理任务上表现存在一定退步:这些模型的部署需要大量计算资源,并且通过 API 与模型进行交互可能引发潜在的隐私问题。

为了应对这些问题,来自卡内基梅隆大学(CMU)和清华大学的研究人员,共同推出了 Prompt2Model 框架。该框架的目标是将基于 LLM 的数据生成和检索方法相结合,以克服上述挑战。使用 Prompt2Model 框架,用户只需提供与 LLM 相同的提示,即可自动收集数据并高效地训练适用于特定任务的小型专业模型。

研究人员在三个自然语言处理子任务上进行了实验。采用少量样本提示作为输入,仅需花费5美元收集数据并进行20分钟的训练,Prompt2Model 框架生成的模型在性能上相较强大的 LLM 模型 gpt-3.5-turbo 表现出20% 的性能提升。与此同时,模型的体积缩小了高达700倍。研究人员进一步验证了这些数据在真实场景中对模型效果的影响,使得模型开发人员能够在部署前预估模型的可靠性。该框架已以开源形式提供:

  • 框架的 GitHub 仓库地址:https://github.com/neulab/prompt2model

  • 框架演示视频链接:youtu.be/LYYQ_EhGd-Q

  • 框架相关论文链接:https://arxiv.org/abs/2308.12261

背景

从零开始建立特定自然语言处理任务系统通常相当复杂。系统的构建者需要明确定义任务范围,获取特定的数据集,选择合适的模型架构,进行模型训练和评估,然后将其部署以供实际应用。

国庆档总票房437亿

大规模语言模型(LLM)如 GPT-3为这一过程提供了更加简便的解决方案。用户只需提供任务提示(instruction)以及一些示例(examples),LLM 便能生成相应的文本输出。然而,通过提示生成文本可能会消耗大量计算资源,并且使用提示的方式不如经过专门训练的模型稳定。此外,LLM 的可用性还受到成本、速度和隐私等方面的限制。

为了克服这些问题,研究人员开发了 Prompt2Model 框架。该框架将基于 LLM 的数据生成与检索技术相结合,以解决上述限制。该系统首先从 prompt 中提取关键信息,然后生成并检索训练数据,最终生成可供部署的专业化模型。

Prompt2Model 框架自动执行以下核心步骤:

  • 数据集与模型检索:收集相关数据集和预训练模型。

  • 数据集生成:利用 LLM 创建伪标记数据集。

  • 模型微调:通过混合检索数据和生成数据对模型进行微调。

  • 模型测试:在测试数据集和用户提供的真实数据集上对模型进行测试。

经过多个不同任务的实证评估,Prompt2Model 所花费成本显著降低,模型的体积也大幅缩小,但性能超越了 gpt-3.5-turbo。Prompt2Model 框架不仅可作为高效构建自然语言处理系统的工具,还可用作探索模型集成训练技术的平台。

框架

上半年全球手机销量 idc

Prompt2Model 框架的核心特点为高度自动化。其流程涵盖了数据收集、模型训练、评估和部署等多个环节,如上图所示。其中,自动化数据收集系统扮演了关键角色,它通过数据集检索和基于 LLM 的数据生成,获取与用户需求密切相关的数据。接着,系统会检索预训练模型,并在获取的数据集上进行微调。最后,系统会在测试集上对经过训练的模型进行评估,并创建用于与模型交互的 Web 用户界面(UI)。

Prompt2Model 框架的关键特点包括:

  • Prompt 驱动:Prompt2Model 的核心思想在于使用 prompt 作为驱动,用户可以直接描述所需的任务,而无需深入了解机器学习的具体实现细节。

  • 自动数据收集:框架通过数据集检索和生成技术来获取与用户任务高度匹配的数据,从而建立训练所需的数据集。

  • 预训练模型:框架利用预训练模型并进行微调,从而节省大量的训练成本和时间。

  • 效果评估:Prompt2Model 支持在实际数据集上进行模型测试和评估,使得在部署模型之前就能进行初步预测和性能评估,从而提高了模型的可靠性。

雷军拒绝投资马云

这些特点使 Prompt2Model 框架成为一个强大的工具,能够高效地完成自然语言处理系统的构建过程,并且提供了先进的功能,如数据自动收集、模型评估以及用户交互界面的创建。

实验与结果

在实验设计方面,研究者选择了三项不同的任务,以评估 Prompt2Model 系统的性能:

  • 机器阅读问答(Machine Reading QA):使用 SQuAD 作为实际评估数据集。

  • 日语自然语言到代码转换(Japanese NL-to-Code):使用 MCoNaLa 作为实际评估数据集。

  • 时间表达式规范化(Temporal Expression Normalization):使用 Temporal 数据集作为实际评估数据集。

东风悦达起亚mpv嘉华价格

此外,研究者还选用了 GPT-3.5-turbo 作为基准模型进行对比。实验结果得出以下结论:

  • 在除了代码生成任务之外的各项任务中,Prompt2Model 系统所生成的模型明显优于基准模型 GPT-3.5-turbo,尽管生成的模型参数规模远小于 GPT-3.5-turbo。

  • 通过将检索数据集与生成数据集进行混合训练,可以达到与直接使用实际数据集训练相媲美的效果。这验证了 Prompt2Model 框架能够极大地降低人工标注的成本。

  • 数据生成器所生成的测试数据集能够有效区分不同模型在实际数据集上的性能。这表明生成的数据具有较高的质量,在模型训练方面具有充分的效果。

  • 在日语到代码转换任务中,Prompt2Model 系统的表现不如 GPT-3.5-turbo。

这可能是因为生成的数据集质量不高,以及缺乏适当的预训练模型等原因所致。

综合而言,Prompt2Model 系统在多个任务上成功生成了高质量的小型模型,极大地减少了对人工标注数据的需求。然而,在某些任务上仍需要进一步改进。

总结

研究团队所推出的 Prompt2Model 框架实现了仅通过自然语言提示来自动构建任务特定模型的功能。这一创新显著地降低了构建定制化自然语言处理模型的门槛,进一步扩展了 NLP 技术的应用范围。

验证实验结果显示,Prompt2Model 框架所生成的模型相较于大型语言模型,其规模显著减小,且在多个任务上表现优于诸如 GPT-3.5-turbo 等模型。同时,该框架生成的评估数据集也被证实能够有效评估不同模型在真实数据集上的性能。这为指导模型的最终部署提供了重要价值。

Prompt2Model 框架为行业和广大用户提供了一种低成本、易于上手的途径,以获取满足特定需求的 NLP 模型。这对于推动 NLP 技术的广泛应用具有重要意义。未来的工作将继续致力于进一步优化框架的性能。

按照文章顺序,本文作者如下:

Vijay Viswanathan: https://www.cs.cmu.edu/~vijayv/

Chenyang Zhao: https://zhaochenyang20.github.io/Eren_Chenyang_Zhao/

Amanda Bertsch: https://www.cs.cmu.edu/~abertsch/

Tongshuang Wu: https://www.cs.cmu.edu/~sherryw/

Graham Neubig: https://www.phontron.com/


返回网站首页

本文评论
奇艺由原来简单复制Hulu模式转变为多元化出击
  1月5日消息,昨晚,坚持走正版Hulu模式的视频网站奇艺对外透露,今年1月底之前奇艺将推出社区系统——“奇谈”。   有媒体报道称,奇艺社区“奇谈”本质上是为用户提供一个...
日期:07-25
2021年周鸿祎谈360发展「360周鸿祎:国内AI大模型基本赶上或者接近国际平均水平」
快科技6月13日消息,随着ChatGPT火爆,今年来AI大模型技术成为各大科技公司的热点,国内多家公司也推出了自己的大模型技术,纷纷对标ChatGPT,360周鸿祎认为国内的技术已经基本赶上国...
日期:06-13
美媒:我们可能永远不知道互联网对我们隐藏了多少事实「互联网的真相」
  作者/法哈德·曼朱  译/丁玎iPhone7亮点  美国《纽约时报》8月25日文章,原题:我们可能永远不知道互联网对我们隐藏了多少事实 ;  互联网汇集了有史以来最全面的人类...
日期:08-31
打造社交元宇宙,Soul的社交新故事_Soul-年轻人的社交元宇宙
  来源:猎云网   ID:ilieyun   作者:尹子璇   北京时间5月11日,社交平台Soul向美国证券交易委员会提交招股书,申请以SSR为交易代码在纳斯达克上市,摩根士丹利、Jefferi...
日期:02-14
BIMe协作平台 工程项目的“数字化引擎”(BIM协作)
  近日,国家“十三五”重点研发计划《某城市轨道交通领域集设计、建造运维管理一体化BIM数据管理平台》——“建造和管理中心”子系统完成初步验收,该系统基于东晨工元“...
日期:07-16
马斯克否认特斯拉不再与比亚迪合作:两家公司之间的关系是积极的
3月14日消息,近日有消息称,特斯拉已决定不再使用比亚迪的电池。马斯克在推特上回复网友时表示,媒体报道是假的。特斯拉和比亚迪之间的关系是积极的。截自社交媒体今日早晨,针对...
日期:03-14
四川真有个哈哈村:广东宇宙村、高兴镇等也都存在 网友直呼长见识
四川真的有个哈哈村,而这个村也因为名字上了热搜。我们经常说,这里是一个快乐的地方。这里几个村子的名字,都带有哈字、乐字,比如哈哈村、木拉乐村、阿始乐村、草西乐村所以说,这...
日期:07-14
中国电信研究院6G成果在MWCS2023获广泛关注「中国电信研究院 待遇」
通信世界网消息(CWW)世界移动大会·上海2023(MWCS 2023)于6月28-30日在上海国际博览中心召开。中国电信研究院展示了“6G智简网络架构”“可重构智能表面样机”“6G无线仿真体系...
日期:07-05
TVB宣布入局直播带货:独创“港剧式直播”超长带货 长腿女神陈敏之首播
做人呢,最重要的是开心,123,上链接!”当TVB艺人们开始直播带货,你会不会买单?日前,TVB识货入驻淘宝直播,正式入局直播带货行业。据悉,TVB将独家开创港剧式直播”超长直播在线时长带货...
日期:03-04
拒绝录用有文身员工 老板回应被威胁:看不惯年轻人必教育到底_拒绝纹身的理由
5月16日,广东东莞。一名工厂老板拒收有文身员工的视频走红,我们不收有文身的,一个都不可以,先声明一下。你的文身有可能断送了你的前程。它给人的第一印象就不好,要么是社会上混...
日期:05-18
携程租车子公司「携程租车和腾讯出行服务正式达成合作」
9 月 28 日消息,近日,携程租车和腾讯出行服务正式达成合作,携程租车正式入驻腾讯出行服务,为腾讯出行服务的用户提供一站式在线预订国内租车服务。自 9 月 20 日起,用户通过“微...
日期:09-29
宏基蜂鸟笔记本屏幕「宏基蜂鸟笔记本」
是一款高端的笔记本电脑产品,其名称取自体积小,重量轻,像蜂鸟一样敏捷的特点。这款笔记本采用了最新的技术和材料,以满足现代用户对移动性、性能和品质的高要求。首先,具有出色的...
日期:06-03
林俊杰认栽,第一波元宇宙炒房团“覆灭”_林俊杰元旦2020
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:何煦阳,授权转载发布。曾经热炒的元宇宙地产“哑火”了。元宇宙分析平台WeMeta数据显示,2021年11月,歌手林俊杰花12.3万美...
日期:04-19
ios15.02发热严重「发热、信号bug频出 沈义人吐槽苹果iOS 16:稳定性最差一代」
两周前,伴随着iPhone 14系列的上市,苹果也正式推送了iOS 16系统,这本来是一次大版本更新,带来了不少新功能,然而没等果粉享受各种新功能,最近吐槽iOS 16问题多的网友占了上风。就...
日期:09-28
微软挖苦谷歌 黑客都说Windows越来越安全(微软遭遇过黑客攻击吗)
  据国外媒体报道,针对谷歌在内部封杀Windows的做法,微软日前给予回应,称Windows的安全状况要好于人们的想象。   本周一有报道称,出于安全因素考虑,谷歌已经开始在公司内部...
日期:07-29
vivo官网 iQOO iQOO_vivo天猫超级品牌日重磅来袭,iQOO3抢先买!
  2月25日,iQOO在年后首场发布会上正式推出了年度旗舰iQOO 3,并且将于3月2日全网正式开售。   作为一款5G性能旗舰,iQOO 3秉承“生而强悍”的品牌理念,高通骁龙865处理器、...
日期:11-27
苹果15是什么屏幕「iPhone 15将采用更好的OLED屏幕」
据外媒报道,三星最新的OLED屏幕材料M13有望应用于苹果iPhone 15系列。苹果iPhone一直采用三星供应的最顶级的OLED屏幕,超过自家S系列旗舰机型。去年发布的iPhone 14和Plus款使...
日期:05-01
私域社群黄金运营法来了_私域流量和社群有什么区别
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:见实,授权转载发布。所谓社群的黄金运营法则,是基于社群整体的价值表现,包含社群内用户的消费价值、内容价值、互动价值、社...
日期:04-08
岚图梦想家的讲究与将就「岚图和理想」
国内的 MPV 市场,一直都十分固化。顶层是雷打不动的丰田埃尔法、雷克萨斯 LM,再往下,就是常年的销量王者别克 GL8。在以往,国内的自主品牌基本不会挑战这些拥有良好口碑的车型,也...
日期:02-06
Omdia复盘2023华为全球分析师大会系列:云游戏和高清直播有望进一步推动5G普及
2023/5/24 16:54 Omdia复盘2023华为全球分析师大会系列:云游戏和高清直播有望进一步推动5G普及  艾斯 C114讯 5月24日消息(艾斯)市场研究公司Omdia多位分析师参加了2023年...
日期:05-26