您的位置:首页 > 互联网

大语言模型(LLM)的输出控制_语言模型plug

发布时间:2024-03-14 01:19:06  来源:互联网     背景:

通信世界网消息(CWW)大语言模型(LLM)固有的复杂性使得控制或引导其输出成为一个相当大的技术挑战。2023年12月,美国安全与新兴技术中心(CSET)发布报告《控制大语言模型的输出:初级指南》(Controlling Large Language Model Outputs:A Primer),介绍了LLM潜在的有害输出以及目前开发者用于控制LLM输出的主要技术。可以看出,LLM可控性目前尚无完美解。在实践中,LLM输出控制的各种技术需要相互结合使用,才能最大限度地发挥其作用。

为什么要控制大语言模型的输出?

语言模型plug

语言模型本质上是复杂的概率计算机器。它们建立语言token(单词、短语、单词的组成部分,甚至标点符号和语法符号)之间的关系,并计算每个token在响应给定提示词时的出现概率。模型反复选择最有可能出现的token,直到输出完成。这意味着语言模型对事实性或真实性并无基本理解,也并非从任何单一来源检索信息。它们更像是“即兴创作机器”:擅长复制模式,但没有内置方法来验证其输出是否有用、正确或有害。

以下三类潜在的有害输出,是LLM输出控制的主要原因:

 1. 不准确信息(incorrect information)

一些普通用户不了解模型的局限性并且不恰当地引用,认为它们提供了事实信息(AI研究人员称之为“过度依赖”)。例如,依赖模型获取健康信息的用户如果得到错误建议,可能会将自己置于危险之中;依赖模型获取政治信息的用户如果收到错误信息,可能会毫无理由地对候选人失去信任。随着人们越来越频繁地使用LLM,与过度依赖相关的风险可能会越来越大。

 2.偏见或有毒输出(biased or toxic outputs)

并非明显虚假的内容才会造成伤害。当LLM产生有偏见(例如关于种族、性别、宗教或其他类别)或有害的文本时,就会引发一系列问题。有研究已经测试并发现了与政治意识形态、宗教、性别等有关的偏见证据。另一项研究将LLM中的偏见追溯到训练数据,并指出基于某些关键词从训练数据中排除的内容会不成比例地删除关于各种少数群体成员的文本。

3.恶意使用(outputs resulting from malicious use)

不良行为者有可能故意使用LLM进行“恶意使用”。最坏情况之一是不良行为者利用LLM学习如何制造炸弹或生物武器,不同类型的恶意行为还包括使用LLM来促进黑客攻击、诈骗或生成虚假信息文章等等。

控制大语言模型的输出的四种技术

LLM的开发分为预训练、微调、部署三个阶段,相关的语言模型控制技术可运用于不同阶段以引导其输出。

图1 LLM开发的三个阶段及相关的语言模型控制技术

ngram语言模型

大疆无人机创业启示

(来源:Controlling Large Language Model Outputs:A Primer,CSET,2023.12)

 1. 编辑预训练数据(Editing Pre-training Data)

语言模型的预测能力来自于其训练文本中的相关性,因此对LLM的一个常见误解是通过操纵或编辑其训练数据,可以轻易地引导其输出。然而,现实世界中的预训练要复杂得多。考虑到这些模型的预训练数据量之大,要预测训练数据的变化将如何影响其性能或输出某些类型内容的倾向是极其困难的。

虽然训练数据操纵在理论上是控制模型行为的强大机制,但它并非预防许多类型有害输出的灵丹妙药,尤其是当意义和危害依赖于上下文的时候。尽管内容过滤器和数据源等因素最终会对完全训练模型的行为产生重大影响,但研究人员尚未完全理解应该如何操纵数据,才能在对模型产生有意义影响的同时,最大限度地减少性能损失。在经过精心策划的数据集上预先训练较小的、专业化的语言模型,可能更容易在数据过滤或增强方面取得成功,但LLM开发者可能还需要依靠其他方法来引导他们的模型。

 2. 监督式微调(Supervised Fine-Tuning)

模型经过预训练后,开发者可以通过在专门的数据集上进一步训练来继续调整其行为。这一过程被称为监督式微调,是修改语言模型最常见方法之一,通常是为了提高模型在特定领域的性能。模型接触到与特定主题相关的高质量数据越多,就越能以对人类用户有用的方式预测其输出中的下一个token。

在合适的上下文中,如果有合适的数据,监督式微调会非常强大,并且是将模型针对特定领域或用例进行特定调整的最佳方法之一。(这里的“监督”指的是模型被提供了标注数据,因此无需执行对数据中的模式和关联性进行学习的前提步骤。)然而,有效的监督式微调取决于对专业和高质量数据集的访问,而这些数据集并非在所有领域都可获得,或者无法准确地捕捉研究人员试图控制的行为。因此,研究人员希望开发出不依赖专业数据,或者能够以更灵活方式引导LLM行为的替代技术。

 3. 人类反馈强化学习(RLHF)及符合“宪法”的AI(Reinforcement Learning with Human Feedback and Constitutional AI)

人类反馈强化学习(RLHF)是一种借助不同的机器学习模型(称为“奖励模型”)对LLM进行微调的技术。该模型在原始LLM的一些文本输出上进行训练,人类标注者根据一些准则或偏好对这些文本输出进行排序。前文所提监督式微调通常用于创建专门的模型,不一定涉及基于任何“对”或“错”的感觉来指导模型;与其不同,RLHF的核心原则是人类偏好应在LLM的行为中发挥作用。“人类反馈”是RLHF的核心组成部分,也是其最大的局限性。只要RLHF需要人力,那么LLM创建者在其模型获得多少人类反馈方面自然会面临限制,因为这些措施的时间和成本都非常高。此外,设计不当的反馈过程可能会导致模型学会如何采取行动以最大限度地获得积极反馈,但实际上却可能无法转化为符合人类用户偏好的输出类型。

符合“宪法”的AI(Constitutional AI,或译“宪法”AI)是AI公司Anthropic开发的一种训练方法,旨在尽可能少地使用人类指导来引导LLM的行为。与RLHF不同,“宪法”AI不依靠人类标签或注释来编码人类偏好;相反地,研究人员提供了一系列指导规则或原则,因此被称为“宪法”,实质上通过另一个模型来评估并修订其输出。尽管“宪法”AI有望成为RLHF的替代品,其依靠人工生成的标签要少得多,但RLHF似乎仍然是在微调阶段指导和引导LLM的行业标准。

 4. 提示词和输出控制(Prompt and Output Controls)

即使经过预训练和多轮微调,LLM仍可能输出非期望文本。在将模型整合到面向消费者的产品之前,开发者可以选择在输出前或输出后阶段使用其他技术来控制模型。这些技术通常也被称为“输入过滤器”(应用于输出前阶段)和“输出过滤器”(应用于输出后阶段),通常分为三个步骤:检测、标记和编辑。

在LLM接收到用户输入之前,开发者可以对提示词进行筛选,评估它们是否可能引发有害文本,并向用户显示警告或拒绝信息。这可以产生类似于模型本身拒绝回答某些类型提示词的效果。

一旦LLM对提示词做出了响应,但在向用户显示输出之前,开发者可以进行额外的检查和过滤。与监督式微调一样,这些技术依靠人类标记的数据。微调阶段之后的模型控制通常还与监控或用户举报相结合,通常这涉及自动内容检测或过滤、人工内容审核和用户举报的组合。最后,如果有害或非期望输出通过了所有现有控制,许多LLM界面包含用户反馈机制,使用户可以直接标记单个输出。开发者难以捕捉到每一个可能导致有害输出的提示词或用例,因此需要依靠用户对模型性能提供反馈。

思考与启示

2023年8月起施行的《生成式人工智能服务管理暂行办法》,除了禁止生成违法违规内容,还要求在模型生成和优化等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;并且要采取有效措施,提高生成内容的准确性和可靠性。这些都说明了输出控制的重要性。

 1. LLM可控性尚无完美解 

可控性是LLM 的重点研究方向之一,但目前学术界并无完美解,正如CSET报告所言,“即使是最前沿的控制措施也不能保证LLM永远不产生非期望输出”。尽管开发者尽了最大努力,非期望输出仍会时有发生。任何以特定方式控制模型的尝试,都可能产生意想不到的后果。在实践中,LLM输出控制的各种技术需要相互结合使用,才能最大限度地发挥其作用。

 2. 多方协同推动各环节逐步逼近 

一是监管部门和产业界多方协同,遵循包容审慎原则,共同建立可信可控的大模型监管体系。二是从内容和逻辑的准确性、价值观的一致性、决策过程的透明度和可解释性、输出内容的安全合规性等多个维度提升LLM输出结果的可控性。三是构建评测标准生态,推动建立LLM评测体系,以科学有效的评测工具和评测方法,高效评估LLM的生成内容质量。


返回网站首页

本文评论
人民网:别让恶俗网络烂梗毒害孩子 还健康用网环境「网络烂的要死」
今天人民网发表热评《不能让恶俗的网络烂梗毒害孩子》,据报道,小孩子学到的网络烂梗越来越多。为此有人提出,要共建共治,家长多陪伴、学校多引导、平台多负责,一起把青少年的网络...
日期:03-08
元气森林纤茶推出概念新品“十全茶” ,暂无大规模铺市计划「元气森林的纤茶」
1月12日消息,元气森林宣布旗下纤茶品牌推出新品“十全茶”。纤茶负责人Andy表示,十全茶目前仍是一款概念产品,暂无大规模铺市计划。iPhone5过时产品Andy表示,草本茶在日韩热销多...
日期:01-12
吉利、百度集团联手 全新汽车机器人“极越”正式发布「吉利汽车机器人工程师招聘」
凤凰网科技讯 8月14日,吉利控股集团、百度集团联手打造的“汽车机器人战略合作项目”迎来重要进展,吉利控股集团旗下全新汽车机器人品牌“极越”正式发布。“极越”品牌的正式...
日期:08-15
比特币价格自6月中上旬以来触及25000美元_比特币年底将达到21000美元
世界上最大的加密货币比特币今天成功涨破了25000美元,这是6月13日以来的第一次。虽然在写这篇文章的时候,价格已经回落到24127美元,显示该资产还没有准备好保持最新的高点。目...
日期:08-17
攀升科技X英特尔校园行启动 武大学子率先体验英特尔®酷睿™第14代处理器
10 月 22 日,攀升科技X英特尔校园行活动启动,首场活动将走进武汉大学,在武大风雨操场与学子们互动。学生们将在搭载了英特尔®酷睿™第 14 代处理器的攀升新品电脑上,率先体验全...
日期:10-22
博主试驾人类历史上第一台汽车:没有方向盘、加油刹车全靠手!
快科技9月15日消息,1886年,卡尔本茨发明了世界上第一辆内燃机车,100多年过去了,现代人再次开上这台车会是一种怎样的体验呢?近日,知名汽车博主@陈震同学 就在德国亲自驾驶了这台...
日期:09-16
2023全国赏樱地图出炉 华南最早进入赏樱季_全国赏樱地图出炉!
“三月细雨声,杏花疑樱花。”一年一度的赏樱时节到了,在我国,樱花遍布南北各地,从华南到东北都能欣赏到樱花的美景。由于我国地域广阔,樱花种类繁多,各地赏樱季的时间也不尽相同。...
日期:03-10
爱回收科技资讯:荣耀MaicBook X系列笔记本明日发布(荣耀magicbook回收)
  5月7日 14:30荣耀MaicBook X系列笔记本将以线上形式发布,从前期官方发布的宣传海报看,MaicBook X除了金属机身以外,整体将更加纤薄,屏幕边框也将更窄,从而获得更高的屏占比...
日期:05-03
初普全新限量版金矿美容仪全球首发上市,独家搭载新一代抗衰科技ImpactPro
2023 年 5 月 8 日,上海——日前,全球领先的家用美容仪品牌初普TriPollar在华举办新品发布会,搭载新一代创新成果ImpactPro的限量版旗舰「金矿美容仪」耀世登场。作为专研抗衰...
日期:05-10
动感权益包是什么「产品权益服务深度融合 实现“动感地带”全生命周期精准运营」
通信世界网消息(CWW)2003年,中国移动推出为年轻时尚人群量身定制的移动通信用户品牌——动感地带。在过去的20年里,“动感地带”品牌形象已经深深地印在了年轻群体心中。它不仅...
日期:03-14
iPhone 14 Plus明天首销:比华为Mate 50 Pro还贵「买mate40pro送iphone12」
根据苹果官方数据显示,iPhone 14 Plus将于10月7日正式开卖,其中销售的有三个版本分别是128GB版售价6999元,256GB版售价7899元,512GB顶配版售价达到了9699元。另外颜色方面,用户可...
日期:10-07
马化腾马云刘强东李彦宏「从刘强东马化腾到李彦宏,科技大佬为何频频开炮?」
  作者/刘佳华为公布HarmonyOS 2升级时间表  反思潮席卷科技互联网行业。  前有京东集团董事长刘强东内部痛批部分高管,称“拿PPT和假大空词汇忽悠自己的人就是骗子”,...
日期:01-06
京东物流回应001号员工退休:工资涨了数倍 两个儿子都已在无锡买房
快科技1月11日消息,据京东物流”公众号消息,京东物流在无锡的第一名快递员金宜财于昨日(1月10日)正式宣布退休。对此京东物流回应,近年来陆续有很多京东物流快递员、仓库管理员、...
日期:01-12
国产CPU里程碑!麒麟等全面适配 龙芯3A6000更强了:性能对标酷睿10等「龙芯cpu与麒麟cpu」
快科技8月14日消息,按照龙芯中科的说法,今年第四季度国产CPU 3A6000将会上市。腾讯公益捐赠河南按照官方的话说,龙芯3A6000流片成功代表了我国自主桌面CPU设计领域的最新里程碑...
日期:08-14
三轮车撞宾利 1.5万「三轮车撞上宾利被判全责 车主只要100元 网友感慨:活该开宾利」
11月25日,江西宜春发生了一起三轮车撞宾利的事故,最终宾利车主只要了三轮车车主100元。oppok10将发布屏幕素质怎么样据秒闻视频报道,当时该这辆宾利郑州上路正常行驶,突然一辆拉...
日期:11-27
R星:《GTA 6》发行时间将延期至2025年
快科技11月10日消息,据媒体报道,游戏开发商Rockstar Universe和RockstarINTEL于近日在其官方账号上表示:R星内部推迟了《GTA6》的发行日期。谷歌pixel折叠屏vivoxfold详细参数...
日期:11-10
OpenAI员工股票出售在即,估值再涨3倍至近900亿美元_opendoor公司股票
9月27日 消息:据美国《华尔街日报》9月26日报道,人工智能Startup公司OpenAI正与投资人洽谈可能的股票出售事宜,目前估值已从7个月前的290亿美元涨至800-900亿美元之间,几近翻了...
日期:09-27
美团创始人王兴将投资自己的“上铺兄弟”:入局AI大模型创业_美团创始人王兴是哪里人
3月8日最新消息,今日下午,美团创始人王兴在朋友圈中透露,将以个人身份参与王慧文创业公司“光年之外”的A轮投资,并出任董事。王兴朋友圈原文称:“AI大模型让我既兴奋于即将创造...
日期:03-08
鸿蒙魔镜“为鉴”要来了!华为或将强势加入智能健身“百镜大战”
  近日,有消息披露,华为已启动“为鉴”商标的注册程序,其国际分类包含教育娱乐、健身器材、食品、医药等。考虑到此前华为发布的多款智慧屏产品具备了智能健身功能,并且...
日期:07-22
500万!侵权特斯拉商标的啤酒公司被强制执行_特斯拉面商标被注册
10月20日消息,这应该是特斯拉在国内第一次获赔500万的案子。据企查查APP显示,近日,中饮食品有限公司、广东中饮食品有限公司被强制执行500万元,所属司法案件为特斯拉(上海)有限公...
日期:10-22