您的位置:首页 > 互联网

吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室

发布时间:2023-10-28 19:13:26  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:QbitAI,授权转载发布。

现在,大模型也学会“吃一堑,长一智”了。

盲人怎么看世界

来自香港科技大学和华为诺亚方舟实验室的最新研究发现:

相比于一味规避“有毒”数据,以毒攻毒,干脆给大模型喂点错误文本,再让模型剖析、反思出错的原因,反而能够让模型真正理解“错在哪儿了”,进而避免胡说八道。

具体而言,研究人员提出了“从错误中学习”的对齐框架,并通过实验证明:

让大模型“吃一堑,长一智”,在纠正未对齐的模型方面超越了SFT和RLHF的方法,而且在对已对齐模型进行高级指令攻击的防御方面也具有优势。

一起来看详情。

从错误中学习的对齐框架

现有的大语言模型对齐算法主要归为两大类:

  • 有监督的微调(SFT)

  • 人类反馈的强化学习(RLHF)

SFT方法主要依赖于海量人工标注的问答对,目的是使模型学习“完美的回复”。但其缺点在于,模型很难从这种方法中获得对“不良回复”的认知,这可能限制了其泛化能力。

RLHF方法则通过人类标注员对回复的排序打分来训练模型,使其能够区分回复的相对质量。这种模式下,模型学会了如何区分答案的高下,但它们对于背后的“好因何好”与“差因何差”知之甚少。

总的来说,这些对齐算法执着于让模型学习“优质的回复”,却在数据清洗的过程中遗漏了一个重要环节——从错误中汲取教训。

能不能让大模型像人类一样,“吃一堑,长一智”,即设计一种对齐方法,让大模型既能从错误中学习,又不受含有错误的文本序列影响呢?

△“从错误中学习”的大语言模型对齐框架,包含4个步骤,分别是(1)错误诱导(2)基于提示指引的错误分析(3)无引导的模型微调(4)基于提示引导的回复生成

香港科技大学和华为诺亚方舟实验室的研究团队对此进行了实验。

通过对Alpaca-7B、GPT-3和GPT-3.5这三个模型的实验分析,他们得出了一个有趣的结论:

对于这些模型,识别错误的回复,往往比在生成回复时避免错误来得容易。

△判别比生成更容易

并且,实验还进一步揭示,通过提供适当的指导信息,例如提示模型“回复中可能存在错误”,模型识别错误的准确性可以得到显著提升。

基于这些发现,研究团队设计了一种利用模型对错误的判别能力来优化其生成能力的全新对齐框架。

对齐流程是这样的:

risc-v架构发展历程

(1)错误诱导

这一步的目标是诱导模型产生错误,发现模型的弱点所在,以便后续进行错误分析和修正。

这些错误案例可以来自于现有的标注数据,或者是模型在实际运行中被用户发现的错例。

该研究发现,通过简单的红队攻击诱导,例如向模型的指令中添加某些诱导性关键字(如“unethical”和“offensive”),如下图(a)所示,模型往往会产生大量不恰当的回复。

(二)基于提示引导的错误分析

当收集到足够多包含错误的问答对后,方法进入第二步,即引导模型对这些问答对进行深入分析。

具体来说,该研究要求模型解释为什么这些回复可能是不正确或不道德的。

如下图(b)所展示,通过为模型提供明确的分析指导,比如询问“为什么这个答案可能是错误的”,模型通常能给出合理的解释。

(三)无引导性的模型微调

在收集了大量的错误问答对及其分析后,该研究使用这些数据来进一步微调模型。除了那些包含错误的问答对,也加入了正常的人类标注问答对作为训练数据。

如下图(c)所示,在这一步骤中,该研究并没有给模型任何关于回复中是否包含错误的直接提示。这样做的目的是鼓励模型自行思考、评估并理解出错的原因。

(四)基于提示引导的回复生成

推理阶段采用了基于引导的回复生成策略,明确提示模型产生“正确的、符合道德且无冒犯性”的回复,从而确保模型遵守道德规范,避免受到错误文本序列影响。

即,在推理过程中,模型基于符合人类价值观的生成指导,进行条件生成,从而产生恰当的输出。

△“从错误中学习”的大语言模型对齐框架指令示例

以上对齐框架无需人类标注以及外部模型(如奖励模型)的参与,模型通过利用自身对错误的判别能力对错误进行分析,进而促进其生成能力。

就像这样,“从错误中学习”可以准确识别用户指令当中的潜在风险,并做出合理准确的回复:

实验结果

研究团队围绕两大实际应用场景展开实验,验证新方法的实际效果。

场景一:未经过对齐的大语言模型

以Alpaca-7B模型为基线,该研究采用了PKU-SafeRLHF Dataset数据集进行实验,与多种对齐方法进行了对比分析。

实验结果如下表所示:

当保持模型的有用性时,“从错误中学习”的对齐算法在安全通过率上相比SFT、COH和RLHF提高了大约10%,与原始模型相比,提升了21.6%。

同时,该研究发现,由模型自身产生的错误,相较于其他数据源的错误问答对,展现出了更好的对齐效果。

△未经过对齐的大语言模型实验结果

场景二:已对齐模型面临新型指令攻击

研究团队进一步探索了如何加强已经过对齐的模型,以应对新出现的指令攻击模式。

这里,该研究选择了ChatGLM-6B作为基线模型。ChatGLM-6B已经经过安全对齐,但面对特定指令攻击时仍可能产生不符合人类价值观的输出。

研究人员以“目标劫持”这种攻击模式为例,并使用含有这一攻击模式的500条数据进行了微调实验。如下表所示,“从错误中学习”的对齐算法在面对新型指令攻击时展现出了强大的防御性:即使只使用少量的新型攻击样本数据,模型也能成功保持通用能力,并在针对新型攻击(目标劫持)的防御上实现了16.9%的提升。

实验还进一步证明,通过“从错误中学习”策略获得的防御能力,不仅效果显著,而且具有很强的泛化性,能够广泛应对同一攻击模式下的多种不同话题。

△经过对齐的模型抵御新型攻击

论文链接:

https://arxiv.org/abs/2310.10477


返回网站首页

本文评论
百度地图切换北斗卫星「百度地图宣布切换为优先运用国产北斗系统进行定位」
  IT之家9月30日消息,近日,百度地图发布了北斗卫星导航系统应用的最新进展,北斗卫星日定位量首次突破1000亿次。  百度地图今日宣布,正式切换为优先运用北斗系统进行定位,“...
日期:10-02
新电脑office网页版_微软更新 Office.com 和 Office Windows 版:全新主页、我的内容、创建页面
  11 月 2 日消息,微软今天宣布对 Office.com 和 Windows 版 Office 应用进行更新,增加了新的主页、我的内容和创建页面,使用户更容易找到跨应用和存储位置的所有内容和文件...
日期:07-17
Intel A580跑分现身Geekbench:超越RTX 3050
在Intel公布Arc系列独显之初,就曾有消息指出将有一款定位入门级的A580显卡。但时至今日,这张显卡依旧没有正式现身。快科技8月3月消息,今天,A580的跑分成绩出现在了Geekbench数...
日期:08-04
1200元买了5个“塑料袋”,虚拟服装一点也不元宇宙
声明:本文来自于微信公众号 雪豹财经社(ID:xuebaocaijingshe),授权转载发布。当虚拟服装走下奢侈品神坛世界上第一件虚拟服装彩虹裙诞生于2019年,最终卖出了9500美元的高价。而...
日期:10-28
三星开始为iPhone 15量产OLED显示屏 领先LG和京东方「三星oled屏幕和苹果」
  【手机中国新闻】随着iPhone 15发布日期的临近,有关新机的消息也变得越来越多。8月1日,有消息称,苹果的主要OLED屏幕供应商三星,已经获得了iPhone 15系列所有四款机型显示器...
日期:08-02
个人计算迎变革:联想集团10余款AI PC亮相CES 2024_联想ag
通信世界网消息(CWW)1月9日,在2024年科技界的首场盛事国际消费电子展(CES)上,联想集团携40多款基于人工智能的全新设备与解决方案亮相,涵盖Yoga™、ThinkBook™、ThinkPad™、Think...
日期:01-10
dac模型「在大模型时代一起赢未来!」
在大模型时代一起赢未来! 通信产业网|2023-09-07 15:49:49作者:胡媛来源:通信产业网【通信产业网讯】(记者 胡媛)过去一年,大语言模型的浪潮,让越来越多人看到了通向通用人工智能的...
日期:09-08
憋了2年 微信输入法推出!张小龙为保护用户隐私:我们要相信他
准备了2年时间,微信键盘终于推出了,从不少iOS用户反馈看,体验还是可以的,不过就是体积有点大。京东618热爱狂欢趴v1.0从一些用户分享的体验看,大家有的比较喜欢滑动全部删除/恢复...
日期:12-20
微信支付0.2费率申请「商户如何快速开通微信支付0.2%(千分之二)费率?」
众所周知,商户一般去微信支付官方申请支付接口,一般的费率为0.6%(即千分之六,也就是1000块的交易费用需要6元手续费)。具体我们先了解一下微信官方商户类目对应资质、费率、结算...
日期:11-17
消息称 Redmi K70至尊版档期提前:采用1.5K 8T LTPO新基材_红米k70s
每天分享科技热点!今天上午,数码博主@数码闲聊站 爆料了一款新机的配置参数,该博主称:该机搭载1.5K 8T LTPO新基材新屏幕,5开头峰值亮度,旗舰级边框控制,目前样机顶配天玑9300+24GB...
日期:01-23
TCL华星参展ISVE 2023 多款商显专显展品成全场焦点
8 月 23 日,以“大商显 元宇宙 智能化 享未来”为主题的第五届深圳(国际)智慧显示系统产业应用博览会(简称ISVE 2023)在深圳会展中心隆重举办。作为商用显示系统产业的“行业风向...
日期:08-23
英特尔CEO证实裁员 三年内将削减近130亿美元成本「英特尔放弃」
凤凰网科技讯 北京时间10月28日消息,由于个人电脑需求的急剧下滑拖累了公司的盈利,芯片巨头英特尔已开始大举削减成本。英特尔表示,该公司正努力在2023年实现30亿美元的成本削...
日期:10-28
数坤科技获社会各界认可 智慧医疗体系持续推进_数坤医疗怎么样
随着科技的不断发展,医疗行业未来势必将进行“数字化”改革。作为行业内领先的科技类企业,数坤科技始终推行智慧医疗体系建设,致力于打造新时代医疗产业,让院方、医生、患者实现...
日期:11-28
成龙新电影来了 原班人马时隔19年回归 谢霆锋首当导演「成龙新电影2020年即将开拍」
5月10日消息,电影《新警察故事2》备案公示,影片将由谢霆锋执导,陈健鸿编剧,成龙、谢霆锋、蔡卓妍等人出演。华为 HUAWEI Mate 40 麒麟9000E SoC芯片 5000万超据了解,该片由《新警...
日期:05-11
曾黑掉马斯克等名人账号:2020年推特黑客案攻击者被抓_推特 马斯克
快科技6月26日消息,2020年,推特遭遇建立以来规模最大的一次黑客攻击,包括比尔盖茨、马斯克在内的上百个账号被盗,发布的诈骗信息则导致了大量用户上当。4670k最高配显卡苹果12贬...
日期:06-26
售价1699元起!一亿像素曲面屏旗舰手机realme真我10 Pro+正式发布_realmex7pro至尊版曲面屏
2022年11月17日—中国 · 深圳—科技潮牌真我realme于今日举行主题为“卷出一块好曲屏”的真我10系列新品发布会,正式推出全新一代科技越级代表作,包括真我10Pro+、真我10Pro...
日期:11-21
与索尼联合开发:一加12全球首发新一代“光喻LYTIA”高端传感器_一加光学
快科技11月1日消息,今天,一加手机官宣,一加12手机将全球首发与索尼联合开发的新一代索尼光喻LYTIA高端传感器。2022年11月,索尼公布旗下全新高端传感器品牌LYTIA,中文名称为"光喻...
日期:11-01
有人靠送外卖脱贫 也有人边送外卖边写诗(描写送外卖的人的文章)
作者: 彭晓玲   两年前,在朋友圈刷屏的报道《外卖骑手,困在系统里》把外卖小哥这个群体首次推到了公众面前。如今,第一本聚焦外卖群体的非虚构写作《中国外卖》则像一部纪录片...
日期:08-06
猿辅导成立小猿智能科技公司_小猿辅导是什么
6月16日 消息:天眼查App显示,近日,北京小猿智能科技有限公司成立,法定代表人为王向东,注册资本100万人民币,经营范围含计算机系统服务、计算机软硬件及辅助设备批发、计算机软硬...
日期:06-16
openai怎么玩「OpenAI史诗级更新!最强大模型炸场,128K上下文、价格暴降2/3」
本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。作者 | 智东西编辑部今日,2023年最瞩目的人工智能大会举办!智东西11月7日报道...
日期:11-07