您的位置:首页 > 互联网

研究发现,GPT-4可信度更高但也更易被“欺骗”

发布时间:2023-10-18 14:22:31  来源:互联网     背景:

划重点:

- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5,但更容易受到入侵和偏见的影响。

- 研究由微软支持,发现用户可以欺骗GPT-4,导致发布偏见结果和泄漏私人信息。

- 尽管存在漏洞,研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。

10月18日 消息:根据微软支持的研究发现,OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹,但也更容易受到入侵和偏见的影响。

研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分,这意味着他们发现该模型通常更擅长保护私人信息,避免产生有偏见的有毒结果,并抵抗对抗性攻击。

擎朗消毒机器人价格

火狐浏览器88

图源备注:图片由AI生成,图片授权服务商Midjourney

我国为什么对新能源汽车出口采取鼓励措施

然而,研究也发现用户可以要求GPT-4忽略安全措施,导致泄漏个人信息和对话历史。研究人员发现,由于该模型“更精确地遵循误导信息”,它更有可能严格按照棘手的提示执行。

华为轮值董事长胡厚崑百科

研究团队表示,尽管存在这些漏洞,但这些问题并未在面向消费者的GPT-4产品中出现,因为“成熟的AI应用程序采用一系列缓解措施,以解决可能在技术模型层面发生的潜在危害”。

为了衡量可信度,研究人员在多个类别中测量了结果,包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别,研究人员首先使用标准提示测试了GPT-3.5和GPT-4,其中包括可能已被禁止的词汇。接下来,研究人员使用设计用于推动模型打破其内容政策限制的提示,而不公然对特定群体持有偏见,最后挑战模型,故意尝试欺骗它们以忽略安全措施。

研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上,可能在恶意行动之前采取措施,以利用漏洞造成伤害的对手,”研究团队表示。“这种可信度评估只是一个起点,我们希望与其他人合作,进一步完善研究结果,并创建更强大和可信赖的模型。”

研究人员发布了他们的基准,以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试,其中开发人员测试多个提示,以查看它们是否会产生不希望的结果。当该模型首次推出时,OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷,仍然有限”。

美国联邦贸易委员会(FTC)已经开始调查OpenAI是否存在可能对消费者造成伤害的行为,例如发布虚假信息。


返回网站首页

本文评论
天搜股份积极洞察未来,技术创新正持续加码_天搜科技最新消息
  近日,2019 C3安全峰会在成都举行,会上国内首家5G安全协同创新中心宣布正式成立,该中心将面向5G安全共性关键技术、产品以及成果转化,打造“产学研用协同创新”模式,并推动创...
日期:09-19
AI生成马斯克婴儿照被疯传 网友:返老还童的老马竟然还挺可爱
最近,一张由AI生成的马斯克婴儿照片在社交媒体上风靡起来,引发了网友们的热烈讨论,并得到了特斯拉CEO马斯克本人的回复。据悉,这张照片是由一个叫“Not Jerome Powel”的网友分...
日期:06-06
小米14渲染图曝光:安卓最窄边框 最快11月亮相_小米14长度
快科技9月7日消息,博主i冰宇宙绘制了小米14渲染图。如图所示,该机延续了小米13的中置挖孔直屏方案,边框大幅收窄。筑牢个人信息安全防护网相比小米13的1.61mm窄边框,小米14这次...
日期:09-07
游戏实机演示视频放出 《荣耀·世界》软件著作权获批
近日,天眼查平台公布了腾讯科技(成都)有限公司“王者荣耀世界”软件著作权获得登记批准,当前版本号为V1.0.0.1。据悉《王者荣耀?世界》是一款开放世界 RPG 游戏,官方称未来将面向...
日期:10-18
五一最热门景区出炉:西湖人最多 一天80.85万人次「西湖每天旅游人数」
这个五一”,你去哪里玩了?还是宅在家里?据大数据统计,4月29日零时至5月1日16时,全国景区游客量排前十的景区分别为:- 杭州西湖- 南京夫子庙秦淮风光带- 南京钟山风景区- 北京颐和园- 大...
日期:05-03
“美利云中卫数据中心”牵手2021数博会,亮相数博展会_中卫云计算大数据发展局
  5月28日,为期3天的2021中国国际大数据产业博览会(下称“2021数博会”)在贵阳圆满落幕。“美利云中卫数据中心”牵手数博会,亮相“数博展览”环节。本届数博会吸引了来自...
日期:08-07
华为突遭谷歌釜底抽薪!官方安卓不再支持华为手机_谷歌不再向华为提供安卓系统
  不好的消息一个接一个,局面只会更加残酷。   最新的一个是:使用安卓系统的华为手机,将被停止谷歌服务。   刚刚,路透社曝光称谷歌母公司Alphabet已按特普朗要求,停止与...
日期:01-23
天津联通闻“汛”而动 匠心护航确保通信畅通_联通通讯稿怎么写
天津联通闻“汛”而动 匠心护航确保通信畅通 通信产业网|2023-08-08 15:10:41作者:消息来源:通信产业网近日,京津冀地区出现极端强降雨,天津部分河道超警戒水位。天津市处于防洪...
日期:08-08
超长三伏天终于结束了:北方退出高温行列 南方多地闷热难消
长达40天的加长版三伏天”终于结束,今天正式出伏。这意味着一年中最难熬的酷暑时段终于要结束了。回顾今年的三伏天,高温日数较多的区域集中在新疆南部、四川盆地、江南、华南...
日期:08-22
抖音公布动态表情显示专利_抖音动态如何公开
  天眼查App显示,8月26日,抖音视界有限公司申请的“动态表情显示方法、装置、电子设备及计算机可读存储介质”专利公布。极客时间课程分享未来汽车有哪些高科技沛纳海手表特...
日期:09-09
iPhone12pro信号特别差「2022年依旧解决不好!iPhone 14 Pro被网友吐槽信号差」
苹果手机的信号问题多年来一直是网络的热点话题,甚至到了2022年,苹果依旧没有将这个致命问题很好的解决掉,并将“祖传手艺”延续到了iPhone14系列身上。今天,一则#iPhone14Pro被...
日期:10-05
联想z565有没有蓝牙「联想z565」
:强悍性能,价格亲民是一款性能强劲,外观设计简约的笔记本电脑。该机型采用了AMD A8-3500M处理器,可实现4个核心8个线程,主频最高可达2.4GHz,配备了2GB显存的AMD Radeon HD 6620G独...
日期:05-29
首次搭载潜望镜头!iPhone 15 Pro Max零部件供应出问题:将推迟发货
快科技8月22日消息,多方消息均已明确,苹果将会在9月12日(北京时间9月13日凌晨)召开新品发布会,推出iPhone 15系列。华为p50有2k吗如今该系列机型已经开始投入量产,但在发布之前却...
日期:08-22
特斯拉2020年营收「特斯拉2022年在华营收181.45亿美元:占比降至约22%」
据财联社最新消息,特斯拉递交给美国证券交易委员会(SEC)的10-K文件显示,2022年特斯拉总营收为814.62亿美元,同比增加51%。WIFI吞吐量对照其中,中国市场实现营收181.45亿美元,占比22...
日期:01-31
奈飞(NFLX.US)将在芬兰设立其第一家内部游戏工作室_奈飞 游戏
  智通财经APP获悉,奈飞在当地时间周一表示,将在芬兰设立一家内部游戏工作室。这是自该流媒体巨头于2021年11月进入移动端游戏领域以来,该公司首次进行此类内部开发。在此之...
日期:09-29
谷歌DeepMind新语言模型SayTap 让机器狗听从人类指令「谷歌的机器人学会了创造自己的语言」
文章概要:1. 谷歌DeepMind设计语言模型SayTap,可将人类指令转为机器狗可理解格式2. SayTap可处理复杂、模糊指令,让机器狗做出适当反应3. SayTap可将自然语言转为机器可理解格...
日期:09-06
三星云 停止「三星云宣布终止云盘音乐和文件恢复功能:删除用户数据」
快科技4月21日消息,今天三星向用户发送了一份邮件公告,称将从7月3日起终止云盘音乐/文件恢复功能,并同步删除相关用户数据。oppofindx2升级coloros12三星云表示,在正式终止云盘...
日期:04-21
联想拯救者y7000的屏幕参数「联想拯救者Y70屏幕参数大公开!6.67 英寸 OLED 直屏」
联想拯救者Y70游戏手机将于8月18日发布。近期,官方也发布了关于这款手机的屏幕参数信息。(图片来源于网络)据官方介绍,拯救者 Y70 游戏手机采用了中置打孔屏,6.67 英寸 OLED 柔性...
日期:09-13
iOS 17被曝出现Wi-Fi连接问题 iPhone 15系列尤其严重_宁晋县宁博源食品厂
近日,海外媒体报道,有苹果用户表示,在升级到iPhone 15 Pro或者iOS 17后,出现Wi-Fi连接缓慢的问题,尤其是iPhone 15系列机型上更为严重。据了解,许多苹果用户反映,自从升级到iPhone...
日期:10-07
华为10月发布会曝光,继续押注折叠屏_华为全新折叠屏曝光
据爆料,华为在10月份将有一场发布会,这也是在9月份的秋季发布会之后,又一波新品即将面世。来自数码博主提供的信息,华为10月份发布会定在本月底25号左右,新品包括华为P50Pocket n...
日期:10-16