您的位置:首页 > 互联网

CipherChat:一个评估 LLM 安全对齐泛化能力的框架

发布时间:2023-08-19 12:16:53  来源:互联网     背景:

<script> var cid = "1552430".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

playstation collection

iphone6销量最高

8月19日 消息:CipherChat 是一个AI 框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。

image.png

项目地址:https://github.com/RobustNLP/CipherChat

研究强调了在处理非自然语言(如密码)时创建安全对齐方法的重要性,以确保与基础 LLM 的能力相匹配。

通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验,研究发现一些密码能够成功规避 GPT-4的安全对齐程序,在某些安全领域几乎达到100% 的成功率。

研究还揭示了 LLM 中存在秘密密码的现象,研究团队推测 LLM 可能具有解密特定编码输入的潜在能力,从而暗示了一种独特的与密码相关的能力存在。基于这一观察,研究引入了一个名为 SelfCipher 的框架,通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。

产品特点:

1. CipherChat 是一个用于评估 LLM(语言模型)的安全对齐泛化能力的框架。

2. 该框架可以系统地检查安全对齐在非自然语言(如密码)上的普适性。

3. 提供了一个示例运行命令和参数说明。

4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式,实现了对安全对齐的规避。

5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。

6. 提供了实验结果和案例研究,以及消融研究和其他模型的讨论。

7. 可以在论文中找到更多详细信息,并提供了引用。

请注意:本产品仅供研究使用,严禁滥用。

银行315打假案例

兵马俑


返回网站首页

本文评论
半导体设备商东京电子预计2020财年营收达830亿元 同比增长15.3%_日本东芝半导体行业超越美国后崩盘
11月2日消息,据国外媒体报道,半导体制造设备厂商东京电子日前发布了公司最新的财务数据。东京电子预计2020财年公司营收达1.3万亿日元(约合人民币830亿元),同比增长15.3%。东京电...
日期:08-02
网友哭了,周杰伦新歌《说好不哭》在苹果Apple Music突然下架(周杰伦说好不哭试听)
  9月17日消息 周杰伦合作阿信的新歌《说好不哭》于9月16日晚11点发售,该单曲在QQ音乐上的销售量已经突破470万张,目前已经登上微博热搜榜第一名。QQ音乐需要付费3元购买,昨...
日期:08-14
今晚油价或迎年内“最大跌幅”!95号汽油有望回归7元时代_今晚油价如何
5月16日消息,今晚24时,国内第10轮油价调整将正式开启,继上轮成品油价格下跌后,机构预计本轮成品油价格或继续下跌,有望迎来年内最大跌幅”。一加手机降价幅度如何有效避免出现这...
日期:05-16
中国对5g投入_我国运营商5G投资超4016亿元:5G资费很难大降了
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-16
iPhone 15全系曝光:取消刘海 接口改用Type-C_iphone13刘海取消
iPhone 15全系曝光了,外媒绘制了iPhone 15全系的真机渲染图,从图片中得知,iPhone 15全系取消了刘海屏幕,并且全系标配灵动岛,iPhone 15系列仍然有四款,共有15、15 Plus、15 Pro和1...
日期:10-09
AI公司“Kneron耐能”推出 AI芯片KL730 可驱动轻量级 GPT「耐能科技kneron」
8月16日 消息:AI公司“Kneron耐能”推出了最新款的 AI 芯片 KL730,该芯片具备较高的能效和安全性能,能够驱动轻量级的 GPT 解决方案。相比于以往的芯片,KL730在能效方面提升了3...
日期:08-16
搜狗输入法市场份额_百度输入法市场份额即将“超车”!95后最爱输入法尽显年轻态度
  “想想吧,20后看90后,就像90后看60后一样一样的!”2020年的第一声“惊雷”来得比以往都早一些。当第一批20后已经出生,面对如此事实,你有没有“瑟瑟发抖?”   同一时间9...
日期:05-24
街电独家入驻上海正大广场,构建陆家嘴核心区便捷租借网络
  近日,街电与上海陆家嘴核心区旗舰购物中心正大广场达成独家合作,80多台不同型号的街电共享充电设备全面入驻正大广场九个楼层关键位置,营造高沉浸式购物氛围。与正大广场...
日期:07-10
港式经典墨瀧海鲜餐厅启用机器人送餐 硬核解锁餐饮业招工难题
  墨瀧港式海鲜餐厅。墨,特指汉阳墨水湖,据传古时墨水湖的风景优美,聚集大批的文人墨客来此舞弄水墨,由于长到湖边洗毛笔,时间久了湖水变得墨黑深邃,由此得名墨水湖。瀧,意为湍...
日期:03-26
自动驾驶数据遭破坏时 工信部:应能识别记录_自动驾驶 数据安全
5月5日消息,工信部今日发布了公开征求《汽车整车信息安全技术要求》等四项强制性国家标准的意见公告。腾讯360手机管家其中,《智能网联汽车自动驾驶数据记录系统》征求意见稿...
日期:05-06
百度健康:建立医患匹配引擎,直连20余国家医疗区域中心_百度互联网医院平台
讯 8月15日上午消息,百度健康称其打造了医患匹配引擎,与公立三甲医院和专科合作,通过大数据与AI技术匹配区域内公立三甲医院专科服务。   百度健康方面表示,其一共直连了20余...
日期:08-15
Redmi Note 12系列即将登场:米粉已经迫不及待了 微博催卢伟冰发布「卢伟冰红米note11」
今日晚间,一位米粉给小米集团中国区总裁卢伟冰留言,催Redmi Note 12系列快发布。此前卢伟冰已在个人微博暗示,Redmi Note 12系列即将登场,该机全球首发联发科天玑1080处理器。华...
日期:10-24
搜狗安卓浏览器_搜狗高速浏览器领衔WebKit内核创新  率先全面支持下载工具直接调用
  日前,上网最快的搜狗高速浏览器(http://ie.sogou.com)重装升级,成为首家全面支持在WebKit内核下直接调用迅雷、快车等下载软件的浏览器。作为第一款同时采用WebKit和IE内核...
日期:07-29
华为云618营销季产品近万字实测!  云上协同,开启丝滑办公新体验!
随着数字时代崛起,越来越多的企业认识到上云的重要性。众多上云产品中,协同办公类产品可谓独树一帜,其大幅降低了企业办公成本,打破地域、硬件等限制,提升办公效率。本期测评博主...
日期:06-20
知乎建立内容分级体系_知乎创作分等级
  8月9日消息,继今年5月公布获得感新内容标准之后,知乎近日进一步披露该标准的落地进展。据悉,知乎已经在获得感标准下建立统一的内容分级体系,以优化社区内容结构和创作生态...
日期:07-17
世界先进半导体公司 与台积电关系「30年来第三次易主 台积电将取代三星、Intel成为半导体一哥」
全球半导体行业的排名可能又一次被颠覆,这一次上位一哥的是台积电,以全球最大的晶圆代工厂荣登第一,超越三星、Intel。从1992年起,Intel成为全球半导体市场的一哥,营业额领先其他...
日期:10-12
谷歌 Chrome 浏览器将内置截图功能(谷歌浏览器自带的截图)
  11 月 15 日消息,谷歌 Chrome 浏览器在最近的 Chrome 94 更新中增加了 Android 版的截图功能,但目前没有桌面版本的截屏工具。   据 XDA 报道,最新的 Chrome 98 Canary...
日期:07-17
命运齿轮游戏「命运齿轮转废了 钉钉自侃1.9超低评分:小学生狂打1星差评」
7月28日消息,钉钉昨日发布视频自侃1.9分的超低评分。深度分析三星和英特尔2020年2月14日,第一个小学生给钉钉打了差评,从此命运的齿轮开始转动。”在华为应用市场,钉钉评分仅1.9...
日期:07-28
30%抽成还是难以接受?马斯克称将与库克讨论调整“苹果税”「马斯克和库克」
8月3日消息,当地时间周三埃隆·马斯克(Elon Musk)表示,他“将与库克谈谈”,看看这位苹果首席执行官是否会调整对应用内交易收取30%佣金的政策。小米13处理器目前,苹果对iOS上的所...
日期:08-03
洞见未来智造!群智合携手行业共建数字制造新时代_创新赋能数智未来
  随着工业互联网、云计算、大数据、人工智能等信息科技的革新发展,一轮又一轮的产业革命正在崛起,全球制造业正在迎来一个崭新的数字化转型浪潮!   作为中国更具影响力...
日期:11-09