您的位置:首页 > 互联网

你有没深入想过,什么造成了GPT-4的输出很随机?「gpt(u/l)」

发布时间:2023-08-07 17:22:22  来源:互联网     背景:

声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

Google Deepmind 可能早就意识到了这个问题。

今年,大型语言模型(LLM)成为 AI 领域最受关注的焦点,OpenAI 的 ChatGPT 和 GPT-4更是爆火出圈。GPT-4在自然语言理解与生成、逻辑推理、代码生成等方面性能出色,令人惊艳。

然而,人们逐渐发现 GPT-4的生成结果具有较大的不确定性。对于用户输入的问题,GPT-4给出的回答往往是随机的。

我们知道,大模型中有一个 temperature 参数,用于控制生成结果的多样性和随机性。temperature 设置为0意味着贪婪采样(greedy sampling),模型的生成结果应该是确定的,而 GPT-4即使在 temperature=0.0时,生成的结果依然是随机的。

在一场圆桌开发者会议上,有人曾直接向 OpenAI 的技术人员询问过这个问题,得到的回答是这样的:「老实说,我们也很困惑。我们认为系统中可能存在一些错误,或者优化的浮点计算中存在一些不确定性......」

值得注意的是,早在2021年就有网友针对 OpenAI Codex 提出过这个疑问。这意味着这种随机性可能有更深层次的原因。

gpt-n

图源:https://community.openai.com/t/a-question-on-determinism/8185

现在,一位名为 Sherman Chann 的开发者在个人博客中详细分析了这个问题,并表示:「GPT-4生成结果的不确定性是由稀疏 MoE 引起的」。

gpt(u/l)

Sherman Chann 博客地址:https://152334h.github.io/blog/non-determinism-in-gpt-4/

Sherman Chann 这篇博客受到了 Google DeepMind 最近一篇关于 Soft MoE 的论文《From Sparse to Soft Mixtures of Experts》启发。

gpt对应什么

论文地址:https://arxiv.org/pdf/2308.00951.pdf

在 Soft MoE 论文的2.2节中,有这样一段描述:

在容量限制下,所有稀疏 MoE 都以固定大小的组来路由 token,并强制(或鼓励)组内平衡。当组内包含来自不同序列或输入的 token 时,这些 token 通常会相互竞争专家缓冲区中的可用位置。因此,模型在序列级别不再具有确定性,而仅在批次级别(batch-level)具有确定性,因为某些输入序列可能会影响其他输入的最终预测。

gpt(guid)

此前,有人称 GPT-4是一个混合专家模型(MoE)。Sherman Chann 基于此做出了一个假设:

GPT-4API 用执行批推理(batch inference)的后端来托管。尽管一些随机性可能是因为其他因素,但 API 中的绝大多数不确定性是由于其稀疏 MoE 架构未能强制执行每个序列的确定性。

苹果商店0.01美元的app有哪些

也就是说,Sherman Chann 假设:「稀疏 MoE 模型中的批推理是 GPT-4API 中大多数不确定性的根本原因」。为了验证这个假设,Sherman Chann 用 GPT-4编写了一个代码脚本:

importos

importjson

importtqdm

importopenai

fromtimeimportsleep

frompathlibimportPath

chat_models=["gpt-4","gpt-3.5-turbo"]

message_history=[

{"role":"system","content":"Youareahelpfulassistant."},

{"role":"user","content":"Writeaunique,surprising,extremelyrandomizedstorywithhighlyunpredictablechangesofevents."}

]

completion_models=["text-davinci-003","text-davinci-001","davinci-instruct-beta","davinci"]

prompt="[System:Youareahelpfulassistant]\n\nUser:Writeaunique,surprising,extremelyrandomizedstorywithhighlyunpredictablechangesofevents.\n\nAI:"

results=[]

importtime

classTimeIt:

def__init__(self,name):self.name=name

def__enter__(self):self.start=time.time()

def__exit__(self,*args):print(f"{self.name}took{time.time()-self.start}seconds")

C=30#numberofcompletionstomakepermodel

N=128#max_tokens

#Testingchatmodels

formodelinchat_models:

sequences=set()

errors=0#althoughItrackerrors,atnopointwereanyerrorseveremitted

withTimeIt(model):

for_inrange(C):

try:

completion=openai.ChatCompletion.create(

model=model,

messages=message_history,

max_tokens=N,

temperature=0,

logit_bias={"100257":-100.0},#thisdoesn'treallydoanything,becausechatmodelsdon'tdo<|endoftext|>much

sequences.add(completion.choices[0].message['content'])

sleep(1)#cheaplyavoidratelimiting

exceptExceptionase:

print('somethingwentwrongfor',model,e)

errors+=1

print(f"\nModel{model}created{len(sequences)}({errors=})uniquesequences:")

print(json.dumps(list(sequences)))

results.append((len(sequences),model))

#Testingcompletionmodels

formodelincompletion_models:

sequences=set()

errors=0

withTimeIt(model):

for_inrange(C):

try:

completion=openai.Completion.create(

model=model,

prompt=prompt,

max_tokens=N,

temperature=0,

logit_bias={"50256":-100.0},#preventEOS

sequences.add(completion.choices[0].text)

sleep(1)

exceptExceptionase:

print('somethingwentwrongfor',model,e)

errors+=1

print(f"\nModel{model}created{len(sequences)}({errors=})uniquesequences:")

print(json.dumps(list(sequences)))

results.append((len(sequences),model))

#Printingtableofresults

print("\nTableofResults:")

print("Num_Sequences\tModel_Name")

fornum_sequences,model_nameinresults:

print(f"{num_sequences}\t{model_name}")

当 N=30,max_tokens=128时,结果如下表所示:

gpt-3

在 Sherman Chann 注意到 logit_bias 问题之前,还得到了如下结果(max_tokens=256):

gpt-f

实验结果表明,GPT-4的输出总是不确定的(unique completion 数值很高,表明对于相同的输入,GPT-4生成的输出总是不同的),这几乎可以证实 GPT-4存在问题。并且,所有其他不会陷入重复无用循环的模型也存在某种程度的不确定性。这似乎说明不可靠的 GPU 计算也会造成一定程度的随机性。

Sherman Chann 表示:「如果不确定性是稀疏 MoE 批推理固有的特征,那么这一事实对于任何使用该类模型的研究来说都应该是显而易见的。Google Deepmind 的研究团队显然知道这一点,并且他们认为这个问题很微不足道,以至于只是把它写成了一句不经意的话放在论文中」。

此外,Sherman Chann 还推测 GPT-3.5-Turbo 可能也使用了 MoE。

网友怎么看

这篇博客发表后,开发者们也开始讨论 GPT-4输出的不确定问题。有人认为这可能是「多线程并行」造成的:

gpt-3

也有人表示:「虽然计算是确定的,但是执行计算的多个处理器之间可能存在时钟频率偏差」:

gpt-2

一位支持 Sherman Chann 的假设的开发者说道:「GPT-3.5-Turbo 可能就是 OpenAI 为 GPT-4构建的小型测试模型」。

gpt-3

还有开发者分析道:「按照 Soft MoE 论文的说法,稀疏 MoE 不仅引入了不确定性,还可能会使模型的响应质量取决于有多少并发请求正在争夺专家模块的分配」。

gpt+

对此,你怎么看?

参考链接:

https://news.ycombinator.com/item?id=37006224


返回网站首页

本文评论
男子新提新能源汽车跑高速 耗电比预估的快 抛锚被追尾 承担次责
新能源汽车跑高速,实际续航往往只有标称的6成左右,大家千万别迷信仪表台显示的剩余里程。京东为什么做出关闭C2C平台拍拍网的决定?4月15日,一男子从杭州刚刚提了一辆新能源轿车...
日期:04-29
百度 CEO 李彦宏:文心大模型升级 3.5 版本,推理速度提升 17 倍
6 月 26 日消息,百度创始人、董事长兼首席执行官李彦宏今日出席“世界互联网大会数字文明尼山对话”,发表了题为《大模型重塑数字世界》的演讲。▲ 图源百度李彦宏认为,“新的...
日期:06-26
暴雪网易“分手”,NGA玩家发声:暴雪没把国服玩家当回事!「暴雪是网易的嘛」
文/张佳11月17日,暴雪娱乐公司宣布,由于与网易公司的现行许可协议将于2023年1月2日到期,暴雪娱乐公司将暂停在中国大陆的大部分暴雪游戏服务。这包括《魔兽世界》,《炉石传说》,...
日期:11-19
Facebook计划进军电子商务 与音乐服务结合(facebook music)
  9月13日消息,据国外媒体报道,Facebook将于下周推与Spotify和Rdio一道推出音乐服务。据悉,Facebook可能将在音乐服务中融合电子商务,线索有二。   第一,据游戏主管透露,Face...
日期:07-22
浙江一男子便秘自行灌肠致肠穿孔休克:医生也感到迷惑了_便秘灌肠一般多少钱
有些病自己可以处理,但有些则万万不可,下面就是让人后怕的例子。家里装的监控摄像头怎么在手机查看视频据杭州媒体报道,近日在浙江建德市,一男子因长期排便困难,在服药等无果后,自...
日期:07-08
联想坐稳一哥:PC市场份额高达42.3% 再创历史新高「联想pc业务的现状」
11月15日,联想中国区召开2022/23上半年财年(4-9月)总结大会。会上,联想集团执行副总裁兼中国区总裁刘军表示,克服重重不利因素,PC市场份额保持稳定,销售额市场份额再创历史新高达42...
日期:11-16
宝马集团二季度交付8.8万辆电动汽车 同比再次增长超过100%「宝马2020业绩」
7月13日消息,据外媒报道,德国豪华汽车厂商梅赛德斯-奔驰已在官网宣布,他们的纯电动乘用车在二季度销售5.63万辆,远高于去年同期的2.52万辆,同比大增123%。三星neo qled 4k评测而...
日期:07-13
各种搞怪单机游戏 4399游戏盒让你步步惊心_4399游戏盒的小游戏
  中秋去国庆来,眼看国庆七天大假就要来临!大家有没想法怎么HAPPY的过呢?没想法不代表不HAPPY,在4399游戏盒玩玩那些“简约不简单”的休闲游戏吧!各种搞怪各种有趣,不管是打...
日期:07-23
全球首发!一句话生成可编辑UI 稿 「即时 AI」开启万人内测!「一键生成句子」
今日,由国内首 款UI设计工具即时设计推出的 AIGC 产品——全新即时 AI,正式开启内测。这是全球首 款能让用户体验到通过自然语言描述,快速生成可编辑的 UI 设计稿功能的设计工...
日期:04-08
复爱合缘总裁庄海:不以结婚为目的的恋爱正在增加 婚恋网站也要求变
文 | 张俊     古老的婚恋行业正在迎来新的变化。   8月5日,独家报道了复爱合缘新一轮高管任命,原飞猪副总裁、民宿业务总经理庄海,被任命为复爱合缘总裁兼婚恋事业群总...
日期:08-17
展会预告 | Hip 2021邀请函,擎朗智能与您相约西班牙马德里
  300多家参展公司将针对尚未停止疫情展示他们的最新解决方案和产品。Hip202是一个面向酒店和餐饮专业人士的展会,将于3月22日至24日举行。为期三天。活动负责人Manel Bue...
日期:07-16
iPhone 15系列机模曝光 Pro版独享固态静音键_ios15静音键没有震动
7月18日 消息:据数码博主@来回五三七最近曝光的机模显示,iPhone15系列将继续推出四种机型,包括iPhone15、iPhone15Plus、iPhone15Pro和iPhone15Pro Max。这些机型在外观上与当...
日期:07-18
杭州女子捐款1000万:钱在帮到人的时候才有意义_杭州女孩捐心脏
据都市快报,在今年的五一”小长假前夕,杭州慈善总收到有史以来金额最大的一笔个人匿名捐赠。极氪啥意思电视机hdr和4k哪个更好据捐赠者女儿应晗(化名)说,母亲2008年就决定晚年要...
日期:05-22
“非洲”传音新机:价格3700元 2亿像素+180W快充「传音手机在非洲卖多少钱」
近日,“非洲之王”传音在海外发布了一款Infinix Zero Ultra新机,这款新手机价格为520美元,价格约合人民币3700元,其配置抢眼,主打中高端用户。这款手机采用了联发科天玑920处理器...
日期:10-11
中科院软件所提出“5G 认证密钥协议”设计方法:可抵抗链接攻击,保护用户隐私
  12 月 6 日消息,据中科院官网,近日,中国科学院软件研究所在 5G-AKA 研究中取得重要进展,提出了隐私保护的 5G 认证密钥协商协议设计方法,以标准兼容的方式解决了当前 5G-AKA...
日期:07-17
女孩考上清华:家人放烟花前向邻居报备 收到满满祝福_女孩考上清华跪谢父亲 新闻
6月27日消息,天津一女生获高分考上清华,家里人放烟花想庆祝一下,又怕打扰到其他邻居,就提前在群里告知。没想到,各位邻居不仅表示理解,还纷纷献上祝福,之后家长在小区里放烟花发喜...
日期:06-28
Game:2022上半年德国视频游戏销售额达45亿欧元「欧洲游戏销量榜」
  来源:199IT大疆无人机飞行图片  德国游戏市场遭遇逆风  在近几年游戏及相应硬件销量大幅上升后,2022上半年增速明显放缓。虽然德国游戏市场在2021年前6个月增长了22%,...
日期:10-03
技诺智能2019年度自助无人咖啡机运营大数据报告(人工智能咖啡机)
  技诺智能采集了2019年度技诺运营平台的大数据,现就多个维度对无人咖啡机的运营状况进行分析报告,更直观了解无人咖啡机的蓝海市场。2019年,是无人新零售行业,特别是无人...
日期:04-04
雷军卢伟冰同时退出武汉小米信息
3月22日 消息:企查查APP显示,近日,小米信息技术武汉有限责任公司发生工商变更,卢伟冰卸任该公司法定代表人、总经理职务,雷军卸任执行董事职务。一加9procoloros11.2系统怎么样...
日期:03-24
苏宁与美的合作的原因「苏宁易购与美的敲定240亿元年度合作目标」
2 月 8 日讯: 2 月 7 日,苏宁易购与美的召开 2023 年度合作会议,敲定 240 亿年度合作目标,同时宣布启动“火三月”大促,面向 2023 年,双方将以服务用户为导向,聚焦全品类产品供应,...
日期:02-08