您的位置:首页 > 互联网

清华 唐「清华唐杰新作WebGLM:参数100亿、主打联网搜索,性能超WebGPT」

发布时间:2023-06-24 13:02:30  来源:互联网     背景:

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

清华唐杰团队的新作来了:

WebGLM,一个参数100亿的联网问答聊天机器人(论文入选KDD2023)。



你可以问它任何问题,然后它将列举出网上(例如维基百科、相关官网)相关的文章链接,整理出答案。

比如:

ChatGPT的核心技术是什么?



或者:

谁提出的Music Transformer?它的原理是什么?



再或者:

原神3.5版本怎么样?



没有高薪工作,怎么在一线城市生活?(手动狗头)



它都能给出有理有据的回答。

据介绍,在性能对比测试中,WebGLM的水平已经高于OpenAI 135亿参数的WebGPT,在人类评估中,甚至与1750亿参数的模型不相上下。



那么,它是如何训练的?

可以上网的清华系WebGLM

据介绍,WebGLM的目标是通过Web搜索和检索功能,增强预训练大语言模型,同时可以进行高效的实际部署。

为此,作者基于三种策略进行开发。

首先是大模型增强检索器。

它主要是用于增强模型相关网络内容的检索能力,在给定查询的情况下查找相关引用,以便后面更好地准确回答问题。

它有两个阶段:粗粒度web搜索和细粒度LLM增强密集检索。

其次是自举生成器。

它利用GLM(比如清华之前发布的双语开源预训练模型GLM-130B)的能力为问题生成回复,提供详细的答案。

利用该生成器,作者得到WebGLM-QA——一个LLM自举引用和长程的QA数据集。

它通过上下文学习等策略进行清洗和过滤,最终包括45k的高质量过滤样本和83k的噪声样本。

WebGLM的backbone就是一个在该数据集上训练的GLM模型。

最后是基于人类偏好的打分器。

它通过优先考虑人类偏好而非昂贵的专家反馈来评估生成回复的质量,确保系统能够产生有用和吸引人的内容。

以上三大组件最终按顺序形成WebGLM的pipeline:



华为手机新科技

可以看到,正好三个模块,对应前面介绍的三部分,其中:

清华 唐

LLM增强检索器会将前五个最相关的页面作为参考源,让自举生成器生成多个答案,最终打分器选出最可能符合人类偏好的那一个作为最终输出。

性能超OpenAI WebGPT

除了WebGLM本身,唐杰团队此次还提出了一个网络增强问答系统的评估标准,评估对象既包括参考文献,也包括最终回答。

其中前者衡量相关性、信息密度、真实性(无事实错误)、毒性(不含暴力色情等信息)和社会偏见程度这5个维度;后者则衡量流畅度、正确性、引用准确性、客观性和冗余程度。

他们用WebGPT(来自OpenAI,基于GPT-3进行微调)演示网站提供的272个问题进行对比评估,并招募了15个学历为硕士的志愿者打分。

最终结果如下:

清华大学计算机系副主任唐杰

清华大学教授唐少杰



(“Rel.”、“ Den.”……分别对应上面说的10个指标。)

可以看到,尽管WebGLM的搜索结果略逊于WebGPT-175B,但远好于Perplexity.ai和WebGPT-13B(左边的参考文献评估)。

值得一提的是,WebGLM检索过程只使用了一些传统的基于单词的算法和两个累计参数量不超过300M的Contriever。

此外,WebGLM在计算性能和时间消耗方面也明显优于WebGPT-13B、并与175B不相上下。

而在最终结果方面,WebGLM在流畅度、真实性和冗余度方面均获得最高得分,正确性指标上则接近WebGPT-175B,远高于Perplexity.ai和WebGPT-13B。

作者表示,这表明WebGLM可以以更低的成本获得更高的性能。

部署与训练

WebGLM发布即开源。



要想部署它,需要从SerpAPI官网获得一个密钥,用于在搜索过程中获取搜索结果。

检索器的权重可从清华云上下载。

运行该模型的方式有两种:一是命令行界面,二是Web服务形式,并且包含WebGLM-2B和WebGLM-10B两种可选模型。

你也可以自己训练WebGLM,官方已提供好了生成器和检索器的训练数据供下载~

论文地址:
https://arxiv.org/abs//2306.07906

GitHub主页:
https://github.com/THUDM/WebGLM


返回网站首页

本文评论
苹果iPhone/iPad双折叠屏幕专利曝光:可折成“S”形和“G”形_苹果新专利曝光为可折叠iPhoneiPad开发柔性电池
  据国外媒体报道,苹果公司提交的一项专利书中介绍了一种双折叠屏幕,即可折叠两次。该设计意味着,该设备在展开时可用作平板电脑。苹果公司可能正准备通过生产自己的折叠手...
日期:02-06
iQOO Neo7参数抢先看:5000mAh+120W闪充「iqoo neo855充电速度」
今日消息,博主熊猫很禿然爆料,iQOO Neo7配备了5000mAh大电池,支持120W有线闪充,该机将于本月正式发布。作为Neo系列新成员,iQOO Neo7还有一种重要杀手锏是”使用了联发科天玑9000...
日期:10-19
美团数据显示:海南三亚入港机票订单量单日增长340%,住宿预订量增长近300%_
12月5日,海南省海口市、三亚市等多地宣布对省外来(返)人员不再实施分类管控。美团数据显示,消息发布后,海南机票、酒店、景点门票等搜索和预订量均呈明显上扬曲线。截至6日20时,三...
日期:12-12
苹果要彻底杀死Intel处理器!macOS最快明年停止支持
快科技6月9日讯,在本届WWDC上苹果带来了对MacBook Air、Mac Pro、Mac Studio等PC产品的更新,宣告彻底弃用Intel处理器,甚至Mac Pro把扩展AMD显卡的路子也堵死了。张勇害了淘宝...
日期:06-09
淘宝宣布批量设置发货时间功能升级 单次可修改500条数据_淘宝卖家更改发货时间设置
11月25日 消息:日前,淘宝平台宣布批量设置发货时间功能升级,支持卖家通过excel方式批量设置发货时间,单次最多可修改500条以内的数据,操作更便捷。一、入口:千牛卖家工作台-商品...
日期:11-28
京东众筹多久发货「上线8年 京东众筹将于10月10日起业务停运」
10月9日 消息:日前,京东众筹发布公告称,京东众筹业务将于2022年10月10日起暂停运营。9月30日10点,京东众筹入口下线,已经上线的项目将继续众筹,成功后正常发货。10月10日,众筹业务...
日期:10-27
卡萨帝银河空调闪耀上市,高端设计感与黑科技完美叠加(卡萨帝银河系列空调测评)
  消费转型升级期,越来越多的人士在购买家电产品时有了新的考虑,出于对高品质生活的需求,那些具有高颜值和优越功能的产品成为了大家关注的焦点。以空调市场为例,近两年高端...
日期:07-10
Redmi平板马上发布 和Redmi Note 12一起亮相「红米redmi平板」
中关村在线消息:10月4日,Redmi首款平板Redmi Pad在国外市场正式发布,一起发布的还有小米12T系列。作为首款平板,依旧走了Redmi的入门性价比路线,Redmi Pad 在印度市场提供 3GB+64...
日期:10-27
摩托罗拉发飙:折叠屏跌破5000元!「摩托罗拉新出新款手机折叠的」
摩托罗拉将折叠屏价格下调,再次收获了众多关注。陈劲宣布moto razr 2022官方售价降至4999元起,调价后,该机将成为首款定价在5000元以内的骁龙8+折叠屏手机。迈向零碳基于科技创...
日期:12-29
B站Q2净亏20亿 董事长陈睿:增长最重要「b站市值蒸发100亿」
  《科创板日报》9月8日讯(记者 张洋洋)9月8日美股盘前,哔哩哔哩(下称“B站”)发布了2022年第二季度财报。财报显示,今年二季度,B站营收49亿元,同比增加9%,市场预期49.05亿元;净亏损...
日期:09-10
创始人或核心高管英年早逝,那些企业何去何从?「英年早逝的高管」
声明:本文来自于微信公众号三言财经(ID:sycaijing),作者:三言财经,授权转载发布。大眼橙小黄人投影仪亮度昨日晚间,华为在内部社区“心声社区”发布讣告称,华为公司监事会副主席丁耘...
日期:10-11
孤身不孤独!用360桌面畅玩神棍节
  凄凉吗?在百年一遇的神棍节里突然想起了多年前的她?看着大街上一对对的情侣,仿似一阵秋风迎面吹来,心都凉透了?这样一个萧瑟的季节,还是在家里享受温暖吧,小编向大家推荐36...
日期:07-24
比亚迪拟500万扩建电池厂!相关负责人:是给苹果供货_比亚迪电池项目
10月11日消息,10月9日上海企事业单位环境信息公开平台网站显示,为满足市场需求和公司自身的发展,比亚迪拟投资500万元建设上海比亚迪有限公司扩建项目。公开信息显示,上海比亚迪...
日期:10-28
微软证实 Defender 又出故障,误将正常网址视为恶意链接_恶意网站链接
IT之家 3 月 30 日消息,每隔一段时间,微软的 Defender 就会出现问题,把正常文件或 URL 标记为恶意文件或链接。这个问题现在再次出现,微软已经证实,Defender 又出现故障,导致误将...
日期:03-30
教室里的护眼保卫战「保护眼睛老师上课视频」
2020 年 7 月,国家卫健委在新闻发布会上提出, 2020 年我国儿童青少年总体近视率为52.7%:其中 6 岁儿童为14.3%,小学生为35.6%,初中生为71.1%,高中生为80.5%。教育部、国家卫生健康...
日期:04-23
艾媒咨询发布手机输入法专题报告,百度输入法在办公、教育场景体验领跑
  2020年疫情加速了大众的数字化生活进程,输入法作为交互入口,其应用场景也得到了拓展。日前,全球领先的第三方数据分析机构艾媒咨询发布《2020中国第三方手机输入法场景应...
日期:12-12
z460联想笔记本拆机视频「z460 联想」
联想的Z460系列是一款出色的笔记本电脑系列。它被设计成一款平衡性能和便携性的笔记本电脑。该系列采用强大的Intel Core i3, i5和i7处理器和Windows 7操作系统,为用户提供最...
日期:05-29
蚂蚁集团前三季度营业收入1181.91亿元_蚂蚁集团前三季度营收1181.91亿元 支付宝月活用户7.31亿
10月22日消息,蚂蚁集团在招股意向书中披露了2020年1-9月未经审计的主要财务信息。根据公告,蚂蚁集团前三季度实现营业收入1181.91亿元,同比增长42.56%,主要来自数字金融科技平台...
日期:08-01
github人工智能写代码_GitHub 推出 AI 编程工具:可将注释自动转换为代码
  6 月 30 日消息 GitHub 近日联合 OpenAI,推出了一款“GitHub Copilot”工具,官方宣传语为“你的 AI 结对编程助手”。       从官方的描述来看,GitHub Copilot 接受了...
日期:05-23
三星和苹果的专利官司_美国法官称三星平板电脑侵犯苹果专利
  10月14日早间消息,美国地方法院法官露西·科赫(Lucy Koh)周四在加州圣何塞市联邦法院举行的听证会上表示,三星(微博)Galaxy平板电脑侵犯了苹果iPad专利权,但同时苹果在证...
日期:07-23