您的位置:首页 > 媒体评论

GPT-4很强大但仍有诸多谜团 OpenAI选择只透露这么多_gpt-f

发布时间:2023-03-17 02:03:36  来源:互联网     背景:

·“(该模型) 仍然存在很多问题和错误……但你确实可以看到微积分或法律等技能的飞跃,从某些领域的非常糟糕到相对于人类来说实际上相当好。 ”

·从长远来看,OpenAI计划构建和部署可以处理多种媒体的系统,包括声音和视频。“我们可以采用所有这些通用知识技能,并将它们传播到各种不同领域。这将技术带入了一个全新的领域。”

人工智能研究机构OpenAI 3月14日发布了备受期待的文本生成AI模型GPT-4。GPT-4在关键方面对其前代GPT-3进行了改进,例如提供更符合事实的陈述,并允许开发人员更轻松地规定其风格和行为。它是多模态的模型,可以理解图像内容。但是,GPT-4也有严重的缺陷,与GPT-3一样,该模型会产生“幻觉”并犯下基本的推理错误。

GPT-4发布后,多家媒体关注的焦点是,OpenAI并没有透露很多细节,包括该模型有多大的参数,性能为什么更好。“GPT-4是该公司发布过的最机密的版本,标志着其从非营利性研究实验室全面转变为营利性科技公司。”《麻省理工科技评论》的文章称。

OpenAI的首席科学家伊利亚·苏茨克沃(Ilya Sutskever)在公告发布一个小时后通过视频通话与GPT-4团队成员交谈时说:“你知道,我们目前无法对此发表评论。”“竞争非常激烈。”

为了更好地了解GPT-4的开发周期及其功能和局限性,科技媒体TechCrunch 14日采访了OpenAI的联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)。当被要求比较GPT-4和GPT-3时,布罗克曼说:“就是不同。”“(该模型) 仍然存在很多问题和错误……但你确实可以看到微积分或法律等技能的飞跃,从某些领域的非常糟糕到相对于人类来说实际上相当好。 ”

OpenAI高层,总左到右为首席技术官米拉·穆拉蒂、首席执行官山姆·奥特曼,总裁格雷格·布罗克曼,首席科学家伊利亚·苏茨克沃。图片来源:Jim Wilson

到底有多大的训练参数?

测试结果显示,在美国大学先修课程微积分BC考试中,GPT-4获得4分(满分5分),而GPT-3获得1分。GPT-3.5是GPT-3和GPT-4的中间模型,也获得4分。模拟律师考试方面,GPT-4以排名前10%的成绩通过,GPT-3.5的分数徘徊在后10%左右。(详见澎湃科技报道《OpenAI发布多模态大模型GPT-4:直接开放API,ChatGPT升级》)

GPT-4更有趣的方面之一是多模态。与GPT-3和GPT-3.5只能接受文本提示不同,GPT-4可以接受图像和文本提示来执行某些操作。这是因为GPT-4接受了图像和文本数据的训练,而其前代仅接受了文本训练。

GPT是Generative Pre-training Transformer(生成式预训练Transformer)的缩写。OpenAI于2018年推出具有1.17亿个参数的GPT-1模型,2019年推出具有15亿个参数的GPT-2,2020年推出有1750亿个参数的GPT-3。ChatGPT是OpenAI对GPT-3模型微调后开发出来的对话机器人。

但是,OpenAI这次选择不透露GPT-4训练数据的具体规模。在新闻公告里,OpenAI只表示,它使用与ChatGPT相同的方法取得了这些结果,通过人类反馈强化学习。这要求人类评分者对来自模型的不同响应进行评分,并使用这些分数来改进未来的输出。

OpenAI表示,训练数据来自“各种许可、创建和公开可用的数据源,其中可能包括公开可用的个人信息”,但当被询问具体细节时,布罗克曼拒绝了TechCrunch的询问。据悉,训练数据之前曾让OpenAI陷入关于版权的法律纠纷。

在接受《纽约时报》的采访时,布罗克曼则表示,OpenAI的数据集是“互联网规模的”,这意味着它涵盖了足够多的网站,可以提供互联网上所有说英语的人的代表性样本。

OpenAI的工作人员在办公。图片来源:Jim Wilson

“缓慢而有目的”地推广图像功能

GPT-4的图像理解能力令人印象深刻。例如,输入提示“这张图片有什么好笑的?一个面板一个面板地描述它”,加上一张三面板图像,显示一条假VGA电缆被插入iPhone,GPT-4给出了每个面板的详细描述并正确解释了这个笑话:这个图像中的幽默来自于荒谬地将过时的大的VGA连接器插入小的现代智能手机充电口。

GPT-4解读图像内容。

“在过去几年里,一个好的多模态模型一直是许多大型技术实验室的圣杯。”开源大型语言模型BLOOM背后的人工智能初创公司Hugging Face的联合创始人托马斯·沃尔夫(Thomas Wolf)说, “但它仍然难以捉摸。”

从理论上讲,结合文本和图像可以让多模态模型更好地理解世界。“它可能能够解决语言模型的传统弱点,比如空间推理。”沃尔夫说。尚不清楚GPT-4是否如此。

目前只有一个OpenAI的合作伙伴可以使用GPT-4的图像分析功能——一款名为Be My Eyes的视障人士辅助应用程序(详见澎湃科技报道《第一批公司已采用GPT-4,都用它来做些什么?》。布罗克曼表示,随着OpenAI评估风险和收益,无论何时进行更广泛的推广,都将是“缓慢而有目的”的。

布罗克曼说,面部识别以及如何处理人物图像等方面存在政策问题。”“我们需要弄清楚危险区域在哪里,红线在哪里,然后随着时间的推移弄清楚这一点。”

此前,OpenAI围绕其文本到图像系统DALL-E 2面临了类似的道德困境。在最初禁用该功能后,OpenAI又允许用户上传人脸以使用人工智能图像生成系统对其进行编辑。当时,OpenAI称其安全系统的升级使面部编辑功能成为可能,因为最大限度地减少了深度造假,以及试图创造性、政治和暴力内容的潜在危害。

“从每3个月发布一个新模型转向不断改进”

另一个老问题是防止GPT-4以可能造成伤害的方式被使用,包括心理、金钱等方面。该模型发布数小时后,以色列网络安全初创公司Adversa AI发布了一篇博文,展示了绕过OpenAI内容过滤器并让GPT-4生成网络钓鱼电子邮件、对同性恋者的攻击性描述和其他令人反感的文本的方法。

这在语言模型领域并不是一个新现象。Meta的BlenderBot和ChatGPT也被提示说出非常冒犯的话,甚至透露有关其内部运作的敏感细节。但许多人曾希望,GPT-4可能会在这方面带来重大改进。

当被问及GPT-4的稳健性时,布罗克曼强调该模型已经接受了5个月的安全训练,并且在内部测试中,它响应OpenAI政策不允许的内容请求的可能性降低了82%。

“我们花了很多时间试图了解GPT-4的能力。”布罗克曼说,“把它带到外面的世界是我们学习的方式。我们不断进行更新,包括一堆改进,这样模型就更能扩展到你希望它处于的任何个性或某种模式。”

布罗克曼并不否认GPT-4的不足,但他强调了该模型新的缓解性控制工具,包括一种称为“系统”消息的API(应用程序编程接口)级能力。系统消息本质上是为GPT-4的互动设定基调并建立界限的指令。例如,一条系统信息可能是这样的:“你是一个总是以苏格拉底方式回答问题的辅导员。你从不给学生答案,而总是试图提出正确的问题,帮助他们学会自己思考。”系统信息作为护栏,可以防止GPT-4偏离方向。

“真正弄清楚GPT-4的语气、风格和内容一直是我们的一个重要焦点。”布鲁克曼说,“我认为我们开始有点了解如何做工程,如何有一个可重复的过程,让你得到可预测的结果,对人们真正有用。”

gpt 4k

布罗克曼还提到了Evals,这是OpenAI刚刚开源的软件框架,用于评估其人工智能模型的性能,是OpenAI致力于“健全”其模型的一个标志。Evals让用户开发和运行评估GPT-4等模型的基准,同时检查其性能,这是一种模型测试的众包方法。

“通过Evals,我们可以以一种系统的形式看到用户关心的(用例),能够进行测试。”布罗克曼说,“我们(开源)的部分原因是,我们正在从每3个月发布一个新模型转向不断改进。做东西应该要衡量,对吗?当我们制作新的版本时,我们至少可以知道这些变化是什么。”

新的上下文窗口

小米裁员年龄

布罗克曼还谈到了GPT-4的上下文窗口(context window),它指的是模型在生成其他文本之前可以考虑的文本。OpenAI正在测试GPT-4的一个版本,它可以“记住”大约50页的内容,是普通版GPT-4在其“记忆”中所能容纳的内容的五倍,是GPT-3的八倍。

布罗克曼认为,扩大的上下文窗口会带来新的、以前没有探索过的应用,特别是在企业中。他设想了一个为公司建造的人工智能聊天机器人,利用来自包括各部门员工的不同来源的背景和知识,以一种非常明智但对话性的方式回答问题。

这不是一个新概念。但布罗克曼提出的理由是,GPT-4的答案将比今天的聊天机器人和搜索引擎的答案有用得多。

“以前,该模型对你是谁、你对什么感兴趣等没有任何了解。”布洛克曼说,有了这种历史(更大的上下文窗口),肯定会让它更有能力......它会使人们能做的事更多。”

科学交流类似于产品新闻稿

即使看过了布罗克曼的采访,但GPT-4还有很多谜团没有解开。“OpenAI现在是一家完全封闭的公司,其科学交流类似于产品新闻稿。”沃尔夫说。

《麻省理工科技评论》认为,当下,GPT-4与其他多模态模型并驾齐驱,包括来自人工智能研究机构DeepMind的Flamingo。Hugging Face也正在开发一种开源多模态模型,其他人可以免费使用和改编该模型。面对这样的竞争,OpenAI将GPT-4更多地视为产品挑逗,而不是研究更新。

目前,构建和服务聊天机器人非常昂贵,因为它是在更大量的数据上训练的,所以GPT-4会增加OpenAI的成本。OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)告诉《纽约时报》,如果该服务产生过多流量,该公司可能会限制对该服务的访问。

但从长远来看,OpenAI计划构建和部署可以处理多种媒体的系统,包括声音和视频。“我们可以采用所有这些通用知识技能,并将它们传播到各种不同领域。”布罗克曼说,“这将技术带入了一个全新的领域。”

gpt/l

许多其他公司正在排队等候。“对于大多数公司来说,启动这种规模的模型的成本是无法承受的,但是OpenAI所采用的方法使大型语言模型对于初创公司来说非常容易获得。”Tola Capital的联合创始人谢拉·古拉提(Sheila Gulati)说, “这将在GPT-4之上催化巨大的创新。


返回网站首页

本文评论
程序员的门槛,这么低了吗「程序员入职门槛」
衡宇原来现在写程序、搞开发,门槛已经这么低了!之前,搞开发是程序员的专属。从青铜进阶到王者,要熟练掌握数据库、操作系统、计算机网络、组成原理、算法等知识。哪怕是吹破天的...
日期:11-27
苹果发布iPadOS和iOS15.7.1正式版更新 包含重要安全修复「ipados15.0.2建议更新吗」
  苹果公司今天发布了iOS15.7.1和iPadOS15.7.1操作系统更新,这些更新是为无法运行iOS16和iPadOS16的老款iPhone和iPad设计的。这些更新也适用于那些选择不在此时更新到iOS1...
日期:11-13
网易云音乐切歌亮屏_ColorOS 13支持息屏切歌:网易云音乐首发支持
  8月25日消息,今日,ColorOS官方展示了ColorOS 13的新特点——智慧息屏。从视频显示功能来看,即使不解锁,用户也可以通过智慧息屏功能进行音乐切换等操作,即使不解锁。鄂尔多...
日期:08-26
国外彩妆品牌有哪些_国货平替崛起,外资彩妆不香了?
作者 | 拾贰编辑 | 麻吉2月20日,美国平价彩妆品牌e.l.f.(伊芙美)宣布“暂退”中国市场,“将于2023年3月31日起暂别中国市场,天猫旗舰店将会在2023年3月15日下架全店商品。”但是...
日期:03-17
海天倒闭了_海天大跌358亿 烦恼不只是“双标风波”
出品|虎嗅商业消费组作者|苗正卿题图|视觉中国一场“双标风波”感冒,正引发酱油一哥海天味业更深层的隐疾。10月10日,在国庆节后第一个A股开盘日,海天味业开盘大跌7.99%,截至收盘跌...
日期:10-12
川普都在用的社交平台 成了Twitter难民避难所「川普推特最新消息美国」
最新一季的《傲骨之战》结尾,再次「恶搞」了一次美国前总统唐纳德·特朗普,称其宣布将参加后年的总统竞选。艺术确实来源生活,还不到一周,媒体消息传来,特朗普在 11 月 16 日宣布...
日期:11-30
蔚来、比亚迪反攻BBA老家_蔚来撞比亚迪
文 | 蓝媒汇“欢迎来到蔚来柏林(NIO Berlin)!”10月7日晚,柏林藤普杜音乐厅的舞台上,蔚来创始人李斌对着现场几百位欧洲老外说出这句开场白。这场发布会是介绍蔚来在柏林推出的三...
日期:10-26
魅族Flyme更新_魅族推送Flyme9.3版本重磅更新,新增多项实用功能
  【ITBEAR科技资讯】6月30日消息,今日,魅族通过Flyme官微正式宣布向魅族17系列和魅族18系列机型推送Flyme9.3重磅更新,带来了一系列功能更新。  根据Flyme官方的更新说明,F...
日期:07-10
预制菜盛行 万亿餐饮市场大倒退_预制菜的新闻
中国素来讲究“民以食为天”。天南地北,各大菜系,各有特色,酸甜苦辣咸,道道菜都有不同风味。但预制菜的概念,在中国消费市场横行,大有统一全民餐饮口味的意思。前段时间,在东方甄选...
日期:10-15
《三体》动画定档12月 B站推出49部国创作品新内容_三体动漫上线了吗
10月29日,哔哩哔哩(以下简称“B站”)举办了2022-2023国创动画作品发布会,宣布《三体》动画定档12月3日,并将开启《三体》动画全球共创计划。图片来源 B站《三体》动画将于12月3日...
日期:11-07
开启全新支付方式!微信上线刷掌支付小程序_开启全新支付方式!微信上线刷掌支付小程序是真的吗
早在去年年末,腾讯就曾获批通过了一项专利,该专利展示了腾讯开发的一项掌纹识别设备。而在今年8月,腾讯又注册了“微信刷掌”“微信刷掌服务”“WePalm”等多个商标,分类涉及设...
日期:10-16
辛巴炮轰刘耕宏 直播江湖卷成了电视购物
“辛巴发长文爆料刘畊宏夫妇卖假货”和“刘畊宏哭了”在同一时间挂在微博热搜上,两个词条从内容上并无联系,但放在一起,还是难免让人浮想联翩。辛巴发长文,再次详细讲述了之前引...
日期:09-03
半导体设备景气度走到十字路口_半导体行业景气度
“可能现在最紧缺的设备是氮气柜。”一家封测设备厂商负责人苦笑道。今年二季度,全球半导体市场营收在连续增长8个季度之后逆转,首次出现下滑。在此之前,结构性分化的趋势已经...
日期:10-09
GPT、蒸汽机、失业、更好与更坏的时代
[本文2043字,阅读约需7分钟]nec折叠屏手机这是一个最好的时代,也是一个最坏的时代;这是一个智慧的年代,这是一个愚蠢的年代;这是一个信任的时期,这是一个怀疑的时期。这是一个光...
日期:02-08
AI制药的“野心”:做真正颠覆创新型的药物_ai药物研发 上市公司
·“人类受限于生理极限,需要把复杂的问题降维,这个过程其实把很多东西都割裂了,但AI可以在高维的空间内去提炼规律,所以越是复杂的、人类难以理解的东西,其实越适合AI。”·“我...
日期:09-25
小美与小帅_注意看 “小帅和小美”正在肢解电影
“注意看,这个男人叫小帅,他怀里的这个女人是小美,正当两人翻云覆雨的紧要关头,门口突然传来了佛波勒的声音。”你一定在地铁上、餐馆里、身边同事的抖音里,听到过这样的影视解说...
日期:11-20
消失的互联网腰部公司
作者 | 杨扬编辑 | 夏益军有一种说法,大到一个国家,中到一个群体,小到一个产业,微到一个公司,在任何一个底层稳定态下,如果不加干预,最后都会演变成雨滴型结构,既极少数人占据了雨滴...
日期:09-22
人造甜味剂,真的可以吃吗?_人工甜味剂是什么东西
作者:筋斗云校稿:朝乾 / 编辑:板栗在酸、甜、苦、咸四种基本味中,甜味可以说是人类最喜欢的味觉刺激。长期以来,人们一直通过摄入糖分来品尝甜味。可是,过量摄入糖分,可能导致糖尿...
日期:10-05
卖二手数码哪个平台好_卖二手数码产品前,你真的清理干净数据了吗?
3月15日是每年一次的国际消费者权益日,这一天央视会举行一场315晚会,来曝光很多消费者不知道的内幕。就在昨晚,315晚会上提到了关于“二手机”所潜在的一些问题。随着电子产品...
日期:03-17
国产4nm小芯片突围,或实现弯道超车!_国产芯片新突破
作者:芯光犬深度好文,1830字=4分钟阅读中美芯片大战形式逆转,国产芯片将迎来转机,自从华为被“卡脖”之后,很多企业都认识到自主研发的重要性,很早就在芯片领域布局,希望早日实现芯...
日期:01-15