您的位置:首页 > 互联网

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费_奥特曼场景模型多少钱

发布时间:2024-07-24 18:16:00  来源:互联网     背景:

声明:本文来自于微信公众号 量子位,作者:克雷西,授权转载发布。

gmod奥特曼模组

刚刚,GPT-4o mini版迎来“高光时刻”——

登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude3.5甩在了身后。

不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。

这个成绩一出,连CEO奥特曼都激动起来了:

面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/20,内心还是很激动。

网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——

GPT-4o mini的微调将逐步开放,目前已开放给tier4和tier5用户,然后会陆续扩展范围。

而且从即日起到9月23号,每天都能免费使用2百万的训练token。

mini与满血版平起平坐

经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。

按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。

紧随其后的是Claude3.5和Gemini家族,还有GPT-4的另外两个版本。

如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。

单独看两者比拼的结果,同样是打得不相上下。

之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——

不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。

雷军官宣小米造车

在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。

这个大模型竞技场,最近还登上了机器学习顶会ICML2024。

而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。

当时就已经排行第4,和GPT4-Turbo处在同一水平。

更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。

不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude3.5sonnet就有些言过其实了。

有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。

“小模型”也卷起来了

mini版本的推出,主打的就是一个性价比。

每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5Turbo的一半。

如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。

而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——

在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。

实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。

在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了OpenAI,其他公司也都纷纷搞起了小模型。

比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude3-Haiku。

甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。

3d打印机打印人体模型

在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。

甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。

总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。

同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。

这样就不难理解,“小”模型为什么也越来越卷了。


返回网站首页

本文评论
天玑820 apu「神U天玑8200官宣!12 月1日正式发布」
中关村在线消息:今天,联发科官方宣布,将在12月1日正式发布。现代大家回顾一下天玑8100以及天玑8000的基础配置。iqoo半价汽车AI芯片联发科天玑8100对比天玑8000,8100在CPU A78核...
日期:12-03
魅族新专利公布:可实现汽车带娃 防止影响家长驾驶
凤凰网科技讯11月1日消息,据天眼查App显示,今日珠海市魅族科技有限公司申请的“一种车内儿童行为的引导方法、装置、设备及存储介质”专利公布。一汽大众中控屏幕有哪些功能老...
日期:11-02
英特尔无线网卡ax201「英特尔 BE200 Wi-Fi 7 无线网卡通过 FCC 认证」
IT之家 8 月 19 日消息,英特尔 “BE200NGW”和“BE200D2W” 无线网卡现已通过 FCC 认证,提供 M.2 2230 和 M.2 1216 两种尺寸规格。华为数字化转型实践狄耐克廖国栋据 IT 之家...
日期:08-22
联想公布2022/23财年:营收4240亿 非PC业务占比近40%__联想2020年营收多少
5月24日消息,联想公布截至2023年3月31日的2022/23财年全年及第四财季业绩:全年营收为4240亿人民币,净利润129亿人民币;第四季度营收为865亿人民币,净利润19亿人民币,全年非PC营收...
日期:05-24
天猫组织架构调整「淘宝天猫重组换血:原核心高管离职 成立三个行业发展部」
4月13日 消息:据36氪报道,阿里巴巴 CEO 张勇宣布启动“1+6+N”组织变革后,淘宝天猫正在经历新一轮调整。调整后,原产业运营及发展中心负责人吹雪因个人原因离开,该中心掌握着淘...
日期:04-13
VideoTrans体验入口 AI视频翻译配音工具免费在线使用地址_视频语音翻译器
VideoTrans是一款免费开源的视频翻译配音工具。它可以一键识别视频字幕、翻译成其他语言、进行多种语音合成,最终输出带字幕和配音的目标语言视频。该软件使用简单,支持多种翻...
日期:02-22
大漠叔叔是辞职了吗「“大漠叔叔”宣布离职!网友担心他步老陈后路」
声明:本文来自于微信公众号 直播观察(ID:zhibogc),作者:直播观察,授权转载发布。近年来,随着流媒体的迅速发展,短视频也成为了警务宣传的主要阵地,一些才华横溢的民警也通过直播短视频...
日期:09-29
仅适用于iPhone 15 为iPhone-15做准备 iOS 17.0.1发布
来源:中关村在线mac mini发售2000元以下天玑1000+手机苹果公司最近发布了macOS Ventura 13.6、iOS 17.0.1、iPadOS 16.7、watchOS 9.6.3以及macOS Monterey 12.7等更新。这些...
日期:09-22
昆仑万维投资控股AI算力芯片企业艾捷科芯 打造先进AI芯片_innoviz昆仑万维
9月21日 消息:昆仑万维宣布投资控股AI算力芯片企业艾捷科芯,完成AGI与AIGC全产业链布局。大米和小米公司简介据悉,艾捷科芯主要从事AI大算力及配套芯片的研发生产,特别聚焦于生...
日期:09-21
第七届虎扑女神大赛落幕:刘亦菲夺冠 二封「虎扑女神大赛百度百科」
据虎扑的步行街官微,日前,虎扑第七届女神大赛落下帷幕,刘亦菲(代表角色赵灵儿)夺冠。石家庄汽车展览会2021此次,和刘亦菲进入最终PK的是周慧敏(代表角色阮梅),最终还是神仙姐姐”凭借...
日期:10-03
通义灵码功能介绍及免费使用指南 编码助手体验地址入口
通义灵码简介通义灵码是一款基于通义大模型的智能编码助手,提供代码智能生成、研发智能问答能力,旨在帮助开发者提高编码效率,解决研发问题。产品通过海量开源代码数据训练,能够...
日期:05-24
小米14 Pro明天首销:首发全等深微曲屏 4999元_小米pro14x
快科技10月30日消息,小米14 Pro将于明天正式发售,起售价是4999元。该机正面是一块6.73英寸全等深微曲屏,采用小米和华星联合研发的C8发光材料,支持1-120Hz LTPO无级可变刷新率,这...
日期:10-31
DuckDuckGo的Mac版浏览器进入公开测试阶段_DuckDuckGo浏览器
DuckDuckGo宣布,其Mac版浏览器应用进入公开测试阶段,它配有大量的隐私保护措施,比常见浏览器的标准隐身模式更进一步。DuckDuckGo浏览器包括专用的YouTube播放器、广告拦截组件...
日期:10-20
英雄联盟中国队0:2不敌韩国队无缘决赛:网友发问JDG谁在C
快科技9月28日消息,杭州亚运会电子竞技项目《英雄联盟》半决赛于今日上午开打,中国队对上了宿敌韩国队,结果技不如人,以0:2遗憾落败,无缘决赛。随后韩国队将与中国台北/越南比赛...
日期:09-29
小米civi手机颜色「小米Civi 2发布:颜值超高 共有4种配色」
在小米新品发布会上,小米发布了Civi系列新机小米Civi 2。该机共有4种配色,分为冰冰蓝、怦怦粉、朦朦黑以及与Hello Kitty联合设计的特别款“小白裙,每款配色的颜值都非常的高。...
日期:09-29
暗黑破坏神4下载地址「暴雪《暗黑破坏神4》Steam开售:三种版本366元起、支持简中」
10月18日消息,今日,暴雪《暗黑破坏神4》正式在Steam平台开售,提供标准版、数字豪华版、终极版三种版本,售价分别为366元、467.25元、519.75元,支持简体中文。标准版包含:《暗黑破...
日期:10-18
马斯克发推特说市值「马斯克:推特现金流差点变成负30亿美元,所以才疯狂降本增效」
  讯 北京时间12月22日早间消息,据报道,埃隆·马斯克(Elon Musk)透露,在他入主推特并通过大举裁员来遏制亏损之前,该公司的现金流即将变成-30亿美元。全国科技系统抗击新冠肺炎...
日期:12-22
魅族21pro今日发布全面迈向AI新时代 魅族特别活动推出魅族21,PRO 开放式AI终端等新品
来源:中关村在线2024年2月29日,星纪魅族集团在珠海长琴岛顺利举办魅族特别活动,正式发布首款开放式AI终端魅族21 PRO。魅族21 PRO 拥有星夜黑、耀夜黑、魅族白、冰川蓝、月桂绿...
日期:03-01
中国移动nsa组网采用哪种5g部署架构_5G NSA组网要凉?中国移动骁龙X50手机打脸不实炒作
  近日,一些关于单模NSA 5G手机将于2020年1月1日起全面淘汰的消息充斥着整个网络,在市场上引起了轩然大波。毕竟现在市面上开售的5G手机和5G终端,绝大多数都是支持NSA组网的...
日期:07-11
中国一箭双星再次发射成功!「2023中国航天开门红!我国再次成功发射一箭三星」
据央视新闻报道,北京时间今天6时00分,长征七号A运载火箭在中国文昌航天发射场点火起飞,成功将实践二十三号卫星和搭载的试验二十二号A/B星发射升空,卫星顺利进入预定轨道,发射任...
日期:01-09