您的位置:首页 > 互联网

李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍_李飞飞水平

发布时间:2024-04-16 15:46:15  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),编辑:蛋酱、陈萍,授权转载发布。

如何复盘大模型技术爆发的这一年?除了直观的感受,你还需要一份系统的总结。

今天,斯坦福 HAI 研究所发布了第七个年度的 AI Index 报告,这是关于人工智能行业现状的最全面的报告之一。

汉王蓝天霾表n2

访问地址:https://hai.stanford.edu/news/ai-index-state-ai-13-charts

报告指出,人工智能的发展正以惊人的速度向前推进,开发人员每月都在制造出越来越强大、越来越复杂的模型。然而,尽管发展速度加快,人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。

在今年的报告中,斯坦福 HAI 研究所增加了有关负责任人工智能的扩展章节,有关科学和医学领域人工智能的新章节,以及对研发、技术性能、经济、教育、政策和治理、多样性和公众舆论的综述。

以下是报告的重点内容:

  • 2023年的进展速度比以往任何一年都要快得多,GPT-4、Gemini 和 Claude3等最先进的系统显示出令人印象深刻的多模态功能,能够生成流畅的数据多种语言的文本、处理音频和图像以及解释网络梗图。

  • 2023年新发布的支持生成式 AI 的大型语言模型数量比前一年翻了一番,其中三分之二是开源模型,例如 Meta 的 Llama2,但性能最佳的是闭源模型,例如 Google 的 Gemini Ultra。

  • 2023年,工业界继续主导人工智能前沿研究。工业界产生了51个值得关注的机器学习模型,而学术界仅贡献了15个。2023年,产学界合作产生了21个值得关注的模型,再创新高。

  • 美国领先中国、欧盟和英国,成为顶级人工智能模型的主要来源地。2023年,61个著名的人工智能模型源自美国机构,远远超过欧盟的21个和中国的15个。

  • Gemini Ultra 是第一个在大规模多任务语言理解关键基准测试中达到人类水平表现的 LLM。OpenAI 的 GPT-4也不甘示弱,在 Holistic Evaluation of Language Models 基准上取得了0.96的平均胜率得分,该基准将 MMLU 与其他评估结合起来。

  • 不过,人工智能性能的提高是有代价的,报告发现,前沿人工智能模型的开发成本正变得越来越高。据说 Gemini Ultra 消耗了价值1.91亿美元的计算资源,而 GPT-4的开发成本估计为7800万美元。

企业对生成式 AI 投资猛增

图4.3.1展示了2013年至2023年全球企业人工智能投资趋势,包括并购、少数股权、私募投资和公开发行。全球企业对人工智能的投资连续第二年下降。

2023年,总投资下降至1892亿美元,较2022年下降约20%。然而,在过去十年中,企业对人工智能相关投资增加了十三倍。

图4.3.3表明,AI 行业吸引了252亿美元的投资,几乎是2022年投资的九倍,是2019年投资额的约30倍。此外,生成式人工智能占2023年所有人工智能相关私人投资的四分之一以上。

假如按区域进行比较,美国在人工智能私人投资总额方面再次领先世界。2023年,美国投资额为672亿美元,大约是第二高国家中国投资额(78亿美元)的8.7倍,是英国投资额(38亿美元)的17.8倍(图4.3.8)。

谷歌在基础模型竞赛中占据主导地位

报告显示,谷歌在2023年发布的基础模型最多,图1.3.16总结了2023年各个机构发布的各种基础模型。Google 发布了最多的模型(18个),其次是 Meta(11个)和 Microsoft(9个)。2023年发布基础模型最多的学术机构是加州大学伯克利分校 (3个)。

ink李飞

自2019年以来,Google 发布的基础模型数量最多,共有40个,其次是 OpenAI,有20个(图1.3.17)。清华大学也脱颖而出,发布了七个基础模型,而斯坦福大学是美国领先的学术机构,发布了五个模型。

sv李飞

闭源模型优于开源模型

图2.11.4和2.11.5将闭源模型与开源模型在选定的基准上进行了对比。在所有选定的基准上,闭源模型的表现均优于开源模型。

训练成本

关于基础模型,一个绕不开的话题是推理成本。尽管人工智能公司很少透露训练模型所涉及的费用,但人们普遍认为这些成本已达到数百万美元,并且还在不断上升。例如,OpenAI 首席执行官 Sam Altman 曾提到,GPT-4的训练成本超过1亿美元。

图1.3.21根据云计算租赁价格直观地显示了与选定 AI 模型相关的训练成本。下图表明近年来模型训练成本大幅增加。例如,2017年 Transformer 模型训练成本约为900美元。2019年发布的 RoBERTa Large 训练成本约为160,000美元。2023年,OpenAI 的 GPT-4和 Google 的 Gemini Ultra 的训练成本预计分别约为7800万美元和1.91亿美元。

图1.3.22显示了 AI Index 估计的所有 AI 模型的训练成本。如图所示,随着时间的推移,模型训练成本急剧增加。

如图1.3.23所示,对计算训练需求更大的模型需要的训练成本更多。

碳足迹

图2.13.1显示了选定 LLM 在训练期间释放的碳(以吨为单位)的比较。例如,Meta 发布的 Llama270B 模型释放了约291.2吨碳,这比一位旅客从纽约到旧金山的往返航班所释放的碳排放量高出近291倍,大约是普通美国人一年碳排放量的16倍。然而,Llama2的排放量仍低于 OpenAI GPT-3训练期间报告的502吨排放量。

美国在基础模型方面处于领先位置

2023年,全球大部分基础模型源自美国(109个),其次是中国(20个)和英国(图1.3.18)。自2019年以来,美国在大多数基础模型的研发方面一直处于领先地位(图1.3.19)。

CS 博士毕业生

美国和加拿大计算机科学博士毕业生数量十年来首次显著增加。2022年,计算机科学博士毕业生人数达到2105人,为2010年以来最高(图6.1.5)。

越来越多的 AI 博士毕业生在工业界寻求职业生涯(图6.1.7和图6.1.8)。2011年,工业界(40.9%)和学术界(41.6%)的就业比例大致相同。然而,到2022年,与进入学术界的人 (20.0%) 相比,毕业后进入工业界的比例 (70.7%) 明显更高。过去5年,进入政府职位的 AI 博士比例一直保持在相对较低的水平,稳定在0.7% 左右。

考生类别增加

下图所示 AP CS 考生的种族多样性正在增加。虽然白人学生仍然是最大的群体,但随着时间的推移,亚裔、西班牙裔 / 拉美裔等学生参加 AP CS 考试的人数不断增加(图8.3.3)。2022年,白人学生在考生中所占比例最大(38.2%),其次是亚裔学生(27.8%)(图8.3.3和图8.3.4)。

财报电话会议

去年,财富500强公司财报电话会议中提及人工智能的次数显著增加。2023年,有394场财报电话会议提到了人工智能(占所有财富500强公司的近80%),高于2022年的266场(图4.4.25)。自2018年以来,财富500强财报电话会议中提及人工智能的次数几乎增加了一倍。

涉及的主题非常广泛,最常被提及的主题是生成式人工智能,占所有财报电话会议的19.7%(图4.4.26)。

淘宝创意产品

特斯拉电动汽车马斯克

成本下降,收入上升

人工智能不仅仅是企业的流行语:麦肯锡的同一项调查显示,人工智能的整合使企业成本下降,收入增加。总体而言,42% 的受访者表示他们的成本降低了,59% 的受访者表示收入增加了。

2023年,不同领域的多项研究表明,人工智能使工人能够更快地完成任务,并提高工作质量。其中一项研究考察了使用 C o p il o t 的编程人员,其他研究则考察了顾问、呼叫中心代理和法律专业学生。研究还表明,虽然每个工人都能从中受益,但人工智能对低技能工人的帮助要大于对高技能工人的帮助。

企业确实感知到了风险

报告对收入至少在5亿美元以上的1000家公司进行了一次全球调查,以了解企业如何看待负责任的人工智能。

结果显示,隐私和数据管理被认为是全球最大的风险,而公平性(通常以算法偏见的形式讨论)仍未被大多数公司所重视。

一张图表显示,企业正在针对其感知到的风险采取行动:各地区的大多数企业都针对相关风险实施了至少一项负责任的人工智能措施。

人工智能还不能在所有事情上击败人类……

近年来,人工智能系统在阅读理解和视觉推理等一系列任务上的表现都优于人类,如2015年的图像分类、2017年的基础阅读理解、2020年的视觉推理和2021年的自然语言推理。

但在一些复杂的认知任务中,人类的表现仍然优于人工智能系统,如视觉常识推理和高级数学问题解决(竞赛级数学问题),让我们明年再看看情况如何。

制定人工智能责任规范

当一家人工智能公司准备发布一个大模型时,标准做法是根据该领域的流行基准对其进行测试,从而让社区了解模型在技术性能方面是如何相互叠加的。然而,根据负责任的人工智能基准对模型进行测试的做法并不多见,这些基准主要评估有毒语言输出(RealToxicityPrompts 和 ToxiGen)、反应中的有害偏差(BOLD 和 BBQ)以及模型的真实程度(TruthfulQA)。这种情况正在开始改变,因为人们越来越意识到,根据这些基准检查自己的模型是一件负责任的事情。

然而,报告中的一张图表显示,一致性还很欠缺:OpenAI、Google 和 Anthropic 在内的领先开发人员主要根据不同的负责任的 AI 基准测试他们的模型。这种做法使得系统地比较顶级人工智能模型的风险和局限性的工作变得更加复杂。

法律对人工智能的促进和限制

报告指出,在2016年至2023年期间,有33个国家至少通过了一项与人工智能有关的法律,其中大部分行动发生在美国和欧洲;在此期间,总共通过了148项与人工智能有关的法案。研究者还将法案分为旨在增强国家人工智能能力的扩张性法律和对人工智能应用和使用施加限制的限制性法律。

可以发现,虽然许多法案都在继续促进人工智能的发展,但限制性立法已成为全球趋势。

AI 正让人们变得紧张

报告的第九章是关于公众观点的,多伦多大学的一项国际调查显示,63% 的受访者知道 ChatGPT。在那些知道的人中,大约有一半的人每周至少使用 ChatGPT 一次。

但公众对人工智能的经济影响持悲观态度。在 lpsos 的一项调查中,只有37% 的受访者认为人工智能将改善他们的工作。只有34% 的人认为人工智能将促进经济,32% 的人认为它将促进就业市场。

这一指数的民意数据来自一项关于对人工智能态度的全球调查,31个国家的22816名成年人(年龄在16岁至74岁之间)参与了调查。

超过半数的受访者表示,人工智能让他们感到紧张,而前一年这一比例为39%。三分之二的人现在预计人工智能将在未来几年内深刻改变他们的日常生活。

该指数中的其他图表显示,不同人群的观点存在显著差异,年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

参考链接:https://spectrum.ieee.org/ai-index-2024


返回网站首页

本文评论
信通院标准所汤立波:以先导区为抓手,强化“5G+工业互联网”应用示范引领作用
通信世界网消息(CWW)12月22日,2024中国信通院ICT深度观察报告会主论坛在北京举办,会议主题为“创新引领、数智赋能,信息通信业助力新型工业化”。会议期间,通信世界全媒体记者采访...
日期:12-26
华为最新mate50pro「华为Mate 50 Pro重新上架 现已补货」
华为Mate 50 Pro已经陆续补货,尤其在主摄和电池续航方面都有上佳表现。跟其他同类型产品相比,它更为强大和实用。华为Mate 50 Pro 4G手机在京东上现场优惠活动,下单可领取满880...
日期:07-17
扛下腾讯“全村的希望”后,视频号直播电商的路还很长
声明:本文来自于微信公众号TopKlout克劳锐(ID:TopKlout),作者:纪南,授权转载发布。近日,腾讯公布了2023年第二季度财报,作为“全村的希望”的视频号表现亮眼,担起了重任。财报指出,二季...
日期:08-21
活动预告| QuestMobile“预见未来 数创价值”产业对接会亮相2019世界互联网大会“互联网之光
  作为最高规格的国家级科技盛会,第六届世界互联网大会将于10月20-22日于永久会址乌镇正式召开。旨在搭建中国与世界互联互通的国际平台和国际互联网共享共治的中国平台,让...
日期:04-13
小度推出基于文心一言的大模型家庭智能机器人“小度添添家庭机器人”
10月17日 消息:今日,小度科技CEO李莹宣布推出全球首款基于百度文心一言的大模型家庭智能机器人——小度添添家庭机器人。该产品的售价为4599元,并预计在2024年春季正式上市。...
日期:10-18
传祺gs4巡航定速按键在哪里「广汽传祺GS4追尾后定损巡航坏了?保险公司不想理赔」
车辆发生了追尾事故,车损并不大,但车辆的定损巡航却坏了,保险公司不想理赔,这也让车主龙先生倍感闹心。华为荣耀60什么时候上市据小强热线”报道,龙先生的这辆广汽传祺GS4汽车,开...
日期:03-28
Redmi K60 Ultra外壳曝光 外观长这样_红米k60屏幕多大
Redmi K60 Ultra将在下月发布,而今天新机的手机壳被曝光了。Redmi K60 Ultra背部是三摄方案,左侧两颗摄像头纵向排布,右侧是副摄和闪光灯,整个相机是方形矩阵布局。Redmi K60 Ul...
日期:06-30
茅台酒主料「茅台快把自己玩成料酒了 联名上瘾了」
茅台最近推出了一系列联名产品,引发了网友的调侃。其中,茅台和瑞幸咖啡合作推出的酱香拿铁备受瞩目。这个联名产品在首日销量就取得了惊人的成绩,单品销量突破了542万杯,销售额...
日期:09-20
“引流”成电信网络诈骗主流手段?  北京移动教你如何防范!
通信世界网消息(CWW)今年以来,境外涉诈引流短信呈高发态势;仅4月期间,中国移动北京公司(北京移动)就收到用户举报1500余件,内容都是关于来自境外号码发送的垃圾短信。鉴于此,5月起北...
日期:08-21
13岁女孩偷偷充值游戏6000元删掉支付记录 被妈妈带去自首
10月8日,安徽马鞍山,一女子带着13岁女儿来到派出所自首”,希望民警能帮助她教育一下女儿。原来,女儿假期用奶奶的手机玩游戏偷偷充值了6000元,且将微信支付记录删掉。民警耐心地...
日期:10-16
李佳琦方回应王海“打假” 已对涉嫌巨额敲诈的个别人报警
根据鸳鸯金楼发布的声明,该公司发现某些网络用户发布了不实的打假视频,通过混淆、误导和曲解等方式引导消费者认定鸳鸯金楼和田玉项链产品检测为非和田玉。这种行为严重侵害了...
日期:10-27
比亚迪取得电池外壳专利:不需焊接托盘、可降低生产成本_比亚迪电池内部结构
快科技1月29日消息,据据国家知识产权局公告,比亚迪股份有限公司取得一项名为电池和电池包获授权,授权公告号CN220400786U,申请日期为2023年7月。专利摘要显示,本实用新型涉及一种...
日期:01-29
谷歌搜索趋势_comScore:谷歌已占领拉美搜索市场90%份额
北京时间5月18日消息,据国外媒体报道,据市场研究公司comScore最新研究报告称,谷歌已经占领了拉丁美洲搜索市场90.5%的份额,相比之下,谷歌在美国搜索市场的份额只有65%。 据说...
日期:07-28
特斯拉前 AI 高级总监宣布回归马斯克创立的 OpenAI「特斯拉汽车创始人马斯克」
2月9日消息:特斯拉前AI高级总监Andrej Karpathy在推特上发文表示,自己将再次加入OpenAI。这是一家最初由特斯拉CEO马斯鹕共同创立的人工智能初创公司。国产手机竞争2018年小...
日期:02-09
Stability AI 发布最新 35 亿个参数的图像生成模型 Stable Diffusion XL 1.0
7月27日消息:人工智能初创公司 Stability AI 在面临日益激烈竞争和道德挑战的情况下,继续改进其生成式 AI 模型。SDXL 1.0 将在 Amazon Bedrock 上亮相,这是亚马逊 AWS) 提供...
日期:07-27
HBO Max 将于 10 月登陆欧洲,明年增加更多国家_hbo max地区
  9 月 9 日消息 据 9to5Mac 报道,华纳传媒的流媒体服务 HBO Max 于 2020 年 5 月在美国正式推出,目前已在拉丁美洲和加勒比地区提供服务。现在,华纳传媒正准备在欧洲推出该...
日期:09-25
苹果12pro货量「苹果:iPhone 14 Pro系列出货量将低于预期」
iPhone 14系列自从发布以来,标准版就明显预冷,但Pro版热度一直居高不下,销量喜人。此前苹果发布的第三季度财报还显示,iPhone销量明显增长,库克称iPhone 14 Pro供不应求还会持续...
日期:11-08
iphone工作日闹钟周末也响「网友吐槽上班迟到 今天周日要上班_iPhone闹钟五一调休没响」
4月23日消息,马上就是“五一”劳动节了,根据官方安排,4月29日至5月3日放假,4月23日(星期日)也就是今天和5月6日(星期六)因放假调休都是要上班的。今天一早,不少苹果用户吐槽因iPhone...
日期:10-02
常熟网红直播基地「快手首届常熟直播节:未来将扶持100个百万GMV常熟新主播」
10 月 28 日消息,常熟市人民政府主办,常熟市商务局和快手承办的第七届中国·常熟昆承湖互联网创新创业大会今日在江苏常熟举行。快手第一届常熟直播节也在会上同步启动,会上,快...
日期:10-28
百度发布基于交通大模型的全域信控缓堵解决方案
4月20日 消息:百度宣布发布基于交通大模型的全域信控缓堵解决方案。据介绍,面向中大型城市,针对常态拥堵、异常拥堵以及景区学校单点单线区域的拥堵情况,在交通大模型的加持下,...
日期:04-20