您的位置:首页 > 互联网

谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍_谷歌建模

发布时间:2024-08-08 12:34:33  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。

随着GPT-4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量。

但目前多数模型的数据处理流程严重依赖于人工筛选,不仅费时、费力并且成本非常高,难以应对大规模数据集的需求。

因此,谷歌Deepmind的研究人员提出了创新数据筛选方法JEST,通过联合选择数据批次来加速多模态大模型的学习效率。与目前最先进的算法相比,JEST可以将大模型的数据筛选效率提升13倍,算力需求降低10倍。

论文地址:https://arxiv.org/abs/2406.17711

JEST三种评分策略

传统的数据标注方法通常针对单个数据点进行操作,但一个批次数据的质量不仅取决于其内部各个数据点的独立质量,还受到它们组合方式的影响。那些难解的负样本,也就是标签虽不同却紧密聚集在一起的点,被证明比容易解决的例子更能提供有效的学习信号。

而JEST算法可以从更大的超级批次中高效地挑选出相关性高的子批次。与传统的优先级采样方法不同,JEST不是给每个单独的例子打分,而是对整个子批次进行评分,根据这些批次级别的分数进行采样。

怎么利用谷歌进行大数据搜索

JEST的核心在于使用模型为基础的评分函数,这些函数结合了学习者模型的损失或预训练参考模型的损失,并提供硬学习者、易参考和可学习性三种评分策略。

硬学习者策略通过计算子批次在当前学习者模型下的高损失,选择那些模型尚未掌握的样本,以避免浪费资源在已知信息上。但是,对于大而杂乱的数据集,这种策略可能适得其反,因为会过度采样噪声样本。

易参考策略恰好相反,它优先选择对预训练参考模型而言比较的数据,损失较低的样本。这种策略在多模态学习中已被成功应用,用于识别高质量的例子,但缺点是过于依赖参考模型的选择,可能不适用于大规模计算预算。

可学习性策略则合了前两种方法的优点,通过计算学习者模型和参考模型的损失之差,选择那些既未被学习者掌握又对参考模型相对简单的样本。

这种策略既能避免噪声数据的干扰,又能保证选取的数据是模型可以学习,因此在大规模学习中即使对单个例子进行优先级排序也能加速训练过程。

网购导致实体店关闭

模型近似和多分辨率训练

为了进一步增强JEST算法的性能以及对算力需求的降低,还使用了模型近似和多分辨率训练两种方法。

模型近似主要通过两种方式实现:一是降低图像分辨率,二是减少模型层的计算,帮助大模型在保持模型性能的同时,显著减少每次迭代所需的算力需求。

降低图像分辨率是一种直观的近似方法。在传统的高分辨率图像处理中,模型需要对每一个像素点进行分析和学习,这无疑增加了算力负担。

而在JEST算法中,通过将图像分辨率降低,减少了模型需要处理的像素数量,从而降低了单次迭代的计算成本,并且对模型的性能影响很小。

减少模型层的计算则是另一种有效的近似手段。深度学习模型通常包含多个层次,每个层次都可能带来计算量的增加。JEST算法通过在评分阶段使用简化的模型结构,减少了模型在每次迭代中的算力负荷,也不会影响模型最终的训练结果。

多分辨率训练允许模型在不同的分辨率下处理数据,从而在训练过程中实现更高的灵活性和效率。

在多分辨率训练中,模型首先在较低分辨率下对数据进行初步处理,这有助于快速捕捉数据的大致特征。然后,模型在较高分辨率下对数据进行更细致的分析,以提取更精细的特征信息。这种分阶段的处理方式不仅提高了模型对数据的理解能力,也使得模型能够在不同层次上进行有效的学习。

此外,多分辨率训练还有助于提高模型的泛化能力。通过在不同分辨率下训练,模型能够学习到不同尺度的特征,这使得模型在面对不同尺寸和分辨率的输入数据时,都能够表现出良好的适应性。

为了测试JEST算法的有效性,在ImageNet、COCO等数据集上,对图像分类、零样本学习、图像到文本的检索和文本到图像检索等任务上进行了综合测试。

结果显示,JEST在多个任务上都取得了显著的数据筛选效率,例如,当过滤90%的数据时,JEST仅需使用6700万样本即可达到传统方法使用30亿样本的性能水平,相当于效率提升13倍和算力降低了10倍,同时还能帮助大模型提升大约6%的性能。


返回网站首页

本文评论
网信办通报:“王悟空说车”等账号发布虚假不实信息被关闭_悟空王伟
快科技7月2日消息,上个月,500万粉丝的抖音网红大V小牛说车”被全网封号,主要原因是故意夸大歪曲事实,抹黑诋毁企业及其创始人。同一批还封禁了不少歪曲捏造事实的账号,此事引发网...
日期:07-03
小米Civi 3马上到!拍照再升级_小米civi拍照什么水平
小米Civi 3迎来官宣,这款手机定于5月25日下午2点发布,最大看点在于搭载首发联发科天玑8200 Ultra芯片,小米和联发科携手将带来影响素质的全面升级。据Geekbench数据库显示,天玑8...
日期:05-23
安海好物在线商城全面上线,助力消费者高品质生活(安海苏宁易购)
  近年来,随着我国经济增长和人们物质水平的提高,消费者追求高品位、高格调、健康美丽的高品质生活,对品牌和产品的要求比以往更加苛刻。基于这种趋势,来自江西的安海好物在...
日期:07-09
中国联通支付公司名称已确定为“联通沃易付网络技术有限公司”
  通信世界网(CWW)4月15日消息 日前,在某业内会议上,中国联通支付公司筹备组组长戴任飞透露,中国联通支付公司名称已确定为“联通沃易付网络技术有限公司”,预计最快4月15日会...
日期:07-27
笑不活了!AI对表情包下手,张学友周星驰都被玩坏了「表情包是张学友吗」
金磊 发自 凹非寺量子位 | 公众号 QbitAI家人们,一众港星的表情包,简直要被AI给玩坏了。例如非常经典的这张:它在最近大火的PhotoshopGenerative Fill的魔法之下,“打开方式”竟...
日期:06-17
华为问界 M9 或将在 12 月 26 日发布_问界m5最新消息
12月6日 消息:据报道,问界M9将于12月26日正式上市。这款全尺寸旗舰SUV内部提供6个座位,可以实现3、4、5、6座随心变换。问界M9不仅在外观设计上展现出华为的高端豪华理念,还搭...
日期:12-06
200亿美元“卖身”巨头,Figma不是SaaS的“终极出路”「figma是哪家公司的」
  屠龙少年未必一定变成恶龙,也可能是恶龙的“新救赎”。  作者 | 罗宁; 编辑;|;靖宇  来源:极客公园  9 月 15 日,成立十年零一个月的设计平台 Figma,被成立四十年的软...
日期:09-28
海豚夏天开始预售 比亚迪海豚海豹今年将进入欧洲市场
比亚迪近日在西班牙巴塞罗那举办新车发布会,宣布海豚、海豹两款车型将于2023年进入欧洲市场。海豚将于今年夏季开始预售,第四季度交付。海豹也将于不久后在欧洲上市,与欧洲本地...
日期:10-02
中国移动 5G 消息终端新增 Hi nova 10,该手机还未发布「华为nova20是5g手机吗」
IT之家 8 月 22 日消息,中国移动官方发布了最新支持 5G 消息终端型号,截至 8 月 17 日,支持 UP2.4 的终端机型共 137 款,本次新增 Hi nova 10 手一款。除了三星 (S20 系列起)、...
日期:09-27
天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑「天数智芯官网」
6 月 10 日,在第五届智源大会AI系统分论坛上,上海天数智芯半导体有限公司(以下简称“天数智芯”)对外宣布,在天垓 100 加速卡的算力集群,基于北京智源人工智能研究院(以下简称“...
日期:06-13
微博粉丝来自热门微博_热捧“微博达人” 网易微博只有同好没粉丝
  1月8日消息,网易微博在各大微博都推出自己的V认证、各门户名人抢夺大战日益升级之际,昨日推出"i达人计划"。i的英文含意是"ICON",为时尚风向标、达人之意。网易热捧微博"...
日期:07-25
抖音AI扩图火出圈 网友:没想到是以这种奇怪的方式
12月4日 消息:近日,AI智能扩图在抖音平台掀起了一阵热潮,一位名为@占美丽的博主通过发布使用AI智能扩图生成的照片走红。在这些照片中,AI智能不仅将原有照片进行放大,还添加了月...
日期:12-04
「均为谣言-中国移动回应停售iPhone传闻」
来源:中关村在线近日,有关中国移动将停售iPhone的传闻在网络上流传,有报道称中国移动将全力支持华为等国产手机。然而,中国移动对此回应称,这些传闻均为谣言。 中国移动集团表示,...
日期:09-08
三体出游戏了吗「《三体》没能狂飙」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 李秋涵 编辑 | 魏佳,授权转载发布。“《三体》都已经完结了?”近日,《三体》开启大结局点映,即花18元,就能将最后10集...
日期:02-09
希沃易课堂助力|晋中市东山四县智慧课堂联片教研圆满落幕
  1月3日,晋中市东山四县智慧课堂联片教研活动在山西左权展开。晋中市东山四县共计30余名教研人员及校长齐聚左权县二中,就希沃易课堂教学新模式,探讨如何进一步推进信息技...
日期:08-21
喜讯!曙光中标中国移动分布式块存储产品集采
  近日,中国移动公布2020年至2021年分布式块存储产品集中采购中标候选人名单。这是自2017年以来,中国移动组织的第二次通用分布式块存储集采,吸引了国内多家知名厂商参与投...
日期:07-14
星粉关注的三件大事:Galaxy新品预告、发布会和先行者计划(三星发布会发布了什么)
  距离1月14日三星Galaxy新品发布会的时间已经越来越近,三星官方的预热动作也在有条不紊地进行着。在过去的一段时间内,三星官方分别发布了一份邀请函,四支预热视频以及按照...
日期:09-11
豆瓣评分跌至6.0 《巨齿鲨2》票房破3亿:吴京首次主演怪兽电影_巨齿鲨这部电影
作为吴京首次主要海洋怪兽类的电影,《巨齿鲨2》上映三天,截至8月6日9点25分,总票房突破了3亿,累计704.9万人观影。三星大规模生产microled面板oled谷歌地球的街景图像是怎样得来...
日期:08-06
苹果早期 Lightning 数据线原型曝光:含正反插提示图标_苹果lightning数据线是什么意思
  2月21日消息 苹果的 Lightning 接口于 2012 年随着 iPhone 5 一同发布。这款接口双面共 16 pin,体积相比此前的 30pin 接口大大缩小。由于 Lightning 接口牢固耐用、支...
日期:07-16
华为5g 创新「华为发布5G-A八大创新实践,助力运营商多路径开启5G-A商用元年」
2023年2月26日,MWC24 巴塞罗那期间,华为发布了5G-A八大创新实践,助力全球运营商因地制宜,基于自身网络情况多路径构建5G-A网络。华为无线网络产品线总裁曹明表示:“随着产业要素...
日期:02-27