您的位置:首页 > 互联网

DINOv2:Meta AI 开源的自监督计算机视觉模型

发布时间:2023-05-25 12:36:47  来源:互联网     背景:

5月25日消息:Meta AI Research 发布了 DINOv2 开源项目,这是一款用于计算机视觉(CV)任务的基础模型。DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。

Meta,元宇宙,Facebook

Meta 基于 Vision Transformer(ViT)架构构建了该模型,并对其进行了自监督学习目标的修改。团队建立了一个自动化流程,从网络上获取图像并构建了一个筛选数据集来训练模型。其中一个重要的贡献是改进了训练过程,该方法的速度是之前方法的两倍,内存使用量减少了三分之一。在计算机视觉基准测试中,DINOv2 优于其他自监督学习(SSL)模型,并显示出与弱监督模型相媲美或更好的性能。根据 Meta 的说法:

展望未来,团队计划将该模型整合到一个更大、更复杂的人工智能系统中,该系统可以与大型语言模型进行交互。具备丰富图像信息的视觉骨干模型将使复杂的人工智能系统能够对图像进行比单一文本描述更深入的推理。以文本监督进行训练的模型最终受限于图像标题的内容。而使用 DINOv2,则没有这样的内置限制。

计算机视觉任务的深度学习模型通常依赖于带有人工注释的大型图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个使用弱监督训练方法的计算机视觉基础模型,其中的注释是通过爬取与源图像相关的 html 标签和其他网络元数据自动生成的。同年,Google 发布了 ViT 模型,它使用自监督学习进行训练。Meta 也发布了 DINO 的原始版本的研究成果,将 ViT 模型与知识蒸馏相结合,从而获得了性能相当但更小的模型。

锤子T2发布会

对于 DINOv2,Meta 专注于收集更多训练数据并扩大训练过程。对于训练数据,Meta 从互联网上收集了 1.2B 个独特的图像,然后根据它们与 ImageNet 数据集中图像的相似性对它们进行聚类,以获得最终的 142M 图像集。为了扩大训练规模,Meta 实施了自定义版本的 FlashAttention,并使用 PyTorch 进行完全分片数据并行 (FSDP) 训练。总体而言,该项目消耗了大约 20 万个 GPU 日的计算量。

为了评估 DINOv2 作为基础模型的性能,该团队在各种 CV 任务上对其进行了测试,并将其与几个基线 SSL 模型以及 CLIP 等弱监督模型进行了比较。在 ImageNet-1k 分类任务上,DINOv2 与其他 SSL 模型相比表现出「非常显著的改进」,并且表现优于弱监督模型。它还在三个视频动作识别基准测试中创造了新的 SSL 最先进记录,并在实例级识别基准测试和三个单眼深度估计基准测试中表现优于基线。

在 Hacker News 关于这项工作的讨论中,一些用户称赞了 Meta 最近在计算机视觉方面的工作以及 PyTorch 等过去的贡献。有人确实注意到 Meta 围绕他们的工作进行交流的转变:

作为该领域的研究生,在 Yann LeCun 的内部倡导下,Meta 一直为开源机器学习工作做出了不小的贡献。最近发生变化的是他们的公关策略:[OpenAI] 基本上已经向所有人表明,如果你的宣传很糟糕,那么你是否有最好的模型并不重要。

GitHub 上提供了 DINOv2 代码和模型。该项目站点托管了使用 DINOv2 的多个计算机视觉任务的交互式演示。

DINOv2 开源模型 GitHub 地址:https://github.com/facebookresearch/dinov2

DINOv2 开源项目: https://dinov2.metademolab.com/


返回网站首页

本文评论
基于英特尔® 架构的杰和 GDSM 助力商业服务转型
  概述   深圳市杰和科技发展有限公司(以下简称:杰和科技)是一家以研发、生产、销售全球物联网、人工智能产品设备及解决方案为主营业务的实体公司,长期活跃于多媒体信...
日期:07-16
华扬联众发布“2022第二季品牌数字藏品影响力榜单”(华扬联众2020年报)
伴随着Web3. 0 时代的新需求与新机遇,作为以驱动增长为核心,整合全域及全链路数字化经营能力的信息科技集团——华扬联众,凭借得天独厚的数据和技术优势,不断创新实践,继 2022 年...
日期:08-22
华人团队颠覆CV!SEEM模型可一键分割图像和视频
4月23日 消息:继Meta的「分割一切」之后,又一个颠覆CV的模型来了!近日,威斯康辛麦迪逊、微软、港科大等机构的研究人员提出SEEM模型,通过不同的视觉提示和语言提示,一键分割图像...
日期:04-23
智蜂:微博博主怎么赚钱?这一个方法让你高枕无忧
  早在几年前,许多玩微博的朋友账号上拥有许多的粉丝,也许现在都已经成为有影响力的微博达人,不过自媒体这块的热度并没有冷却,依然会有许多新的博主新起,也依然会有许多的博...
日期:06-18
格力申请注册格力回收、格力收呗等商标_格力官网是不是有个回收
1 月 17 日讯:天眼查App显示,近日,珠海格力电器股份有限公司申请注册多枚“格力回收”“格回收”“格力收”“格收呗”“格力收呗”商标,当前商标状态均为申请中。xsx迷你冰箱...
日期:01-17
曝苹果iPhone 15仍采用高通基带 自研5G芯片要到2025年「苹果自研5G芯片」
10月9日消息,今天有内部人士透露称,苹果iPhone 15仍采用高通基带,苹果的自研5G芯片要到2025年。所以高通仍将是所有iPhone 15和iPhone 16系列机型的调制解调器供应商。苹果2022...
日期:10-12
匠心独运,大器天成 | 明基激光电视智造美好生活坚守初心,只做精品
随着人们居家生活空间越来越大,布局越来越丰富,生活方式也随之改变,投影便成为近些年很多人居家观影娱乐的选择。其实早在 20 多年前,明基就提出专业家庭影院的概念:以居家使用为...
日期:05-04
韩国现代汽车研发中心「现代汽车和SK On计划投资2.5万亿韩元在美建设合资电池厂」
11月27日消息,据国外媒体报道,现代汽车和SK On计划投资约2.5万亿韩元(18.8亿美元)在美国建设一家新的合资电池厂。消息人士称,这两家公司预计将于下周签署一份投资谅解备忘录。该...
日期:11-28
比亚迪市值迟早超过特斯拉_比亚迪市值迟早超过特斯拉市值
作者|Eastland头图|视觉中国2023年3月29日,比亚迪(002594.SZ)公布了2022年年度报告,营收4240亿、同比增长96%;归母净利润166亿、同比增长445.9%;经营活动现金流净额1408亿、同比增长...
日期:04-04
麒麟水法应用「麒麟软件荣获水力发电科学技术奖一等奖!自主创新再获殊荣!」
加快实现高水平科技自立自强,是推动高质量发展的必由之路。麒麟软件不断深化与企业合作,“以用带研、以用促研”,提升重点领域、关键行业自主创新水平,并屡获殊荣。三星手机拍照...
日期:04-13
给力新能源「押注新能源,又多一支生力军?」
声明:本文来自于微信公众号 锌刻度(ID:znkedu),作者:陈邓新,授权转载发布。新能源,苦“洛阳锂贵”久矣。随着新能源汽车驶入快车道,对动力电池的需求高企,令上游的碳酸锂价格不断走...
日期:12-13
腾讯第三季度净利润「腾讯三季度收入1401亿元,净利润399亿元同比增1%_」
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-25
微软商店限免应用_微软Windows应用商店将支持提高应用程序售价
【赛迪网讯】北京时间5月26日消息,据国外媒体报道,微软负责开发商体验的业务主管布朗东沃森(Brandon Watson)今日在参加芬兰赫尔辛基召开的一次开发商大会时表示,与其他的应用商...
日期:07-28
惠普电脑发展历史_惠普欲将部分笔记本电脑生产从中国转到日本
  【赛迪网讯】北京时间6月17日消息,据日本媒体报道,惠普打算在未来几个月里将部分 笔记本 电脑生产业务从中国转移到日本,最终将供给日本市场的所有电脑产品都交给东京附近...
日期:07-30
10多年来最大升级 Intel至强将首次使用全E核:AMD无力招架
在12代酷睿处理器上,Intel引入了异构架构,CPU核心分为性能核P-Core及能效核E-Core,而在未来的至强产品线上,Intel也会一改十多年来的传统架构,也引入P、E两种核心架构。极米h3s是...
日期:10-29
英特尔推出第四代至强可扩展处理器以及Max系列CPU和GPU
1月11日消息,据国外媒体报道,经过多年的推迟,英特尔在当地时间周二推出了第四代至强可扩展处理器(代号Sapphire Rapids)以及至强CPU Max系列(代号Sapphire Rapids HBM)和数据中心GP...
日期:01-11
网易云音乐 PC 客户端开始支持杜比全景声_最新版网易云音效在哪里
11月18日消息:网易云音乐宣布最新PC客户端已支持杜比全景声,用户可通过支持杜比全景声功能的Windows设备在网易云音乐客户端体验。据悉,网易云音乐将引入全球顶级的杜比音频格...
日期:11-20
讯飞输入法联合热门手游《人类跌落梦境》推出定制皮肤
  2020年底《人类一败涂地》的手游版《人类跌落梦境》正式登陆国内,凭借有趣的玩家角色,沙雕的操作,不出意外吸引了无数玩家,投身游戏变成童年记忆中那个快乐儿童“Bob”。日...
日期:07-10
b站最火的番2020「2023开年爆火,B站UP一周内涨1600w播放洗脑全网!」
声明:本文来自于微信公众号 飞瓜轻数(ID:feiguabili),作者:春桃,授权转载发布。2022年,B站举办了第四次跨年晚会《最美的夜》,艾薇儿登台唱起《Complicated》的瞬间,B站跨晚的直播间人...
日期:01-11
日本统计了56大高科技工业产品份额:我国拿到15个全球第一_中国高技术产业占世界总产出的比重仅次于日本
日前,日本公布了2021年主要商品和服务份额调查”报告,总共的56个品类多与高科技工业产品相关。结果显示,美国公司在18个品类拿到第一名,中国公司在15个品类中拿到第一,日本在7各...
日期:11-25