您的位置:首页 > 互联网

吉娃娃or松饼难题被解决!IDEA研究院新模型T-Rex2打通文本视觉Prompt,连黑客帝国的子弹都能数清楚

发布时间:2024-03-29 19:25:37  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:量子位,授权转载发布。

还记得黑客帝国经典的子弹时间吗?

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型吉娃娃or松饼的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex。

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。

因此,它大致有三种工作模式:

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

我国将要发射一颗绕月运行的探月卫星

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动,就能完成检测任务。

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。

亚马逊电子书贵

比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。

现在,T-Rex2让通用物体检测又迈出了新的一步。

试玩链接:

https://deepdataspace.com/playground/ivp

T-Rex2API:https://github.com/IDEA-Research/T-Rex

论文链接:

https://arxiv.org/abs/2403.14610

—完—


返回网站首页

本文评论
20多年前的卫星将坠落地球 张朝阳:砸中人的概率与雷劈一样_张卫星叔落
快科技2月22日消息,据报道,近日,张朝阳在直播中讲到,欧洲航天署(ESA)于1995年发射,用来检测臭氧层损害的一颗2吨重卫星,自2011年废弃以来,逐渐向地球靠近,将于近日没有控制的进入大气...
日期:02-22
在探索的道路上持续“做对”,火山引擎A/B测试成为乐刻的“数字基建”
(原标题:在探索的道路上持续“做对”,火山引擎A/B测试成为乐刻的“数字基建”) 大众车中控屏显示无条目 最近,乐刻的“百城万店”...
日期:08-21
消息称微信拟推出聊天记录付费云存储服务(微信 聊天记录 云存储)
  9 月 4 日消息 据中国日报报道,微信可能计划推出个人微信云存储付费服务,微信聊天记录可以实现云端备份和恢复。   知情人士表示,这项服务可能采用按年收费的模式,苹果 i...
日期:07-17
三星新推AI智能冰箱可以根据用户饮食需求设计食谱_新款高端三星智能冰箱
划重点:快手电商投诉电话2014电商发展趋势1....
日期:12-28
家用吸尘器哪个牌子好?吸尘器十大排名性能详细对比_家用吸尘器最好的牌子
每个家庭每天都无法避免打扫卫生的工作,这项工作不仅费时费力同时还不可或缺,无论生活在城市抑或农村里,对于爱干净的消费者而言三天不扫家里都是一层灰。但是中国家庭复杂的家...
日期:01-17
2023新一代人工智能(深圳)创业大赛收官_中国人工智能创新大赛深圳赛区
12月5日,“2023新一代人工智能(深圳)创业大赛”颁奖典礼在深圳举办。大赛最终角逐出一等奖1名,二等奖3名,三等奖6名。深圳市委常委、宣传部部长张玲,宝安区委副书记、区政府党组书...
日期:12-05
芯科科技将于8月22日至23日举行的Works With物联网开发者大会,现在开放注册
2023/6/1 11:41 芯科科技将于8月22日至23日举行的Works With物联网开发者大会,现在开放注册   ...
日期:06-02
万人围观西安大雁塔喷泉灯光秀:随音乐律动 网友称比烟花更美_大雁塔音乐喷泉表演
今年多地都放开了烟花爆竹,让大家能过一个更有年味的春节,在夜空中点亮的烟火非常漂亮。不过,近期西安的大雁塔喷泉灯光秀却被点赞比烟花还美。当贝x3是激光投影据报道,日前西安...
日期:01-20
这次,淘宝又崩了!(双十一淘宝崩了)
  ITBEAR科技资讯10月14日消息,还记得手机淘宝APP上次“打盹儿”的时候吗?官方给了我们有趣的回复:“上班摸会儿鱼,竟然让你们发现了!”不过,在近期有不少网友们在多个社交平...
日期:02-16
微软今日正式发布 Office 2010_微软官网office2016
  微软于美国当地时间周三宣布了Office 2010一些新的功能提升,包括在Word中编辑照片,在PowerPoint中使用视频,新的文档协同以及电子邮件会话管理方式等。   微软大中华区...
日期:07-29
迅雷会员14周年庆 低至4.6折开会员还将获得惊喜周年庆大礼包「迅雷年会员多少钱」
4 月 20 日,迅雷会员上线 14 周年庆活动,在 14 周年之际,迅雷会员为用户带来力度空前折扣活动,还上线了超多福利回馈用户。此次迅雷会员周年庆活动时间为 2023 年 4 月 20 日至...
日期:04-22
科幻大片既视感!男子在零下30度内蒙古拍到幻月环:抖音视频点赞超136万
快科技11月29日消息,日前,抖音博主DavidLee”分享了一段在内蒙古拍摄的视频,引起网络热议。据介绍,他在零下30度的内蒙古拍到了超大幻月环”,如同在太空中的场景。截稿前,该博主上...
日期:11-30
窝窝团的突围战实现本土化创新
  目前,团购市场同质化竞争愈加严重,对于企业而言,创新至关重要,只有寻求差异化竞争手段才能在这场行业大洗牌中杀出一条血路。在团购行业素来有黑马之称的窝窝团便是依靠着...
日期:07-23
EasyDiffusion Online官网体验入口 AI图像生成工具免费使用地址_easyfigure
EasyDiffusion Online是一个由Stable Diffusion驱动的免费AI图像生成工具。它代表了当前最先进的文本转图像AI解决方案,能够快速将文字描述转化为高质量的图像。无论您是艺术...
日期:01-16
摩尔线程再发布MTT S80 Windows驱动更新:支持61款游戏、49款主板、30款显示器
5 月 11 日,摩尔线程正式发布桌面级显卡产品MTT S80 Windows驱动程序,版本号为v211.30。新的驱动程序,新增了AV1 8/10bit解码功能,最 高支持8K解码,摩尔线程成为国内率先支持该功...
日期:05-12
法拉第未来最新进展「91 「法拉第未来宣布本周末正式交付首辆FF」」
【】8月11日消息,日前,法拉第未来宣布,将于本周末正式交付首辆FF 91,车辆交付前所需的相关流程和步骤均已完成。字节跳动tiktok卖给美国法法创始人贾跃亭在微博表示,本周末,FF 将...
日期:09-18
杭州小伙买100万黄金一年狂赚50%!北京大妈200元时买入也赚大了_100万买黄金合适吗
近期,国际国内黄金价格都一路飙升,比如上海黄金交易所AU9999一度超过每克500元,不少金店的挂牌价甚至达到了每克650元。芯片研发上市公司画一幅未来自己的职业简单这似乎再次证...
日期:03-08
OPPO推出“卡路里减糖计划”捐步公益活动,助力“糖宝”甜蜜减负
近日,OPPO联合硅基仿生和腾讯公益共同发起“卡路里减糖计划”公益活动,号召大家通过捐赠运动步数的趣味方式为 1 型糖尿病儿童捐献OPPO手表和硅基动态血糖仪。作为国内代表性...
日期:07-26
2023中国无人机影像大赛百佳图片,每一组都可细打量「2020中国无人机大赛」
“万物新生” 瞰世界·第九届(2023)中国无人机影像大赛经过第二轮公正、公开、专业的评选后,已经由7位行业资深专家组成的大咖点评团投票投出本届大赛百佳图片,其中单幅41件,组图...
日期:09-05
罕见!中国最高楼上海中心大厦顶楼被冻住了:《流浪地球》既视感
快科技2月27日消息,因为近日多地持续低温,导致很多地区出现暴雪、冻雨等天气,而上海更是出现了一种奇观楼顶被冻住了。有网友晒图,上海中心大厦高层已经完全被白霜覆盖,就像《流...
日期:02-27