您的位置:首页 > 互联网

最强“全开源”多模态分割一切大模型APE_transformer 多模态

发布时间:2023-12-10 13:59:24  来源:互联网     背景:

要点:

1、APE 是一种全开源的多模态分割模型,通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式以及统一前景和背景粒度来提高分割效果。

小区门禁卡怎么添加到手机的nfc

2、APE 的方法主要包括独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度。在多个常见数据集上进行实验,APE 方法取得了强力的分割效果。

3、APE 方法在各个检测、分割和指向性检测数据集上都比之前的方法表现好,在 D3数据集上取得了显著的提升。在开集检测、开集分割和视觉定位等任务上,APE 方法也展现出竞争力,取得了新的 SOTA 结果。

今天小米13系统发布

12月10日 消息:APE 是一种全开源的多模态分割模型,其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt,但 APE 通过对每个类别名或描述短语进行独立建模,可以学习到不同实例之间的差异。此外,APE 还通过压缩 Word-Level Embeddings 为 Sentence-Level Embeddings 来减少计算复杂度和内存消耗,从而有效地表达语义信息。

沃尔玛的科技

论文地址:https://arxiv.org/pdf/2312.02153.pdf

开源链接:https://github.com/shenyunhang/APE

多模态分析elan软件入门

叮当快药优惠

多模态分析框架

Demo链接:https://huggingface.co/spaces/shenyunhang/APE_demo

APE 采用了不同的特征融合方式来处理不同类型的 Prompt。对于纯类别名的文本特征,采用一种 “zero” 文本 token 作为替代,以避免过拟合问题。而对于语言描述的文本特征,采用特定的融合方式将其与视觉特征进行语义级的理解。此外,APE 还通过矩阵乘法计算 Object Embeddings 和 Prompt Embeddings 之间的相似度,从而实现一次性检测和分割。

APE 还通过统一前景和背景粒度来提高分割效果。在分割任务中,前景和背景的粒度是不同的,但传统方法往往面临前背景冲突的问题。为此,APE 提出统一前景和背景的粒度,将背景的不同块视为独立的标签,从而使模型可以采用统一的架构训练前景和背景数据,并方便地融入大规模的 Class-Agnostic 数据。

APE 在各个检测、分割和指向性检测数据集上都取得了强力结果。特别是在 D3数据集上,APE 的表现显著优于其他方法。在开集检测任务中,APE 在常见数据集上的效果也明显优于其他方法。此外,APE 还在开集分割任务和视觉定位任务上取得了竞争性的结果,在 RoboFlow100和 ODinW 评测基准上取得了新的 SOTA。

APE 是一种非常有潜力的多模态分割模型,具有广泛的应用前景。通过独立建模每个类别名实例、压缩 Word-Level Embeddings 为 Sentence-Level Embeddings、采用不同的特征融合方式、通过矩阵乘法进行 Object Embeddings 和 Prompt Embeddings 之间的相似度计算以及统一前景和背景粒度,APE 在多个常见数据集上取得了强力的分割效果,并展现出竞争力的结果。未来的研究可以进一步探索 APE 在其他视觉任务中的应用,以及对其方法进行优化和改进。


返回网站首页

本文评论
苹果根据位置生成显示内容专利公布 可依据角度呈现不同内容
凤凰网科技讯 2月21日消息,据天眼查App显示,近日,苹果公司申请的“基于个体的相应位置生成和显示内容”专利公布。申通快递线上下单图源 天眼查摘要显示,该方法包括基于第一个体...
日期:03-01
迎接亚运百日倒计时   浙江电信多维创新打造亚运场馆极致5G网络体验
通信世界网消息(CWW)第19届杭州亚运会即将在2023年9月23日在浙江省杭州市拉开帷幕,作为亚运会官方通信服务合作伙伴,中国电信浙江公司携手中兴通讯,在智能网络编排、热点容量保障...
日期:06-16
雷蛇确认参展IFA,或将推出10nm灵刃潜行版(雷蛇灵刃152020)
  9月1日消息 根据Notebookcheck的报道,2019年IFA(柏林国际电子消费品展览会)将于下周正式拉开帷幕,各大OEM厂商将带来许多惊喜。由于英特尔刚刚推出了Ice Lake-U和Comet L...
日期:08-05
投影行业都在用的ANSI流明 为何会被极米“抛弃”?「极米投影仪流明度」
  新酷产品第一时间免费试玩,还有众多优质达人分享独到生活经验,快来新浪众测,体验各领域最前沿、最有趣、最好玩的产品吧~!下载客户端还能获得专享福利哦!  前阵子,专注于智...
日期:09-08
注意!高考生这6样东西别发朋友圈「高考能带什么不能带什么」
6月3日消息,微博话题高考生这6样东西别发朋友圈”引发考生关注。facebook限制评论专家提醒,高考生的准考证、个人身份证、考生号及密码、志愿填报表、成绩单或查询页面截图、...
日期:06-03
instagram广告投放平台「Instagram将压缩电商项目 未来以拉动广告为重点」
  讯 北京时间9月7日早间消息,据报道,内部备忘录显示,Instagram将会大幅缩减购物功能,因为Instagram电商业务的重点将会转向能直接拉升广告收入的项目。tcl8.5免污式洗衣机 ...
日期:09-08
京东小时购2023年货节今晚8点正式开启「京东家电年货节2021什么时候开始」
12月16日消息,以“年在一起 好礼到家”为主题的京东小时购2023年“年货节”将于今晚8点正式开启。活动将持续至2023年2月5日,贯穿冬至、圣诞、腊八、元旦、小年、春节、元宵等...
日期:12-16
人类真的要“驯服”闪电了吗?科学家深度解读史上首次激光引导闪电
科技《思想大爆炸——对话科学家》栏目第34期,对话中国科学技术大学地球和空间科学学院陆高鹏教授以及中国科学院上海光学精密机械研究所王铁军研究员。实验人员在桑蒂斯山进...
日期:10-17
car parking奔驰数据「ChatGPT进入车载系统 奔驰开始测试」
梅赛德斯-奔驰和微软近日宣布,双方合作扩大人工智能的应用,整合该技术到车辆的语音控制系统中。据梅奔公司透露,这项合作将使用微软的Azure OpenAI服务,让车主可以通过聊天机器...
日期:06-16
马斯克暗示将起诉ChatGPT开发商OpenAI-连续炮轰还挖人后
4月19日消息,作为OpenAI最早的投资者之一,马斯克目前与OpenAI的关系却并不理想,甚至多次在社交平台公开攻击OpenAI。近日,有用户在推特上询问马斯克“为什么不起诉OpenAI欺骗他...
日期:10-02
供应链好消息!iQOO 12系列全系标配“三摄五焦段”_iqoo3 12+128参数配置
iQOO 12系列遇到供应链原材料成本上涨的问题,导致定价上出现了一些纠结。尽管如此,iQOO 12系列仍然会带来出色的性能表现,戈蓝V表示团队对产品的表现充满信心。该系列产品将于...
日期:11-07
瓦罗兰特下载速度「瓦罗兰特延迟太高用什么加速器 免费又好用的瓦罗兰特加速器」
瓦罗兰特国服还未上线,游玩外服会因为服务器原因导致网络波动大,延迟高居不下。很多玩家都想知道瓦罗兰特用哪个加速器好,这里给出具体推荐,低延迟畅玩不卡顿,还能免费加速。ios2...
日期:04-12
小鹏汽车免费充电站再增109座 多城开展线下服务「小鹏汽车指定充电站」
1月8日消息,日前,小鹏汽车正式宣布在全国范围净新增109座优质第三方免费充电站,实现北上广深等一线重点城市车主覆盖率达83%以上。同时,进一步对充电资源相对匮乏的二线至四线城...
日期:01-08
淘宝小程序接入Cocos游戏引擎 可一键发布游戏到淘宝
12月5日 消息:随着技术的不断更迭,电商平台的购物方式也发生了翻天腹地的变化。淘宝购物也从AR购物进化到3D 数字化虚拟购物空间。近期,Cocos推出了支持淘宝平台的社区版本。...
日期:12-06
亚马逊砍掉在线医疗业务 科技巨头为何做不好互联网医疗?_互联网医疗竞争对手
  亚马逊此举对全球互联网医疗发展有何影响?是否意味着互联网医疗陷入了无法突破的发展困境?  随着互联网的普及、信息科技的高速发展,零售、物流、金融、餐饮等诸多行业原...
日期:09-09
iPhone 14 Plus震动马达面积惊人,安卓几无一款能比,游戏手机实锤?_iphone手机的震动马达
10月9日消息 iFixit拆解发现,iPhone 14 Plus搭载一块罕见的正方形震动马达体,面积远大于同系列的其它三款手机。数码博主肥威提供的参考信息显示,iPhone 14/14 Pro马达面积约18...
日期:10-12
光绘世界 智享生活 | 长飞公司精彩亮相CIOE中国光博会「长飞光纤光缆股份」
通信世界网消息(CWW)9月6日-8日,2023 年中国国际光电博览会在深圳会展中心(宝安)盛大举行。长飞光纤光缆股份有限公司(以下简称“长飞公司”,股票代码:601869.SH、06869.HK)以“光绘...
日期:09-07
一个只发布AI生成内容的网站长啥样?充斥着标题党、奇怪的照片「ai生成内容在著作权法中的定性」
6月15日 消息:人工智能生成的内容正在互联网泛滥,甚至可能让网络世界变成一个错误堆积、难以理解的信息场。不过也有纯粹用AI生成的内容给人类带来不少乐子,The Enlightened M...
日期:06-15
高考后染发色「高考后第一批染发大军涌入小红书」
声明:本文来自微信公众号“新摘商业评论”(ID:xinzhainews),作者:辛夷,,授权转载发布。DIY染发,年轻人“新宠”安卓10农业银行APP闪退“染发”成为众多高考后考生最想做的事情,热搜...
日期:07-18
百度文字转语音平台「百度将大型语言模型ERNIE应用于汽车,实现文字转图像功能」
8月3日 消息:互联网大厂百度已经实现了将其大型语言模型 ERNIE 应用于汽车领域的承诺,并与汽车制造商长城汽车和数字驾驶舱创造者 ECARX 展开合作。百度表示,他们已经进行了多...
日期:08-03