您的位置:首页 > 互联网

多模态目标检测「基于多模态大模型的动作识别关键技术研究与应用」

发布时间:2023-12-08 23:26:04  来源:互联网     背景:

通信世界网消息(CWW)随着ChatGPT的发布,各行各业开启探索、应用人工智能大模型的新时代。在海量数据、大规模算力和强大的算法优化能力等条件的支撑下,基于深度学习等技术的庞大神经网络模型问世,使自然语言处理、语音识别、计算机视觉等任务的处理得到了极大的改善。

由于人类生活在包含文本、图片、音频、视频等不同模态数据的世界里,利用大模型对不同模态数据进行跨模态的统一表征学习是一种更为接近人类的学习模式。这种多模态大模型必然成为未来发展的重要方向。

为将多模态大模型有效应用于动作识别任务中,中国移动信息技术中心智能AI研发团队采用基于预训练的CLIP多模态大模型,结合目标检测与提示工程技术,实现“零样本”条件下的动作识别。目前,该模型已应用在各类动作识别任务中,取得了理想的效果,超越了传统的人工智能算法。

多模型大模型解决动作识别痛点问题

动作识别是一类典型的分类任务,采用传统深度学习模型进行动作识别主要存在分类类别受限、无法实现“零样本”分类的痛点。这意味着当下游场景存在新动作类别时,模型需要重新训练,无法直接部署应用。此外,当数据场景复杂或数据量不足时,传统深度学习模型的动作识别性能会显著下降;而多模态大模型的多模态统一表征能力为分类任务提供了新的“范式”,即可通过确定任意类别文本提示语,并计算类别提示语与分类目标相似度的方式,实现目标的分类,分类类别不再受训练集的约束。多模态大模型所带来的分类新“范式”可有效规避上述传统深度学习模型的缺点,为动作识别开辟了一条新的路径。基于多模态大模型的动作识别模型架构如图1所示。

ios16beta3下载的更新在哪里

CLIP模型实现多模态特征的对齐

多模态分类

多模态大模型必须具备多模态信息的综合处理与分析能力,因而需要一个将多模态特征进行联通的“桥梁”。2021年,OpenAI提出了CLIP系列多模态大模型,实现了文本与图像多模态特征的对齐:将文本与图像的多模态特征转换到同一特征空间进行表示。CLIP模型如图2所示。

CLIP模型由一个文本编码器与一个图像编码器组成,其训练过程使用了超过4亿的“图像—文本”对数据集,采用了对比学习策略,以自然语言作为监督信号训练视觉模型,使其生成的图像与文本特征均具有多模态特性。

CLIP模型可以通过“零样本”或少样本的形式直接用于下游任务,并获得良好的性能。确定类别提示语后,可让CLIP模型对提示语进行分类,做到“无限细粒度”的标签分类,不再受训练集样本类别的限制。

因此,研发团队采用了CLIP模型作为动作识别任务的基础模型架构,已在打电话、工作状态(认真工作、犯困)等多项业务场景中使用。

目标检测算法降低大模型分析难度

虽然CLIP多模态大模型打破了分类类别限制,拥有极强的“零样本”下游任务泛化能力,但是其仍然缺乏细粒度精确分析的能力。因此,通常需要结合目标检测算法,用于在动作识别之前提前检测出动作识别的具体目标——人体。目标检测算法的使用可缩小CLIP模型的图像特征提取范围,排除干扰信息,显著增加模型的鲁棒性。

多模态目标检测

在实际构建过程中,研发团队选择了基于Yolo v8的目标检测算法实现人体目标的识别。由于视频监控场景下大多数监控器位于房间的角落,对于拍摄到的人体具有远近的显著特征差距,会导致目标检测算法性能的下降。针对上述问题,研发团队提出了自适应检测框尺度变换算法,针对不同的远近距离,自动对检测框进行长宽尺度的变化,保证人体及其周围适当背景像素信息的保留。

提示工程显著增强大模型分类能力

与语言大模型类似,提示工程在基于多模态大模型的判别任务中举足轻重。因此,在动作识别任务中,需要针对特定业务场景设计合适的类别提示语,从而让大模型根据提示语区分不同类别的动作,合适的提示语将极大增强大模型的分类能力。研发团队在特征工程上提出了一种基于多模态大模型提示词生成与提示语集成的新方法。

为了实现基于CLIP模型的动作识别,需要构建正类与负类提示语列表。具体而言,正类提示语列表包含多个正类提示语,每个提示语均可描述需要找出的动作类别;负类提示语列表中包含多个负类提示语,每个负类提示语列表中的负类提示语均描述同一种负类动作。

为了生成正类提示语,研发团队采用基于多模态大模型BLIP的生成策略。BLIP是一种图生文大模型,它可以根据图像生成对应的自然语言描述。通过对一类动作的图像数据集使用BLIP模型生成描述,并进行相关词语筛选与词频统计,可获得针对对应动作的高频描述提示词,这类词语可作为正类提示语的组成部分。负类提示词则根据实际场景,采用需要和正类区分的动作类别词语作为提示词。最后,通过将每个正类提示词与负类提示词套用提示语模板(如:“一个人正在{打电话}的图像”,其中{·}为提示词),生成若干正类与负类的完整提示语,进而形成正类与负类提示语列表。

在获得提示语列表后,采用提示集成策略,计算正类提示语和每个同类负类提示语的平均文本特征;进一步将平均文本特征标准化,可获得针对每类动作的最终类别提示语特征。在实际使用过程中,选择CLIP模型认为与图像特征相似度最高的提示语特征所表示的动作类别作为最终的分类结果。提示集成策略在基于单个个体的动作识别任务中可获得良好的效果,如打电话、工作状态识别等场景。

多模态分析软件

总结与展望

大模型时代的到来为动作识别提供了新的方法。中国移动信息技术中心积极探索多模态大模型在视频理解领域的应用,将相关能力上架至中国移动能力中台,在阳光评标、智慧乡村、智慧园区等产品项目中落地实践,获得了良好的用户反响。相比OpenPose+规则的动作识别方法,在工作状态识别任务上,多模态大模型可获得超过50%综合准确率提升;在打电话动作识别任务上,多模态大模型可在50%召回率的情况下,提升接近70%的精确度。然而,大模型仍然存在参数量大的局限性,多模态大模型的使用将大大增加模型训练与推理的时间成本,也大大提升部署模型所需要的硬件设备条件,从而限制模型在边缘端设备上的使用。针对上述缺陷,未来中国移动信息技术中心将致力于研发适合于多模态大模型的模型压缩与推理加速技术,进一步推动多模态大模型的落地应用。示语,每个提示语均可描述需要找出的动作类别;负类提示语列表中包含多个负类提示语,每个负类提示语列表中的负类提示语均描述同一种负类动作。为了生成正类提示语,研发团队采用基于多模态大模型BLIP的生成策略。BLIP是一种图生文大模型,它可以根据图像生成对应的自然语言描述。通过对一类动作的图像数据集使用BLIP模型生成描述,并进行相关词语筛选与词频统计,可获得针对对应动作的高频描述提示词,这类词语可作为正类提示语的组成部分。负类提示词则根据实际场景,采用需要和正类区分的动作类别词语作为提示词。最后,通过将每个正类提示词与负类提示词套用提示语模板(如:“一个人正在{打电话}的图像”,其中{·}为提示词),生成若干正类与负类的完整提示语,进而形成正类与负类提示语列表。在获得提示语列表后,采用提示集成策略,计算正类提示语和每个同类负类提示语的平均文本特征;进一步将平均文本特征标准化,可获得针对每类动作的最终类别提示语特征。在实际使用过程中,选择CLIP模型认为与图像特征相似度最高的提示语特征所表示的动作类别作为最终的分类结果。提示集成策略在基于单个个体的动作识别任务中可获得良好的效果,如打电话、工作状态识别等场景。总结与展望大模型时代的到来为动作识别提供了新的方法。中国移动信息技术中心积极探索多模态大模型在视频理解领域的应用,将相关能力上架至中国移动能力中台,在阳光评标、智慧乡村、智慧园区等产品项目中落地实践,获得了良好的用户反响。相比OpenPose+规则的动作识别方法,在工作状态识别任务上,多模态大模型可获得超过50%综合准确率提升;在打电话动作识别任务上,多模态大模型可在50%召回率的情况下,提升接近70%的精确度。然而,大模型仍然存在参数量大的局限性,多模态大模型的使用将大大增加模型训练与推理的时间成本,也大大提升部署模型所需要的硬件设备条件,从而限制模型在边缘端设备上的使用。针对上述缺陷,未来中国移动信息技术中心将致力于研发适合于多模态大模型的模型压缩与推理加速技术,进一步推动多模态大模型的落地应用。


返回网站首页

本文评论
知乎带货之心不死_抖音带货 知乎
声明:本文来自于微信公众号银杏科技(ID:yinxingcj),作者:王叶琳,授权转载发布。11月29日,知乎发布截至2023年9月30日未经审计的季度财报业绩。知乎第三季度总收入为10.22亿元,同比...
日期:12-01
12系列首发自研Q1芯片+自研算法 游戏性能稳了_iQOO_2021年q1手机芯片性能排行榜
来源:中关村在线三星galaxy s22+值不值得买小米智能窗帘控制系统2021年围棋第一人今晚7点整,iQOO 12系列在发布会上正式亮相,作为主打游戏体验的性能产品,其搭载了第三代骁龙8处...
日期:11-07
央视再聚焦网游业 完美世界文化输出引关注
  日前,第九届中国国际网络文化博览会在北京举行,火爆的网游产业引发全行业关注。10月31日,央视《第一时间》栏目对此进行了专题报道。在节目中,央视不仅对整个行业快速的发...
日期:07-24
哪个电视盒子好推荐一下_专业电视盒子排行榜:高性价比电视盒子推荐
  作为一个电视盒子从业者,看到很多人购买电视盒子都会踩坑,买了配置低的体验差的盒子回去用,因此给各位分享一个专业的电视盒子排行榜,望能给大家选购电视盒子的时候有...
日期:07-15
法拉第未来最新进展「91 「法拉第未来宣布本周末正式交付首辆FF」」
【】8月11日消息,日前,法拉第未来宣布,将于本周末正式交付首辆FF 91,车辆交付前所需的相关流程和步骤均已完成。字节跳动tiktok卖给美国法法创始人贾跃亭在微博表示,本周末,FF 将...
日期:09-18
郭明錤:ChatGPT 流量下滑不利于 AI 供应链整体股价表现
8月28日消息:天风国际分析师郭明錤日前就 Nvidia 与 AI 供应链近期股价看法,发表 Medium 文章表示:网约车司机的心酸1. 我所交流的投资人,根据对英伟达(Nvidia)的 CoWoS 出货量与...
日期:08-28
“疯长”的无人糖水铺被挂二手平台 不少卖家关店转让
11月21日消息,据国内多家媒体报道,曾经街头爆火的无人糖水铺如今增长乏力,在二手交易平台闲鱼上,不少卖家关店转让设备。据悉,无人糖水铺是无人售卖的自助式糖水铺,消费者自助选购...
日期:11-22
从精英云到普惠云,青云QingCloud的“性格”变了
  性格是一个人对现实的稳定的态度,以及与这种态度相应的习惯化了的行为方式中所表现出来的人格特征。有的人热情如火,就像红色;有的人冷若冰霜,就像蓝色;还有的人内向、随...
日期:08-26
处理器成最大亮点 苹果将推出iPad mini 7在内多款平板_ipad mini 什么处理器
快科技10月6日消息,自从去年10月份发布了M2芯片的iPad Pro和iPad 10以来,苹果已经有一年的时间没有发布新的平板了,因此关于苹果会在何时发布新款iPad一直众说纷纭。据国外媒体...
日期:10-06
小伙花77.7元从武汉坐公交到长沙 网友热议穷游不可取?本人回应_武汉到长沙公交车
近日,一位小伙在网上火了,花一天半、77.7元钱从武汉坐公交到长沙,这举动也是没sei了。对于为何要这样做,这位小伙表示,公交游更重要的是路上所经历的风土人情。公交作为公共系统...
日期:07-26
星火平台「星火共燃 数智未来,星火运营商大模型重磅发布」
通信世界网消息(CWW)“星火运营商大模型赋能行业全场景,为用户持续创造价值,为数字经济社会发展‘注智’。”10月24日下午,2023科大讯飞全球1024开发者节期间,一场以“星火共燃数...
日期:10-27
极米New Z8X怎么通过U盘安装第三方软件方法_极米z8x安装教程
  极米New Z8X安装直播软件和安装第三方软件的方法,可以安装蚂蚁市场。   首先从电脑里下载好装蚂蚁市场apk(www.mayiapk.com),然后将扩展名(apk)改成(apk1),并拷贝到U...
日期:07-17
易车论坛全面重构改版,完善内容生态进一步提升平台价值
  近日,易车对其论坛版块进行了重构,新版论坛在界面、内容及互动等三大维度上进行了全面升级,面向版主和用户提供更加优越的使用体验和实用资讯,进一步提升了平台用户规模和...
日期:04-07
“和平精英号”火箭即将发射 ,将携玩家ID信息升空_和平精英号火箭发射成功
  5月3日,《和平精英》2周年派对盛典在重庆举行。现场,项目负责人高丽娜女士宣布想象力冒险计划启动。《和平精英》将与长光卫星技术有限公司、航天科工火箭技术有限公司合...
日期:11-27
福建电信IP小颗粒切片专线电信首局商用成功,赋能5G智慧电网
通信世界网消息(CWW)近日,中国电信福建公司携手华为成功实现FlexE叠加IP小颗粒切片专线电信首局商用落地,接入配电终端59个,分布式光伏、配电自动化、储能等业务终端70个,助力宁德...
日期:08-17
百度发布文心一言AI模型:可实现文字、图片与视频智能生成「百度文心ernie」
今天下午,百度正式发布了生成式人工智能大模型文心一言”,并展示了它在文学、商业、数理推理等方面的多模态表现。刘海屏iphone几款根据百度在发布会上进行的演示,文心一言能够...
日期:03-16
币圈借贷平台Celsius申请破产,资产从250亿美元降到1.67亿,散户亏惨
7月18日消息,加密货币借贷平台Celsius上周申请破产,几乎没有人对此感到意外。当这样的平台宣布冻结客户资产时,往往意味着其将走向终结。虽然这家陷入困境的加密货币贷款机构倒...
日期:08-28
新学期新体验新样貌 三星Galaxy A54 5G开启你的潮美校园生活
暑假即将结束,各大高校也进入了准备迎接新生的状态。正所谓新学期新气象,很多同学会在开学前选购一款新手机来作为自己的开学礼物。面对云云机海,如何选择一部外观出挑、性能卓...
日期:08-29
网约车事故中乘客的权益如何保护_网约车司机维护权益
来源:经济参考报   近日,郑州一女子乘坐由高德打车平台派发给“有象约车”的网约车时,因遭遇重型自卸货车撞击,发生车祸去世。死者家属称,其乘坐的车辆缺少网约车运营的相关证...
日期:07-31
打官司前奏?马斯克向微软发律师信 指责其滥用推特数据_马斯克深夜发推特
  马斯克的御用律师阿历克斯·斯皮罗(Alex Spiro)周四致信微软,指责该公司滥用推特的数据,并要求这家软件巨头进行审计。  这封信主要针对微软涉嫌从推特的推文数据库中获取...
日期:05-20