您的位置:首页 > 互联网

追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!_开源suricata

发布时间:2024-02-19 11:01:20  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。

有趣的是,在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。

可惜那天全世界的目光都聚焦在Sora身上,让图灵奖获得者,Meta首席科学家Yann LeCun s气的直跺脚,在社交平台上各种酸Sora的成果。

开源地址:https://github.com/facebookresearch/jepa

论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

不过放眼全球,在开源领域有能力追赶OpenAI的Sora不超过5家公司。而Meta作为曾经成功复制ChatGPT的大模型开源鼻祖,相信他有能力再一次创造奇迹。

下面,AIGC开放社区将根据其公开的论文,为大家介绍一下这款“悄悄”发布的最新开源模型。

V-JEPA介绍

我们人类对世界的许多认知,特别是在生命的早期阶段都是通过视觉观察、总结获取的。

以牛顿的运动第三定律为例:即使是婴儿(或动物)在多次将物体从桌子上推下并观察结果之后,也能知道凡是上升的必将下降。你无需花费几个小时甚至阅读上千本书,就能总结出这个道理。

同理,Meta希望AI模型也能像人类那样,通过观察以及自我思考、总结,来获取对世界新事物的认识,最终学习并模拟他们。

所以,Meta基于Yann LeCun s提出的JEPA(联合嵌入预测架构)模型开发了非生成视频模型V-JEPA。

这是一种从视频中学习表示的自我监督方法,可以应用于各种视频、图像任务,而无需调整模型参数。

在图像分类、动作分类和时空动作检测任务的冻结评估中,V-JEPA超越了之前的视频表示学习方法。

iphone王者90帧

V-JEPA核心技术思路是,通过Transformer架构对视频序列进行编码,利用遮蔽自编码框架学习视频的关键特征表示。

再通过基于查询的特征池化模块提取与任务相关的重要特征,最终通过联合嵌入预测架构进行特征预测任务,以学习视频中不同时间步骤之间的语义关系。

因此,V-JEPA能够在无监督的情况下从大量未标记的视频数据中,学习到有用的特征表示,为生成高质量视频提供强大的预测、分析能力。

也就是说,即便你使用了没有标签的低质量视频训练数据集,通过V-JEPA模型也能轻松获取视频中的关键表示特征,这对于扩大视频训练数据范围帮助巨大。

V-JEPA主要功能模块

遮蔽自编码:V-JEPA中的核心模块之一,主要用于学习视频中的特征表示。当输入视频序列中的某些帧被随机遮蔽或删除后,模型需要通过观察其余的帧来预测被遮蔽的帧。

因此,模型被迫学习从上下文中推断出缺失信息的能力。遮蔽自编码可以促使模型学习到视频中的关键特征,并且通过预测遮蔽帧,模型还可以学习到不同时间步之间的依赖关系。

Transformer架构:在V-JEPA中,Transformer被用于建模视频序列中的时空关系。可以对输入序列中的每个时间步进行编码,并捕捉不同时间步之间的依赖关系。

Transformer的编码器由多个注意力头组成,每个头都可以学习不同的特征表示。所以,V-JEPA能够有效地建模视频中的时序信息,并将其用于特征预测任务。

JEPA:主要帮助V-JEPA模型,通过预测视频序列中不同时间步之间的特征嵌入,来学习视频中的特征表示。

模型将输入视频序列的不同时间步的特征进行编码,并通过自注意力机制捕捉它们之间的依赖关系。

然后,模型通过最小化预测特征嵌入,与实际特征嵌入之间的差异来进行训练。通过这种方式,使V-JEPA可以学习到视频中不同时间步之间的语义关系,并将其用于特征预测任务。

基于查询的特征池化:主要用于从视频序列中提取关键特征。在这个模块中,模型使用自注意力机制来选择视频序列中最相关的帧作为查询,并从这些帧中提取特征。

基于查询的特征池化使得V-JEPA能够提取丰富的、与任务相关的特征,并为后续的特征预测任务提供强大的特征表示。

V-JEPA的实验数据和未来应用场景

为了评估V-JEPA的性能,使用了冻结和端到端微调两种评估方法,并在多个图像和视频任务上进行了性能测试。

低样本量冻结评估:在Kinetics-400和Something-Something-v2数据集上,通过变化用于训练注意力探针的标签样本百分比,比较V-JEPA与其他视频模型在冻结评估中的表现。

使用训练集的5%、10%或50%,并在每种设置下取三个随机分割以获得更稳健的指标,为每个模型进行九次不同的评估实验。

结果显示,V-JEPA在Kinetics-400任务上达到81.9%的准确率,在Something-Something-v2任务上达到72.2%,在ImageNet1K任务上达到77.9%,明显优于其他模型。

开源 im

此外,V-JEPA模型还显示出在标记样本数量减少时更具优势,与像素重构模型相比性能更好。

V-JEPA模型中的“V”代表的是Video的意思,也就是说现阶段主要用于视频领域。

但Meta表示,下一步,将会把V-JEPA与音频相结合使用,并且可以充当早期的物理世界模拟器使用。


返回网站首页

本文评论
网络舆情全网监测_全网监测来了  蜜蜂舆情融媒体平台即将上线
  随着互联网的快速发展,其对社会的影响力日益增加。截至2018年12月,我国互联网普及率达59.6%,已构成了“互联网+”环境下的融媒体生态。对于融媒体建设而言,舆情监测大有可...
日期:10-27
电影《燃冬》定档七夕:周冬雨刘昊然主演
7月3日消息,电影《燃冬》今日官宣定档七夕。这部新片此前入围第76届戛纳电影节一种关注”竞赛单元,当时国内外媒体、资深影评人对电影都给予高度称赞,这让国内观众无比期待影片...
日期:07-04
跳过魅族19!魅族新旗舰或将命名魅族20/魅族20 Pro「魅族1月23」
今日,高通正式发布第二代骁龙8旗舰移动处理器,魅族手机随后宣布,魅族新旗舰也将首批搭载高通第二代骁龙8移动平台。据数码博主WHYLAB”消息,魅族新机已经现身数据库,共有两款机型...
日期:11-19
中兴通讯:云网筑基,数智赋能,助力城轨数字化发展_中兴通讯数字化转型
通信世界网消息(CWW)近日,RT FORUM 2023第七届中国智慧轨道交通大会在重庆隆重召开,2000余名来自城市轨道交通行业科研院校、40座城市业主单位、20家设计院以及近200家集成商&设...
日期:06-25
超级网银尚不超级:银行被指创新乏力(超级网银是典型的)
  上线已逾百日的央行网上支付跨行清算系统,又称“超级网银”曾被寄予厚望,但事实上,“超级网银”目前看来还非常冷清。   专家指出,“超级网银”冷清现状的背后,是银行间利...
日期:07-25
富士康花30亿卢比在印度购买土地 占地120万平方米_富士康在印度能成功吗
5 月 10 日消息,根据富士康本周二向伦敦证券交易所提交的一份官方文档显示,该公司斥资 3038057050 卢比(注:约合 2.56 亿元人民币),在班加罗尔机场附近的 Devanahalli 购买了 120...
日期:09-29
1971年美国一架先进无人机失踪,39年后才发现竟然躺在中国博物馆
1971年,美国一架D21无人机打算窜入中国大西北实施秘密侦察任务,可这架飞机在进入我国领空后不久由于出现机械故障,无人机径直坠毁在了云南西双版纳原始森林里。不过由于坠机时,...
日期:10-16
aistudio「Exactly.ai官网体验入口 AI艺术图像生成创作平台在线使用地址」
Exactly.ai是一种先进的艺术创作平台,利用机器学习技术理解艺术家的风格,然后根据简单描述生成新的图片。它能够帮助艺术家在几秒钟内创作个性化的图片,提高创作效率。Exactly....
日期:01-26
诺兰首获金球奖最佳导演 第81届金球奖公布:《奥本海默》包揽多项大奖
近日,第81届美国电影电视金球奖获奖名单正式揭晓。备受瞩目的电影《奥本海默》成为当晚的最大赢家,横扫多项大奖。在本次金球奖中,《奥本海默》共荣获5项大奖,包括最佳影片、最...
日期:01-08
滴滴致歉补偿券领不了上热搜 官方回应:参与人数较多建议耐心等待
11月29日 消息:针对“补偿券领不到”的情况,滴滴出行App在线客服回应称:“目前参与人数较多,建议您耐心等待。”互联科技是什么公司三星GALAXY Note 9苹果发布会会有macbook p...
日期:11-30
工信部:4月查处“黑广播”违法犯罪案件60起 缴获设备66台「黑广播定罪标准」
2023/5/26 12:20 工信部:4月查处“黑广播”违法犯罪案件60起 缴获设备66台  颜翊 C114讯 5月26日消息(颜翊)据工信部消息,2023年4月,各级无线电管理机构深化部门联动协同,优...
日期:05-28
徕卡m r「20万元!徕卡发布ZM 1腕表黄金限量版:全球仅50枚」
快科技12月1日消息,徕卡发布ZM 1腕表黄金限量版,售价28000美元(约合人民币20万元)。该腕表已于全球指定徕卡专卖店发售,限量50枚。据介绍,徕卡ZM 1腕表黄金限量版是对徕卡首款金色...
日期:12-01
江淮新能源汽车 蔚来「奇瑞、江淮“加入”蔚来阵营!共同达成换电合作协议」
快科技1月11日消息,据媒体报道,今天下午,由安徽省能源集团、蔚来、国轩高科、安徽省新能源汽车和智能网联汽车产业主题母基金共同出资建立的中安能源有限公司”在合肥揭牌。摩...
日期:01-12
C罗将在中国挑战吉尼斯纪录 已创造40项吉尼斯纪录_c罗破吉尼斯纪录
1月21日,足球巨星C罗抵达广东深圳,开启他的第8次中国之行。据悉,C罗将带领利雅得胜利队在深圳大运中心体育场进行两场精彩比赛,分别对阵上海申花队和浙江队。除此之外,C罗还将于1...
日期:01-23
六一儿童节麦当劳肯德基会送什么「肯德基麦当劳儿童节玩具断货:黄牛线上倒卖」
5月31日消息,不少网友在社交平台上抱怨,买不到肯德基、麦当劳的六一”儿童节玩具。特斯拉发生事故据悉,购买最低69.9元的儿童节套餐即可获得肯德基玩具。该套餐上线后备受追捧,...
日期:05-31
绿米aqara官网app「Aqara绿米发布方舟技术2.0,可实现跨局域网自动化本地执行」
“在不远的未来,没有智能家居系统的住宅会像不能上网的房子一样不合潮流”,这是比尔盖茨在《未来之路》一书中的预言。研究机构Omdia预测,智能家居将迎来新的增长。到2026年,全...
日期:09-28
FTX创始人Sam Bankman Fried在巴哈马被捕,美国或要求引渡
彭博12月13日消息,巴哈马司法部长在一份声明中表示,FTX创始人、前首席执行官Sam Bankman Fried在巴哈马被捕。逮捕是在收到美国通知后进行的,美国已对Fried提出刑事指控。巴哈...
日期:12-13
第十五年“双11”:重回低价,能重返旧梦?
“双11”兜兜转转又回到了“低价”。近日,淘天集团、京东等各大电商均公布今年“双11”的玩法和节奏,无一例外将在价格上大打出手,淘天喊出“全网最低价”并承诺买贵必赔,京东直...
日期:10-23
巴奴“天价土豆”换名后重新上架 此前5片售价18元_巴奴是啥
最近,西安的一位顾客发现,之前宣布要停售的巴奴毛肚火锅的富硒土豆又换了个名字重新出现在店里。对此,巴奴的相关负责人表示,由于以前的土豆味道好、顾客反馈好,下架后,门店经常被...
日期:04-14
权威访谈丨新型工业化将如何发力?_新型工业化新在哪里
通信世界网消息(CWW)今年9月22日至23日,党中央召开了全国新型工业化推进大会,习近平总书记作出重要指示指出,新时代新征程,以中国式现代化全面推进强国建设、民族复兴伟业,实现新型...
日期:11-06