您的位置:首页 > 互联网

AI+视频 | Nvidia 投资的AI公司,通过视频理解开创感知推理,获顶级风投5000万美元融资

发布时间:2024-07-08 11:53:31  来源:互联网     背景:

声明:本文来自于微信公众号深思SenseAI(ID:gh_a54fc6d3826c),作者:SenseAI,授权转载发布。

在每天刷视频的时代,我们如何快速创作360度全方位理解的视频内容?

Twelve Labs,一家旧金山初创公司,是由一支年轻的工程师团队Jae Lee 和 Aiden L 创立,该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

Sense 思考

我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。

-场景式视频内容理解是主流:增加视频数据和高质量视频内容是未来AIGC在媒体和娱乐领域规模化采用的基础,场景式理解视频内容(Context Understanding of Video)将会成为技术主流。视频内容处理可以细化到每一个瞬间,大大提高了视频内容在不同社交平台的传播效率。

- AI原生产品的丝滑体验感:自动化视频数据标注和数据生成可以极大的降低成本,把劳动力从重复性的工作中解放出来。Twelve Labs 把标注,搜索和生成端到端的设计起来,创造了极优的产品体验。

本篇正文共3653字,仔细阅读约6分钟

AI Native 产品分析

52

Twelve Labs

1. 产品:Twelve Labs

2. 产品上线时间:2023年

3.创始人:

Jae Lee

联合创始人兼首席执行官,毕业于UC伯克利大学计算机专业,曾在大韩民国国防部担任数据科学家,也是三星和亚马逊的工程师实习生。

Aiden L

联合创始人兼首席技术官,布朗大学的drop-out创业者,他的专业是计算机科学和应用数学,研究专注于:视频理解, 视频语言模型, 多模态系统,曾在大韩民国国防部当研究员。

4. 产品简介:

Twelve Labs是一个人工智能平台,帮助开发者创建视频搜索和生成能力。该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

5. 融资情况:

这家总部位于旧金山的公司已于2024年6月一共筹集了 $77M 万美元的顶级风投融资,此外早前还获得了其他机构投资和天使投资人的注资,其中包括:

-2021年1月从 Techstars 获得天使投资120,000美元

-2022年3月,来自 Index Ventures 的种子融资500万美元

-2022年12月从 Radical Ventures 获得1200万美元

-2023年10月,来自英特尔公司、Samsung Next 和 NVentures 的5000万美元A 轮融资

01.

创立愿景:视频内容的场景式理解

目前互联网上主流的视频供应商Youtube, Tiktok,Reels的全球受众覆盖率达到92%,而且视频占所有互联网流量的82%,尽管如此,80%的视频内容还停留在使用关键词和数据标签这种简单的方式去归类和分析,导致视频理解受到局限性。

YouTube的下载量在2020年达到1.5亿次

随着 AIGC 技术的发展,通过语义记忆,OCR, NPL, CLIP 等技术可以360度场景式的理解复杂视频内容,降低了生成高质量视频内容的门槛,使视频媒体,电商,广告营销服务商可更低成本获取高质量的视频内容。

Twelve Labs 的创始人 Jae Lee 发现了这个问题,并且表示旧有的视频系统不能有效解决:“为检测特定问题而构建的狭义人工智能产品在受控环境下的理想场景中表现出很高的准确性,但不能很好地扩展到混乱的现实世界数据, 它们更像是一个基于规则的系统,因此在出现差异时缺乏概括的能力。"

"我们还认为这是由于缺乏上下文理解而造成的限制。对背景的理解赋予了人类独特的能力,可以对现实世界中看似不同的情况进行概括,而这正是 Twelve Labs 的独特之处。”

Twelve Labs 平台功能的演示

对于上述的技术问题,可以简单归纳以下几点:

- 传统视频的人工标注方式简单而且不完善,导致AI对视频的理解只在frame-level,对声音,场景,图像都缺乏理解, 在视频中搜索特定时刻和场景远远超出了技术的能力,特别是如果这些时刻和场景没有以明显的方式标记的话。

- 以前使用元数据搜索方法,即搜索视频都是通过视频已有的描述性文字,导致视频内容没有场景式的理解。

- 现有的大模型,包括ChatGPT, Stable Diffusion,Mid-Journey等都不是以专注于视频模型作为基础,所以缺乏大规模生成客制化的高视频质量能力。

02.

大模型之争:打造视频优先的大模型

为了实现大规模莫场景式视频理解搜索和生成,Twelve Labs 建立了两个视频语言大模型,奠定了极大的技术优势:

Pegasus-1(800亿参数)是 Twelve Labs 的视频语言模型(Video-to-Text),通过“视频优先”策略确保卓越的视频理解,具有高效的长视频处理、多模态理解、原生视频嵌入和深度视频语言对齐的优点。凭借800亿参数并在3亿视频-文本对的大型数据集上进行训练,它显著超越了之前的模型。在 MSR-VTT 数据集上显示出61% 的提升,在视频描述数据集上提升了47%。与 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1的性能提升高达188%,在视频转文本的准确性和效率上设立了新标准。

(Pegasus-1Image Credits: Twelve Labs)

Marengo-2.6是一款最先进的多模态基础模型,擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务。它在 MSR-VTT 数据集上比 Google 的 VideoPrism-G 高出10%,在 ActivityNet 数据集上高出3%。具备先进的零样本检索能力,超越现有模型在理解和处理视觉内容上的表现。其多功能性还包括跨模态任务,如音频到视频和图像到视频。该模型通过重新排序模型实现了增强的时间定位,确保更精确的搜索结果,展示了在多种模态下令人印象深刻的感知推理能力。

(Pegasus-1Image Credits: Twelve Labs)

03.

产品独特优势:AIGC技术赋能

Tewelve Labs 通过三个步骤自动搜索,分类和生成来简化用户的工作流程,但其中包括了六种主要的产品功能,只需通过对接API就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自Youtube, Tiktok,Reels等视频库的材料。

(示例:寻找在跑步机上行走,背景是Air Jordans的视频)

2、视频分类

该模型通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

(示例:按TikTok主题对短视频进行分类)

3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。还可以在生成的视频上自由修改和插入视频内容,有提供用户利用细分赛道数据的微调模型的功能,例如客户会需要微调“茄瓜沙律”为“鸡胸肉沙律”。

(用于微调模型以更好地处理与沙拉相关的内容的 API 模型)

4、视频描述和摘要

该模型生成自然语言描述和视频的简明摘要,捕捉关键信息和重要时刻。这改善了理解力和参与度,尤其适用于有视力障碍或时间限制的用户。还可以通过自由定义的prompt来生成不同侧重点的长文字型的视频总结,故事或者自媒体文章等。

(示例:输入Prompt,为此视频创建镜头列表)

5、视频问答(QA)

该模型通过视觉、语言和可能的音频信息之间的语义推理,回答与视频内容相关的问题。此功能增强了可访问性,并提供了用户互动的元素。

04.

通过视频理解开创感知推理

视频作为多模态现实的核心,其丰富的视觉和听觉信息是传统语言模型(LLM)难以完全解析的。在多模态理解领域,不能简单地将现有LLM作为附加功能来处理。相反,从设计之初,多模态基础模型就应该被构建为包含这种跨模态能力。

Twelve Labs 正积极引领这一变革,通过视频理解开创感知推理,推出下一代多模态模型来模拟世界。

想象一下时间在某个特定时刻定格,就像一张快照。到目前为止,我们的大脑一直在处理感官输入,帮助我们理解发生了什么,预测接下来会发生什么,并据此制定计划。这种能力被称为感知推理,是人类智力的基础。

许多发展研究表明,人类在生命的最初几个月内就开始发展感知能力(从主要周围环境中获取知识的能力),然后才发展出任何语言能力(《婴儿期的物体感知、物体导向动作和物理知识》,1995年)。然而,现代人工智能绕过了这一个关键的学习步骤:通过视频创建一个强大的世界表征——这与人类感官数据非常相似。

小米首个系统级地震监测功能发布

(人类认知发展的四个阶段)

基于此发现,Twelve Labs 致力于通过视频理解来推动感知推理的革命。

他们的目标是重新定义机器如何感知世界并与之互动。研究专注于训练先进的基础模型,以弥补这一差距,从视频数据中学习丰富的多模态表示,并利用这些知识来完成复杂的高级推理任务,这些任务通常需要语言能力才能完成。

Twelve Labs 专注于研究两种模型,开发出不仅能感知和理解视觉世界,还能以类似于人类认知的方式对其进行推理的系统。

小米汽车技术

1、感知—— Marengo

视频原生编码器模型 Marengo 是感知的体现。人类的视觉和听觉器官天生就对捕捉世界的细节有着敏锐的洞察力。为了达到这一水平,Twelve Labs 致力于训练 Marengo,使其能够深入分析视频帧的视觉内容以及它们随时间变化的关系,同时对伴随的语音和声音进行精细的解析。这一模型的目的是实现对视觉和听觉信息的全面理解,它将成为感知推理流程的核心基础。

(视频原生编码器模型 Marengo)

2、推理——Pegasus

真正的视频理解还需要推理感知的能力。Pegasus 将从大型语言模型(文本数据)中学到的推理技能与从视频编码器模型(视频数据)中获得的感知理解相结合。通过结合这两种模式,Pegasus 可以进行跨模式推理,从 Marengo 丰富的多模式表示中推断出含义和意图。

(Pegasus 架构)

Marengo 和 Pegasus 之间的协同工作是 Twelve Labs 的 AI 系统中引入感知推理能力的关键。他们的研究不仅仅是开发最先进的模型,而是从根本上重新思考 AI 系统如何学习和推理世界。

目前 Twelve Lab 的客户以程序员和中小企业为主,通过给中小企业用户提供 API 和 PlugIn 等方式去快速扩张。创始人 CEO声称,自5月初推出内测以来,Twelve Labs 的用户群已发展到17,000名开发者。

该公司目前正在与多家公司合作——目前还不能透露;但从官网上公开信息看,目前已和 FiftyOne 达成合作,一起通过 PlugIn 形式给缺乏技术基础的用户提供服务。

当然,这并不是一项新的技术,谷歌开发了一种类似的视频理解多模态模型,称为 MUM,该公司用它来支持谷歌搜索和 YouTube 上的视频推荐。

创维官方旗舰店

除了 MUM 之外,谷歌以及微软和亚马逊还提供 API 级、人工智能驱动的服务,这些服务可以识别视频中的对象、位置和动作,并在帧级提取丰富的元数据。随着这些技术的不断进步,我们可以预见,未来在视频理解领域的竞争将变得异常激烈。

我们正站在一个由 AI 技术引领的新时代的门槛上。在这个时代,视频不再仅仅是动态的视觉记录,而是智能理解与深度学习技术融合的前沿。

视频内容的深度分析和理解,将为我们打开一个全新的视角,让我们以前所未有的方式探索和理解世界。


返回网站首页

本文评论
云集今年业绩「云集2023年第一季度总营收1.787亿元」
【】6月2日消息,精选电商平台云集发布截至2023年第一季度财务业绩。财报显示,2023年第一季度,云集总收入为1.787亿元。总运营费用为8530万元,同比下降45%。截止2023年3月31日,云...
日期:09-25
潜望式长焦稳了!曝小米13 Ultra支持120倍变焦:“安卓望远镜”
今日消息,博主智慧皮卡丘爆料,小米13 Ultra最高支持120倍变焦,这意味着小米13 Ultra将会配备潜望式长焦镜头。联通靓号多少钱一个在上一代小米12S Ultra上,该机就塞进了4800万像...
日期:01-12
“学习”Edge:Chrome展示最新侧边栏功能_edge浏览器侧边栏
自从版本号突破100开始,微软就为Edge加入了新的侧边栏功能,并把这块不大的空间玩出了花”。现在,谷歌在博客介绍了Chrome最新推出的侧边栏功能,在UI设计上,与Edge的侧边栏如出一...
日期:11-04
经济日报:共享单车企业脱困不能光靠涨价(共享单车带动了共享经济)
被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】   近日,美团单车发布公告上调骑行卡价格。相比前...
日期:08-17
占人口总数60.6%,报告显示全球社交网络用户近50亿_全球约有多少人使用社交媒体
7 月 24 日消息,据法新社 7 月 21 日报道,咨询机构 Kepios 在其最新季度的报告中指出,现在全球共有将近 50 亿人(48.8 亿)活跃在社交网络上,同比增长 3.7%,占全球人口的比例已经达...
日期:09-19
有标准可依!信通院发布算力服务时延圈最新成果_算力枢纽
通信世界网消息(CWW)近日,在2023云边协同大会上,中国信通院云计算与大数据研究所副所长栗蔚发布并解读《算力服务时延圈标准体系》,联合产业界启动“算力服务时延圈领航者计划”,...
日期:07-04
安全带有多重要?大爷坐大巴车座位上被弹起6次 全身多处骨折_大巴车上的安全带很松
坐车一定要系安全带,特别是大巴车这样的客运车辆,因为减震行程长,且路途颠簸,如果不系安全带的话,可能就会像下文这位大爷一样,直接被颠到医院。长城哈弗h6dht混合动力试驾日前,网...
日期:08-22
tcl科技收购中环股份价格「TCL科技前三季预计营收超1200亿元 TCL中环预计净利润50亿元」
凤凰网科技讯 9月30日消息,TCL科技(000100.SZ)披露今年前三季度经营情况预告,公司预计实现营业收入1247亿元-1267亿元,净利润19亿元-20亿元。今年前三季度,新能源光伏及半导体业...
日期:10-03
京东云开启中国云市场首次公开比价活动:承诺买贵就赔_京东云价格
快科技5月23日消息,京东云宣布,京东云开启中国云市场的首次公开比价活动,承诺买贵就赔”。如果你是特定云厂商中的用户,但暂未使用京东云。你可以就正在使用的特定云厂商的产品...
日期:05-24
老凤祥回应店员清洗手镯时蹭掉logo:清洗符合标准_老凤祥手镯坏了怎么修理
近日,一段关于“老凤祥被指清洗手镯故意蹭掉logo”的视频在网络上引发热议。视频中,消费者许女士声称她在老凤祥天津中海环宇城店清洗黄金手镯时,品牌logo被故意蹭掉。此事迅速...
日期:02-28
惠普喷墨打印机维修「喷墨打印机维修」
喷墨打印机是现代人常用的一种打印设备,但是,这种设备也需要维修和保养。如果打印机使用不当或者出现一些故障,常常会导致打印机的故障和失效,从而影响工作的进度。本文将详细介...
日期:05-29
智能边缘,开启中国“数”“智”新时代(百年回望,智能时代,数字社会,全域科普)
作者:陈伟 博士     英特尔公司物联网事业部副总裁兼物联网事业部中国区总经理   2020年已悄然过半,在今年这场持久的“科技战疫”中,远程会议、在线教育、智慧医疗...
日期:07-14
​比特币跌穿1.8万美元 15万人爆仓 目前已重回20000美元上方
6月20日 消息:6月19日,比特币价格一度跌破18000美元关口,最低达17732美元,创下了近2020年12月以来新低。数据显示,这也导致当日约15万人爆仓,爆仓总金额达5.67亿美元。除了比特币...
日期:08-01
Facebook为用户提供新信息安全工具_facebook选择安全验证
  10月29日消息,据国外媒体报道,Facebook宣布将提供“信任的好友”(trusted Friends)与“应用程序密码”(application Passwords)两种信息工具,于数周内逐步开放给用户。  ...
日期:07-24
一加12线下预定优惠掀起抢购热潮 一加12Pop-up,快闪活动人气爆棚
来源:中关村在线12 月9日,一加12Pop-up 快闪活动在北京、深圳、上海、广州等十城联动开启,各地加油欢聚快闪现场,抢先体验与购买一加12。作为一加十年超越之作,一加12全球首发拥...
日期:12-10
数字化核心技术_硬件数字化成就下一代轻量级解决方案 提升客户全生命周期价值
  数字化大潮席卷而来,对电气化产业的发展带来重大变革,更分散的配电设施分布,更复杂的运维管理需求,更严苛的安全可靠标准,更专业的行业场景应用……对配电系统而言,从设计到...
日期:07-10
谷歌成立25年,CEO谈发展:搜索是核心,AI是创意促进剂
IT之家 9 月 6 日消息,谷歌成立于 1998 年 9 月 4 日,不过自 2002 年以来,该公司通常选择在 9 月 27 日庆祝其周年纪念。谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)今天分享了...
日期:09-06
2017猎鹰九号运载火箭「第三枚19手猎鹰九号火箭诞生:星链总数突破6000颗」
北京时间3月16日8点21分,SpaceX发射了第146批次的23颗星链V2 Mini卫星,总数突破6000颗大关,达到了6011颗!这次SpaceX 2024年第26次航天发射,执飞的火箭是B1062.19,完成发射后在海...
日期:03-17
夏日炎炎,空调赚钱_炎炎夏日,空调可帮助我们摆脱酷热的煎熬
编辑总结:本文主要讲述了目前空调市场的火爆销售情况。由于持续高温天气的影响,空调产品供不应求,甚至出现了缺货现象。而与其他家电行业相比,空调销售表现出较高的增长,一季度...
日期:07-12
腾讯研发机器人「腾讯机器人实验室一号员工创业,人形机器人又添重磅玩家」
衡宇 发自 凹非寺量子位 | 公众号 QbitAI腾讯RobticsX机器人实验室一号员工创业的仿生机器人项目,刚刚浮出水面。量子位获悉,其创业公司名为星尘智能,主打项目是以轮式为底盘、...
日期:10-06