AI+视频 | Nvidia 投资的AI公司，通过视频理解开创感知推理，获顶级风投5000万美元融资

声明：本文来自于微信公众号深思SenseAI（ID：gh_a54fc6d3826c），作者：SenseAI，授权转载发布。

在每天刷视频的时代，我们如何快速创作360度全方位理解的视频内容?

Twelve Labs，一家旧金山初创公司，是由一支年轻的工程师团队Jae Lee 和 Aiden L 创立，该产品可在视频中提取特定视频瞬间，包括视觉、音频、文本和上下文信息，以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施，其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

Sense 思考

我们尝试基于文章内容，提出更多发散性的推演和深思，欢迎交流。

-场景式视频内容理解是主流:增加视频数据和高质量视频内容是未来AIGC在媒体和娱乐领域规模化采用的基础，场景式理解视频内容（Context Understanding of Video）将会成为技术主流。视频内容处理可以细化到每一个瞬间，大大提高了视频内容在不同社交平台的传播效率。

- AI原生产品的丝滑体验感:自动化视频数据标注和数据生成可以极大的降低成本，把劳动力从重复性的工作中解放出来。Twelve Labs 把标注，搜索和生成端到端的设计起来，创造了极优的产品体验。

本篇正文共3653字，仔细阅读约6分钟

AI Native 产品分析

Twelve Labs

1. 产品:Twelve Labs

2. 产品上线时间:2023年

3.创始人:

Jae Lee

联合创始人兼首席执行官，毕业于UC伯克利大学计算机专业，曾在大韩民国国防部担任数据科学家，也是三星和亚马逊的工程师实习生。

Aiden L

联合创始人兼首席技术官，布朗大学的drop-out创业者，他的专业是计算机科学和应用数学，研究专注于:视频理解，视频语言模型，多模态系统，曾在大韩民国国防部当研究员。

4. 产品简介:

Twelve Labs是一个人工智能平台，帮助开发者创建视频搜索和生成能力。该产品可在视频中提取特定视频瞬间，包括视觉、音频、文本和上下文信息，以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施，其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

5. 融资情况:

这家总部位于旧金山的公司已于2024年6月一共筹集了 $77M 万美元的顶级风投融资，此外早前还获得了其他机构投资和天使投资人的注资，其中包括:

-2021年1月从 Techstars 获得天使投资120，000美元

-2022年3月，来自 Index Ventures 的种子融资500万美元

-2022年12月从 Radical Ventures 获得1200万美元

-2023年10月，来自英特尔公司、Samsung Next 和 NVentures 的5000万美元A 轮融资

01.

创立愿景:视频内容的场景式理解

目前互联网上主流的视频供应商Youtube， Tiktok，Reels的全球受众覆盖率达到92%，而且视频占所有互联网流量的82%，尽管如此，80%的视频内容还停留在使用关键词和数据标签这种简单的方式去归类和分析，导致视频理解受到局限性。

YouTube的下载量在2020年达到1.5亿次

随着 AIGC 技术的发展，通过语义记忆，OCR， NPL， CLIP 等技术可以360度场景式的理解复杂视频内容，降低了生成高质量视频内容的门槛，使视频媒体，电商，广告营销服务商可更低成本获取高质量的视频内容。

Twelve Labs 的创始人 Jae Lee 发现了这个问题，并且表示旧有的视频系统不能有效解决:“为检测特定问题而构建的狭义人工智能产品在受控环境下的理想场景中表现出很高的准确性，但不能很好地扩展到混乱的现实世界数据，它们更像是一个基于规则的系统，因此在出现差异时缺乏概括的能力。"

"我们还认为这是由于缺乏上下文理解而造成的限制。对背景的理解赋予了人类独特的能力，可以对现实世界中看似不同的情况进行概括，而这正是 Twelve Labs 的独特之处。”

Twelve Labs 平台功能的演示

对于上述的技术问题，可以简单归纳以下几点:

- 传统视频的人工标注方式简单而且不完善，导致AI对视频的理解只在frame-level，对声音，场景，图像都缺乏理解，在视频中搜索特定时刻和场景远远超出了技术的能力，特别是如果这些时刻和场景没有以明显的方式标记的话。

- 以前使用元数据搜索方法，即搜索视频都是通过视频已有的描述性文字，导致视频内容没有场景式的理解。

- 现有的大模型，包括ChatGPT， Stable Diffusion，Mid-Journey等都不是以专注于视频模型作为基础，所以缺乏大规模生成客制化的高视频质量能力。

02.

大模型之争:打造视频优先的大模型

为了实现大规模莫场景式视频理解搜索和生成，Twelve Labs 建立了两个视频语言大模型，奠定了极大的技术优势:

Pegasus-1（800亿参数）是 Twelve Labs 的视频语言模型（Video-to-Text），通过“视频优先”策略确保卓越的视频理解，具有高效的长视频处理、多模态理解、原生视频嵌入和深度视频语言对齐的优点。凭借800亿参数并在3亿视频-文本对的大型数据集上进行训练，它显著超越了之前的模型。在 MSR-VTT 数据集上显示出61% 的提升，在视频描述数据集上提升了47%。与 Whisper-ChatGPT 等 ASR+LLM 模型相比，Pegasus-1的性能提升高达188%，在视频转文本的准确性和效率上设立了新标准。

（Pegasus-1Image Credits: Twelve Labs）

Marengo-2.6是一款最先进的多模态基础模型，擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务。它在 MSR-VTT 数据集上比 Google 的 VideoPrism-G 高出10%，在 ActivityNet 数据集上高出3%。具备先进的零样本检索能力，超越现有模型在理解和处理视觉内容上的表现。其多功能性还包括跨模态任务，如音频到视频和图像到视频。该模型通过重新排序模型实现了增强的时间定位，确保更精确的搜索结果，展示了在多种模态下令人印象深刻的感知推理能力。

（Pegasus-1Image Credits: Twelve Labs）

03.

产品独特优势:AIGC技术赋能

Tewelve Labs 通过三个步骤自动搜索，分类和生成来简化用户的工作流程，但其中包括了六种主要的产品功能，只需通过对接API就可以使用:

1、视频搜索

此模型分析视频的语义内容（Sematic search），包括视频，音频，Logo等数字材料，文字等全面分析场景关联性，以实现高效且准确的特定视频片段检索，帮助用户在无需观看完整内容的情况下精准搜索到大量来自Youtube， Tiktok，Reels等视频库的材料。

（示例:寻找在跑步机上行走，背景是Air Jordans的视频）

2、视频分类

该模型通过分析视频中的语义特征、对象和动作，将视频自动分类为预定义的类别，如体育、新闻、娱乐或纪录片。这增强了内容发现能力，并提供个性化推荐。同时，此功能基于内容相似性对视频进行分组，而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息，便于测量相似性并将相似视频进行归类。

（示例:按TikTok主题对短视频进行分类）

3、视频-语言建模

该功能集成文本描述和视频内容，使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。还可以在生成的视频上自由修改和插入视频内容，有提供用户利用细分赛道数据的微调模型的功能，例如客户会需要微调“茄瓜沙律”为“鸡胸肉沙律”。

（用于微调模型以更好地处理与沙拉相关的内容的 API 模型）

4、视频描述和摘要

该模型生成自然语言描述和视频的简明摘要，捕捉关键信息和重要时刻。这改善了理解力和参与度，尤其适用于有视力障碍或时间限制的用户。还可以通过自由定义的prompt来生成不同侧重点的长文字型的视频总结，故事或者自媒体文章等。

（示例:输入Prompt，为此视频创建镜头列表）

5、视频问答（QA）

该模型通过视觉、语言和可能的音频信息之间的语义推理，回答与视频内容相关的问题。此功能增强了可访问性，并提供了用户互动的元素。

04.

通过视频理解开创感知推理

视频作为多模态现实的核心，其丰富的视觉和听觉信息是传统语言模型（LLM）难以完全解析的。在多模态理解领域，不能简单地将现有LLM作为附加功能来处理。相反，从设计之初，多模态基础模型就应该被构建为包含这种跨模态能力。

Twelve Labs 正积极引领这一变革，通过视频理解开创感知推理，推出下一代多模态模型来模拟世界。

想象一下时间在某个特定时刻定格，就像一张快照。到目前为止，我们的大脑一直在处理感官输入，帮助我们理解发生了什么，预测接下来会发生什么，并据此制定计划。这种能力被称为感知推理，是人类智力的基础。

许多发展研究表明，人类在生命的最初几个月内就开始发展感知能力（从主要周围环境中获取知识的能力），然后才发展出任何语言能力(《婴儿期的物体感知、物体导向动作和物理知识》，1995年)。然而，现代人工智能绕过了这一个关键的学习步骤:通过视频创建一个强大的世界表征——这与人类感官数据非常相似。

小米首个系统级地震监测功能发布

（人类认知发展的四个阶段）

基于此发现，Twelve Labs 致力于通过视频理解来推动感知推理的革命。

他们的目标是重新定义机器如何感知世界并与之互动。研究专注于训练先进的基础模型，以弥补这一差距，从视频数据中学习丰富的多模态表示，并利用这些知识来完成复杂的高级推理任务，这些任务通常需要语言能力才能完成。

Twelve Labs 专注于研究两种模型，开发出不仅能感知和理解视觉世界，还能以类似于人类认知的方式对其进行推理的系统。

小米汽车技术

1、感知—— Marengo

视频原生编码器模型 Marengo 是感知的体现。人类的视觉和听觉器官天生就对捕捉世界的细节有着敏锐的洞察力。为了达到这一水平，Twelve Labs 致力于训练 Marengo，使其能够深入分析视频帧的视觉内容以及它们随时间变化的关系，同时对伴随的语音和声音进行精细的解析。这一模型的目的是实现对视觉和听觉信息的全面理解，它将成为感知推理流程的核心基础。

（视频原生编码器模型 Marengo）

2、推理——Pegasus

真正的视频理解还需要推理感知的能力。Pegasus 将从大型语言模型（文本数据）中学到的推理技能与从视频编码器模型(视频数据)中获得的感知理解相结合。通过结合这两种模式，Pegasus 可以进行跨模式推理，从 Marengo 丰富的多模式表示中推断出含义和意图。

（Pegasus 架构）

Marengo 和 Pegasus 之间的协同工作是 Twelve Labs 的 AI 系统中引入感知推理能力的关键。他们的研究不仅仅是开发最先进的模型，而是从根本上重新思考 AI 系统如何学习和推理世界。