您的位置:首页 > 互联网

被高估的Pika,被低估的多模态AI

发布时间:2023-12-11 17:34:39  来源:互联网     背景:

声明:本文来自于微信公众号 甲子光年(ID:jazzyear),作者:苏霍伊,授权转载发布。

多模态 AI 正处于爆发前夜。

从 GPT-4V 的“惊艳亮相”,到 AI 视频生成工具 Pika1.0的“火爆出圈”,再到谷歌 Gemini 的“全面领先”,多模态 AI 都是其中的关键词。

尽管 Pika1.0的宣传视频被一些用户认为是“炒作”,亦或谷歌承认 Gemini 的演示视频“经过剪辑”,但不能否认,它们丰富了人们对多模态 AI 的想象力。

“之前很多公司都在卷文本大模型,GPT-4V 的出现代表多模态大模型可落地,毫无疑问明年大家都会卷多模态AI,原因很简单,因为 OpenAI 说明这条路是能够走得通。”微博新技术研发负责人、AI 首席科学家张俊林说。

在行业主语为“落地”的当下,多模态 AI 正走向场景化、实用化、商业化。例如,在医疗领域可以通过结合图像、录音和病历文本,提供更准确的诊断和治疗方案;在交通领域,结合图像和传感器数据,带来更智能、更安全的自动驾驶体验;在教育领域,将文本、声音、视频相结合,呈现更具互动性的教育内容。

但是业界一直在提多模态的概念,但是远没有近期几个现象级产品的演示那么直观:多模态不仅可以为 AI 应用带来更多可能性,还是实现通用人工智能的重要路径。

1.Pika:实力还是炒作?

最近的 AI 圈的饭局上,大家聊到多模态 AI ,往往都会提到一家硅谷的初创公司—— Pika Labs。

公司初创团队只有4个人,创始人兼 CEO 郭文景有“女学霸”“斯坦福退学创业”“上市公司创始人女儿”等个人标签; Pika 三轮融资已筹款5500万美元,估值在2-3亿美元之间;投资者包括 Quora 创始人兼CEO Adam D’angelo 、 OpenAI 科学家 Andrej Karpathy、Hugging Face 联合创始人兼CEO Clem Delangue、YC 合伙人 Daniel Gross 等人。

这些都加起来,可以说 Pika 的爆火是在发展过程中,讲了一个技术、商业、资本、用户都感兴趣的故事,而且赶上了一个好的时机。

“今年6月份之后,AI生成图片的投资变得比较保守,很多投资人会更关注 AI 生成视频。”从事 AI 生成视频研究的浦林(化名)告诉甲子光年,自有 AIGC 概念开始,无论是 AI 生成图片还是 AI 生成视频都很热,但是基于技术的发展程度,业内预计今年年底,AI 生成视频会有一个不错的 demo 出现。“这个 demo 足够吸引很多的流量,甚至出圈,有这样的信心,那投资的逻辑就能走下去了。可以说, Pika 占到一个很好的时间点。”

Pika1.0推出的当天,科技圈大佬们纷纷为其站台。

自然语言处理领域著名学者 Christopher Manning 称赞 Pika 的两位创始人郭文景和孟晨琳推动了高质量视频的快速发展;OpenAI 科学家 Andrej Karpathy 在社交平台上转发了 Pika1.0的演示内容并表示:“每个人都能成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样。”

Pika1.0火爆出圈,离不开一段官方宣传视频。视频中,用户只要输入“马斯克穿着太空服,3D 动画”,就生成了下面这段视频。

Pika1.0官方宣传视频中其它演示也可以用“惊艳”来形容,视频发布后,已经有媒体迫不及待地称“AI 生成视频的 ChatGPT 时刻即将达来”。

但是,Pika 真的如宣传视频上所展现的那么“惊艳”吗?

今年7月,Pika Labs 就在 Discord 推出服务器,短短几个月时间内收获了50万用户。不过,想使用最新的 Pika1.0,在官网可能还需一段时间的排队。但在 Discord 上,许多用户已经晒出了测试视频。

目前,Pika1.0还只能生成3秒展示视频。在社群中,用户 A 输入提示词: A dragon fly in sky(一条龙在天上飞)。这个表达是比较清晰明确的,但输出的视频结果却和龙毫不相关,更像一个克苏鲁生物。

而用户 B 输入了更为细致的提示词:female priest - dnd character - in battle pose - character select default animation - camera zoom in - motion1(女性牧师 - 龙与地下城角色 - 战斗姿势 - 角色选择默认动画 - 摄像头放大 - 动作1)。

荣耀magic2 cpu

这次 Pika1.0输出的视频结果大体相符要求,但细节依然有明显缺陷,角色的手部构图“惨不忍睹”。不过,“AI 不会数数”是存在已久的问题,并非 Pika 独有的“瑕疵”。

但也不乏效果惊艳的案例,比如用户 C 提供了图片并输入提示词:stranded medieval ship, violent sea, rain, clifs, slow motion, -motion2-gs22-camera pan right Image:1Attachment(搁浅的中世纪船只、汹涌的海浪、雨水、悬崖、慢动作、动作2、gs22-摄像机向右平移、图像:附件1),生成的视频效果较为精美。

AI 教育者 Chase Lean 在试用了 Pika1.0后难掩激动之情,他在社交媒体上直言这是他“使用过的最好的 AI 视频生成器”。

浦林一直在关注Pika及相关产品,从demo和实际使用感受来说,Pika1.0已经属于“行业领先水平”。

对于AI生成视频工具,最为简单的评判标准就是“生成的内容是否真实”。在技术上,Pika 在单帧画面拟真程度、美学质量以及视频的动作感上表现出色,在文生视频、图生视频的能力和运镜上也有不错的能力展示。除算法外,社区活跃度也被认为是初创公司核心竞争力的一部分,包括维护 Discord 社区等。目前,Pika 的社区活跃度位列业内前茅。

在图像和视频生成方面,业内主流技术路线为Diffusion Model(扩散模型)。不过Pika联合创始人孟晨琳在接受采访时透露:“Pika 也不能完全算 Diffusion Model,我们开发了很多新东西,是一种新的模型。”

不过在浦林看来,Pika 与其它AI生成视频工具(如 Runway )“在技术上没有本质差别”,一些自媒体对 Pika 和 Runway 的对比分析“纯粹是经验归纳”。

这也就会带来一个问题,长期关注AI领域的投资人辰逸(化名)向甲子光年表达了他的担忧:“Diffusion Model 不是智能的。它主要根据过去图像的经验拟合出符合人类审美的图像,并不具备理解语言和智能思考的能力。而当我们在使用 ChatGPT 时,会有在和真人对话的感觉,虽然这个人的智商可能忽高忽低。”

辰逸认为,尽管Pika爆火离不开产品实力,但“炒作”成分更多些。

“就像炒土豆丝,每个人使用的厨具、调味料等可能大不相同,但原材料归根结底都是土豆。”辰逸比喻道,“理解语言的根本问题并没有解决,图像学还缺少一个飞跃的时刻。”

而在回答“AI 视频生成什么时候会迎来 GPT 时刻”的问题时,Pika团队还是比较清醒的,孟晨琳认为,目前视频生成处于类似 GPT-2的时期,“很可能在未来一年内有一个显著的提升”。

Pika 的能力在某种程度上被高估了,但 Pika 带来的破圈效果是从业者乐于见到的。浦林五年前就进入了 AI 生成视频领域,最近这半年是他觉得这个领域“最火”的一段时间,尽管他也觉得 Pika “在宣传上比较用力”,但是从专业角度分析,他相信4个人的团队做出 Pika 是“没问题的”。

2.争夺AI视频生成高地

从技术视角来看,有业内学者认为,相对于文本、代码和图片生成,文生视频(Text-to-Video)是 AIGC 的“高地”,因为这个领域存在着算力需求大、高质量数据集短缺、可控性较差等挑战。

浦林认为,AI视频生成领域还有一个难题,即生产和研究之间存在的差距。

研究者往往难在第一时间将研究成果应用于实际,因为不同的视频制作者,比如电影、动画、短剧的制作者,有着不同的制作流程,而研究中可能只涉及一种特定的生产方式,比如文本到视频。

浦林近期也在产业中调研,通过和电影制片方的交流不断优化自己的研究方向。“解决难题的关键在于开发的工具能否真正满足视频制作者的需求,并与其实际工作流程相契合。”浦林告诉甲子光年,“当你的研究越靠近生产的时候,它会产生更大的经济价值。”

商汤科技数字文娱事业部副总裁李星冶表示,多模态 AI 中门槛比较高的就是文生视频,“现在一些广告视频的制作,只要录入文本就能生成视频,当然目前效率还没有那么高,视频像素可以达到4K 或者8K,但是动画效果还比较简单。”

AI 视频生成领域,赛道也愈发拥挤起来。尽管 Pika 备受瞩目,但接下来它仍需面对不断增多的竞争。

Runway 推出了动态笔刷新功能 Motion Brush,用户只需在图片上轻轻一划,即可将其转化为动态视频。另外,Runway 还与电影制作公司展开了紧密合作。

广汽菲克股份比例

Stability AI公司发布了其 Stable Video Diffusion 视频模型,用户可根据需要调整各种参数,如迭代步数、重绘幅度等,以协助创作者精确掌控画面生成过程,包括风格、姿势和线条等特征。

除此之外,现象级文生图工具 Midjourney 也正在着手开发视频功能;Meta 也推出了两项基于人工智能的视频编辑新功能。

而在开源方面,AnimateDiff、MAKEAVIDEO、MagicAnimate等也在布局 AI 视频生成赛道。

3.多模态AI的想象

对于投资人来说,多模态AI也是今年下半年的关注焦点。

长期关注AI领域投资的心资本合伙人吴炳见认为,大语言模型只是AI版图的一部分,基础模型的第一性原理是“predict next token(预测下一个词)”,这个原理有可能带来其它模型。

“如果未来 Transformer或者另外一套算法能够准确预测下一帧,那么视频模型就出来,就有机会解锁下一个抖音级别的内容平台;如果能准确预测下一串动作序列,那么具身智能模型就出来了,就解锁通用机器人了;如果能准确预测下一个蛋白质序列,那么蛋白质模型就出来了,新药研发又可以迈进一大步了;如果能准确预测下一个像素,那么3D模型就出来了,就解锁元宇宙的构建了。”吴炳见说。

在吴炳见看来,待版图完全解锁后,就会有多个基础模型,而很多方向的边际成本会趋近于零,不断解锁新的应用层的机会。

极米h3新品

国内的 AI 厂商也在加强对多模态 AI 的投入。昆仑万维在海外进行了 AI 多模态场景探索,其中包括了AI游戏(Club Koala),之前已经在德国科隆游戏展上亮相,预计将于明年上半年进行测试。“这里不仅包括了常见的对话,通过大模型赋能的 AI NPC,也包括3D 生成等 AIGC 技术,尤其是在 AI3D 生成方面,我们做得比较领先。”昆仑万维董事长兼 CEO 方汉介绍。

甲子光年还关注到一些技术大佬入局。例如,清华大学计算机系 Bosch AI 教授、清华大学人工智能研究院副院长朱军创立的生数科技,专注于多模态层面,致力于打造可控的多模态通用大模型;前字节跳动前视觉技术负责人、AI Lab 总监王长虎创立了爱诗科技,聚焦于生成式 AI 的视觉多模态算法平台。

尽管多模态大模型使AI能够根据图像内容推理复杂问题,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。因此,香港中文大学贾佳亚团队提出LISA(Large Language Instructed Segmentation Assistant)多模态大模型。LISA通过引入一个<SEG>标记来扩展初始大型模型的词汇表,并采用Embedding-as-Mask(嵌入作为掩码)的范式赋予解释多模态大型模型分割功能,最终展现出强大的零样本泛化能力。

LISA技术方案概述,图片来源:受访者提供

在垂直应用场景上,云知声通过医疗知识增强的山海大模型北京友谊医院打造的门诊病历生成系统,可以在不改变医生问诊方式情况下,通过医生与患者的对话录音,抽取关键问诊信息并生成病历,将医生从病历撰写工作中解放出来,把更多时间留给患者。

谷歌近期重磅推出的 Gemini 也显示了多模态模型在各应用场景中的潜在价值。如何真正打通物理世界和数字世界之间的屏障,关键在于有效处理多模态 AI 能力。用底层的感知能力衍生出操作,从而实现与物理世界最自然的交互方式。

在多模态 AI 爆发之前,不要温和地走进这个良夜。

*应受访对象要求,文中浦林、辰逸为化名

*参考资料:

  • 专访Pika Labs创始人:探索视频生成的GPT时刻,海外独角兽

  • LISA:通过大语言模型进行推理分割,香港中文大学贾佳亚团队


返回网站首页

本文评论
私家车十年内两年一检「今日起!私家车10年只检两次 老车正式告别“一年两检”」
  10月1日起,国内机动车检车新政策正式开始实施。  新措施规定,调整优化检验周期,进一步优化调整非营运小微型载客汽车(9座及9座以下,面包车除外)、摩托车检验周期。  对非...
日期:10-04
消息称iPhone将禁止摇一摇跳转广告_iphone无法摇一摇
DoNews11月14日消息,据时代财经报道,互联网大厂内部人士称,11 月以来,苹果公司已通知国内多家头部 App 要求它们移除陀螺仪权限,摇一摇跳转广告被禁止。11 月以来,苹果公司已通知...
日期:11-14
谷歌 Pixel Watch 2 获推更新,充电完成后会在手机上推送通知_谷歌pixel3充电
IT之家 11 月 30 日消息,谷歌日前为 Pixel Watch 2 及配套应用推出更新,其中应用版本为“2.1.0.576785526”,在安装相关更新后,当 Pixel Watch 2 充满电时,就会在手机屏幕中显示...
日期:11-30
如何在暑假实现增长?你需要爱奇艺奇麟的这份掘金指南
  在流量大盘逐渐步入存量时代的背景下,很多企业经营者发现实现增长已经成为不那么容易的事情。   根据QuestMobile的数据显示,从2019年12月到2020年12月,中国移动互联网...
日期:02-22
5G速度冲上万兆!iPhone 14 Pro/Max基带确认:高通骁龙X65「苹果promax11支持5g吗」
iPhone 14系列正式开售,今天你拿到首批新机了吗?在消费者尝鲜iPhone 14 Pro系列“灵动岛”的同时,不少博主也对新机开启了拆解。魅族ceo黄章今日@微机分WekiHome 发布iPhone 14...
日期:09-24
只有手心大小!Unihertz发布Jelly star小屏手机_小屏幕手机推荐知乎
据报道,小屏手机品牌Unihertz即将推出一款名为Jelly Star的小巧手机,这款手机搭载了联发科Helio G99移动平台,具有4800万像素的单摄后置和800万像素的前置摄像头。此外,这款手机...
日期:06-11
京东花60亿元在北京建4000套员工房是真的吗「京东花60亿元在北京建4000套员工房」
5月4日消息,“京东青年城”今日正式启动,该项目用地正是京东此前花30亿元买下的地块。未来将建起近4000套家电、家具齐全,可拎包入住的员工公寓,包含幼儿园、电影院、篮球馆、游...
日期:05-04
什么时候开始,网购还要被道德绑架了?_网购是什么时候被发明的
声明:本文来自微信公众号“人人都是产品经理”(ID:woshipm),作者:墨饕,授权转载发布。网购平台越来越规范,骗子店铺少了,大店也害怕平台的威慑不敢随意欺客……作为消费者,你觉得现...
日期:03-13
vivo X90s跑分曝光:165万分 快赶上骁龙8 Gen 3
vivo X90s旗舰即将发布。安兔兔已经在后台检测到了这款新机,其搭载了联发科天玑9200 芯片,提供了12GB LPDDR5X 高频内存 512GB,而目前跑分被曝光,跑分高达1657772分。其中CPU部...
日期:06-19
欣旺达:目前公司在加大推进家庭储能等业务「欣旺达储能技术」
IT之家 8 月 28 日消息,欣旺达 8 月 26 日在机构电话会议表示,2022 年上半年,公司电动汽车类电池出货量合计 3.95Gwh,实现收入 42.00 亿元,较去年同比增长 631.92%。据介绍,2022...
日期:09-06
社交网络扎克伯格评价「扎克伯格后悔错过了一场巨大社交转变 中国有款应用很强」
凤凰网科技讯 北京时间10月14日消息,社交巨头脸书母公司Meta CEO马克扎克伯格(Mark Zuckerberg)表示,他未能预见到一股社交网络新趋势,这一趋势造就了竞争对手、抖音海外版TikT...
日期:10-17
价值成效,业务闭环,中兴通讯高阶自智网络演进再提速_中兴智能科技
通信世界网消息(CWW)近日,中国电信“2023数字科技生态大会”在广州举行,中兴通讯副总裁、数据智能及服务产品线总经理王强,应邀出席“科技创新合作论坛”,以《价值成效,业务闭环,加...
日期:11-14
苹果平板ipad2什么时候上市的_业内预计iPad2按时发布 苹果股价随即上涨
  据国外媒体报道,苹果公司今天凌晨通过邮件发出关于当地时间3月2日公司旧金山活动的邀请函,邀请函中出现了大量iPad 2图片,业内人士纷纷认定苹果公司届时将发布iPad 2。受...
日期:07-26
轻舒时尚,无线灵动 ▎达尔优D1蓝牙耳机正式发布(达尔优D1蓝牙耳机)
  小巧机身,轻舒的佩戴感   简约设计,方显时尚触觉   灵动连接,乐享无线快感   北京时间2021年2月5日,达尔优(DAREU)发布D1蓝牙耳机。采用高品质杰理蓝牙5.1芯片,单双...
日期:07-16
配置曝光!努比亚红魔9系列确认搭第3代骁龙8
根据最新消息,努比亚红魔9和红魔9 Pro两款手机已经通过了Wi-Fi联盟的认证,并确认搭载安卓13系统并支持2.4GHz和5GHz频段的无线网络。目前尚不清楚这两款手机的具体配置信息。...
日期:10-12
钱多也发愁!美夫妇发现百万枚铜币银行拒兑换「铜币能换多少钱?」
6月10日消息,天降横财,却成为了甜蜜的负担。据海外媒体报道,近日,美国加利福尼亚的一对夫妇在打扫卫生时,意外的在自家地下室里发现了100万枚铜币,其面额为1美分,换算下就是10000美...
日期:06-11
三星骁龙手机「全球第一款鸡血版骁龙8 Gen2折叠屏!三星Galaxy Z Fold5将至」
三星即将推出旗下新一代折叠屏手机Galaxy Z Fold5,这一消息已经在Geekbench跑分网站上曝光。苹果有type-c接口吗根据曝光的信息,Galaxy Z Fold5的国际版型号为SM-F946B,内置12G...
日期:07-01
印度澄清强制要求智能手机支持NavIC一事:未确定时间表
据路透社报道,印度政府正在推动手机制造商从2023年1月1日起在印度销售的智能手机上支持其本土研发的导航系统NavIC。NavIC(印度星座导航系统)是印度空间机构ISRO为军事和商业目...
日期:09-28
4060 AD107核心曝光_小得不可思议 2399元起要不要-RTX
5月22日消息,RTX 4060已经定于7月份登场,将采用AD107 GPU核心,这也将时Ada RTX 40家族最小号的成员。RTX 4060的核心编号为AD107-400,仍然是台积电4N制作工艺,面积仅为146平方毫...
日期:09-27
消费者揭假货网店退款潜规则 想退款给好评(退货商家说是假货)
  “为什么明明是假货,还要评价说 ‘正品,很好’?”日前,市民肖小姐网购一件衬衫后发现是假货,卖家同意退款之余却要求肖小姐依然给出好评。不少 网友表示 “拿钱不说坏话”...
日期:07-24