您的位置:首页 > 互联网

在 GitHub 上“搞事”,Meta 开源 ImageBind 新模型,超越 GPT-4,对齐文本、音频等 6 种模态!

发布时间:2023-05-10 23:21:58  来源:互联网     背景:

声明:本文来自于微信公众号CSDN(ID:CSDNnews)),整理| 屠敏,授权转载发布。

据外媒报道,上周四,Google、微软、OpenAI 几家公司的 CEO 受邀去白宫,共论关于人工智能发展的一些重要问题。然而,让人有些想不通的是,深耕 AI 多年的 Meta 公司(前身为 Facebook)却没有在受邀之列。

没多久,更让 Meta CEO 扎克伯格扎心的是,一位官员对此解释称,本次会议“侧重的是目前在 AI 领域,尤其是面向消费者的产品方面,处于领先地位的公司。”

显然对于这样的解释,并不能让人信服,毕竟这一次受邀名单中还有一家由 OpenAI 的前成员创立的美国人工智能初创和公益公司 Anthropic。

似乎是为了出一口“气”,也为证明自家的实力,相比 OpenAI、Google 推出闭源的 GPT-4、Bard 模型,Meta 在开源大模型的路上一骑绝尘,继两个月前开源 LLaMA大模型之后,再次于5月9日开源了一个新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天时间,收获了1.6k 个 Star。

这个模型与众不同之处便是可以将多个数据流连接在一起,包括文本、图像/视频和音频、视觉、IMU、热数据和深度(Depth)数据。这也是业界第一个能够整合六种类型数据的模型。

图片

ImageBind 用图像对齐六模态,旨在实现感官大一统

简单来看,相比 Midjourney、Stable Diffusion 和 DALL-E2这样将文字与图像配对的图像生成器,ImageBind 更像是广撒网,可以连接文本、图像/视频、音频、3D 测量(深度)、温度数据(热)和运动数据(来自 IMU),而且它无需先针对每一种可能性进行训练,直接预测数据之间的联系,类似于人类感知或者想象环境的方式。

图片

对此,Meta 在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能使机器更好地一起分析许多不同形式的信息,从而有助于推进人工智能。”

打个比喻,人类可以听或者阅读一些关于描述某个动物的文本,然后在现实生活中看到就能认识。

你站在繁忙的城市街道等有刺激性环境中,你的大脑会(很大程度上应该是无意识地)吸收景象、声音和其他感官体验,以此推断有关来往的汽车、行人、高楼、天气等信息。

在很多场景中,一个单一的联合嵌入空间包含许多不同种类的数据,如声音、图像、视频等等。

如今,基于 ImageBind 这样的模型可以让机器学习更接近人类学习。

在官方博客中,Meta 分享 ImageBind 是通过图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,即图像与各种模式共存,可以作为连接这些模式的桥梁,例如利用网络数据将文本与图像连接起来,或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。

image.png

ImageBind 整体概览

从大规模网络数据中学到的视觉表征可以作为目标来学习不同模态的特征。这使得 ImageBind 能够对齐与图像共同出现的任何模式,自然地将这些模式相互对齐。与图像有强烈关联的模态,如热学和深度,更容易对齐。非视觉的模态,如音频和 IMU,具有较弱的关联性。

ImageBind 显示,图像配对数据足以将这六种模式绑定在一起。该模型可以更全面地解释内容,使不同的模式可以相互 "对话",并在不观察它们的情况下找到联系。

例如,ImageBind 可以在没有看到它们在一起的情况下将音频和文本联系起来。这使得其他模型能够 "理解 "新的模式,而不需要任何资源密集型的训练。

图片

不过,该模型目前只是一个研究项目,没有直接的消费者和实际应用,但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式,也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式,趟出一条属于开源大模型的路。

02

ImageBind 强大的背后

与此同时,作为一种多模态的模型,ImageBind 还加入了 Meta近期开源的一系列 AI 工具,包括DINOv2计算机视觉模型,这是一种不需要微调训练高性能计算机视觉模型的新方法;以及 Segment Anything(SAM),这是一种通用分割模型,可以根据任何用户的提示,对任何图像中的任何物体进行分割。

ImageBind 是对这些模型的补充,因为它专注于多模态表示学习。它试图为多种模式学习提供一个统一的特征空间,包括但不限于图像和视频。在未来, ImageBind 可以利用 DINOv2的强大视觉特征来进一步提高其能力。

03

ImageBind 的性能

针对 ImageBind 性能,Meta 研究科学家还发布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)论文,分享了技术细则。

图片

通过分析表明,ImageBind 模型的性能实际上可以通过使用很少的训练实例来提高。这个模型有新的出现的能力,或者说是扩展行为--也就是说,在较小的模型中不存在的能力,但在较大的版本中出现。这可能包括识别哪种音频适合某张图片或从照片中预测场景的深度。

而 ImageBind 的缩放行为随着图像编码器的强度而提高。

换句话说,ImageBind 对准各种模式的能力随着视觉模型的强度和大小而增加。这表明,较大的视觉模型有利于非视觉任务,如音频分类,而且训练这种模型的好处超出了计算机视觉任务。

在实验中,研究人员使用了 ImageBind 的音频和深度编码器,并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。

结果显示,ImageBind 可以用于少量样本的音频和深度分类任务,并且优于之前定制的方法。

图片

最终,Meta 认为ImageBind 这项技术最终会超越目前的六种“感官”,其在博客上说道,“虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。”

04

ImageBind 可以用来干什么?

伊利蒙牛竞争分析

如果说 ChatGPT 可以充当搜索引擎、问答社区,Midjourney 可以被用来当画画工具,那么用 ImageBind 可以做什么?

根据官方发布的 Demo 显示,它可以直接用图片生成音频:

图片

小米civi什么颜色好看

也可以音频生成图片:

图片

亦或者直接给一个文本,就可以检索相关的图片或者音频内容:

图片

当然,基于 ImageBind 也可以给出一个音频+一张图,如“狗叫声”+海景图:

图片

可以直接得到一张“狗在看海”的图:

图片

也可以给出音频,生成相应的图像:

图片

正如上文所述, ImageBind 给出了未来生成式 AI 系统可以以多模态呈现的方式,同时,结合 Meta 内部的虚拟现实、混合现实和元宇宙等技术和场景结合。

可以想象一下未来的头显设备,它不仅可以生成音频和视频输入,也可以生成物理舞台上的环境和运动,即可以动态构建3D 场景(包括声音、运动等)。

工作猝死新闻

亦或者,虚拟游戏开发人员也许最终可以使用它来减少设计过程中的大量跑腿工作。

同样,内容创作者可以仅基于文本、图像或音频输入制作具有逼真的音频和动作的沉浸式视频。

也很容易想象,用 ImageBind 这样的工具会在无障碍空间打开新的大门,譬如,生成实时多媒体描述来帮助有视力或听力障碍的人更好地感知他们的直接环境。

“在典型的人工智能系统中,每个模态都有特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量),”Meta 说。“ImageBind 表明可以跨多种模态创建联合嵌入空间,而无需使用每种不同模态组合对数据进行训练。这很重要,因为研究人员无法创建包含例如来自繁忙城市街道的音频数据和热数据,或深度数据和海边文本描述的样本的数据集。”

当前,外界可以通过大约30行 Python 代码就能使用这个多模式嵌入 API:

图片

05

开源大模型是好事还是坏事?

ImageBind 一经官宣,也吸引了很多 AI 专家的关注。如卷积网络之父 Yann LeCun 也在第一时间分享了关于 ImageBind 的资料:

图片

NVIDIA AI 科学家 Jim Fan 在 Twitter 上表示:

自从 LLaMA 以来,Meta 就在开源领域大放异彩。

ImageBind:Meta 最新的多模态嵌入,不仅涵盖了常规数据类型(文本、图像、音频),还包括深度、热量(红外)和 IMU 信号!

OpenAI Embedding 是 AI 驱动搜索和长期记忆的基础。ImageBind 是 Meta 的 Embedding API,用于丰富的多媒体搜索、虚拟现实甚至机器人技术。元宇宙将建立在向量的基础上。

通过对齐6种模态,你可以实现一些仅靠文本的 GPT-4无法实现的花式功能:

  • 跨模态检索:将其视为多媒体谷歌搜索

  • 嵌入空间算术:无缝地组合不同的数据格式。

  • 生成:通过扩散将任何模态映射到其他任何模态。

当然,这种通用的多模态嵌入在性能上优于领域特定的特征。

ImageBind:将它们全部绑定到一个嵌入空间。

图片

也有网友评价道,「这项创新为增强搜索、沉浸式 VR 体验和高级机器人技术铺平了道路。对于 AI 爱好者和专业人士来说,激动人心的时刻即将到来!」。

图片

不过,对于 Meta 采取开源的做法,也有人提出了质疑。

据 The Verge 报道,那些反对开源的人,如 OpenAI,表示这种做法对创作者有害,因为竞争对手可以复制他们的作品,并且可能具有潜在的危险,允许恶意行为者利用最先进的人工智能模型。

与之形成对比的是,支持开源的人则认为,像 Meta 开源 ImageBind 的做法有利于生态的快速建立与发展,也能集结全球的力量,帮助 AI 模型快速迭代和捕捉 Bug。

早些时候,Meta开源的LLaMA 模型只能用于研究用途,但是期间LLaMA 模型在4chan 上被泄露,有匿名用户通过 BT 种子公开了 LLaMA-65B—— 有650亿个参数的 LLaMA,容量为220GB。

随着 LLaMA “被公开”,一大批基于这款大模型的衍生品,号称是 ChatGPT 开源替代品的工具在短时间内快速涌现,如跟着LLaMA(美洲驼)名字走的“驼类”家族包含了:斯坦福大学发布的Alpaca(羊驼,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡内基梅隆大学等高校研究人员开源的Vicuna(骆马),还有基于 LLaMA7B 的多语言指令跟随语言模型 Guanaco(原驼,https://guanaco-model.github.io/)等等。

面对这股新兴的力量,近日,在一位谷歌内部的研究人员泄露的一份文件中显示,在大模型时代,「Google 没有护城河,OpenAI 也没有」。其主要原因就是第三股——开源大模型的力量与生态正在崛起。

所以,OpenAI 和 Google 两家在 AI 大模型上你追我赶的竞争中,谁能笑到最后,也未必就不会是 Meta,我们也将拭目以待。对此,你是否看好开源大模型的发展?

相关阅读

论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址:https://github.com/facebookresearch/ImageBind

Demo:https://imagebind.metademolab.com/

参考

https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research


返回网站首页

本文评论
英年早逝的高管「创始人或核心高管英年早逝,那些企业何去何从?」
声明:本文来自于微信公众号三言财经(ID:sycaijing),作者:三言财经,授权转载发布。昨日晚间,华为在内部社区“心声社区”发布讣告称,华为公司监事会副主席丁耘因突发疾病去世,享年53岁...
日期:10-09
KaDa故事升级为“KaDa阅读”,致力成为3-12岁少儿数字化阅读解决方案提供者
在世界读书日到来之际,KaDa故事正式宣布品牌升级为“KaDa阅读”,在原有绘本童书馆基础上,拓展“精读”、“精讲”类阅读产品,专注于为3- 12 岁孩子提供科学的数字阅读解决方案。...
日期:04-21
高通骁龙8g处理器「高通骁龙8 Gen 3定了:性能提升35%」
近日有外媒曝光了高通骁龙8 Gen 3的跑分,从曝光的数据来看,骁龙8 Gen 3的geekbench跑分单核得分为1930,多核得分为6236,相较于骁龙8Gen2的单核1524,多核4597整体性能提升了约35%...
日期:03-24
腾讯“分手”传闻,“吓丢”美团千亿市值?_美团被腾讯投资了吗
网络面临的主要安全威胁题图|视觉中国   作者|黄青春   今天(8月16日)午后,“腾讯或将出清美团股票”的消息在网上不胫而走,美团港股急转直下,盘中跌幅一度扩大超 11 %,对应市值...
日期:08-22
腾讯长期股权投资「腾讯股东投资20年赚超7000倍:仍持有26亿股」
11月25日消息,日前,腾讯控股最大股东南非Naspers荷兰子公司Prosus披露最新资产数据,截至11月23日,其持有腾讯控股26.137亿股,对比10月28日数据,一个月减持了7890万股。今年6月,该公...
日期:11-30
凯迪仕勇夺中楹榜大奖 稳居“智能锁”影响力品牌榜首!
  以“聚能创赢·重塑增长”为主题的第五届中国建材行业高峰论坛暨【中楹榜】2021建材网优选品牌计划颁奖典礼,在国家会展中心(上海)隆重举行。   Kaadas凯迪仕受邀出...
日期:07-17
雅虎公司还在吗「雅虎拟年底前裁员20% 1600多名员工受影响」
2月10日消息,美国当地时间周四,雅虎宣布,因对广告部门进行重大重组,该公司决定在年底前裁员20%,1600多名员工将受到影响。其中,当天有1000名员工被裁。雅虎首席执行官吉姆·兰佐内...
日期:02-13
外媒曝亚马逊将大裁17000人 或是大型科技公司最大规模裁员_美国27家大公司裁员超10万人
中关村在线消息:据外媒《华尔街日报》的报道,美国电子商务公司亚马逊正计划裁员超过17000人,这个数字已经大幅高于最初计划的数字。亚马逊即将大规模裁员的消息最早于2022年11...
日期:01-05
李彦宏内部定OKR:百度搜索将全线接入文心一言_百度李彦宏OKR
2月8日消息,新浪财经独家获取了百度创始人、董事长兼CEO李彦宏2023年一季度OKR内容,其关键任务为“引领搜索体验的代际变革”。日前,百度正式对外官宣类ChatGPT项目——文心一...
日期:02-09
武汉云正式启用,华为表示将继续壮大本地服务团队_华为武汉分公司
  9 月 4 日消息 据华为官方公众号,今日,武汉云启用活动在武汉云运营管理中心成功举办。武汉云由华为和武汉市政府等合作建设。   据介绍,当前,武汉云建设项目进展顺利,已...
日期:07-17
瓜子宣布升级为第三方平台:已完成从自营平台的切换「瓜子的另一个平台」
3月16日消息,瓜子二手车宣布正式升级为第三方平台,并称全国超1万家优质二手车商已完成瓜子认证,通过瓜子三方平台覆盖全国交易。同时,瓜子宣布推出国内首个平台级保障标准,提供全...
日期:03-16
iqoo neo5天玑1200「天玑9000+性价比 产品经理泄露iQOO Neo7配置」
国庆之后,又有新一轮手机要发布上市了,其中vivo旗下还有iQOO Neo7系列,现在开始预热了,产品经理已经疯狂暗示该系列的处理器会是天玑9000+。三星折叠屏销量vivo公司iQOO Neo系列...
日期:10-11
酷派手机2020年旗舰「国产手机老将回归!酷派正式官宣全渠道回归」
中国智能手机品牌酷派宣布回归市场,并带来三款新机,其中大观40S已经在官网上架。美版iphone14没有sim卡槽了还能用吗该手机搭载6.52英寸屏幕,分辨率为1600*720,采用天玑700处理...
日期:04-05
IDC:AI 产业 2023 年支出预估达到 1540 亿美元 同比增长 26.9%「2020年idc市场规模」
3月8日消息:据市场调查机构IDC最新报告显示,预计到 2023 年,包括软件、硬件、以 AI 为中心的系统服务在内AI相关产业规模支出将达到 1540 亿美元,同比增长26.9%。报告指出,随着...
日期:03-08
借助创维A20高端云社交智慧屏,新裤子乐队摇滚现场云LIVE超有范
  过去的三个月,你是否已经呆在家里沉闷了很久,想要跃动一下呢?你是否想要疯狂一把,释放心中的激情呢?别着急,今年的创维全球电视节,创维将会联袂新裤子乐队,开启《嘿!我们见面...
日期:07-23
20份华尔街分析师研报,透露百度未来的五个关键词_华尔街分析报告
  作者丨魏晓   来源丨AI蓝媒汇(ID:lanmeih001)   一个倒挂的现象,正在百度身上上演。   由于近段时间以来,随着美团、京东、拼多多等的市值连续飙涨到达新高点,百度在...
日期:07-14
更新ios14.1出错「iOS16.1 Beta2正式推送:修复两项重要问题,果粉反馈也出炉了」
众所周知,iOS系统一直都是以出色的流畅度为主打方向,但没有想到,自从进入iOS16之后,市场中的争议声一直都没有停止,带来了很多问题,导致用户体验非常差。要知道,卡顿、发热量大、功...
日期:09-29
“华为云杯”2019人工智能创新应用大赛启动,以AI解生活难题(华为云杯2020数据创新大赛)
  提起西安,大多数人脑海中浮现的一定是大雁塔、兵马俑、羊肉泡馍、臊子面这些著名的景点和美食,殊不知西安近年来也渐渐给自己贴上了“硬科技”之都的新标签。   据20...
日期:03-28
液晶电视迎来艰难时刻:降价还没到头_液晶电视最近涨价了吗?
  虽然疫情导致液晶面板的生产遭遇一些挑战,但是业界预测,中国液晶电视的价格也不会有大幅度的上扬,能够维持目前的价格已经是不错的。   预计随着生产的恢复,液晶面板的价...
日期:07-17
地球回到石器时代「上次还是旧石器时代!5万年一遇彗星将造访地球:肉眼或可见」
1月8日消息,据央视新闻,天文学家近日表示,一颗新发现的彗星将在近几周内飞经地球,为5万年来首见。报道称,该彗星编号为C/2022 E3,去年3月由兹威基瞬态研究设施首次观测发现。据了...
日期:01-08