您的位置:首页 > 智能设备

1000亿参数全模态大模型发布,能看懂视频、绘画作曲、分析信号「全模态大模型」

发布时间:2023-06-20 09:09:55  来源:互联网     背景:

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



作者 | ZeR0
编辑 | 漠影

智东西6月16日报道,在今日举行的人工智能框架生态峰会2023上,中国科学院自动化研究所所长徐波正式发布紫东太初2.0全模态大模型。



相比以前的大模型,紫东太初2.0新增了视频、传感信号、3D点云等模态,拥有了更强的认知、理解、创作能力。

它不仅有和ChatGPT类似的多轮问答、文本创作能力,还实现了全模态输入,支持视频、图像、音乐、3D、信号的理解,并能够实现图文音搜索、图像生成、音乐生成、信号分析等功能。



智东西拿到了内测资格,并第一时间对紫东太初2.0的音乐能力、信号类能力、视频能力、跨模态能力、图像能力、语言能力等进行体验。

一、五大能力详解,从生成音乐、看懂视频到推理分析

1、音乐及信号类能力:生成、识别、多模问答

紫东太初2.0可以通过给定的文本提示,可控生成高保真的音乐,并支持即兴创作多种风格类型和多种乐器演奏的音乐。

648c16a582594_648c16a58254b_屏幕录制2023-06-16-13.11.17

比如,上传一段音乐文件,让紫东太初2.0识别这个音乐是什么,它能识别出这是贝多芬的交响曲,并分享了这段音乐表达了怎样的感情。



你还可以询问这段音乐是用什么乐器演奏的,让紫东太初2.0根据这段音乐作诗,或者追问贝多芬的生平是怎样的。

紫东太初2.0也支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等。

全模态大模型

上传一段信号后,你可以向它询问这段信号的相关信息。



2、视频能力:理解、描述、搜索

视频能力方面,紫东太初2.0能基于用户上传的视频素材,准确理解并回答视频识别、视频描述类问题,同时支持上下文信息理解和多轮问答。

比如,上传一段唱歌跳舞的视频,问紫东太初2.0这段视频描述了什么、对视频中音乐的感受、是否认可等问题。





QLED电视 三星8K电视

此外,紫东太初2.0拥有海量的高质视频素材库,具备视频素材检索能力。

比如让它找一个踢足球的视频。



全模态大模型

你还可以针对视频内容进一步发问,让紫东太初2.0结合动作和音乐分析视频,或是根据视频内容预测后面可能发生什么事。



3、跨模态能力:“图像+音频+视频”理解与分析

紫东太初2.0能结合多个图像、音频、视频文件,进行综合理解与创作。

上传两个视频,问这两个视频的共同特点是什么?对此,紫东太初2.0能够结合视频的画面和声音,分析出共通之处以及各自的差异点。



另一个例子是图像+音频。

上传一张图书馆的图片和一段鼓掌声音频,问这段音频有没有可能出现在图片里的场景中?



紫东太初2.0给出答案:不太可能,原因是图片中的场景没有庆祝或欢迎的氛围。



或者,上传一张足球场的图片+一段鼓掌声音频,让紫东太初2.0结合图片和音频,分析一下场景的氛围。





通过综合理解图像、音频、视频信息,紫东太初2.0“拼出”一个完整的信息描述,或者将这些内容串联形成一段流畅的故事。



4、图像与3D场景能力:描述、目标检测、检索、生成

紫东太初2.0能基于用户上传的图片素材,准确理解并回答图片识别类问题,包括识别图像主体、背景、动作、颜色等等,同时支持上下文信息理解和多轮问答。

比如问“图里有几只动物”、“小狗和小猫在做什么”,紫东太初2.0给出了具体的描述。



你还可以针对这张图片,询问更多细节,比如小动物的毛色、它们在什么地方玩。



上传风车的图片,问“这个装置的作用是什么”,紫东太初2.0给的回答包括“风力发电站”。



接着追问“为什么要在图中位置建设这样的装置”,它马上给出回答:“为了让它更加接近自然环境,以便更好地利用风能。”



此外,紫东太初2.0具备基于点云数据的3D场景理解和物体感知能力。你可以让它描述从这张三维图里看到了什么信息。



不过在理解梗图方面,紫东太初2.0的能力还没有开发出来,并不能弄明白下图好笑在哪儿。





除了搜视频,紫东太初2.0也能被用于搜图。比如让它生成一张熊猫的图片。



在生成图像方面,紫东太初2.0可以生成指定风格的图。比如我要求“用中国画风格画一只慵懒的猫”,紫东太初2.0立刻画出了一张卧着的虎皮猫。



5、语言与编程:问答、创作、查错、写代码

在语言能力方面,和多数大型语言模型一样,紫东太初2.0支持中文问答、逻辑推理、文本摘要、文本续写、文本创作、标题生成、语法分析、机器翻译等等。



它能准确理解用户输入的问题语境,并能做出准确的知识性问答,包括生活常识、工作技能、医学知识、历史人文等知识领域。



给紫东太初2.0一篇文章,它能快速理解文章的核心观点,根据长文本提取简洁而准确的摘要。



它也能写一个拥有出人意料结局的推理小说。



写个快速排序代码,同样不在话下。



综合来看,紫东太初2.0在图文音多模态能力的基础之上,增加了对视频、3D场景和信号等模态的理解,用更多模态信息来弥补单模态的局限性,更好地增强了对多种模态的综合理解和认知。

二、突破多项多模态关键技术,完成跨模态对齐

徐波说,中科院早在2008年就开始推进图文音的单独攻关,2020年1月启动多模态联合攻关,从2021年1月做出百亿模型到2021年9月发布全球首个千亿参数图文音三模态大模型紫东太初1.0,再到推出紫东太初2.0,以昇腾AI硬件及昇思MindSpore AI框架为基础,依托武汉人工智能计算中心算力支持,利用预训练+微调技术,在大的神经网络上,把多个场景的知识和数据都吸纳到一个模型上。



但物理世界的信息种类远多于图文音,有大量结构化、半结构化、非结构化数据,包括温度、深度、压力信号、3D超声波指纹、脉搏波、降水量、人体红外、3D激光等等诸多形式。



基于这样的认识,面向数字物联时代,紫东太初2.0推出实现了能接入非结构化、半结构化、结构化等数据的全模态大模型开放系统架构。

面对全模态数据,紫东太初2.0率先实现了认知增强的多模态关联,在全模态理解能力、生成能力、对齐能力上实现了跃升。

研究团队重点研究突破了多模态分组认知编码、全模态认知对齐和融合、多模态分组认知解码等关键技术,使多模态关联的认知能力大幅提高。



通过完成音乐、图像、视频等数据之间的跨模态对齐,紫东太初2.0可处理音乐视频分析、三维导航等多模态关联应用应用需求,并可实现音乐、视频等多模态内容生成。

由此,紫东太初2.0打通了感知、认知乃至决策的交互屏障,具有全模态能力的涌现,使得人工智能进一步感知、认知世界,从而延伸出更加强大的通用能力。

三、落地进展:助攻颅内手术,研判违规行为,溯源敏感信息

徐波说,紫东太初底座大模型正赋能千行百业,包括布匹纺织及缺陷检测、文旅导游、柔性手术机器人、AI手语老师等。



例如在医疗场景,基于紫东太初打造的颅内手术多模态智能助手可实现不同模态的高效协同与转换,尤其是视觉、触觉的跨模态融合,解决了机器人辅助手术中触觉缺失的国际性难题。

协和医院用到紫东太初2.0在全模态方面的推理功能,去尝试在医疗诊断方面做一些有挑战性的工作,尤其是在心、脑、肾三个罕见病中,利用多种医疗模态和患者病例特点,生成拟诊讨论,在诊断、鉴别诊断和治疗计划给出一些建议。

在交通场景,以前智能系统更多关注识别到比较常见的交通违规行为,但实际场景中会有很多细碎的违规行为,比如压实线、摩托车不戴头盔、三轮车违法载人等等。只需输入对违规行为的文字描述,再给1~2张图片,紫东太初就能实现对违规行为认知级别的研判。

在互联网短视频场景中,有些短视频的标题和简介文本没有问题,但视频内容包含敏感信息。利用多模态融合感知技术,可以对视频进行溯源,及时发现风险内容。

在大模型的基础上,中科院也研发了紫东太初开放服务平台,以惠及更多用户。



结语:迈向通用人工智能的三条路径

徐波说,大模型成为人工智能发展的里程碑和分水岭,以ChatGPT为代表的“大算力+大数据+大模型”标志着通用人工智能时代的来临,大模型将实现对劳动力、资本等生产要素的智能替代和功能倍增,促进全要素生产率的提高。

人类的学习和交互过程中充满了多模态信息,包括自然语言、视觉、听觉、触觉、嗅觉/味觉、生理信号等等。以婴儿早期发育为例,它通过多种模态信息可以很容易地感知和学习世界,基于这一认识,紫东太初大模型从一开始走的就是多模态技术路线。

据徐波分享,通过可自主进化通用人工智能有三条路径:类脑智能、信息智能、博弈智能。



他认为,目前全模态的信息智能走得更快,但它一定会吸纳类脑智能在极低功耗及演化机制方面的优势,也一定会吸纳博弈智能与环境交互产生自适应能力的机制,融合起来,才是更强的通用人工智能。


返回网站首页

本文评论
iphone14 用什么5g基带_5G速度冲上万兆!iPhone 14 Pro/Max基带确认:高通骁龙X65
  iPhone 14系列正式开售,今天你拿到首批新机了吗?  在消费者尝鲜iPhone 14 Pro系列“灵动岛”的同时,不少博主也对新机开启了拆解。  今日@微机分WekiHome 发布iPhone...
日期:09-21
华为HarmonyOS 3升级回归:更流畅、更安全!_华为harmonyos有必要升级吗
本文来自太平洋电脑网   华为将于7月27日晚召开HarmonyOS3及华为全场景新品发布会,届时将带来新系统---HarmonyOS3。   而在今日上午,华为官方发布了有关HarmonyOS3的一段...
日期:07-30
高通所有手机芯片发布时间_中低端手机升级开始了,高通悄悄发布两颗芯片
来源:中关村在线三星有45瓦快充吗2020房地产top30企业iphone14和iphone13 pro外观高通宣布推出第一代骁龙6移动平台和第一代骁龙4移动平台,面向中端和海量智能手机市场,提供先...
日期:09-17
ipad6 128g二手能卖多少钱_苹果iPhone 14太能吸金 128G升级256GB赚走90%利润
  在智能手机行业,苹果是标杆性的存在,虽然全球销量干不过三星,只能位居第二,然而他们一家就能赚走整个行业大部分利润,吸金能力爆表,苹果对赚钱的算计几乎体现在每个细节上,比如...
日期:10-05
三星翻转屏笔记本_三星将推新款360度翻转笔记本
  12月29日消息,三星将推出新款笔记本电脑Galaxy Book2 Pro 360,将于2023年1月26日在韩国上市。  据了解,这款笔记本采用骁龙8cx Gen 3处理器具有四颗3.0GHz大核,四颗2.4GH...
日期:12-30
iphone15或将全部搭载苹果自研芯片「全球首家_iPhone 15或将采用台积电3nm工艺」
来源:中关村在线刘庆峰科大讯飞股份有限公司董事长、总裁ipad2020是视网膜屏幕吗Galaxy M32有消息称苹果的下一代iPhone,也就是iPhone 15将采用台积电3nm工艺芯片,苹果有望成为...
日期:09-16
苹果 AirPods Pro 2 实拍图曝光:充电盒新增扬声器开孔、挂绳孔(airpodspro灯孔)
  10 月 23 日消息,苹果刚刚发布了 AirPods 3 第三代真无线耳机,采用半入耳设计,耳机柄缩短。此前有外媒称,苹果还将于 2022 年推出第二代 AirPods Pro 旗舰 TWS 降噪耳机。外...
日期:11-28
英雄联盟手游怎么领英雄体验卡「苹果用户专属福利 限时免费领取《英雄联盟手游》交通卡卡面」
  新浪数码讯 1月11日下午消息,从今天起,iPhone和Apple Watch用户可以通过北京一卡通App或上海交通卡App卡面商城频道免费下载《英雄联盟手游》手机电子交通卡主题卡面,并添...
日期:01-11
魅族16X又又又遭黄章曝光 与16th仅差一个CPU
  魅族16系列成功发布后,在网络上赢得了良好的口碑。于是魅族趁热打铁,掌门人黄章在社区论坛上继续曝光魅族16X的部分配置,称魅族16X的前后摄像头与魅族16相同,也将搭载屏下指...
日期:07-23
掌阅ireader书城_读书破万卷,下笔如有神 掌阅iReader Ocean轻体验
  读书在人们的生活中扮演着越来越重要的角色,在如今这样一个多元化的社会里,知识的比拼、人才的竞争都离不开读书这条路子。读书不仅是进取人生的驿站,更是人类进步的阶梯。...
日期:07-22
索尼psvr游戏演示「索尼称 PS VR2 不会向后兼容初代 PS VR 游戏,这是真正的次世代」
IT之家 9 月 17 日消息,索尼新一代的 PlayStation VR2 头显已经离我们不远。索尼日前也已经在多个社交媒体上宣布,虚拟现实头戴设备“PlayStation VR2”将会在明年初发布。目...
日期:09-18
新iPhone用旧芯片 对于苹果产品来说 或许只是个开始「苹果目前最新的芯片」
苹果发布会上有个细节,随着 iPhone 14 Pro 系列一同推出的 A16 Bionic 芯片,集成了 160 亿个晶体管,刚好与两年前发布的 M1 所封装的晶体管数接近。向量数据库用途大概过了两年...
日期:09-24
三星ssd980和970evoplus_SSD价格腰斩才开始 还会降!存储一哥三星业绩也暴雷 不人为减产
存储芯片一哥,三星的业绩也暴雷,其实这也不意外啊,本身市场已经很难做了,SK海力士、美光之前也都已经预警了。三星电子今日发布了2022年第三季度财报,净利润为9.14万亿韩元(约合64...
日期:11-01
OPPO Reno9 系列规格曝光:Pro 搭载联发科天玑 8000 芯片 + IMX 766「oppo reno 7首发」
  10 月 6 日消息,OPPO Reno 系列的迭代新机 —— OPPO Reno9 系列已多次曝光,预计该机将搭载高通骁龙 7 / 联发科天玑 8 系处理器。  今日,数码博主 @数码闲聊站 爆料称,O...
日期:10-09
小手牵小狗完美落幕 Makeblock Neuron神经元与萌娃的奇妙相遇
  《小手牵小狗》讲述一群萌娃萌宠在道格师傅罗志祥的教导下,一起成长的故事,在优酷播放一个多月便取得了6.3亿播放量的成绩。在本月的17号,节目迎来了最后一集。作为节目指...
日期:07-22
向Ultra看齐 小米中端机影像质变:要上超大底主摄(小米 ultra 拍照)
  今天,博主@数码闲聊站爆料,小米中端机终于要上大底和超大底主摄了,有网友猜测小米Civi 2系列要上超大底主摄。郑州全员核酸检测已完成采样超百万份  目前小米系列机型包...
日期:02-05
苹果iPhone折叠屏工程机曝光,横向竖向全都有「苹果新iphone发布会视频」
  接近屏幕供应链的数码博主;@刹那数码 表示,目前苹果已经有两款正在开发的折叠屏机型,分别是目前业界流行的横向对折和竖向翻盖式机型,不出意外的话也是供应链已经成熟的技...
日期:09-23
三星s22续航对比iphone se3「预计电池容量4500mAh左右 三星Galaxy S23+电池现身」
来源:中关村在线美团十七岁可以申请吗据消息显示,三星Galaxy S23+的电池现身韩国电池认证机构Safety Korea。这款电池是由中国ATL(宁德)生产。不过,可惜的是,Galaxy S23+的电池谍...
日期:09-15
已有23.26%的苹果iPhone用户升级到iOS 16,比iOS 15同期更快「iphone升级了ios16可以降回ios15吗」
  根据分析公司 Mixpanel 的最新数据,iPhone 用户采用 iOS 16 的速度比去年采用 iOS 15 的速度更快。发布 9 天后,统计显示有 23.26% 的 iPhone 安装了 iOS 16。  iOS 15...
日期:09-23
万万没想到 Sparo迷你电脑主机一年省电1000度
  Sparo迷你电脑主机上线淘宝众筹后,凭借玫瑰金迪拜金全铝机身、CNC一体成型工艺、62×62×62mm迷你体积、预装Win10系统、移动电源供电等特点,人气一直居高不下,除了高颜值...
日期:07-29