您的位置:首页 > 互联网

微软写了份GPT-4V说明书:166页详细讲解,提示词demo示例全都有_微软gpx

发布时间:2023-10-05 23:48:45  来源:互联网     背景:

克雷西 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。



值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:



有网友感慨:这哪里是论文,这简直快成一本166页的小书了。



还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?

这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”。

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:



2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

微软 gpt3

其中就包括这种,需要一些智商才能做出来的“图像推理题”:



3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。



4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:



但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。



所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识
图像识别

最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:



而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。



除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。



△左:纽约时代广场,右:京都金阁寺

不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

996打工仔



甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。



除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。





△机器翻译,仅供参考

不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

兰博基尼suv官网





除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。



甚至是手写的数学公式:



图像推理

前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。



如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。







上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。



图片标注

除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。



GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:



动态内容分析

华为mate 50保时捷

除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。



而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。



当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。



甚至是预测接下来会发生什么:



“现场学习”

GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:



紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:



然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。



只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。



GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔

这篇论文的作者一共有7位,均为华人,其中6位是核心作者。



项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。



她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:
https://arxiv.org/abs/2309.17421


返回网站首页

本文评论
美国电动汽车充电桩「美国团队研发电动汽车新充电技术:10 分钟充电 90%,堪比加油」
  IT之家8 月 23 日消息,随着电动汽车技术的不断发展,许多用户选择购买电动汽车来满足日常出行需求。乘联会发布的 2022 年 7 月份我国乘用车市场分析显示,新能源乘用车 7 月...
日期:09-07
经济日报:“双减”不仅是教育系统的事(教育局双减新闻)
来源:经济日报   文 | 李丹   去年7月份,中办、国办印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》。意见发布实施一年来,给我国教育改革带来重大...
日期:08-01
10月主机大战落下帷幕:索尼折戟掉至第二 任天堂重回第一宝座
  近日,NPD Group公开了2021年10月的主机市场销量报告,根据这份销量报告,任天堂在上个月成功击败索尼,重新回到了全球主机销量第一的宝座。   在9月份,索尼成功在销量上击...
日期:07-09
特斯拉ModelY国内交付时长延长到2-5周_特斯拉modely标准续航交付时间
1月9日 消息:据特斯拉中国官网显示,由于近期订单量激增,Model Y后轮驱动版以及长续航版的国内交付时长延长到2-5周,Model Y高性能版的交付时长仍为1-4周。unity 购买此前,特斯拉...
日期:01-09
网易严选启动星驰计划 1亿佣金池亿级流量扶持红人主播
  5月26日,网易严选发布“星驰计划”,计划面向抖音、快手、微博、淘宝等全网招募1000名优质红人主播、100家MCN机构,共创10个千万级爆品。   据了解,“星驰计划”为红人主...
日期:07-14
湖北移动升级“互联网+明厨亮灶” 守护学生“舌尖上的安全”「湖北移动互联网套餐」
湖北移动升级“互联网+明厨亮灶” 守护学生“舌尖上的安全” 通信产业网|2023-06-12 14:32:55作者:通文来源:通信产业网【通信产业网讯】校园食品安全,关乎亿万师生的身体健康...
日期:06-12
劳动力短缺,北美企业机器人订单创新高_劳动力短缺北美企业机器人订单创新高
  11 月 13 日消息,据《华尔街日报》援引自动化促进协会(Association for Advancing Automation)数据,北美企业今年前九个月机器人总销售额达 14.8 亿美元(约 94.57 亿元人...
日期:07-17
小米手机或将搭载手动变焦技术「小米手机手动调焦」
中关村在线消息:近日,根据北京小米移动软件有限公司提交的一项名为“相机和电子设备”的专利申请显示,小米公司开发了一种供手机使用的手机摄像头手动变焦技术,据猜测该技术或许...
日期:10-04
Win11终于原生支持RAR、7z等压缩格式:但仍有功能缺失_win11原生支持安卓应用
快科技7月4日消息,近日,微软在Win11预览版的更新中,加入了对RAR、7z等压缩格式的原生支持。但经过测试,目前Win11对新增压缩格式的支持,仍存在一些不足。首先,如果用户需要解压的...
日期:07-04
苹果 macOS Big Sur / Catalina 的 Safari 15.6.1 正式版发布,修复严重漏洞「macos catalina升级big sur」
  8 月 21 日消息,苹果本周发布了 iOS 15.6.1 和 macOS Monterey 12.5.1 正式版,两者都具有安全增强功能。为了将这些安全增强功能带给更多用户,苹果发布了适用于运行 macO...
日期:09-13
传杨致远基本控制雅虎 负责日常管理工作_杨致远雅虎股份
  据国外媒体报道,一名接近雅虎的知情人士透露,杨致远已经“基本”控制了雅虎。   上述知情人士称,“杨致远再度出山,负责雅虎的日常管理工作。杨致远能再度出山很奇怪,董事...
日期:07-23
谷歌推出“顺风计划”人工智能优先笔记本
谷歌推出了“顺风计划”,这是一款新的人工智能优先工具,本质上是一款未来的笔记本,可以帮助你在写作时搜索信息。除了将新的人工智能集成到谷歌搜索和工作区产品(如docs和gmail)...
日期:05-11
《追寻·上海红色印记》中国邮政联合商汤科技首创发行AR纪念明信片车票
  近日,以“追寻·上海红色印记”为主题的红色专线开始试运行,市民游客可以乘坐全新的红色双层观光巴士,一次打卡上海主要红色地标。该专线正式运行后将途径五卅运动纪念碑...
日期:09-04
法拉第未来ff91什么时候量产「10月预计交付4辆FF 91:法拉第未来将在中国上市」
快科技9月30日消息,法拉第未来在投资者网络直播沟通会上,公布了FF912.0Futurist Alliance的10月份交付计划以及公司当前的目标。FF表示,公司在第三季度交付了三辆FF912.0Futuri...
日期:09-30
外滩大会观察:全链路数据技术迎接深度智能时代
技术奇点来临,数据科技正在释放饱满的生命力。2023年9月8日,2023INCLUSION·外滩大会第二天,蚂蚁集团金融大模型正式对外发布,吸引了诸多目光。事实上,纵观外滩大会,除了蚂蚁的金...
日期:09-08
首款接近4GHz的显卡就此诞生?AMD RX 7000这是要上天_amdrx580 4g显卡相当于
10年前AMD推出了HD 7970 GHz Edition显卡,这是首款核心频率达到1GHz的显卡,直到现在显卡的核心频率只是2GHz以上,NVIDIA的GTX 4090说是要冲击3GHz,没想到AMD更猛,RX 7000中或许会...
日期:09-23
腾讯Q2净利润同比下滑56% 3个月减少5498名员工_腾讯Q2净利润同比增长19%,游戏业务仍是营收重头戏
(原标题:裁员5498人、水果不再免费 腾讯开始省钱:“蚊子肉”也不放过) 今天下午腾讯发布了Q2季度财报,当季营收1340亿元,同比下降3...
日期:08-19
长城集团董事长魏建军「长城汽车董事长魏建军荣获“中国汽车工业饶斌奖”」
【】5月16日消息,从官方渠道获悉,在今日举办的第十届国际智能网联汽车技术年会上,长城汽车董事长魏建军荣获中国汽车工程学会颁发的“中国汽车工业饶斌奖”。据了解,饶斌奖被称...
日期:09-28
这3个版本的教材都出现过“故天将降大任于斯人”:是人并非_故天将降大任于斯人也的节奏划分
最近,关于故天将降大任于是人还是斯人也,引发了各种讨论。同时,全民考证也热火朝天地兴起。媒体搜集网上资料发现,至少在北京出版社2019年出版的义务教育教科书《语文》(九年级下...
日期:11-02
波音警告:787梦想客机新缺陷将导致交付延期2周_787梦想客机与波音737哪个更安全?
6月7日消息,美国当地时间周二,波音公司警告称,其787梦想客机(Dreamliner)存在一个新缺陷,这将导致这款宽体飞机的交付延期。这是波音遇到的最新生产问题。波音公司在声明中称:“...
日期:06-07