您的位置:首页 > 互联网

AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型

发布时间:2023-12-04 10:53:07  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 萧箫 ,授权转载发布。

五菱宏光miniev马卡龙发布

AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?!

这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!

哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:

就连单词也能被翻转出新效果,happy和holiday只在一旋转间:

原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在Hacker News上爆火,热度飙至近800。

英伟达高级AI科学家Jim Fan赞叹称:

这是我近期见到最酷的扩散模型!

还有网友感叹称:

这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。

要知道,创作一幅经过旋转、反色或变形后呈现出新主题的绘画作品,怎么也需要画家对色彩、形状、空间具备一定的理解能力。

如今连AI也能画出这样的效果,究竟是如何实现的?实际效果是否有这么好?

我们上手试玩了一番,也探究了一下背后的原理。

Colab就能直接试玩

我们用这个模型绘制了一组Lowpoly风格的画,让它正着看是一座山,反过来则是城市的天际线。

同时,我们让ChatGPT(DALL·E-3)也试着画了一下,结果除了清晰度高一些之外似乎就没什么优势了。

而作者自己展示的效果则更加丰富,也更为精彩。

一座雪后的山峰,旋转90度就变成了一匹马;一张餐桌换个角度就成了瀑布……

最精彩的还要属下面这张图——从上下左右四个角度看,每个方向的内容都不一样。

(这里先考验一下各位读者,你能看出这四种动物分别是什么吗?)

以兔子为初始状态,每逆时针旋转90度,看到的依次是鸟、长颈鹿和泰迪熊。

而下面这两张图虽然没做到四个方向每个都有“新内容”,但还是做出了三个不同的方向。

除了旋转,它还可以把图像切割成拼图,然后重组成新的内容,甚至是直接分解到像素级。

风格也是千变万化,水彩、油画、水墨、线稿……应有尽有。

那么这个模型去哪里能玩呢?

为了能让更多网友体验到这个新玩具,作者准备了一份Colab笔记。

不过免费版Colab的T4不太能带动,V100偶尔也会显存超限,要用A100才能稳定运行。

甚至作者自己也说,如果谁发现免费版能带动了,请马上告诉他。

言归正传,第一行代码运行后会让我们填写Hugging Face的令牌,并给出了获取地址。

同时还需要到DeepFloyd的项目页面中同意一个用户协议,才能继续后面的步骤。

准备工作完成后,依次运行这三个部分的代码完成环境部署。

需要注意的是,作者目前还没有给模型设计图形界面,效果的选择和提示词的修改需要我们手动调整代码。

作者在笔记中放了三种效果,想用哪个就取消注释(去掉那一行前面的井号),并把不用的删除或注释掉(加上井号)。

这里列出的三种效果不是全部,如果想用其他效果可以手动替换代码,具体支持的效果有这些:

修改好后要运行这行代码,然后提示词也是如法炮制:

修改好并运行后,就可以进入生成环节了,这里也可以对推理步数和指导强度进行修改。

需要注意的是,这里一定要先运行image_64函数生成小图,然后再用后面的image变成大图,否则会报错。

做个总结的话,我们体验后的一个感觉是,这个模型对提示词的要求还是比较高的。

作者也意识到了这一点,并给出了一些提示词技巧:

△机翻,仅供参考

那么,研究团队是如何实现这些效果的呢?

“糅合”多视角图像噪声

首先来看看作者生成视错觉图像的关键原理。

荣耀天玑820新机

为了让图像在不同视角下,能根据不同的提示词呈现出不同的画面效果,作者特意采用了“噪声平均”的方法,来进一步将两个视角的图像糅合在一起。

简单来说,扩散模型(DDPM)的核心,是通过训练模型将图像“打碎重组”,基于“噪点图”来生成新图像:

所以,要想让图像在变换前后,能根据不同提示词生成不同图像,就需要对扩散模型的去噪过程进行改动。

简单来说,就是对原始图像和变换后的图像,同时用扩散模型进行“打碎”处理做成“噪点图”,并在这个过程中将处理后的结果取平均,计算出一个新的“噪点图”。

随后,基于这个新的“噪点图”生成的图像,就能在经过变换后呈现出想要的视觉效果。

当然,这个变换的图像处理过程,必须要是正交变换,也就是我们在展示效果中看到的旋转、变形、打碎重组或反色等操作。

具体到扩散模型的选择上,也有要求。

具体来说,这篇论文采用了DeepFloyd IF来实现视错觉图像生成。

DeepFloyd IF是一个基于像素的扩散模型,相比其他扩散模型,它能直接在像素空间(而非潜在空间或其他中间表示)上进行操作。

这也让它能更好地处理图像的局部信息,尤其在生成低分辨率图像上有所帮助。

这样一来,就能让图像最终呈现出视错觉效果。

为了评估这种方法的效果,作者们基于GPT-3.5自己编写了一个50个图像变换对的数据集。

具体来说,他们让GPT-3.5随机生成一种图像风格(例如油画风、街头艺术风),然后再随机生成两组提示词(一个老人、一个雪山),并交给模型生成变换画。

这是一些随机变换生成的结果:

随后,他们也拿CIFAR-10进行了一下不同模型间图像生成的测试:

随后用CLIP评估了一下,结果显示变换后的效果和变换之前的质量一样好:

作者们也测试了一下,这个AI能经得起多少个图像块的“打碎重组”。

事实证明,从8×8到64×64,打碎重组的图像效果看起来都不错:

对于这一系列图像变换,有网友感叹“印象深刻”,尤其是男人转变成女人的那个图像变换:

我看了大概有10遍左右。

还有网友已经想把它做成艺术作品挂在墙上了,或是使用电子墨水屏:

但也有专业的摄影师认为,现阶段AI生成的这些图像仍然不行:

仔细观察的话,会发现细节经不起推敲。敏锐的眼睛总是能分辨出糟糕的地方,但大众并不在意这些。

那么,你觉得AI生成的这一系列视错觉图像效果如何?还能用在哪些地方?

参考链接:

[1]https://news.ycombinator.com/item?id=38477259

[2]https://arxiv.org/pdf/2311.17919.pdf

[3]https://twitter.com/DrJimFan/status/1730253638935920738

—完—


返回网站首页

本文评论
迅雷发布2017年财报:营收增长128.5% 第四季度实现盈利「迅雷:第二季度营收7830万美元 同比增长41.9%」
  讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,830万美元,同比增长41.9%,符合预期收入指引。基于通用会计...
日期:10-06
我国工业互联网产业规模已突破1.2万亿元「中国工业互联网产业规模」
通信世界网消息(CWW)在国务院新闻办公室日前举行的新闻发布会上,工业和信息化部总工程师赵志国表示,当前工业互联网“百城千园行”行动纵深推进,标识解析体系服务企业超27万家,上...
日期:08-02
小红书登记小红圈PC端软件著作权「小红书用什么注册」
1 月 17 日讯:天眼查App显示,近日,小红书关联公司行吟信息科技(上海)有限公司的“小红书内部社区PC端软件”及“小红圈运营管理后台软件”著作权获得登记批准,两个软件简称分别为...
日期:01-17
便利店快卷不动了(便利店消费券在便利店怎么用不了)
  文 / 李丹昱 高梦阳  责编 /;高梦阳  编辑;/;高梦阳  便利店真的卷不动了。  今年上半年以来,便利蜂陆续将一部分门店进行“临时关店”处理。但近期多家媒体报道...
日期:08-22
给宠物做殡葬,一年两个亿!_3年殡葬6000只宠物
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。在杭州有一家这样的公司,一年给10万只宠物做丧葬服务,年营收超过2亿元...
日期:10-03
诺基亚智能手机哪款好「诺基亚智能手机推荐」
近年来,越来越多的品牌加入了智能手机市场,如苹果、三星、华为等。但作为最早进入手机市场的企业之一,诺基亚的智能手机仍然备受欢迎。下面就让我们一起来了解一些值得推荐的诺...
日期:05-29
抢疯了!多家航司推出“随心飞”:系统被挤崩溃
3月30日消息,据上游新闻报道,全国多家航司先后推出各种花式的随心飞”类产品,比如298元往返机票盲盒、1999元3个月内无限飞行、2000元国际港澳航班任选两次等等。以中国南方航...
日期:03-30
比亚迪上海车展2021直播「比亚迪上海车展几号展台公布:比亚迪百万豪车在这里」
快科技4月15日消息,2023上海车展展位图已出,比亚迪位于7.1H展区的7A06展台,同区域还有宝马、哈弗、零跑、高合、远航、百度、博世等厂商参展。此次比亚迪将在上海车展首发亮相...
日期:04-16
人工智能聊天机器人app「研究发现:AI聊天机器人让初级员工工作效率提高了35%」
4月25日 消息:一项新研究发现,在使用AI聊天机器人的的客服代理商中,经验最少和技能最低的客服从AI工具中获益最大,工作效率提高了35%。同时,一些高技能客服从AI工具收益较少。这...
日期:04-25
谷歌搜索全球市场份额_comScore:谷歌已占领拉美搜索市场90%份额
北京时间5月18日消息,据国外媒体报道,据市场研究公司comScore最新研究报告称,谷歌已经占领了拉丁美洲搜索市场90.5%的份额,相比之下,谷歌在美国搜索市场的份额只有65%。 据说...
日期:07-28
360诋毁金山软件构成不正当竞争 判赔30万道歉7天
  2011年10月24日消息,北京市高级人民法院近日对360公司发布不实信息、蓄意诋毁金山软件、恶意误导用户、强行卸载金山网盾等不正当竞争行为作出终审判决:驳回上诉,维持原判...
日期:07-24
比亚迪第500万辆新能源汽车下线,王传福现场数度哽咽、“怕等不到春天”
“2019年是比亚迪最艰难的一年,但是比亚迪只有一个目标,就是活下去,背后的辛酸和不易,只有我们自己更清楚。”8月9日,在比亚迪第500万辆新能源车下线的发布会现场,比亚迪董事长兼...
日期:08-10
技术创新引领,赋能数智未来:  2024中国电信终端技术策略重磅发布
通信世界网消息(CWW)11月11日,以“端云赋能,数智未来”为主题的2023数字科技生态大会终端技术标准与创新合作论坛在广州召开。会上中国电信发布了2024终端技术发展策略、2023中...
日期:11-12
免费!Unity中国联手AMD:打造“海飞丝”长发飘飘
早在2013年,AMD就开发出了TressFX Hair毛发渲染技术,应用于《古墓丽影》等游戏。当时的显卡还是Radeon HD 7000系列。apple watch 体感Unity中国今天宣布,经过与AMD两年多的合...
日期:12-15
一加8g和12g有什么区别「消息称一加12将搭载骁龙8 Gen3处理器 配备潜望式长焦」
7月13日 消息:最近有爆料人士OnLeaks曝光了一加12的渲染图,从渲染图可以看出,一加12的外观有一些细微的变化,包括前置摄像头居中和背部直立式长焦升级为潜望式长焦。在参数方面...
日期:07-13
齐博CMS获“微软”认证,喜登“微软”WebMatrix平台!_齐博CMS
  齐博CMS也即原PHP168之V系列,自2010年12月1日更名后,就备受广大媒体关注,而齐博官方团队也不负众望,在更名后的不久就先后发布齐博CMS之V7正式版、齐博B2B电子商务系统、齐...
日期:07-30
soul社交平台_Soul摘得《半月谈》、应用宝“social社交直播榜”星App奖
  近日,在《半月谈》、腾讯应用宝、易观千帆联合发布的《2019移动APP洞察报告》指出,颜值经济、儿童教育、圈层社交正逐渐成为互联网新的变现方向。以Soul为代表的兴趣社交...
日期:06-27
能源价格高涨,英国电动汽车快充费逼近油车加油费_英国电价飙升汽油短缺
  据英国广播公司26日报道,最新一项调查显示,由于英国能源价格高涨,用公共充电桩给电动汽车快速充电的花销,已经和燃油车加油费差不多。根据英国皇家汽车俱乐部的调查,自5月以...
日期:09-27
小猪短租上线“今晚特价”   要将房源出租率的掌控权最大限度地交给房东
  近日,共享住宿平台小猪短租面向房东推出了“今晚特价”功能。   根据小猪短租数据显示,有接近四成的平台民宿房客选择在入住日当日下单,此外,每天的20时至23时为用户下...
日期:10-19
如何看待特斯拉的销售变革_特斯拉销售模式有什么优缺点
在中国开了第一家商超体验店的特斯拉,近日正重新评估中国市场的电动汽车销售方式,考虑在客流量大幅下滑的地区,关闭部分豪华商场的展厅,并加大力度建设成本更低的郊区直营店,同时...
日期:09-23