您的位置:首页 > 媒体评论

ai绘画是什么意思_从画笔到像素:一文读懂AI绘画的前世与今生

发布时间:2023-03-23 02:03:38  来源:互联网     背景:

上周,备受期待的 Midjourney V5 AI 艺术生成器正式发布,再次改变了 AI 驱动的艺术创作世界。它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围,以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。

下图是以“埃隆·马斯克介绍特斯拉,90 年代的商业广告”为 prompt(提示),分别用 Midjourney V4 和 Midjourney V5 生成的图像。

此次满足人们期待的是,Midjourney V5 带来了更逼真的图片生成效果,更有表现力的角度或场景概述,以及终于画对的“手”。曾经在 AI 绘画界广泛流传的一个笑话是,“永远不要问一个女人的年龄或一个 AI 模型为什么要把手藏起来。”

ios14复制粘贴弹窗

这是因为,AI 艺术生成器是“画手困难户”,尽管它们可以掌握视觉模式,但不能掌握潜在的生物逻辑。换句话说,AI 艺术生成器可以计算出手有手指,但很难知道一个人的一只手正常应该只有 5 个手指,或者这些手指之间应该具有固定关系的设定长度。

在过去的一年里,AI 艺术生成器无法正确渲染手的 “缺陷” 已经成为一种文化修辞。手部问题在一定程度上与 AI 艺术生成器从它们接受训练的大量图像数据集中推断信息的能力有关。

腾讯收购黑鲨了么

值得注意的是,Midjourney V5 可以很好地生成逼真的人手。大多时,手是正确的,一只手有 5 个手指,而不是 7-10 个。

Midjourney V5 的发布,引起了全球用户更广泛的兴趣激增,巨大流量的涌入使得 Midjourney 服务器短时间崩溃,进而导致众多用户无法访问。除此之外,OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等 “文生图” 模型此前也是业内讨论的热门对象。

当人们向这些 “文生图” 模型中输入任何文本后,它们就可以生成与该描述相匹配的、较为准确的图片,生成的图片可以被设定为任意风格,如油画、CGI 渲染、照片等,在很多情况下,唯一的限制来自人类的想象力。

前世:一场从DeepDream开始的梦

ai绘画作品

2018 年,第一幅由 AI 生成的肖像《Edmond de Belamy》问世,它由生成对抗网络(GAN)创建,是 Obvious Art 的 “La Famille de Belamy” 系列的一部分,最终在佳士得艺术品拍卖会上以 432500 美元成交。

2022 年,Jason Allen 的 AI 创作作品《Théâtre D’opéra Spatial》在科罗拉多州博览会的年度艺术竞赛中获得了第一名。

近些年,各类 “文生图” 模型也在人们的期待中纷纷登场。当神经网络在图像处理方面取得了一定的成果后,研究人员们便开始开发一些可视化技术,以更好地了解这些神经网络是如何看待世界并进行分类的,由此塑造了一个又一个 “文生图” 模型。

DeepDream 根据神经网络学到的表征来生成图像,在获取输入图像后,通过反向运行经过训练的卷积神经网络(CNN),并试图通过应用梯度上升来最大化整个层的激活。下图(左)显示了原始输入图像及其 DeepDream 输出。

巴菲特 减持 比亚迪

令人惊讶的是,输出图像中包含了许多动物的面部和眼睛,这是因为 DeepDream 使用了 ImageNet 数据库(不同犬种和鸟类的例子)来训练。对于一些人来说,DeepDream 生成的图像类似于梦境般的迷幻体验。但即便如此,DeepDream 加速了人们将 AI 作为艺术图像创作的工具的工作。

Neural Style Transfer 是一种基于深度学习的技术,能够将一张图像的内容与另一图像的风格相结合,如上图(右),将梵高的《星夜》应用于目标图像。Neural Style Transfer 重新定义了 CNN 中的损失函数来实现——通过 CNN 的高层激活保留目标图像,以及多层激活来捕捉其他图像的风格。由此,输出的图像将保留输入图像的风格与内容。

2017 年,Wei Ren Tan 等人提出了模型 “ArtGAN”,尽管其输出的图像看起来完全不像是画家的作品,但仍旧捕捉到了艺术品的低阶特征。由此,ArtGAN 激发了更多研究者使用 GAN 生成艺术图像的兴趣。

不久之后,Ahmed Elgammal 等人提出创造性对抗性神经网络 “CAN”,以训练 GAN 生成被鉴别者视为艺术但不符合任何现有艺术风格的图像。由 CAN 产生的图像看起来大多像一幅抽象画,给人一种独特的感觉。

2017 年,Phillip Isola 等人创建了条件型 GAN,即 pix2pix,接收输入图像后生成一个转换版本。例如,在现实生活中,假设有一个 RGB 图像,我们可以轻松将其转换为 BW (黑白二值图像)版本。但若想要把 BW 图像变成彩色图像,依靠手动上色就很耗时。pix2pix 则可以自动完成这一过程,并应用于任何图像对的数据集,而不需要调整训练过程或损失函数。

pix2pix 是生成式 AI 的一个重大突破,但它需要相应的图像对来进行训练,而这并不适用于所有应用。例如,如果没有为莫奈创作的每一幅画提供相应的照片,pix2pix 就无法将输入转换为莫奈绘画。

为此,Jun-Yan Zhu、Taesung Park 等人提出了 “CycleGAN”,通过组合两个条件型 GAN 和它们之间的 “循环” 来扩展 pix2pix,这一模型可以将图像转换为其他模态,而无需在训练集中看到成对图像。

今生:Transformer 和 Diffusion 之争

重大的转折发生在 2021 年,一些 “文生图” 模型纷纷降临。OpenAI 发布了 DALL·E——以 Pixar 的动画片《Wall-E》和超现实主义画家 Salvador Dali 命名。DALL·E 结合了学习将图像映射到低维标记的离散变分自动编码(dVAE)和自回归建模文本和图像标记的 Transformer 模型。输入给定的文本,DALL·E 可以预测图像标记,并在推断过程中将其解码为图像。

ai画像描摹画笔

DALL·E 还可以将其单独学习但从未在单个生成的图像中看到的概念组合在一起。例如,在训练集中有机器人和龙的插图,没有龙形机器人。当被提示 “机器人龙” 时,模型仍可以产生对应的图像。

然而,虽然 DALL·E 可以很好地生成漫画和具有艺术风格的图像,但无法准确地生成逼真的照片。因此,OpenAI 投入了大量资源来创建改进的文生图模型——DALL·E 2。

DALL·E 2 使用 CLIP(图像文本对的数据集)文本编码器。DALL·E 2 中利用了文本描述和图像之间的关系,为 Diffusion 模型提供了一种嵌入,反映了文本输入且更适合于图像生成。与 DALL·E 相比,DALL·E 2 提高了图像的质量,并且还允许用户扩展现有图像或计算机生成的图像的背景。例如,把一些名作中的人物放置在自定义的背景之中。

不久之后,谷歌发布了名为Imagen 的文生图模型。这一模型使用 NLP 模型 T5-XXL 的预训练编码器,其嵌入被反馈送至 Diffusion 模型。因此,这一模型能够更准确地生成包含文本的图像(这是 OpenAI 的模型难以解决的问题)。

然而,在 “文生图” 领域最大的革命可能是 Stability AI 公司发布的完全开放源代码的 Stable Diffusion。Stable Diffusion 的计算效率远高于其他文生图模型,以前的文生图模型需要数百天 GPU 计算,Stable Diffusion 需要的计算量要小得多,因此资源不足的人更容易接受。它还允许用户通过图像与图像之间的转换(如将素描变成数字艺术)或绘画(在现有图像中删除或添加一些东西)来修改现有的图像。

深度学习及其图像处理应用现在处于与几年前完全不同的阶段。在上世纪初,深度神经网络能够对自然图像进行分类是开创性的。如今,这些里程碑式的模型或是采用 Transformer 或是基于 Diffusion 模型,能够基于简单的文本提示生成高度逼真和复杂的图像,使得 “文生图” 领域大放异彩,成为艺术界的一只新画笔。

“威胁” or “共生”,人类画家何去何从

AI artist 自诞生起就饱受争议,版权纠纷、输出错误信息、算法偏见等等,让“文生图”应用一次又一次站在了风口浪尖。例如,今年 1 月,三位艺术家对 Stable Diffusion 和 Midjourney 的创建者 Stability AI 和 Midjourney 以及 DreamUp 的艺术家组合平台 DeviantArt 提起了诉讼。他们声称,这些组织侵犯了 “数百万艺术家” 的权利,在 “未经原创艺术家同意” 的情况下,用从网络上抓取的 50 亿张图片来训练 AI 模型。

艺术家们大多很害怕自己会被机器人取代,因 AI 模仿其独特风格的模型而失去生计。在去年 12 月,数百名艺术家向互联网上最大的艺术社区之一 ArtStation 上传图片,表示 “对 AI 生成的图像说不”。同时,一些艺术家悲观地认为,“我们正眼睁睁地看着艺术之死展开”。围绕训练数据中使用的图像版权问题,尚处于争议之中。

当然,也不乏一些艺术家积极地拥抱 AI,将文生图模型当作自己的绘画助手,省去重复性的枯燥劳动。同时,一些艺术家将 AI 作为想象力的 “引擎”,在与类似 Midjourney 软件及社区中的用户交互中,彼此互相撕裂,产生新的、有趣的人类美学,进而溢出到真实世界。正如 Midjourney 所描述的:“AI 不是现实世界的复刻,而是人类想象力的延伸”。

目前,监管机构正在追赶 AI artist 的脚步。最近,美国版权局在一封信中表示,使用 AI 系统 Midjourney 创建的图画小说中的图像不应获得版权保护,该决定是美国法院或机构对 AI 创作的作品的版权保护范围做出的首批决定之一。另外,一些学者为保护艺术家免受文生图 DIffusion 模型的风格模仿,提出了一个允许艺术家将精心计算的扰动应用到他们的艺术中的系统—— Glaze。

一系列 “文生图” 应用允许没有编程知识的艺术家及大众使用这些强大的模型,生成极具视觉震撼的图像。“给 AI 以创造”,不论是绘画还是其他领域,这些工具可以帮助艺术家表达他们的创造力,并可能塑造艺术的未来。

AI 在艺术中的作用将取决于它的使用方式以及使用它的人的目标和价值观,重要的是要记住,这些模型的使用应该以道德和负责任的考虑为指导。

参考链接:

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

广达macbook

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/


返回网站首页

本文评论
赛力斯被华为“掏空”,甘愿成为其背后的代工厂?「华为赛力斯哪里造」
原标题:华为“掏空”赛力斯戴森最新空气净化器出品 | 子弹财观作者 | 荷默编辑 | 蛋总“最大的缺点竟是价格太低”,“创造单月销量过万最快的汽车品牌”这是近日华为常务董事...
日期:09-03
网文下半场:起点读书DAU同比增80% 免费小说也开始收费了
Tech星球(微信ID:tech618)文 | 陈桥辉封面来源 | 图虫创意网文行业的下半场,或许正出现转折点。近日,Tech星球独家获悉,阅文集团副总裁黄琰通过个人的微信朋友圈,表达了对起点读书...
日期:01-06
生物科技遇资本寒冬 2023“药”不能停
虎嗅注:很难说2023年是美好的,但人总是要有奔头的。与奥密克戎的缠斗是2022年贯穿始终的宏大叙事,从此起彼伏到最后一个月的排山倒海。严格地封控、突然地放开,一瞬间完成了历史...
日期:01-03
半导体的买点 可能不远了「半导体现在可以买了吧」
作者 | 深鹏半导体公司业绩暴雷,汹涌袭来。上周五,韦尔股份披露业绩预告,预计2022年年度实现归属于上市公司股东的净利润为8亿元—12亿元,同比减少73.19%—82.13%;扣除非经常性损...
日期:01-20
iPhone 14 Plus最高支持28W快充?最新充电测试结果出炉_iphone14支持多少w快充
10月7日,iPhone 14 Plus正式开售,不过开售当日就在市场上遇冷,罕见地首发即破发。但是作为苹果今年新推出的iPhone产品线,iPhone 14 Plus还是有着不少亮点的,最近也有相关评测机...
日期:10-13
余承东扫清了一切障碍「余承东是怎么回事」
2月6日,一张华为常务董事、消费者BG CEO、智能汽车解决方案BU CEO余承东与阿维塔科技董事长兼首席执行官谭本宏一同参观阿维塔新车的照片在网上爆出。这张照片很有意思。照片...
日期:02-10
官翻机是个好生意 但只有苹果做出了知名度_官翻机苹果怎么样
前阵子,苹果发布了iPad10。对这样一款非常有争议性的产品,雷科技编辑部的小伙伴们自然毫不客气,纷纷开炮吐槽。在一番讨论后,我们都得出了它不是很值得买的结论。而且,还有人在苹...
日期:11-07
他们在工厂:从痴狂到“抓狂”「工厂也疯狂」
作者|宇多田没有一个科技创业者会放弃这样“登门”的机会,特别是在2022年。从合肥到芜湖直线距离约120公里的安徽腹地上,是绵延数万亩的白皮厂房、吊塔与巨型油罐,这是一条贯穿...
日期:10-13
18元10万赞 直播间人气全靠刷
“刷数据”一词,跟随电商平台而出现,现在,这股歪风邪气一路吹到了短视频和直播平台。2023年央视3·15晚会,就曝光了火爆直播间背后的黑幕:一台手机操纵2万水军,直播间人气、播放量...
日期:03-17
华为赛力斯是华为的吗_不是赛力斯需要华为 而是华为需要赛力斯
问界卖爆,华为证明自己是懂车的。所有人几乎已经认定问界成功=华为成功。甚至问界母公司赛力斯本身,也不避讳华为的作用。华为成功了这没错,如今这种模式被证明被跟随,越来越多...
日期:03-21
“先涨价再降价”老套路为何难禁止_先涨价再打折
春节晚会2022央视直播完整版作者/张涛漫画/陈彬微盟 精准营销10月24日晚8点,各大电商平台的“双十一”预售正式开启,今年“双十一”大促进入实质性阶段。近日有网友发现某平台...
日期:11-05
上市三年就换代,卖车真成了卖手机?_即将换代的车型能买吗
撰文 | 吴雪编辑|杨光出品|汽车产经快速增长的新能源车,也在马不停蹄地“制造”着新问题。最近,理想ONE因为换代停产问题再次被推上了风口浪尖。而在此之前,2021款理想ONE换代时...
日期:09-22
电脑版qq安全中心_PC版“我的QQ中心”页面将于9月26日下线
  8月31日消息,近期,腾讯QQ团队宣布,PC版“我的QQ中心”页面将于2022年9月26日下线,届时,功能都可以在手机QQ中找到并正常使用。ipad序列号外壳华为66w快充支持mate30吗  同...
日期:09-01
马斯克把公开给他纠错的工程师开除了「马斯克其父是土木工程」
“He’s”fired.”马斯克的裁员大戏还在继续,而最新的这“一集”,矛头直指一名在推特待了6年的工程师。甚至The Verge都这样描述:虽然马斯克已经开除了数千人,但最新的人事变动...
日期:11-26
新加坡华裔首富_新加坡首富们在渡劫
文 | 好看商业,作者|周一围,编辑|安心在最新福布斯新加坡排行榜上,迈瑞医疗创始人李西廷以156亿美元身家蝉联首富,财富值与去年同期比基本“腰斩”。前首富Sea创始人李小冬身家只...
日期:09-27
iphone查找朋友发送的邀请_“查找”内暗藏“交友邀请” 苹果iPhone手机多功能现骚扰推送
  9 月 18 日消息,北京青年报报道称,一位使用苹果 iPhone 的赵女士最近经常收到来自“查找”功能推送的骚扰信息,内容不堪入目。她发现,这是因为查找功能内藏着一个“允许交...
日期:09-19
OpenAI还在烧钱 但开发者已经利用GPT和Stable Diffusion挣钱了
Text-to-Video文生视频,继作文、绘画之后AI杀入的又一领域,有越来越多产品涌现。根据读者爆料,一款主打AI生成视频的产品,已经在小圈子内被频频提及,还是国产的。量子位迫不及待...
日期:03-16
流浪地球版权卖了多少_衍生品售卖超目标千倍,《流浪地球2》为何冲破影视IP天花板?
来源 | Tech星球文 | 王琳“哇,买了很多周边,感觉还是不够。”1月28日,一位西北工业大学的硕士研究生在买了4款《流浪地球2》周边衍生品后在小红书上感叹,“还想买'笨笨'(电影中...
日期:02-06
上线海外“砍一刀” 赞助美国春晚 年亏67亿元的Temu还在提速狂奔
文 | 派财经,作者 | 玛丽亚,编辑 | 派公子在北美狂奔半年的拼多多海外版“Temu”,战绩赫赫。去年9月,拼多多海外版“Temu”正式在美国上线。数据显示,截至2023年2月23日,Temu App...
日期:03-18
大龄互联网人,去哪了?「互联网大厂年龄分布」
在互联网行业工作的人,多多少少都听说过“35岁定律”,即35岁还不能成为管理层,就很有可能被优化。而在真实的职场面试中,35岁的确成为了互联网人就业的紧箍咒。那些35+的互联网...
日期:02-26