您的位置:首页 > 互联网

微调Flux席卷全网,外国小哥一人组一队漫威英雄!

发布时间:2024-08-19 15:16:42  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:新智元,授权转载发布。

Midjourney之后,从未见人们对某个AI生图应用,如此疯狂着迷。

Flux的横空出世,意味着AI图像生成迈入了一个全新的阶段。

马斯克本人表示,真假已经傻傻分不清。

先是,一张TED演讲者逼真照片席卷了整个互联网。再之后,集成Flux模型的Grok2破除护栏限制,被网友玩疯。

最近,Flux开发者们也纷纷入坑,开启微调自己的LoRA模型。

HuggingFace联创惊叹道,Flux已经完全席卷了开源AI界,从未见过一个模型,同时有如此多的衍生模型/在线平台/demo占据热榜。

一手微调的开发者表示,Flux+LoRA将颠覆生成式AI市场。你可以在任何地方,戴着任何东西,穿着任何你喜欢的衣服,生成不同的自己。

比如,让自己变身超人。

拿上伸缩光影剑,变身绝地武士,愿原力与你同在。

不仅如此,冰雕,拿着switch游戏机,精灵耳,时装走秀等各种形象的照片,都是动动嘴皮子的事。

微调自己的LoRA,现已经成为许多开发者的新玩物。

这不,全网都被Flux+LoRA淹没了。

iphone 12 pro涨价

一个人就能组成复仇者联盟

Rundown AI的创始人Rowan Cheung将自己的照片作为数据,用Flux训练了一个LoRA模型,然后联动Runway让其动起来。

如下,生成了一张类似TED演讲者的图片。

做成视频后,照片中的自己真的活灵活现了,很有演讲者范儿。唯一不足的是,右手到后面指头就变成了2-3根。

另一张,生成了以超人身份拯救世界的自己。

配上动画,终于做了一回漫威中的英雄。

再生成一张身穿时装,走秀现场的照片。

两边观众热烈鼓掌,也算是体验了一把T台走秀。

此外,Rowan Cheung还生成了不同风格的自己,和场景融合自洽,毫无违和感。

左右滑动查看

他认为,虽然AI生图依旧不能替代完整的电影/商业广告,但其已经有很多重要的用途,尤其对内容创作者来说。

比如,这些AI图片制作用于新闻的预览图和配图,以及短片中的补充素材(B-roll)。

网友Min Choi看后表示,自己可以组建一支复仇者联盟了。

前英特尔CTO在A100上,同样微调了一个自己的LoRA模型,75分钟花费了7美金(约50元)。

左右滑动查看

还有开发者硬是把自己拍成了恐怖片。

分不清AI还是现实

要说最火的,还是超现实主义的微调版本——让人越来越分不清想象和现实的边界了。

是真实的照片,还是AI画出来的人?

在Flux-Dev中用LoRA训练后,无论是场景复杂性还是真实感,都取得了不可思议的进展。

什么风格都能微调

除此之外,各种不同风格的微调也层出不穷。

像素风格

开发者以传奇的ZX Spectrum中的风格为例,微调出类似像素的图片生成LoRA。

下面生成图像中,有龙珠孙悟空、漫威钢铁侠、川建国(貌似)等形象。

左右滑动查看

动画涂鸦

富途esop

PS生成式AI产品设计人Davis Brown基于Flux,微调出了一个half_illustration模型。

它生成的图片,有一部分是真实照片的画风,一部分是动画涂鸦的风格。

联发科g80和天玑900跑分对比

每次生图前,只需要在提示开头加上——In the style of TOK。

然后,具体描述想要的效果,就能立即出片。

以后感觉不一定非得用PS,直接AI生图就可以了。

prompt:In the style of TOK, a photo editorial avant-garde dramatic action pose of a woman short blue hair wearing70s round wacky sunglasses pulling glasses down looking forward, in Tokyo with large marble structures and bonsai trees at sunset with a vibrant illustrated jacket surrounded by illustrations of flowers, smoke, flames, ice cream, sparkles, rock and roll

prompt:In the style of TOK, a photo editorial dramatic action pose of a person piercing eyes, tattoos on face, with creative bucket hat, standing in Tokyo with large marble structures and white purple trees in a Basketball court, with a vibrant illustrated street wear puffy vintage jacket, black shirt, volcano in the background, surrounded by illustrations of smoke, flames, and flowers, fog, exclamation marks, lines shooting outwards, minion characters, butterflies

还有其他涂鸦风格的照片。

左右滑动查看

九宫格

开源数据集平台LAION用Flux模型,训出了一个可以生成3x3九宫格照片,还是不同角度的自己。

以后自拍一张,就够了。

左右滑动查看

不同年龄

一个人一生的样貌,透过Flux+LoRA便可看到。

左右滑动查看

另一个例子:

左右滑动查看

可玩性超强

今天的主角——FLUX.1,采用了一种全新的流匹配技术。

以前的扩散模型是通过逐步去除从随机起点开始的噪声来创建图像,而流匹配则采用更直接的方法,学习将噪声转换为真实图像所需的精确变化。

这种方法上的差异带来了独特的美学风格,并在速度和控制方面具备极大的优势。

文本:大部分都能get到

文本到图像生成的挑战之一是准确地将文字转化为视觉表现。FLUX.1在这方面处理得相当好,即使是在像表情包这样复杂的场景中。

prompt:

Thisisfine dog meme underwater. Text: ‘Climate change is fine’

这是一个在水下的fine dog表情包。文字:气候变化问题不大

prompt:

A meme of a famous actor making a funny face with the text ‘When you forget your lines’ in a quirky font

一位著名演员做鬼脸的表情包,上面用古怪的字体写着当你忘词的时候

光线和质感都不错

FLUX.1对光线、阴影和纹理有敏锐的理解,能始终如一地生成高质量的图像。

prompt:

A detailed image of a garden where the flowers are made of delicate glass, reflecting the sunlight beautifully

一个花园的详细图像,其中的花朵由精致的玻璃制成,阳光下反射出美丽的光芒

在这幅图里,重点不仅在于玻璃的质感,还在于光线如何通过花瓣折射和传递,创造出一种发光的效果。

prompt:

Owl feathers merging with autumn leaves in wind

猫头鹰的羽毛与秋叶在风中融合

艺术风格:不止是模仿

FLUX.1似乎掌握了各种艺术风格背后的原理,使得创造性的重新诠释成为可能。

prompt:

watercolor of famous wave painting

著名波浪画的水彩画

这幅《神奈川冲浪里》的水彩版本不仅暗示着标志性波浪是模型训练数据的一部分,还突出了流技术如何近似颜料在水、纸和墨水中的运动。

构图:让场景有意义

FLUX.1擅长构建复杂的场景,以一种既真实又有视觉吸引力的方式放置物体和角色。

prompt:

A realistic image of an enchanted library where books float in mid-air and the shelves are made of ancient, twisted roots

一个现实主义的魔法图书馆图像,书籍在空中漂浮,书架由古老扭曲的根制成

流:一种新的视觉语言

FLUX.1所采用的流匹配技术,赋予了图像一种独特的有机运动感和流动性,仿佛像素本身在流动。

prompt:

Dog with swirling, Van Gogh-style fur patterns

狗身上有旋转的梵高风格的毛发图案

总有一款工具,能帮你搞定

我们可以把图像的生成过程概括为:获取一些输入像素,将它们从噪声中稍微移开,朝着由你的文本输入创建的模式移动,并重复这一过程,直到达到设定的步骤数。

而微调过程则是从数据集中获取每个图像/标注对,并稍微更新其内部映射。

只要可以通过图像-标题对表示,你就可以通过这种方式教会模型任何内容:角色、场景、媒介、风格、流派。

左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成

在训练中,模型将会学习如何把这些概念与特定的文本字符串关联起来。而在提示中,则需要加入这个字符串来激活这种关联。

比如,你想微调一个漫画风超级英雄的模型。

首先,需要收集大量关于角色的图像作为数据集,包括但不限于:不同的场景、服装、灯光,甚至可能是不同的艺术风格

然后,选择一个简短且不常见的词或短语作为你的触发词:一种不会与其他概念或微调冲突的独特内容。你可能会选择像糟糕的70年代食物或JELLOMOLD这样的词。

在训练完成之后,你只需给出一个包含触发词的提示,如在旧金山的聚会上拍摄糟糕的70年代食物的场景,模型就会调用你之前微调时加入的特定概念。

就这么简单。

在了解了原理之后,我们就可以任选一个工具来微调模型了。

左:使用原始FLUX.1模型生成;右:使用相同提示和种子,在fofr/flux-bad-70s-food模型上生成

比如一位叫Matt Wolfe的小哥,在看到上面这些酷炫的生成之后,也好奇地上手试了一把。

结果,他翻车了……

做出的AI图像,堪称买家秀和卖家秀的区别。

这是他生成的——

这是别人的——

两张图片高下立判,区别就在于用没用LoRA微调。

被刺激到的小哥,立刻去研究了一番,他惊喜地发现,LoRA模型很小,只有2到500MB,可以轻易地和现有的模型结合。

更令人惊喜的是,并不需要额外的算力,也不需要全面的再训练,就可以让AI模型提高画质,产生独特的风格,或者生成特殊的人物,比如马里奥或者海绵宝宝。

遗憾的是,在小哥用得顺手的Glif上,Flux中并不能使用LoRA。

他发现,能使用Flux的其中一种方法,是用ComfyUI。

这张图,相信很多人都很熟悉了

或者,也可以使用Replicate、HuggingFace Spaces或Fal AI之类的平台。

小哥在Fal平台上试用后,发现每百万像素花费0.035美元,所以,只要花1美元,就可以运行模型29次,还是比较划算的。

在这里FLUX.1dev、Flux Realism LoRA、FLUX.1pro等等,都是可以使用的。

小哥二话不说,选择了Flux Realism LoRA。

经过精心调试后,小哥将推理步长设置在了28,CFG设置在了2。

产生的图像,效果非常惊喜!

如果说有什么瑕疵,就是额头皱纹处的打光仍然不自然。

接下来,小哥兴奋地将图像导到Gen-3Alpha中,根据他输入的prompt,Gen-3Alpha生成了视频。

除了在某一刻,手中的麦克风突然飘浮了起来,视频的其余部分,挑不出太大毛病了。

小哥又尝试了一遍,生成了第二个视频。

这一次,麦克风又显得太过静止了,仿佛定在了原地。

另外,小哥也加入了全网爆改自己的大潮,生成一系列爆笑的照片。

最后,小哥再用Gen-3Alpha把它变成视频,就让自己和死侍走在了同一部电影的画面中。

参考资料:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM


返回网站首页

本文评论
智慧办公,一屏到位!优秀企业团队奖就选华为办公宝(华为举行智慧办公新品发布会)
  伴随5G、AI、云、loT等前沿技术的发展,“智慧化”不仅让生活更方便,也逐渐进入办公场景,助力办公更高效。基于此,华为发布了“智慧办公,一屏到位”的华为办公宝,一体式融合智...
日期:07-16
小米称造车不影响运营 雷军曾表态要做世界前五:出货量超1000万_小米到底造不造车
11月23日下午小米发布了Q3季度财报,营收704.7亿元,预估701.6亿元,同比下滑9.7%;净亏损15亿元,去年同期为盈利7.88亿元;经调整后净利润为21亿元,同比下滑59.1%。在这个季度中,小米的...
日期:12-04
2年积累千万私域用户,GMV超2亿,热风的私域好在哪里?
声明:本文来自于微信公众号 晏涛三寿(ID:yantao-219),作者:晏涛,授权转载发布。近几年受疫情影响,快时尚品牌的线下生意都受到了严重冲击,众多品牌纷纷开始向线上转型。「Hotwind...
日期:12-12
微软也要在Bing搜索结果中加入AI摘要-百度、谷歌之后_微软bing搜索好用吗
7月25日消息,据媒体报道,继百度、谷歌之后,微软也将在其搜索引擎Bing的搜索结果中引入AI摘要功能。Bing生成搜索功能目前处于预览阶段,它通过AI技术为用户提供搜索查询的首选结...
日期:07-26
上海电信流量回馈活动_聚焦用户可感、可知、可及!上海电信推出信息消费节十大福利
  5月17日,“世界电信和信息社会日”如约而至,以“数字交响·城市焕新”为主题的2021上海信息消费节也正式拉开帷幕,节日期间,中国电信上海公司(以下简称“上海电信”)响应市...
日期:05-05
QM发布2018年度榜单 米读小说跃进闪耀新星TOP10_米读小说排行
  近日,Questmobile发布了2018年度中国移动互联网榜单,趣头条兄弟APP米读小说闯入了闪耀新星TOP 10名单。QM在《中国移动互联网2018年度大报告》(简称《报告》)中指出,“很...
日期:01-26
中兴首款Wi-Fi 7路由器问天BE7200Pro+即将开售_中兴t700s
无限苍穹,问天一梦。苹果芯片为什么找台积电代工中兴Wi-Fi 7路由器——问天BE7200Pro+即将开售!零售价649元,iphone14四款新机前置终于大升级十大网上购物平台排名首销价599元!1...
日期:12-28
AMD面临艰难新季度,与英特尔英伟达的竞争不断加剧_英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退
realme gt neo2屏幕素质你以为诺基亚死了,它却一跃成为全球5G巨头   过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当...
日期:08-16
节后朋友圈摄影大赛 用三星Galaxy Z Fold4轻松集赞朋友圈_三星手机摄影大赛获奖作品
每到五一长假结束,各类社交网络与朋友圈都会成为分享假期生活的秀场:各类美图、视频精彩纷呈,仿佛置身于一场亲朋好友间的“摄影大赛”。在人人都用手机记录生活的当下,如果想要...
日期:05-04
小米14系列正式官宣:为女性用户量身打造的机身设计_小米14什么时候出
小米14系列即将发布,根据最新的爆料,小米14系列可能会在10月27日举行发布会。据悉,这次发布会的内容很丰富,其中包括了为女性用户量身打造的机身设计。国际无人机应用及防控大会...
日期:10-16
诺西并购摩托案二度推迟 商务部继续延期审查
  诺基亚西门子通信对摩托罗拉无线部门并购一案已然陷入“明日复明日”的状态。   日前诺西发表声明称,“我们预期该交易(并购摩托)无法在之前宣布的时间内,即2011年一季...
日期:07-26
韩国互联网巨头Kakao被罚151亿韩元破纪录,因泄露用户数据_韩国kakao旗下艺人
5 月 23 日消息,韩国个人信息保护委员会(PIPC)今日宣布,KakaoTalk 因漏洞导致约 6.5 万用户个人资料泄露,决定对 Kakao 公司处以 151 亿韩元(备注:当前约 8018.1 万元人民币)罚款,这...
日期:05-23
摩拜欧洲业务出售已进入最后阶段 估值预计达1亿美元_摩拜市值多少亿
  4月11日消息,据国外媒体报道,去年,摩拜以27亿美元的价格卖给了美团点评。现在,该公司的欧洲业务出售已处于最后阶段。   该交易将剥离摩拜的欧洲业务,因为它的母公司美团...
日期:02-18
2022年苹果14「iPhone14价格不降反涨 iPhone15系列未达消费者预期」
9月15日 消息:在苹果公司于9月13日发布iPhone15系列之后,其中国官网显示,iPhone14全系售价降低,同时下架了iPhone14Pro系列。然而,多家媒体报道称,多名华强北商家已确认iPhone14...
日期:09-15
日本希望 AI 促进经济增长 倾向于采用比欧盟更宽松的人工智能法规
7月4日消息:根据一位了解相关讨论的官员透露,日本在人工智能(AI)使用方面的规定倾向于比欧盟更为宽松。日本希望利用这项技术促进经济增长,并在先进芯片领域成为领导者。这位官...
日期:07-04
疾风骤雨笼罩科技行业收购 微软何时吞下动视暴雪?
南方财经全媒体记者江月 上海报道 科技界一桩轰动的收购案,正在疾风骤雨的环境里向前推进。距离收购发起已时隔半年,作价687亿美元的微软收购动视暴雪案,将在本月收到关键的政...
日期:08-04
数字藏品怎么卖_数字藏品交易要注意知识产权问题
转自:经济参考报 三星galaxy是什么联想(Lenovo)YogaDuet 英特尔酷睿i5 13英寸   平面设计师Beeple的作品《每一天:最初的5000天》。资料图片   2021年3月,一件名为《每一天...
日期:08-16
首发3nm PC芯片!苹果M3 MacBook Pro 14英寸翻新机开售:10999元起_翻新macbookpro能买吗
快科技3月3日消息,日前,苹果中国官网正式上架M3版MacBook Pro 14英寸的官方翻新机,售价10999元起。据了解,M3MacBook Pro 14英寸翻新机共有5款配置,相比购买全新机最高能省2500元...
日期:03-03
微软发文:27亿参数的Phi-2性能优于谷歌32亿参数的Gemini Nano-2
IT之家 12 月 13 日消息,微软公司今天发布新闻稿,表示旗下的 Phi-2 2.7B 模型,在多个方面都优于谷歌发布的 Gemini Nano-2 3.2B。Phi-2 2.7B 模型IT之家今年 11 月报道,微软在 I...
日期:12-13
中国移动边燕南:深化“262”策略,推动5G-A“点状突破”_边燕南 中国移动
通信世界网消息(CWW)近日,“2024世界电信和信息社会日大会”在宁波召开,在同期举办的“5G-A建设与应用创新发展论坛”上,中国移动通信集团有限公司5G共建共享办公室主任、计划建...
日期:05-24