您的位置:首页 > 互联网

错误率降低44%!纽约大学最新「人脸生成」可让年龄随意变化:从少年到老年全覆盖

发布时间:2023-09-06 14:49:27  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】只需几张图像,用文本即可生成任意年龄图像,用户反馈准确率达80%!

当下的「人脸识别系统」抗衰老能力非常弱,人物面部老化会显著降低识别性能,隔一段时间就需要更换人脸数据。

提升人脸识别系统的鲁棒性需要收集个体老化的高质量数据,不过近几年发布的数据集规模通常较小,年限也不够长(如5年左右),或是在姿态、照明、背景等方面有较大变化,没有专注于人脸数据。

赵明的magic3是麒麟芯片吗

最近,纽约大学的研究人员提出了一种通过隐扩散模型保留不同年龄身份特征的方法,并且只需要少样本训练,即可直观地用「文本提示」来控制模型输出。

论文链接:https://arxiv.org/pdf/2307.08585.pdf

摩托罗拉edge s pro和edge s区别

研究人员引入了两个关键的组件:一个身份保持损失,以及一个小的(图像,描述)正则化集合来解决现有的基于GAN的方法所带来的限制。

在两个基准数据集CeleA和AgeDB的评估中,在常用的生物特征忠诚度(biometric fidelity)指标上,该方法比最先进的基线模型在错误不匹配率上降低了约44%

追踪人脸的年龄变化

DreamBooth

文中提出的方法基于潜扩散模型DreamBooth,其可以通过对文生图扩散模型微调的方式将单个主体放置在其他上下文(re-contextualization)中。

Dreambooth的输入要求为目标主体多张图像,以及包含主体的唯一标识符和类标签(class label)的文本提示,其中类标签是多个实例的集合表示,主体对应于属于该类的特定示例。

Dreambooth的目标是将唯一标识符与每个主体(类的特定实例)相关联,然后在文本提示的指导下,在不同的上下文中重新创建同一主体的图像。

类标签需要利用指定类别预训练扩散框架的先验知识,如果类别标签不正确或丢失可能会导致输出质量下降,唯一token充当对特定主题的引用,并且需要足够少见以避免与其他常用概念冲突。

原文作者使用了一组少于3个Unicode字符序列作为token,并用T5-XXL作为分词器。

DreamBooth使用类别先验保存损失(class-specific prior preservation loss)来增加生成图像的可变性,同时确保目标对象和输出图像之间的偏差最小,原始训练损失如下:

DreamBooth在先验保存的帮助下可以有效地合成狗、猫、卡通等主体图像,不过这篇论文中主要关注的是结构更复杂、纹理也偏细节的人脸图像。

虽然类标签「person」可以捕获类似人类的特征,但这可能不足以捕获因个体差异而形成的身份特征。

所以研究人员在损失函数中引入了一个身份保存(identity-preserving)项,可以最小化原始图像和生成图像生物特征之间的距离,并用新的损失函数微调VAE。

公式中的第三项代表被拍摄物体的真实图像和生成图像之间生物特征距离,其中B代表两张图像的L1距离,相同的图像距离接近0,值越大代表两个主体的差异越大,使用预训练VGGFace作为特征抽取器。

下一步是针对特定目标进行微调,使用冻结的VAE和文本编码器,同时保持U-Net模型解冻。

UNet对VAE的编码器产生的潜在表征进行去噪,使用身份保持对比损失进行训练。

研究人员采用SimCLR框架,使用正负样本对之间的归一化温标交叉熵损失(temperature-scaled cross-entropy loss)来增强潜在表征,即下式中的S函数。

在加权项λs=0.1且温度值=0.5的情况下,计算无噪声输入(z0)和去噪声输出(zt)的潜在表征之间的对比损失。

U-Net架构中潜在表征之间的对比损失使得模型能够微调不同主体的扩散模型。

除了定制损失外,研究人员还使用正则化集将面部年龄发展(progression)和回归(regression)的概念赋给潜在扩散模型,其中正则化集合包括一个类别中所有代表性的图像,在本例中为person.

如果目标是生成真实的人脸图像,那从互联网上选择人脸图像的正则化集就足够了。

不过本文中的任务是让模型学习衰老和返老还童的概念,并且还要应用到不同的个体上,所以研究人员选择使用不同年龄组的人脸图像,然后将其与一个单词描述(one-word caption)进行配对。

图像描述对应于六个年龄组 :儿童(child)、青少年(tennager)、年轻人(youngadults)、中年人(middleaged)、中老年人(elderly)、老年人(old )。

相比数字提示(20岁、40岁),年龄描述的性能更好,并且可以在推理中用文本来提示扩散模型((photo of a ⟨ token ⟩ ⟨ class label ⟩ as ⟨ age group ⟩)

实验结果

实验设置

研究人员使用Stable Diffusion v1.4实现的DreamBooth进行实验,使用CLIP文本编码器(在laion-aesthetics v25+上训练)和矢量量化VAE来完成年龄变化,在训练扩散模型时,文本编码器保持冻结状态。

研究人员使用来自CelebA数据集100名受试者的2258张人脸图像和来自AgeDB数据集100名受试者的659张图像构成训练集。

除了二元属性「Young」之外,CelebA数据集没有受试者的年龄信息;AgeDB数据集包含精确年龄值,研究人员选择图像数量最多的年龄组,并将其用作训练集,其余图像则用于测试集(共2369幅图像)。

研究人员使用(图像,描述)数据对作为正则化集,其中每个人脸图像与指示其相应年龄标签的标题相关联,具体儿童<15岁、青少年15-30岁、年轻人30-40岁、中年人40-50岁、中老年人50-65岁、老年人>65岁,使用四个稀少token作为标记:wzx, sks, ams, ukj

对比结果

研究人员使用IPCGAN、AttGAN和Talk-toEdit作为评估对比基线模型。

由于IPCGAN是在CACD数据集上训练的,所以研究人员对来自CACD数据集的62名受试者进行了微调,可以观察到FNMR=2%,而文中提出的方法FNMR(False NonMatch Rate)=11%

可以看到IPCGAN默认情况无法执行老化或变年轻的操作,导致FNMR值很低。

狄耐克股东

研究人员使用DeepFace年龄预测器进行自动年龄预测,可以观察到,与原始图像和IPCGAN生成的图像相比,文中方法合成的图像会让年龄预测得更分散,表明年龄编辑操作已经成功。

在CelebA数据集上应用AttGAN和对话编辑时,在图像对比和生物特征匹配性能上,可以观察到,在FMR=0.01时,文中方法在「young」类别的图像上优于AttGAN19%,在「old」类别图像上优于AttGAN7%

用户研究

研究人员收集了26份用户反馈,rank-1生物特征识别准确率(响应总数的平均值)达到了78.8%,各年龄组的正确识别准确率分别为:儿童=99.6%、青少年=72.7%、青少年=68.1%、中年=70.7%、老年人=93.8%

也就是说,用户能够以相当高的准确度成功地区分来自不同年龄组的生成图像。

参考资料:

https://arxiv.org/abs/2307.08585


返回网站首页

本文评论
你怕失业吗?日本女学生害怕被AI取代而自杀:对比后感觉自己一无是处
你会因为AI的竞争,而感到压力山大吗,然后选择最极端的方式?7月30日,日本福井县坂井市的著名景点东寻坊成为了一起引人关注的事件现场。据报道,一位就读于艺术学科的大一女生在此...
日期:07-31
核心部件100%国产化!华工科技造出我国首台高端晶圆激光切割设备
通信世界网消息(CWW)今日,据“中国光谷”官微消息,近期华工科技公司已制造出我国首台核心部件100%国产化的高端晶圆激光切割设备,在半导体激光设备领域攻克多项中国第一。新款mac...
日期:07-12
消息称 AMD 苏姿丰将拜访台积电,商谈 2nm 和 3nm 芯片产能「台积电明年将量产5nm芯片」
IT之家 9 月 25 日消息,据台媒 DigiTimes 报道,AMD 首席执行官苏姿丰和公司其他 C 级高管计划于 9 月底至 11 月初前往台湾地区,打算会见台积电、芯片封装专家和大型 PC 制造商...
日期:09-26
腾讯云大数据平台「腾讯云与福建大数据集团发布政务大模型“小闽助手”」
4月26日 消息:4月25日,腾讯云与福建大数据集团正式签署合作协议,以腾讯云智能AI算力调度平台、大语言模型算力及技术能力为基础,共建“福建智力中心”项目,并助力打造互动式政务...
日期:04-26
kindle用笔「亚马逊发布新款Kindle 搭配手写笔售价339美元」
  讯 北京时间9月29日早间消息,据报道,亚马逊正在对Kindle阅读器进行新的改造。本周,亚马逊推出的又一款Kindle配备了手写笔,帮助用户记笔记。  当地时间周三,亚马逊在设备业...
日期:10-04
中兴5G云笔电“驭风2”将亮相2023北京通信展_中兴v2020 2021
2023/6/2 10:00 中兴5G云笔电“驭风2”将亮相2023北京通信展   第31届中...
日期:06-02
快手消费等级提升规则「快手调整【消费者保障】规则 将于10月18日生效」
10月11日 消息:今天,快手发布关于【消费者极致保障】规则的调整公告。公告称,为提升商户/带货达人服务水平和经营质量,给消费者创造更好的购物体验,现对《快手小店售后服务管理...
日期:10-26
15万级纯电SUV卷王!广汽埃安Aion Y Plus上市:13.98万起「广汽新能源suv埃安Y」
9月27日,AION Y Plus正式上市,共推出510km、610km两个续航版本共计6款车型,补贴后的官方指导价为13.98万元-17.98万元,10月即开始交付。作为15万级纯电SUV的首个10W+,AION Y产品...
日期:09-28
12岁男孩玩游戏一个月花掉10多万!家长申请退款却遭拒绝_12岁孩子玩游戏花钱能追回吗
5月13日消息,据北京日报报道,王女士发现银行卡中少了十万多元,她连忙打印了银行流水,查到大部分消费的收款方是一家游戏公司,王女士一问12岁的儿子小宇才得知真相。原来小宇迷上...
日期:05-14
Mac、iPad卖不动,苹果靠iPhone续命_mac和ipad哪个保值
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:王敏,授权转载发布。北京时间5月5日凌晨,苹果交出了最新一季度的成绩单。根据财报,在2023年一季度(截至4月1日的2023财年...
日期:05-07
抖音网页版上线“放映厅”功能 无需会员免费看电影电视剧综艺等等
1月6日 消息:日前,抖音网页版现已上线放映厅功能,支持用户免费观看一些在其他平台需会员才能观看的影视剧。据悉,抖音网页端“放映厅”无需登录即可点击观看影视剧,视频分辨率最...
日期:01-06
成都富士康发生了什么事_富士康回应成都工厂停产6天:目前对公司运营影响不大
中证网讯(记者 张兴旺)有媒体报道,受四川“让电于民”措施影响,富士康成都工厂8月15日至8月20日停止生产6天。对此,富士康方面回应中国证券报记者称,目前对公司运营影响不大。  ...
日期:08-18
定格秋天,用三星Galaxy S23 Ultra拍出别样秋日风光
随着立秋的到来,闷热的天气逐渐迎来丝丝凉爽,天高云淡、微风徐徐构成的一幅幅醉人画卷,正是拍摄风光大片的好时候。无论外出游玩还是在公园驻足欣赏,都可以用随身携带的手机记录...
日期:08-16
小米13 Pro真机上手:上架二手平台 4999元_小米14pro价格
小米13发布会延期,但目前在二手APP中惊现了小米13 Pro手机,手机的标价为4999元,其描述为降300出,并且标注这是一个12+512G的版本,所以我们猜测12+512G的小米13 Pro原价为5299元,而...
日期:12-02
小米mix fold使用感受「小米MIX Fold 3关键规格曝光:首次用上潜望长焦、更耐摔」
快科技6月19日消息,此前有爆料称,小米新一代折叠机皇小米MIX Fold 3会在8月左右登场,随着发布时间临近,该机的关键规格也逐渐浮出水面。今日,数码博主数码闲聊站”曝光了一款全新...
日期:06-19
三星9260手机「三星9260图片及报价 参数」
是一款2018年推出的高性能智能手机。这款手机在外观设计、硬件配置、拍照和其他方面都有不俗的表现。接下来,我们将围绕这款手机的四个方面详细介绍。学而思AI课堂外观设计:采...
日期:05-29
彭行洋:QQ客户端开放时机尚未成熟
在业内有一个共识,谁占领了客户端谁就抢占了先机,赢得了市场。比如QQ,360,它们都是这方面的集大成者。对于网络用户来说,去年的3Q大战想必还有印象。虽然最近已经判决360败诉,腾...
日期:07-27
马斯克将对推特全面裁员 已要求经理制定裁员名单「马斯克宣布重磅消息」
凤凰网科技讯 北京时间10月30日消息,知情人士称,在完成了对推特的收购交易后,埃隆马斯克(Elon Musk)计划最快从当地时间周六开始对推特裁员,目前已经要求一些经理起草裁员名单。...
日期:11-01
小米pro14是什么颜色「小米14 Pro外观设计搞定!比小米11 Ultra还惊艳」
快科技4月24日消息,小米13 Ultra发布后,小米下一款旗舰无疑是小米14系列,爆料称该系列将在今年年底发布。日前,有网友在小米工业设计部设计总监魏旭微博下留言询问:小米14 Pro能...
日期:04-24
苹果更新16.1「iOS 16.5推送更新 iOS 16最后的版本」
今天一早苹果推送了iOS 16.5 RC,也就是iOS 16.5准正式版,这也是iOS 16的最后一个版本,苹果提到修复了Spotlight无响应、CarPlay无法载入播客内容、屏幕事件无法重置或无法同步...
日期:05-10