您的位置:首页 > 互联网

腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测

发布时间:2023-10-27 18:06:23  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

2023年,大模型的落地按下加速键,文生图便是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来,海内外的文生图大模型不断涌现,一时有神仙打架之感。每一次技术迭代,都带来了模型生成效果和速度的飞速提升。

就在今天,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。

一上手试用,我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的蚂蚁上树,但混元轻松生成:

问题来了,现在的文生图大模型这么卷,混元大模型还有没有其他特别的优势?

据官方介绍,如果从算法、模型方面来讲,当前文生图大模型还存在一些挑战,比如语义理解不够精准、生成图片结构不合理、画面细节不够和质感不高等问题。

腾讯很早就开始在广告场景进行 AI 自动生成图像的探索,相关的积累不可谓不深厚。此次混元大模型升级的文生图能力,恰恰希望解决语义、内容、质感这三点难题。

据介绍,相比其他大模型,腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势,同时,在中国风景、动漫游戏等场景等生成上有较好的表现。

上手实测:混元文生图,有什么不一样?

照相机就是可以在浩瀚的宇宙当中拍下比恒星更闪耀的你

做好文生图这件事,对文的充分理解至关重要。

在语义理解方面,混元文生图模型采用了中英文双语细粒度的模型,同时基于中英文双语建模实现双语理解,且通过优化算法提升了模型对细节的感知能力与生成效果。

在此之前,像 Stable Diffusion 这样的热门模型虽然支持一定程度的中文,但其核心数据集 LAION-5B 仍以西方化内容为主,对中国的语言、美食、文化、习俗都理解不够。

而混元文生图模型是一个中文原生的文生图模型,无论用户输入的中文诗句还是成语,都可以直接要求其创作画作。

在内容合理性方面,混元文生图通过增强算法模型的图像二维空间位置感知能力,并将人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,改善了 AI 生成人体结构和手部不合理的问题。

在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过优化之后,混元文生图的人像模型(发丝、皱纹等)效果提升了30%,场景模型(草木、波纹等)效果提升了25%。

这三方面的技术优势,对于混元大模型文生图产品体验的提升是显而易见的。

为了验证上述能力,机器之心设置了一些题目,第一时间对混元大模型进行了摸底测试。

鉴于混元是中文原生模型,自然也比其他同类产品更懂古代中国的语言,我们首先让它根据古诗词进行绘画。

我们选取一句非常有意境的古诗醉后不知天在水,满船清梦压星河来测试,看混元大模型能否生成极具画面感的图。

在《泊船瓜洲》这首诗中,一句春风又绿江南岸,明月何时照我还,写出了无数游子的乡愁。混元的生成结果,提取出春光、水岸、明月等意象进行有机组合,让人看到之后仿佛置身诗句场景之中:

然后是有趣的中国菜绘画环节,来一道鱼香肉丝经典考题吧:

从让人 san 值狂掉的中餐绘画,到现在看图下饭的水准,我们也能感受到文生图技术的不断进化。

接下来看看在业界公认的人像真实感难题上,混元做得如何:

我们知道最初 Midjourney 爆火,就是因为下面这张情侣照片,让人无法分辨这竟然无 AI 生成的。

现在,我们考察一下混元大模型生成照骗的能力。使用的 Prompt 是:

你觉得真实感如何?在我们看来,Prompt 中提到的细节拉满。

这也就是腾讯重点强调的:混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力,在很多具体的场景中才得以体现。

例如在动画场景中,生成一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔,氛围感,CG 风格,侧面视角。

是不是特别像是小时候看的动画中的画面?

此外,在动漫创作中,文生图应用潜力巨大。

我们给到混元大模型的 Prompt 是生成3D,动漫风格,1个女孩,金色头发,微笑,短发,城市背景:

你觉得生成效果如何?是不是可以直接拿来当壁纸了?

文生图背后,有哪些自研技术?

工欲善其事,必先利其器,对于大模型同样如此。

我们了解到,除了创新模型算法,腾讯混元大模型实现这样接中文地气的文生图效果,其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。

腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀,意味着大模型的进化需要一步一个脚印,从实践出发,在实践中提升。

首先来看支撑模型训练的数据工程。

对于任何 AI 特别是大模型而言,数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此,图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。

但是网络上已有数据并不是都能拿来即用的,其中很大的问题是文字对图片的描述不一定准确,这就导致大多数图文匹配数据质量比较差。如果拿来用,即使训练时间很长,模型生成效果依然达不到预期,也会影响生成质量的稳定性和后续的迭代效率。

因此,提升图文数据质量成为保证文生图效果的第一道关。这时候往往需要通过工程化的方式提升数据质量,支撑模型训练、优化和升级,构筑算法模型的护城河。

面对图文匹配数据问题,腾讯混元文生图团队的应对策略是这样的:首先细粒度地完善中文 prompt,提升图文相关性,最大化数据质量;然后采取训练数据分层、分级的策略,逐步优化模型,最大化数据效果;最后建设数据飞轮,它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈,自动化构建训练数据,加快模型迭代,最大化数据效率。

数据质量、效果和效率提上去了,这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。

强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景,自研了 Angel 机器学习平台,主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF 两大部分。

其中 AngelPTM 采用 ZeRO-Cache 优化策略,成为超大模型训练利器,它通过存储管理扩大单机模型容量,通过多流异步提高资源利用率,通过显存管理提高显存效率。此外利用4D 并行提高可用显存上限,减少千卡通信压力,释放计算潜能。自动续训机制支持千卡故障自动容错,减少中断时间。模型训练情况也在实时监控之下,协同算法优化模型训练方向。

目前,AngelPTM 基于业界首创的 ZeRO-Cache 机制 +4D 并行实现了千亿混元基座模型的高速训练,训练速度相比主流开源框架(DeepSpeed-Chat)提升1倍。

ZeRO-Cache 概图。

AngelHCF 主要从定制多样化服务策略、并行策略、框架加速(覆盖常用 GPU 加速方法)、模型压缩(支持业界常用压缩方法)和高效模型 Debug 能力五个层面提升大模型的推理性能。推理速度相比业界主流框架(FasterTransformer)提升1.3倍。

腾讯表示,其 Angel 机器学习平台具备了领先性能,能够帮助提供更好的基建体系,助力大模型们高速运行。这使得混元大模型生成高质图片的同时,生成速度也大大改进。

拥有了高质量的数据、高效的机器学习框架,大模型的持续运行还面临着算力层面的考验。毕竟,大模型时代,算力为王。

腾讯混元文生图功能离不开腾讯云提供的强大算力基础设施。2023年4月,腾讯云发布新一代 HCC 高性能计算集群,采用最新一代星星海自研服务器,并基于自研网络和存储架构,实现了3.2T 超高互联带宽、TB 级吞吐能力和千万级 IOPS。新一代集群算力性能较前代提升了3倍,较传统算力集群方案提升12倍以上。

夯实底层硬件的同时,上层软件能力也要齐头并进。新一代 HCC 集群集成了腾讯云自研的 TACO 训练加速引擎,从网络协议、通信策略、AI 框架、模型编译层面做了大量系统级优化。这套全生态的训练加速方案不仅可以帮助客户降低 AI 优化门槛,提升 AI 训练性能,还使训练调优和算力成本大大降低。

看起来,制约大模型的三大要素算法、数据和算力,在腾讯混元大模型这里都不成问题了。自然而然,文生图质量和效果也得到了保障。

效果以假乱真,

文生图能力已嵌入腾讯广告场景

今天我们看到的混元大模型文生图能力,并非一蹴而就,而是一个实实在在的演进过程。

在上个月举行的2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相。腾讯集团副总裁蒋杰当时表示,混元永远在路上。腾讯会一直演进混元的能力,并希望每个月都会给大家带来惊喜。

目前,腾讯已有180个内部业务接入混元大模型,包括包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。同时来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户也通过腾讯云调用腾讯混元 API,应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。

自上线以来,贝壳找房依托大数据和产品技术能力,打造

此次开放的文生图能力便是腾讯混元大模型带给我们的最大惊喜,展示其在图像自动生成领域的领先能力。当然,腾讯混元文生图也在逐渐进化中,后续会开发更多文生图相关以及图生图功能。我们可以狠狠期待一波了。

目前,混元文生图能力已经嵌入到了腾讯广告场景中,比如生成商品广告或广告配图。在广告业务下的多轮测评中,腾讯混元文生图的案例优秀率和广告主采纳率分别达到86% 和26%,均高于同类模型。

我们先来看下面这个示例,要求混元大模型生成一个酒店房间。从效果来看,升级后混元文生图效果明显更好,设计感、品质感提升很大,细节更加丰富。即使与 Midjourney 比较一番,效果也不相上下。

人物类生成场景也有类似的效果。升级后混元生成的人像真实感更强,比如面部肤色、皱纹等细节。

广告场景之外,腾讯内部还在不断探索其他文生图的需求场景,比如游戏场景中生成游戏元素和游戏角色、内容场景中生成小说配图、插图,云业务场景中将混元能力开放给不同行业的客户。

大浪淘沙,再强悍的模型,也要让更多人用上并持续获得反馈,才有可能百尺竿头更进一步。

可以预见,未来腾讯产品中将迎来混元文生图能力的大爆发,用户也将体验更多 AIGC 带来的魅力。


返回网站首页

本文评论
梅花创投董事总经理「梅花创投吴世春:我们遇到了这些困难」
凤凰网科技讯 6月12日消息,梅花创投创始合伙人吴世春今日发文,提出了他认为在百年大变局下创业者觉得创业困难的原因。吴世春表示,当今创业者需要同时面对六大困难:一,消费上陷入...
日期:06-12
中国移动:持续打造先进算力网络 助力数字经济创新发展_移动怎样实现数智化转型
通信世界网消息(CWW)在数字经济时代,随着新一轮科技革命和产业变革的深入发展,新技术、新业态、新场景和新模式不断涌现,驱动技术和数据成为除劳动力、资本、土地之外新的生产要...
日期:09-22
执念不死!时隔11年 马自达正式复活转子发动机:以全新方式回归
快科技6月26日消息,近日,据海外媒体报道,马自达汽车将重新启用转子发动机,或将搭载到即将发布的马自达MX-30增程版车型上。陌多多交友软件是真实的吗而转子发动机将与电机配合使...
日期:06-26
小米迄今最亮!小米14搭载华星C8屏幕:3000nit峰值亮度_小米10华星屏怎么调色温最舒服
快科技10月26日消息,今晚小米14如期发布,搭载华星光电新一代C8屏幕,号称小米迄今为止最高亮度屏幕”。据官方介绍,小米14的屏幕这次升级了1.5K分辨率,拥有460PPI,屏幕细腻程度带来...
日期:10-26
挑战未来行业美学:南卡骨传导耳机缔造设计巅峰,荣获缪斯国际大奖
深圳这个孕育传奇的地方,南 卡一直秉承着深圳的精神不断进步。南 卡深信站在巨人的肩膀上可以看得更远。 2019 年,南 卡荣获深圳市政府颁发的“深圳礼物”大奖,代表着南 卡在品...
日期:04-20
七九烤肉加盟费_17个月开30家烤肉连锁店:猪八戒网,让我离梦想更近
  2019年7月,开一家烤肉店,还仅仅是停留在脑子里的一个轻飘飘构想;2020年底,不仅第30家烤肉连锁店顺利开业,而且还拿到“珠海十大新锐餐饮品牌”奖牌。   回想这一年...
日期:08-15
新增荔枝播客App!理想L系列将迎OTA 5.0.2:支持一键播放、订阅等功能_理想汽车2021款视频
快科技1月4日消息,我们从理想汽车官方获悉,理想L系列将迎OTA 5.0.2版本。据悉,此次升级将增加荔枝播客App,并对全场景智能驾驶NOA、全场景辅助驾驶LCC和智能泊车体验进行优化。...
日期:01-05
一加官宣一加 Ace 3 将于1月4日发布_一加cyber
12月27日 消息:一加公司今日正式宣布,旗下全新旗舰手机一加 Ace3的发布会将于1月4日14:30举行。此次发布会的主题为“以全能姿态,让旗舰体验全面普及”,预示着这款新机将带来前...
日期:12-27
不止销量碾压!比亚迪均价17.2万元 甩开大众、丰田等合资车_比亚迪销量最高的车
11月3日,比亚迪公布2022年10月产销快报,新能源汽车销量约21.78万辆,同比增长142.2%;相比上个月增加1.6万辆,仅增加的数量就超过一家新势力了。比亚迪本年累计汽车销量约139.79万...
日期:11-10
2021windows10最新版本是多少「微软马上放弃Win10!Windows各版本最新份额一览:你升级Win11没」
快科技12月2日消息,调查机构Statcounter的数据显示,Windows 11的全球市场份额继续提高,总占比达到了26.66%。目前,占比第一的依然Windows 10,份额达到了68%,相比较10月下降了1.31%...
日期:12-02
ai预测孩子长相「我,用AI帮1000名准妈妈预测婴儿长相,每单卖9.9元」
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:沈嵩男,授权转载发布。ChatGPT(生成式对话机器人)公测已有8个月,数的上号的国内外科技公司无一例外地在这期间推出了自...
日期:07-21
独家:刚宣布他获刑两年半  中国移动花了9个亿投资了他的公司  他却干这种事被查!
运营商财经吴碧慧/文6月11日晚,华宇软件发布公告称,收到公司及实际控制人邵学的刑事判决书,而这也是距公司及邵学被立案调查两年多后的最终结果,其中华宇软件犯单位行贿罪被罚30...
日期:06-14
谷歌的目标是 2023 年智能手机销量比今年翻一番_2020年世界智能手机销量前三
10月8日消息:谷歌CEO Sundar Pichai周五接受日经新闻采访时表示,到2024年的4年内,谷歌计划在日本共投资1000亿日元,其中部分资金将用于开设谷歌在日本的首个数据中心。现代ix35...
日期:10-09
唯一中国品牌 2022年美国汽车品牌销量出炉:吉利跻身前15「2020年美国汽车品牌销量排行」
2022年已经结束,国内车市的相关数据已经全部公布,那么在跟世界上另一大汽车消费市场美国,各品牌销量是怎样的呢?近日,2022年美国汽车品牌销量前15名出炉,其中竟然出现了国产品牌的...
日期:01-24
iphone15系列屏幕将采用多家供应商15系列初期显示屏订单高于iPhone 14同期 8月份出货量高23% iPhone
来源:中关村在线京东双十一手机销量排行榜怎么看中通快递财务政绩据外媒报道,苹果在本次发布的iPhone 15系列智能手机上,已经在上周五开始发货,逐渐扩大市场覆盖。零部件厂商也...
日期:09-27
高考结束后全班把老师扔进水池寓意“集体上岸” 家长:报答老师情谊
干了当初我没干的事儿”。近日,一则#全班把老师扔进水池寓意集体上岸#的视频走红网络。据报道,6月9日,贵州遵义,全班56名学生高考后回到学校举办告别仪式,仪式结束后大家抬起班主...
日期:06-11
让你睡得更安心,毛晓彤同款Beko倍科除螨仪!
  https://detail.tmall.com/item.htm?spm=a212k0.12153887.0.0.4e60687du2bUOQ&id=620787333233   我经常会晒被子,因为晒过之后被窝更暖和,但是却发现也有一股难闻的螨...
日期:07-14
国庆假期洗鞋机销售额增700%、数码产品增148%:年轻人是主力军
今天是10月8日开工第一天,国庆假期已经正式结束,大家的七天长假都过的愉快吗?酷派ar眼镜发布会根据央视汇总的大数据,假期这几天时间,国内的消费情况非常有意思。据电商平台统计,...
日期:10-09
小龙虾饲料投喂用量「女子每天用上百斤小龙虾喂猪 系自己养殖的小龙虾」
根据后浪视频的分享,4月25日,朱女士在自己的农场里,每天用几百斤小龙虾给猪喂食,一共有七八头。朱女士说,小龙虾是自己养的,每天能产出几千斤,她会挑选几百斤给猪吃,其中有些是死了...
日期:04-27
印度ola电动车「消息称印度 JSW 正在与零跑就电动汽车技术进行谈判」
IT之家 8 月 31 日消息,在上周五的零跑汽车 2023 年上半年财报电话会上,零跑管理层表示,对于“大众拟购买零跑某一代平台技术,助力旗下捷达品牌电动化转型”的传言,外界报道不做...
日期:09-01