您的位置:首页 > 互联网

日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越香了?

发布时间:2024-07-29 15:30:33  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

2024年的 AI 图像生成技术,又提升到了一个新高度。

技术的飞速迭代,让这一领域的商业化落地进入加速阶段。前有 Midjourney v6史诗级更新,后有开源巨头 Stable Diffusion3独领风骚,而 DALL・E3背靠 ChatGPT 这棵大树,也收获了众多用户的关注。

当然了,在这条赛道上,来自国内的选手毫不逊色。

近日,国产大模型顶流—— 字节跳动豆包大模型,迎来一场集中放送:

在2024火山引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生图模型、语音模型等垂直模型的新升级。

与此同时,豆包大模型家族的最新成员 ——豆包・图生图模型正式面世,一口气上新了50多项玩法。

作为国产大模型中的实力之作,豆包大模型在今年5月通过火山引擎正式对外提供服务。尽管入场时间不是最早,但今天的豆包大模型已经是国内使用量最大、应用场景最丰富的大模型之一。

这场活动中,火山引擎还透露了一个数字:截至2024年7月,豆包大模型的日均 tokens 使用量已经超过5000亿。

与此同时,豆包大模型的技术实力在短时间内也经历了多次迭代。在多个公开评测集以及专业的第三方评测中,豆包通用模型 pro 均表现出众,是得分最高的国产大模型。

至于豆包大模型的功力究竟练到了哪一层?我们不妨体验一把再下结论。

国产 AI 猛猛上新

豆包大模型为什么能俘获用户的心?

我们就从刚刚更新的图像生成方面来考验一下豆包大模型。对 AIGC 应用接触比较多的用户可能都有一个感受:AI 图像生成类产品越来越卷,彼此之间也越来越难拉开差距。

这种直观感受的变化,几乎能完全对应上底层技术的演进节点。与一些早期 GAN 模型的生成水准相比,如今的图像生成质量已经让大部分人觉得真假难辨。在这个过程中,学界和业界对图像生成质量的评估维度也发生了巨大变化:像 FID Score 这样的指标已经不足以全面反映模型能力,人类评估成为了评估图像生成质量的黄金标准。尽管经济和时间成本更高,但这种方式可以提供更加细微且可解释的感知反馈。

以文生图方向为例,现阶段的目标可以总结为对综合维度的全面提升,具体可拆分为图像美感、图文一致性、内容创造、复杂度适应性四个维度。在这几方面,豆包・文生图都达到了业界较高水准。

在用户感受最强烈的图文匹配维度上,豆包・文生图模型不断进化,比如很好地理解多数量主体、主客体关系、人物构造和空间构造等信息:

Prompt:古代日本鬼机甲、中国朋克、太空歌剧、科幻小说、古代未来主义、神秘、明亮、不对称密集构图、32k 超高清、电影光、气氛光、电影、柔和的调色板、超现实、自由度、自然体积光。

而在画面效果美感层面,豆包・文生图模型非常善于从光影明暗、氛围色彩和人物美感方面进行画面质感提升:

Prompt:OC 渲染,3D 设计,长发小女孩,人脸朝着镜头,中心构图,帽子上长满鲜花,轮廓清晰,面部细节放大,帽子细节放大,画质高清,超清画质,深景深,背景是花海

此外,作为国产 AI 精品之作,面对中国人物、物品、朝代、美食、艺术风格等元素,豆包・文生图模型也展现出了更加深刻的理解力。

Prompt:超写实画风,唐代,长安,元宵节夜市,唐代侍女,灯火辉煌,细节完美,特写,热闹非凡,超高清,4K

Prompt:国风水墨绘画,点彩、肌理磨砂、陈家泠、大面留白的构图,高清16k故宫远景,雪景、流畅建筑结构,层次,白色主色,淡雅

基于双语大模型文本编码器,豆包・文生图模型对英文 Pormpt 的理解同样精准:

Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design,3D

不久之后,豆包・文生图模型还将升级到2.0版本。豆包视觉团队表示,新版本将比当前模型的生成效果有40% 的提升,对比当前版本,图文一致性和美感会有大幅提升。

与文生图略有不同,在图像美感和结构等因素之外,图生图更算是一种应用模型,质量评估更加关注一致性和相似度两个维度。豆包・图生图模型的能力涵盖AI 写真、图像风格化、扩图 / 局部重绘三个主要方向,共提供了50余种风格玩法。

AI 写真算是以图生图方向中使用频率非常高的一种玩法,豆包・图生图模型的一大亮点是高度还原人物特征,能够精准捕捉轮廓、表情、姿态等多维特征,轻松生成定制化写真:

豆包・图生图模型还能具备优秀的图片扩展、局部重绘和涂抹能力,在逻辑合理的前提下,还能充满想象力。

比如在下方的任务中,用户想要实现自然的局部消除,豆包・图生图模型生成结果也做到了平滑过渡:

对于只想局部进行重绘的需求,豆包・图生图模型能够精准修改图像局部内容,无缝融合原有画面。比如将粉色外套改为蓝色牛仔外套:

面对下方的人物照背景扩图任务,豆包・图生图模型给出的结果,实现了良好的景观结构及光线保持:

豆包大模型,如何跻身图像生成赛道上游?

感受完这一波 Demo,我们好奇:是从什么时候开始,豆包大模型在图像生成方面有了这么深厚的实力?

两年前,Stable Diffusion 的横空出世,宣告了 AIGC 时代的正式开启。随后,AI 社区形成了巨大的迭代效应,基于各个版本 Stable Diffusion 开源模型的 AI 图像生成工具被迅速创造出来,不断刷新生成质量和速度的上限。

不到半年后,DiT 架构的提出,验证了 Scaling Law 在图像生成领域同样成立。越来越多的研究选择用 Transformer 替代传统的 U-Net,让扩散模型继承了其他领域的最佳实践和训练方法,增强了图像生成模型的可扩展性、鲁棒性和效率,还提高了对文字提示的理解能力和图像生成质量,有效增加了定制化、生成内容可控性方面的优势。

早在豆包大模型诞生前的几年,字节跳动就开始关注图像生成相关技术,近两年更是持续增加这方面的研发投入,保持着创新成果的高频产出。这也是为什么豆包大模型一经面世,就可以惊艳所有人。

Scaling Law 被验证带来的另外一个启示是,算力基础提升、训练数据增加、数据质量改善成为了图像生成模型能力提升的关键因素。在这些方面,字节跳动自研的豆包大模型在图像生成能力进化上具备天然优势。

苹果六更新ios13后会怎么样?

但 Stable Diffusion 模型的训练和推理仍然是一个复杂且耗时的过程,比如,扩散模型在推理过程中天然存在的多步数迭代去噪特性会导致较高的计算成本。如何在提升生成质量的同时加快速度,成为了图像生成领域的关键问题。

豆包视觉团队提出了多项创新成果,从不同的维度尝试解决这个难题,并将这些成果开放给了 AI 社区。

一项代表性的成果是Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持接近无损的性能,在 SDXL 和 SD1.5两种架构上都能在1到8步内生成中实现 SOTA 级别的图像生成。(https://huggingface.co/ByteDance/Hyper-SD)

另外一项研究SDXL- Lightning则通过一种名为渐进式对抗蒸馏(Progressive Adversarial Distillation)的创新技术,实现了生成质量和生成速度的双重提升:仅需短短2步或4步,模型就能生成极高质量和分辨率的图像,将计算和时间成本降低了十倍,而且能在实现更高分辨率和更佳细节的同时保持良好的多样性和图文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)

同时,豆包视觉团队还提出了一个利用反馈学习全面增强扩散模型的统一框架UniFL。通过整合感知、解耦和对抗性反馈学习,这个框架不仅在生成质量和推理加速方面表现优秀,还在 LoRA、ControlNet、AnimateDiff 等各类下游任务中展现出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)

众所周知,Stable Diffusion 的核心功能是从文本生成图像,而 ControlNet、Adapter 等技术的融合,能够在保留部分图像信息的同时添加一些额外控制条件,引导生成与给定参考图像相似的结果。这些技术的融合演变出了我们今天见到的各项图生图功能,并进一步消除了 AI 图像生成技术的商用门槛。

awe参展时间

在这方面,豆包视觉团队同样有深厚技术积累,仅今年就在国际计算机视觉顶会 CVPR 中发表了十多篇论文,提出了数十项相关专利。

针对图像Inpaint/Outpaint问题,豆包视觉团队提出了ByteEdit。关键创新包括三点:首先,增大训练数据量级,兼容自然图像输入、mask 输入、无 prompt 输入,让模型看到更多泛化场景;其次,引入一致性奖励模型,重点提升生成结果一致性,让希望填充的区域和非填充区域更加的和谐;然后,引入渐进式的分阶段对抗训练策略,在不损失模型性能条件下实现速度的提升。(https://byte-edit.github.io)

针对ID 保持,豆包视觉团队提出了PuLID,通过引入一个新的训练分支,在训练中加入了对比对齐损失和更精确的 ID 损失,让 ID 适配器学习如何在注入的 ID 信息的同时,减少对原模型行为的破坏,从而在保证较高 ID 相似度的同时,兼顾编辑能力、风格化能力以及画面质量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)

智能手表华米好还是华为好

针对IP 保持,豆包视觉团队提出了一种参考图 IP - 文本解耦控制的通用场景 IP 定制化生成方法RealCustom,对于任意开放域物体或人物 IP 均可实现无需微调的实时定制化生成。(https://corleone-huang.github.io/realcustom/)

更强模型、更低价格、更易落地

短短两年内,AI 在图像生成上的持续进步,打破了长期存在的专业门槛,让任何人都可以创造出高质量的视觉作品,带来了一场前所未有的革命。豆包大模型的图像生成能力,已经为字节跳动旗下多个应用提供技术支持,包括抖音、剪映、醒图、即梦、豆包、星绘。对于大众来说,AIGC 已经实实在在地改变了生活。

但从企业用户的角度来说,这些最前沿的技术仍然存在一些应用壁垒,涉及数据、人才、算力等多方面因素。对于各行各业的用户来说,即使有了强大的开源模型可供选择,也需要解决计算资源、专业知识、模型微调等方面的挑战。

成本的全方位降低,才是推动大模型真正实现价值创造的关键因素。

自发布以来,豆包大模型正在通过火山引擎源源不断地向千行百业输出技术能力,推动大模型技术实现更广泛深入的行业落地。

目前,包括豆包・文生图模型和豆包・图生图模型在内,豆包大模型家族的成员数量已经达到了10个。这些针对应用场景细分的模型都会上线火山方舟,开放给火山引擎的众多企业客户合作共创。

飞速增长的使用量,也在帮助豆包大模型持续打磨自身能力。自2024年5月15日豆包大模型发布至今,短短两个月内,平均每家企业客户的日均 tokens 使用量已经增长了22倍。

铝方通价格多少一米

豆包大模型家族集体照。

同时,火山引擎提供了更丰富的核心插件、更强大的系统性能以及更优质的平台体验,企业可根据自身业务场景需求灵活选择、快速落地。比如,依靠豆包・图生图模型,客户利用几张图片即可训练专属的数字分身。

在很多情况下,价格仍然是客户的首要考虑因素。火山引擎正是率先将最强模型版本降价的行业先行者,以更强模型、更低价格满足企业复杂业务场景需求,真正推动大模型落地。

凭借充沛 GPU 算力资源池,并通过潮汐、混部等方式,实现资源的高利用率和极致降低成本,即使是在大模型价格战越来越激烈的未来,火山引擎所提供的大模型服务仍然保持着绝对吸引力。

中国公司正在开启大模型竞争的下一章

轰轰烈烈的百模大战之后,海内外的大模型快速涌现。尽管有 OpenAI 等一系列强大的竞争对手,但豆包大模型还是杀出了自己的一条路。

过去一段时间,人们喜欢谈论国产大模型技术的追赶。从追赶到媲美,很多中国团队只用了一年、半年时间,这其中也包括豆包大模型团队。

短时间内跻身图像生成这条赛道的上游,与豆包大模型团队在研发和人才方面的投入密不可分。近几年,越来越多顶尖大模型人才的加入,纯粹极致的技术研究氛围,大规模的研发资源投入,都是成就豆包这一国产大模型代表作的重要因素。

特别是在应用场景优势的加持下,当大模型被用起来的这天,人们看到了中国大模型走进千行百业时的充足后劲。

可以期待的是,大模型这条赛道的竞争正在开启新篇章,而在新的章节里,国产大模型将有机会书写更加浓墨重彩的一笔。


返回网站首页

本文评论
保时捷高速插队未成恐吓当事车主:你没看到我开的车吗 网友喊话应重罚
10月3日湖南洞口,一保时捷车主高速强行插队未成功,后多次别车并急停拦车, 恐吓当事车主:你没看我开的什么车吗?8日,平溪派出所民警回应称,接警后立即赶往,但闹事者已离开现场,且该辆...
日期:10-09
“双节”假期倒计时!长途高速前一定要做好这8项检查_跑长途高速前要检查哪些,要多少钱
中秋国庆假期正式进入倒计时,不少小伙伴都选择了开车回家,但是,为了确保长途驾驶的安全,你知道如何对车辆进行出发前的检查吗?燃油系统:出发前应提前了解总里程以及沿途的加油站,保...
日期:09-29
Vanus AI「灵奥科技」完成数百万美元种子轮融资_深圳市灵澳电子科技有限公司
7月31日 消息:据36氪消息,数据管道和大模型中间件的创业公司“灵奥科技”近日正式宣布完成种子轮融资。据介绍,本轮融资金额在数百万美元级别,投资方为靖亚资本和Plug and Play...
日期:07-31
iqooz1的144屏幕怎么样「iQOO 12将搭载1.5K 144Hz护眼电竞直屏:边框比小米14还窄」
全新的iQOO 12系列将于今天正式发布,该系列旗舰将采用高通骁龙8 Gen3移动平台和第三代自研芯片V3,性能强劲。此外,该系列机型还配备了一块6.78英寸维信诺VM7材料的顶级国产屏幕...
日期:11-07
全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型超级英雄XAgent
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并...
日期:10-18
河东科技HDL亮相广州光亚展,追光者请就位!_河东科技职业学校
2024广州光亚展于6月9-12日在广州·中国进出口商品交易会展馆盛大举行,有线智能控制领导品牌HDL携热门产品及重磅新品亮相。五一劳动节短句5个字HDL以智能照明为原点持续创新...
日期:06-10
用大模型为病人提供医疗咨询,谷歌推出AMIE模型_amalgam模型
声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。医生与患者之间的对话是确诊病情、建立有效治疗方案的关键所在。然而,现实中并不是所有...
日期:01-26
基于海拉克斯打造 丰田推出首款纯电皮卡原型车 网友:丑到我眼睛了
电动化时代,很多传统车企一下子被新生的造车新势力打得有点找不到北,这其中典型的就是丰田。网站CMS12月17日消息,丰田泰国运营60周年之际,丰田汽车本作向全世界展示了其首款全...
日期:12-18
新冷年怎么办?海信空调22日给出答案
  海信空调又有大动作。日前,海信空调发布消息称,7月22日将举办夏季全球发布会。发布会上,海信最新新风空调产品将亮相,而其2021新冷年的在新风及新能效领域的战略也将一同发...
日期:07-14
作业帮初中英语课:一个寒假突破听力口语障碍(作业帮初三英语老师)
  去年的超长寒假,让会规划、会准备的学生与自主学习能力较差的同学拉开了很多差距。今年寒假又悄然开始了,我国部分地区疫情反弹,开学时间待定。这种时候,寒假查缺补漏就该...
日期:07-10
正面挑战“”Adobe:微软推出免费P图软件Designer_adobe p图
如果提到在图形图像设计领域有什么无法绕过的公司的话,Adobe绝对榜上有名,该公司凭借PhotoShop等知名图像处理软件,在行业内可谓是风头无两。Adobe全家桶但近日,微软宣布将推出...
日期:10-28
续航大提升!曝iPhone 15全系将配备更大的电池_苹果手机15的电能用多久
根据最新报道,苹果iPhone 15系列的续航能力将会得到改善,因为全系列手机都将升级电池容量。据透露,iPhone 15的电池容量将提升至3877毫安时,iPhone 15 Plus的电池容量将达到4912...
日期:07-06
摩托罗拉Razr 2023真机曝光:折叠外观变了_摩托罗拉razr2021
去年摩托罗拉还进行了迭代升级,推出了Razr 2022,而现在只要4000多就能入手,门槛继续降低,有海外爆料者直接公布了摩托罗拉Razr 2023的真机图。美国谷歌订餐iphone黄牛亏本该机依...
日期:03-11
比特斯拉多卖40万辆 比亚迪提前锁定2022年全球新能源销冠「比亚迪新能源汽车全球市场份额」
虽然目前全球部分车企的新能源销量还未出炉,但从头部车企的销量来看,比亚迪已经提前锁定2022年全球新能源汽车销冠,将第二名特斯拉远远甩在身后。数据显示,比亚迪2022年累计销量...
日期:01-10
重庆首个自主研发的大语言模型“兆言”发布
7月14日 消息:7月13日,上海交通大学重庆人工智能研究院在西部(重庆)科学城发布其最新研发成果“兆言”大模型产品。库克的iPhone据了解,兆言大模型是上海交大重庆人工智能研究院...
日期:07-14
立讯精密iPhone「消息称立讯精密赢得苹果大单 在中国生产iPhone 14 Pro Max」
1月5日消息,据外媒报道,苹果公司将与立讯精密签订第一笔大订单。立讯精密已经在其昆山工厂生产了少量的iPhone14ProMax,以弥补富士康自去年11月以来的生产损失。报道称,立讯精密...
日期:01-05
电动汽车也能无线充电了:像手机一样简单 超大充电板长这模样「纯电汽车无线充电」
近年来,新能源汽车市场逐渐扩大,中国每卖出3辆汽车,就有一辆是新能源。以往,用充电枪充电,还需要下车插拔充电枪,有的快充枪还比较沉重,体验不太友好。如果电动汽车也能像手机一样...
日期:06-21
饿了么起诉美团侵害发明专利 即将开庭「饿了吗告美团」
凤凰网科技讯 1月31日消息,据天眼查App显示,拉扎斯网络科技(上海)有限公司与上海三快科技有限公司、北京三快科技有限公司相关侵害发明专利权纠纷一案新增开庭公告,原告为饿了么...
日期:01-31
特种兵旅行后年轻人爱上City walk 互联网找漫游搭子:跟风打卡的多了
几乎一夜之间,年轻人对特种兵旅游模式下头了”,转而爱上看似更悠闲、随意的City walk,他们在互联网找漫游搭子。淘宝造物节发布了什么政策city walk(又名:城市漫游),指的是城市行走...
日期:07-12
Terraform实验室创始人Do Kwon再次否认关于其资金被冻结的报道
Do Kwon驳斥了关于他的加密货币资金被冻结的说法,此前有媒体报道称,韩国检察官已经升级了针对这位企业家的行动,他搭建的区块链在今年早些时候崩溃,使投资者损失了400亿美元。我...
日期:10-07