您的位置:首页 > 互联网

谷歌文生图巅峰之作Imagen 2登场,实测暴打DALL·E 3和Midjourney!_谷歌纹身

发布时间:2023-12-14 21:17:43  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】卷疯了卷疯了,谷歌刚刚放出了文生图AI模型的巅峰之作Imagen2,实测效果逼真细腻,生成的美女图仿佛真人照片,对于提示的还原程度已经打败了DALL·E3和Midjourney!最强文生图大模型这是要易主了?

提问:下面这张图,是AI生图还是照片?

如果不是这么问,绝大多数人大概都不会想到,这居然不是一张照片。

是的,只要在谷歌最新AI生图神器Imagen2中输入这样的提示词——

A shot of a32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile

一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑

就能得到开头那张无比逼真写实、比照片还像照片的图像了!

虽然圣诞节已经临近,但谷歌还在卷个不停——号称DALL·E3最强竞品的文生图模型Imagen2,终于重磅上线了。

刚用Gemini和OpenAI卷完GPT-4,立马又放出Imagen2来卷DALL·E3了,2023年底的卷王称号,谷歌是实至名归。

不仅手指逼真,而且拿筷子的姿势也很标准

可以说,Imagen2是目前文本转图像技术的巅峰之作,已经突破了AI生图的界限。

在机器学习算法强大功能的加持下,Imagen2可以将文本描述转换为生动清晰的高分辨率图像。

Imagen2最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!

Imagen2的核心,还是复杂的神经网络架构。经过微调的Transformer模型,在文本理解和图像合成上,都表现出了无与伦比的性能。

现在,在文生图领域,谷歌又竖立了新的标杆。

用自然语言就能生图的模型,又多了一个

谷歌纹身

现在,除了DALL·E3之外,我们又有了一个仅凭自然语言就能生图的模型!

相比之下,Midjourney必须用复杂、专业的提示词,在易使用性上已经被两位竞争者甩出了很远。

仅凭简单文本,就能生存多样化的复杂图像,这类AI生图模型对于内容创作的影响是极其深远的。

华为荣耀X40

对于依赖视觉内容的行业来说,这彻底改变了游戏规则,大大减少了传统内容制作所需的时间,内容创作者可以以前所未有的速度,制作高质量的视觉效果。

同时,Imagen2还具有无可比拟的图像质量和多功能性。

Imagen2用到了谷歌最先进的文本到图像扩散技术,生图质量极高、效果逼真,而且和用户的提示具有高度的一致性。

原因在于,它是使用训练数据的自然分布来生成更逼真的图像,而非采用预先编程的样式。

可以看到,Imagen2的图像生成能力非常惊人。

无论是渲染错综复杂的风景、详细的物体,还是奇幻的场景,生成的图像都具有如此高的保真度,以至于它们可以与人类艺术家创作的图像相媲美,甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油画,描绘了摆放在砧板上的橙子。阳光穿过橙子的切片,柔和的橙色光线洒在砧板上。画的背景是一块蓝白相间的布,画面巧妙地捕捉了光的折射、反射效果,同时展示了画家富有感情的笔触

有网友表示,看到Imagen的这张橙子图,真是让我大吃一惊。灯光穿过橙子后的投影,和提示中描述的意境非常吻合!

有人用同样的提示,让DALL·E3生成了同样的橙子油画图,效果比起Imagen3来说,的确弱了不少。

类似的,Midjourney生成的橙子,在真实感和意境层面,也要差上一截。

诗中意境,一键逼真还原

以往的文本到图像模型,通常是根据训练数据集的图像和标题中的详细信息,来生成与用户提示匹配的图像的。

但是它们有一个bug:对于每张图像和配对的标题,在细节质量和准确性上可能会有很大差异。

为了帮助创建更高质量和更准确的图像、更好地符合用户的提示,Imagen2的训练数据集中添加了更多描述,帮助Imagen2学习不同的标题风格,并更好地理解广泛的用户提示。

这种图像标题配对,就有助于Imagen2更好地理解图像和文字之间的关系,大大提高了它对上下文和细微差别的理解。

就比如,美国作家Phillis Wheatley《晚间赞美诗》中的一句话溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐。

诗中绝美的意境,Imagen2把要点全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下,Midjourney似乎对于文学描述的内容把握还是欠缺一些,大概率会在图中自动添加一个人物。不过整体画面效果还是不错的。

而到了DALL·E3这里,它居然在图像上加了几行字,生成了一张贺卡?

在著名的小说《白鲸记》中,Herman Melville曾写下想象一下大海的微妙之处,最可怕的地方在于生物如何在水下滑行,却在大多数情况下不易察觉,并且诡谲地隐藏在最可爱的蔚蓝色调下。

Imagen2也是很懂海洋文学的特点。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下,Midjourney和DALL·E3一到深海,就瞬间就克苏鲁了起来……

Midjourney

DALL·E3

儿童文学大家Frances Hodgson Burnett所著的《秘密花园》中,对知更鸟有这样一句描述:

知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。

快看,Imagen2生成的这幅画,把常春藤、墙头、唱歌等暗藏的细节,悉数呈现了出来。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同样的提示词,Midjourney在真实感上还要差上几分。

而DALL·E3相比上面两家,就更逊色了,尤其在植物和羽毛的细节上。

风格复刻,随意变换,更懂人类美学

21年免费加速器

一直以来,图像生成饱受诟病的问题之一,便是人物的手指生成。

这次,Imagen2的数据集和模型进步,在许多领域取得了改进。

其中就包括渲染逼真的手部和人脸,以及保持图像不受干扰的视觉伪影。

同时,谷歌DeepMind根据人类对光线、取景、曝光、清晰度等特质的偏好,训练了一个专门的图像美学模型。

每张图像都被给予一个美学分数,这有助于调节Imagen2在其训练数据集中赋予人类偏好的图像更多的权重。

这样一来,就提高了Imagen2生成更高质量图像的能力。

使用提示花的AI生成的图像,美学分数从低(左)到高(右)

Imagen2的扩散技术提供了高度的灵活性,使得更容易控制和调整图像的风格。

通过提供参考风格图像并结合文本提示,可以训练Imagen2生成遵循相同风格的新图像。

通过使用参考图像和文本提示,Imagen2可以更轻松地控制输出样式

更强的修复和扩图

此外,Imagen2还支持图像编辑功能,如修复(inpainting)和扩图(outpainting)。

通过提供参考图像和图像掩码,我们可以用inpainting技术直接在原始图像中生成新内容。

在下面这幅原始图中,只要输入绿色墙上有一个架子,架子上放着几本书和花瓶,对应内容就在原图中生成了!

新内容毫不突兀,完美融入原图,浑然天成。

另外,我们还可以使用outpainting功能,给原始图像扩图。

夕阳下非洲大草原上长颈鹿和斑马的双人大头贴,一下子就扩成了全身照。

全面加持企业级场景,logo文案一键生成,中文也支持

现在,谷歌已经Imagen2下放到开发者平台Vertex AI。

在Vertex AI平台上,客户可以使用直观的工具来自定义和部署Imagen2,享受全面管理的基础设施和内置的隐私与安全保护。

在谷歌DeepMind的技术加持下,Imagen2在图像质量上实现了显著提升,帮助开发者根据特定需求创造图像,其中包括:

- 根据自然语言的提示生成高质量、逼真、高分辨率且精美的图像;

- 支持多语言文本渲染,能够在图像中准确添加文本内容;

- 可以设计公司或产品的Logo,并将其嵌入到图像中;

- 提供视觉问题解答功能,可以从图像中生成标注,或就图像细节提出的问题给出具有信息性的文本回答。

高质量图像:借助于改进的图像和文本理解,以及多种创新的训练和建模技术,Imagen2能够生成精准、高品质且逼真的图像。

文本渲染支持:可以根据提示内容,精准地渲染出正确的文本。

Imagen2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语。

Logo设计:Imagen2能为品牌、产品等生成多种创意和逼真的Logo,比如徽章、字母甚至非常抽象的Logo。

标注和问答:利用增强的图像理解能力,Imagen2能够创建详细的长文标注,并对图像内元素提出的问题给出详细答案。

多语言提示:除了英语,Imagen2还支持其他6种语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语),并计划在2024年初增加更多语言。这项功能还包括提示与输出之间的翻译能力,比如,可以用西班牙语提示,但指定输出为葡萄牙语。

图像加水印,生成更安全

为了帮助降低文本到图像生成技术的潜在风险和挑战,谷歌从设计和开发到产品部署都设置了强大的护栏。

Imagen2集成了SynthID——用于加水印和识别 AI 生成内容的尖端工具包。

这样,Google Cloud平台的客户可以直接在图像中添加数字水印,同时不会降低图像质量。

不过,即使在对图像进行过滤、裁剪或使用有损压缩方案保存后,SynthID仍然可以检测出。

除此之外,在向所有用户推出之前,谷歌会进行强大的安全测试,以最大限度地降低伤害风险。

从一开始,谷歌团队就投入对Imagen2的数据安全训练,并添加了技术护栏来限制有问题的输出,如暴力、冒犯或色情内容。

同时,谷歌还对训练数据、输入提示和系统生成的输出进行安全检查。比如正在应用全面的安全过滤器,以避免生成名人图像等有潜在问题的内容。

网友惊呼:真·最强文生图模型来了!

Google DeepMind研究副总裁兼深度学习主管Oriol Vinyals尝试用Imagen2为Gemini生成徽标。

另一位谷歌科学家用Imagen2生成的图像如下。

下面是一只网友实测生成的蓝猫。

有网友认为,Imagen2是同类产品中最好的。就像Gemini Ultra一样,看手和文字就足够了。

不过,他还吐槽了谷歌不向所有人开放产品的问题。

像往常一样,谷歌宣布了一款大多数人无法使用的产品,这有什么意义?!

参考资料:

https://deepmind.google/technologies/imagen-2/

https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available


返回网站首页

本文评论
新闻集团准备割肉价卖出社交网站myspace
  北京时间4月27日消息,据国外媒体报道,新闻集团(News Corp)正在为MySpace寻求不低于1亿美元的出价,数家私募股权公司预计将在本周末提交收购出价。   据“熟悉此次交易的人...
日期:07-27
2023北京互联网大会即将召开,共话首都数字经济新风向_北京互联网科技展览会
通信世界网消息(CWW)数字经济大潮涌动,互联网产业风帆劲起。2023年9月18日,由北京市通信管理局指导,北京市通信行业协会主办,多家基础电信运营企业与互联网企业联合支持的“数字北...
日期:09-14
zec算力「面向AIGC类新型计算业务的算力网络挑战与设计」
0  引言2023年是人工智能(Artificial Intelligence,AI)大模型应用元年,多个维度的技术发展推动了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的产生,其在知...
日期:07-11
迪士尼宣布明年上半年裁员「迪士尼重组:首轮裁员7000人 砍掉元宇宙部门」
3月29日 消息:目前,迪士尼已开启首轮裁员,预计裁员7000人。迪士尼证实,作为将于本周开始的裁员计划的一部分,该公司正在削减其元宇宙部门。苹果的折叠iphone是什么样子与2021年...
日期:03-30
想要安心省心,不妨试试小刀电动车_小刀电动车省电
  电动车因其便利、经济适用等诸多优点赢得了广大的消费市场,各种品牌更是层出不穷。虽然说这让消费者有了更多样化的选择,但是凡事总有利弊,选择更多意味着做出合适的选...
日期:07-10
用人工智能解决信息安全问题?,构建系统化的安全体系至关重要
  近期,包括德国总理默克尔在内的德国政府官员私人信息大规模泄露事件,再次引发了人们对信息安全的关注。实际上,由于信息存储方式乃至整个生存空间都在向数字化和智能化转...
日期:12-16
中移互联:以新型信息安全基础设施助力安全生态建设_信息安全素养 移动终端安全
通信世界网消息(CWW)近日,中移互联网公司携国有运营商、国有网络、国产设备、国产芯片、国密算法“五个国有”的超级SIM安全防护体系及一系列个人及企业安全产品和解决方案,精彩...
日期:08-11
上市公司回应给员工放暑假:放假情况属实 但个位数员工在岗不实
6月30日消息,最近有一条尚荣医疗生产事业部印章的放假通知”在网上流传。根据通知显示,因尚荣医疗生产事业部订单不足,无法达到全厂线开工条件,经研究决定采取放假方式调节产能...
日期:06-30
2022年抖音十大热点歌曲出炉:你听过几首?「2020抖音上最近很火的十大歌曲」
12月28日,抖音发布《2022抖音热点数据报告》。报告公布了2022年抖音十大热点歌曲,火遍抖音的歌曲,哪首是你看一眼忍不住唱出来的呢?1、《追寻你 (剪辑版)》2、《靠近》3、《小城...
日期:12-29
智慧CRM服务供应商玄武云推出AIGC产品“业务员智慧助手”「玄武资料库」
7月19日 消息:近日,国内智慧CRM服务供应商玄武云对外表示,公司已发布首款AIGC应用产品“业务员智慧助手”。据悉,该应用将赋能SFA(销售能力自动化)产品模块,旨在提升业务员工作全...
日期:07-19
消息称三星或放弃对恩智浦半导体公司的收购_恩智浦半导体被谁收购了
  北京时间8月24日早间消息,据报道,消息人士称,三星正在重新考虑收购位于埃因霍温的恩智浦半导体的计划。据称,该公司的要价已经飙升至80万亿韩元。虽然三星确实有完成收购的...
日期:07-17
藏文版WPS_藏文版 WPS Office 正式发布:全面适配 Linux 生态,集成汉藏互译工具等
  10 月 21 日消息,今日,金山办公宣布国内首个纯国产化藏文版办公软件“藏文版 WPS Office”正式发布。   金山办公表示,藏文版 WPS 全面适配 Linux 生态。据金山办公研...
日期:11-28
华为智能门锁哪款型号好「华为智能门锁系列闪耀AWE2023,荣获双重安全认证」
科技发展让老百姓生活方式日新月异,智能家电进入中国寻常百姓家也已是大势所趋,而智能门锁正以凶猛之势替代传统门锁,成为协助人们随时看家护院之新选择。4月27日至30日,华为智...
日期:09-17
iPhone 15 Pro系列推迟固态按键
据消息人士透露,由于技术问题,苹果iPhone 15 Pro系列将不会采用此前传闻的固态按键。该技术可用于未来的模型中。固态按键被寄予厚望,它的缺席可能会让一些用户感到失望。固态...
日期:05-08
8999元起!小米MIX Fold 3再次预售
昨日,小米举行了年度新品发布会,正式推出了轻薄全能折叠旗舰手机——小米MIX Fold 3。发布当晚,该手机的预售即被抢购一空。根据小米商城的消息,小米MIX Fold 3将于今日上午10:0...
日期:08-15
携手玄龙骑士实现“最终幻想” FANFEST 2019上海站圆满落幕
  8月10日,FANFEST 2019上海站在新国际博览中心举办,来自全国的《最终幻想14》玩家欢聚一堂,庆祝这场盛大的狂欢。这里不仅有《最终幻想14》真实场景的还原、有吸睛的COSPAL...
日期:04-02
蛙蛙写作软件下载地址 AI写作软件哪个好用_蛙小说是真的吗
蛙蛙写作是一款AI写小说神器,它的主要功能是帮助小说创作者,高效且创新地进行短篇小说创作。² 用户只需输入书名、选择视角、故事类型和节点梗概,就能由AI生成大纲、情节。那...
日期:11-28
三星掌门李在镕获假释出狱_三星掌门人李在镕获假释后,今日将再次出庭受审
  8 月 19 日消息 据韩联社报道,据韩国司法界消息,首尔中央地方法院刑事合议 25 庭将于 19 日上午 10 时就三星电子副会长李在镕涉嫌违反《资本市场法》一案进行开庭审理。...
日期:06-27
中国移动发布运营商在跨境数据流动领域首份白皮书_「移动跨境专线」
【网易科技2月20日报道】中国移动近日在北京举办跨境数据流动研讨会,发布运营商在跨境数据流动领域的首份白皮书,并邀请产学研各界专家围绕构建安全合规有序的跨境数据流动体...
日期:02-22
古驰unskilledt恤「4000元古驰T恤洗一次褪色 官方这样回应」
近日,一位消费者在清洗古驰 T 恤后发现褪色,引发了公众对古驰品质的质疑。消费者在杭州大厦古驰专柜购买了一件价值4400元的 T 恤,但在清洗后,发现袖子部分出现了明显的褪色。育...
日期:08-02