您的位置:首页 > 互联网

可在图像中生成任意精准文本,支持中文!阿里开源AnyText_图片生成api

发布时间:2024-01-08 13:22:32  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

随着Midjourney、Stable Difusion等产品的出现,文生图像领域获得了巨大突破。但是想在图像中生成/嵌入精准的文本却比较困难。

经常会出现模糊、莫名其妙或错误的文本,尤其是对中文支持非常差,例如,生成一张印有“2024龙年吉祥”的春联图像,就连著名的文生图模型都很难精准生成。

由著名文生图模型生成:图像还行,提示词根本理解不了嵌入图像中的中文

为了解决这些难题阿里巴巴集团的研究人员开源了,多语言视觉文字生成与编辑模型——AnyText。

根据AIGC开放社区的实际使用体验,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。

台积电28nm日本工厂又有新进展

由AnyText生成,完美理解中文提示词,同时可自定义文字出现的位置

值得一提的是,AnyText能以插件形式与其他开源扩散模型无缝集成,可全面强化其图像嵌入精准文本的能力。

开源地址:https://github.com/tyxsspa/AnyText

论文地址:https://arxiv.org/abs/2311.03054

在线demo:https://huggingface.co/spaces/modelscope/AnyText

AnyText测试界面,直观操作简单,可手动调节各种参数

AnyText支持中文、日文、韩文、英语等多种语言,可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员,提供高精准、自定义的文生图像服务。

AnyText技术架构

目前,开源的扩散模型在生成的图像中嵌入精准文本表现不佳,主要有3个原因:1)缺乏包含全面文本内容注释的大规模图像和文本配对数据集。现有的大规模图像扩散模型的训练数据集,如LAION-5B,缺乏手动注释或文本内容的OCR结果。

文字生成图片api

“五一”假期全国揽投快递包裹近26亿件

2)许多开源扩散模型使用的文本编码器,如CLIP文本编码器,采用基于词汇的分词器,无法直接访问字符级别的信息,导致对个别字符的敏感性降低。

3)大多数扩散模型的损失函数旨在提高整体图像生成质量,缺乏对文本区域的专门监督和优化。

针对上述难题,阿里的研究人员开发了AnyText模型和AnyWord-3M数据集。AnyText采用了文本控制的扩散流程,包括两个重要模块:辅助潜变量和文本嵌入。

辅助潜变量模块用于生成或编辑文本的潜在特征,作用是接受文本字形、位置和遮罩图像等输入,生成用于文本生成或编辑的潜在特征。

图片生成api

这些潜在特征在生成或编辑文本时起到辅助作用,帮助确保文本的准确性和一致性。

辅助潜变量使得AnyText能够在图像中,生成或编辑曲线或不规则区域的文本。这也就是说,即便想生成弯曲、不规则的字体也没问题!

文本嵌入模块利用OCR模型将笔画数据编码为嵌入向量,并与标记器生成的图像标题嵌入向量进行融合,从而生成与背景无缝融合的文本。

为了提高书写准确性,研究团队采用了文本控制的扩散损失和文本感知损失进行训练。

提升图像嵌入文本精准度

为了进一步提高生成文本的准确性,AnyText采用了文本控制扩散损失和文本感知损失进行训练。

文本控制扩散损失,用于控制生成的文本在指定位置和样式上的准确性。它通过比较生成文本与目标文本之间的差异,促使模型生成更准确、一致的文本。

文本感知损失,作用是进一步增强生成文本的准确性。它通过比较生成文本的特征表示与真实图像中相应区域的特征表示之间的差异,来衡量生成文本在视觉上的准确性。

AnyWord-3M数据集

这个数据集是提升AnyText文本能力的重要部分,一共包含了300万个图像-文本对,并提供了多种语言的OCR(光学字符识别)注释。

AnyWord-3M中出现的文本行超过900万行,字符和词汇数总量超过2亿。文本涵盖中文、英文、日文、韩文等语言。这是目前公开的规模最大,也是第一个专门用于文本生成任务的多语种数据集。

图像生成文本描述

主要包含的数据集:悟空数据集的中文部分,这是哩哩哩实验室构建的数亿级中文跨模态数据集。AnyWord-3M从中筛选出约154万张图像。

LAION数据集的英文部分,由斯坦福大学等构建的大规模英文图像文字匹配数据集, AnyWord-3M选择了其中约140万张图像。

多个OCR识别数据集,包括文字定位和识别领域的标准数据集ArT、COCO-Text、RCTW等,提供了约10万张带标注的文本图像。

在获取这些源数据之后,AnyText研究人员还设计了严格的过滤规则,对图像和文本行进行过滤,确保训练数据的质量。

文本行过滤的规则非常细致,例如,文本行高最小30像素、文本识别置信度超过0.7等。

情人节怎么过浪漫异地恋

所以,AnyWord-3M吸取了多个数据集的精华中的精华,也是AnyText能力非常强悍的重要原因之一。

苹果14pro是5g吗


返回网站首页

本文评论
至爱智家下载APP_至爱智家安装服务平台至装宝APP正式上线,5分钟3个报价
  写在前头:至装宝APP新版震撼来袭,文末长按图片识别二维码即可下载!   至装宝是S2B2C的定制家居售后服务解决方案平台,以数据为驱动通过Saas系统实现商家、安装师傅与业...
日期:07-14
oppo能无线充电的手机哪几款「OPPO Find N3支持无线充电,国产折叠屏开始普及无线充」
有数码博主爆料,“接下来的国产折叠屏手机都将补齐无线充,其中OPPO Find N3和OPPO Find x6系列一样,设计思路是非常均衡的,续航,机身,影像,屏幕都是第一梯队,影像三摄的主副摄素质在...
日期:06-15
中通快递寄丢白金项链只赔500元 当事人:接受不了「中通快递员丢失快递怎么理赔」
10月6日消息,据小强热线报道,今年8月,叶女士和朋友到四川旅游,不小心将一些物品落在了成都都江堰的一家酒店。其中最贵重的就是一条白金项链,结果中通快递在邮寄途中,把包裹弄丢了...
日期:10-09
努比亚z176+128「努比亚 Z60 Ultra 手机官宣 12 月发布,“真全面,真的很全面”」
IT之家 11 月 30 日消息,努比亚手机官宣,努比亚 Z60 Ultra 手机将在 12 月发布,官方口号为“真全面,真的很全面”。慧眼卫星团队通过对脉冲星努比亚 Z50 Ultra于 3 月 7 日发布,...
日期:11-30
电商助农到底是不是伪命题_电商助农真实案例
    老李家在黑龙江,种植的就是东方甄选主播董宇辉口中所说的普通玉米。几年前,老李的身边也曾有人试水种过几十亩黄糯玉米,但最终因为不划算而选择放弃。对于当地着重走量...
日期:09-29
谷歌对平板电脑平台Google Search进行更新_googlechrome怎么更新
8月2日消息,据国外媒体报道,谷歌公司对针对iPad、Xoom和Tab 10.1.在内的平板电脑对Google Search的设计进行了一些更新。 上周五,谷歌公司宣布已经刷新了iOS和Android 3.1 +...
日期:07-22
奔图m6509打印机价格「京东全球首发奔图M6766DW Plus激光打印机 首发期享预售直降400元」
随着办公智能化推进、办公方式多元化发展,用户对打印设备的使用体验有了更高的要求。 1 月 5 日,国产打印厂商奔图在京东全球首发了两款激光打印机新品,分别为M6766DW Plus和M7...
日期:01-06
暴雪承认《守望先锋:归来》存在自动购买皮肤Bug:但拒不退款「暴雪放弃守望先锋了吗」
近日,有用户在《守望先锋》的Reddit板块上反馈,称自己在游戏中遇到了在没有进行操作的情况下,游戏自动购买英雄皮肤的情况。同时,根据其他用户的反馈,这一Bug并非偶发现象,还有多...
日期:10-23
《狂飙》《三体》热播,优爱腾终于过了个好年
声明:本文来自于微信公众号 Tech星球(ID:tech618) ,作者: 杨晓鹤 ,授权转载发布。2月1日,从年前火到年后的《狂飙》迎来大结局,最终这部剧的热度收官破1.176亿,最高评分突破9.1分,均...
日期:02-06
空姐、教辅人、大厂员工,外贸白领:转型量体师,年入过百万
声明:本文来自于微信公众号 财经故事荟(ID:cjgshui),作者:陈纪英,授权转载发布。时至今日,那种焦虑的感觉,晓凤依然记忆犹新。在某K12上市公司,从基层销售,一路升到总监位置,手下管理...
日期:10-01
打破数据孤岛 蚂蚁金服共享智能驱动大数据深度应用
  进入大数据时代,各行各业都在探寻利用数据挖掘,推动技术变革和业务创新,而在数据共享中相伴而生的隐私泄露、数据滥用等问题,正引发监管机构关注,包括金融业、医疗健康...
日期:04-11
爱立信在马来西亚设立5G设备制造工厂「爱立信签约多国5g」
通信世界网消息(CWW)爱立信在马来西亚设立其在东南亚地区的首家5G设备制造工厂。该供应商在马来西亚生产Massive MIMO天线集成无线设备等5G无线设备,并与Flex在槟城北部的Prai...
日期:08-08
Playform AI 调查 500 位艺术家眼中的 AI 生成图像工具:从创意生成到最终作品
7月10日消息:文本生成图像图像模型及其令人惊讶的结果引发了对艺术未来的重大问题,这些问题仅通过作品如《Théâtre d'Opéra Spatial》在艺术竞赛中的获奖以及对 Midjourne...
日期:07-10
美团有时间限制吗_腾讯减持美团?时间点很重要
每经记者 王郁彪;杨昕怡;;每经编辑 刘雪梅;;   继相继减持京东(HK09618,股价221.2港元,市值6909亿港元)、海澜之家(SH600398,股价4.5元,市值194.38亿)、Sea Limited(SE,股价89.97美...
日期:08-21
微软首款折叠屏手机Surface Duo 3来了:横向内折 可无线充电「surface phone duo」
微软曾发布过Surface Duo、Surface Duo 2两款手机,与当前折叠屏手机不同,这两款手机由两块屏幕组成,并通过铰链结构将机身组合在一起,售价高达万元,市场反响平平。据Windows Cent...
日期:01-11
iphone12pro单卡是假的吗「iPhone 14 Pro惊现单卡版:品控差背锅」
iPhone 14 Pro首发后不少网友都拿到了产品,而有“幸运”网友就表示自己购买的双卡双待版的iPhone 14 Pro竟然配备了一个单卡版的卡槽,卡槽只有一面能装SIM卡,而另外一面是不能...
日期:10-06
MChat:基于孟子GPT的专业、可控的生成式AI系统_csc孟子
8月31日 消息:孟子 GPT 是一个面向生成场景的可控大语言模型,能够帮助用户完成特定场景中的多种工作任务。MChat 是一个在线试用的 AI 对话机器人,利用孟子 GPT 技术实现对话...
日期:08-31
笔记本电源灯不亮_笔记本电源灯不亮无法开机怎么办
电脑是我们生活和工作中必不可少的工具,而则是一个比较常见的问题。以下文章就来探讨一下的原因及对应的解决方案。1. 电源问题笔记本电脑一般配备了充电器,如果充电器故障,就...
日期:06-05
“戏精”金靖入职海信流量车间,被聚好看AI捧到“脸红”
  女神和女神经之间隔了一个戏精,她的名字叫金靖,走下聚光灯入职海信流量车间的金靖依旧“精分”。在7月26日至27日一场长达48小时的超级直播中,喜剧演员金靖和搭档刘胜瑛作...
日期:07-14
24GB 1TB存储 红魔8S Pro性能拉满:跑分首次超越苹果A16
快科技7月5日消息,今天下午红魔发布了新一代电竞旗舰红魔8S Pro,性能上可以说创造了新纪录,直接拉满当前顶配,全球首发骁龙8 Gen2领先版,存储直接上了24GB 1TB。手机性能主要取决...
日期:07-05