您的位置:首页 > 互联网

对话网易伏羲赵增:开源VS自研?哪条路是通向AIGC的捷径?|WAIC2023

发布时间:2023-07-18 01:43:39  来源:互联网     背景:

声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:郝鑫、黄小艺,授权转载发布。

从去年底到现在,国内外肉眼可见地涌现出了一批文生图公司,这背后与基础架构开源有很大关系。

2022年8月,Stability.AI在GitHub上公开开源了Stable Diffusion模型的代码和训练数据集;当月底,基于Stable Diffusion的图像生成工具Stable Diffusion web UI也正式开源发布。

图片

(Stable Diffusion模型基本架构 图源:网络)

自此,以“Stable Diffusion”命名的“扩散模型”响彻了整个AIGC,在落地中形成了由文字编码器(Text Encoder)、图像信息生成器(Image Information Creator)和图像解码器(Image Decoder)组成的扩散模型架构,技术的核心是在去噪的过程中逐渐还原出图片。

开源的春风吹到了国内,也给了正在独自摸黑探索的中国文生图公司送去了光明。

“开源了,我们既兴奋,但又更迷茫了。”

技术方向更加明确了,训练路径也更加清晰,中国文生图公司又面临着一个新问题:要不要全面拥抱开源模型?

618优惠券好抢吗

对于这个问题,网易伏羲和赵增团队也曾反复思考。

赵增的答案是,只能借鉴,不能全盘照抄。“模型训练不能开黑盒,只要做不到完全透明、可控,就存在风险。”

基于这个逻辑,网易伏羲走上了中国式文生图的道路,其基本模型架构为“自研+开源”相结合,平台做到了全中文输入、理解。

之前大模型因为不理解中文“闹了不少笑话”,而网易伏羲从模型训练开始便意识到了这个问题,在思考如何把文生图用得更好方面更快人一步。

如今,文生图迈入了更高效、更稳定、更自由可控的里程碑阶段,也衍生出图生图、图生3D、多图生视频等技术路径。

在围观了国外文生图应用的热闹景象之后,网易伏羲也走向了更深的自我思考和升级。

近期2023世界人工智能大会上,光锥智能对话网易伏羲预训练及生成式人工智能平台负责人赵增,聊一聊他对于爆火的文生图现象和背后技术的理解。

核心观点如下:

1、文生图的模型参数不是越大,效果就越好。

2、技术是标准化的,但审美是非标准化的,要想提升生成的美术效果,需要有美术专家介入,提供反馈。文生图的模型上限在专家,下限在技术。

3、借鉴国外开源模型固然可以提升生成技术,但一味地拥抱开源并不可取,其中存在许多可控性、安全问题,还是要构建自主的生成模型。

4、总体来看,文生图应用还处于探索时期,没有进入工业化落地阶段。

以下为对话实录:

光锥智能:网易伏羲生成平台的探索过程是怎样的?近期有哪些新的进展?

赵增:2018年开始,网易伏羲就开始尝试用GPT去做模型应用适配。但随着OpenAI公司逐渐关闭对国内的技术访问路口,2020年,我们开始自己组织团队,以文本预训练为切入点去训练模型。

2021年之后,结合网易自身业务需求和互联网发展历程,我们判断多模态将是未来发展趋势,因而开始大力做多模态理解和生成。去年Stable Diffusion开源后,开始将自身的模型训练路线与开源架构相融合。

今年年初,文生图再次被推到风口,开源生态也异常活跃,在此背景下,我们对技术架构路径再次做了调整:一方面,持续优化自身的中文生成模型,希望其能在中文领域达到顶尖的效果;另一方面,去做更加友好开放的生产管线,将具有AI技术的人和专业艺术家都纳入生态系统。

最近我们内部也正在做预研2.0,在能力得到充分验证以后,也会更多地对外开放,融合到业务场景中、伏羲有灵美术平台中。

图片

(AIGC绘画平台)

光锥智能:网易伏羲文生图大模型的参数是多少?

赵增:现在方案有很多套,有十几亿、三十几亿,也有几百亿的参数方案。一个很有趣的现象是,即使Stable Diffusion已经开源了多个版本,但现在最流行的还是早期的1.5版本,这就代表不是参数越大,效果就越好。我们的理念也是一样,会先尝试把数据变得越来越大,模型训练得越来越大,但也还会根据实际情况选择合适的尺寸去生成。

光锥智能:网易伏羲支持全中文操作,对比一些英中转换的模型,建立一个全新的中文语料库的难点在哪里?

360商城可信吗

赵增:最大的难点在于整个前期投入,就是要去系统性地构建高质量的中文数据集,然后喂给基础模型,从头去构建,不断地迭代,所以整个周期就会很长。我们的优势在于,起步比较早,在Stable Diffusion还没开源之前,我们就已经在不断地投入,到现在已经产生了很多积累。

光锥智能:如何在技术层面提升语义指导的精准程度,提升文生图的效果?

赵增:万变不离其宗。第一,在数据层面,要构建更符合用户输入内容的数据分布。在大模型背后的系统组件支持下,把这些数据更有效地串联和优化;

第二,在模型结构层面。我们在中文场景下做了很多调整,去尝试有效的结构,包括规模尝试。整体来讲,我们的模型结构跟开源模型结构不是完全一样的,无论是图片还是文本,都做了优化;

第三,是数据反馈。要获得有价值的评价,把干扰生成过程中的数据剔除掉,形成正向反馈机制,才能在训练过程中不断提高生成能力。

中国风美女 汉服 绘画

(AIGC生成的古风人物形象)

光锥智能:技术是标准化的,可是审美是非标准化的。网易伏羲在做文生图的时候,是怎样标准化生成结果?优化生成效果的呢?

赵增:反馈是很重要的,网易有非常多的顶尖的艺术家,他们会在使用过程中提供很多专业意见,帮助我们找到需要优化的点。我们也会把当前的版本发到伏羲有灵众包平台上,来获取用户匿名反馈。

举个例子,之前3月的时候,我们做了一款二次元模型,初步觉得效果不错,但美术专家一看,就说头身比不行、姿势不行,在他们的反馈之下,我们从模型数据层面做了重构,才调整过来。

大疆djimavic3无人机价格

这也给我们一个启示,从系统的层面我们只能去增加量,但是想要做顶尖的内容生成,就要有顶尖的审美,需要跟行业有深度的合作。我们和美工在内部分工很明确,模型的上限在他们,下限可能在我们技术上。

(AIGC生成的二次元形象)

光锥智能:除了审美,专家的介入还会提带来哪些反馈优化,可以举个例子吗?

赵增:主要基于他们的生产过程。

比如说处理图的时候,他们需要什么样的风格。如果是通用风格,例如二次元,我们就会把它做成基础模型;但是如果特别小众,例如厚涂,就做成二级模型,去开放自主仿真的能力,让专家自己去定制模型。

而在图生成以后,他们可能需要能在PS里自动分层的图片。还有,对于具体内容的理解,例如,专家们需要榫卯结构、中国古代盔甲......这就需要我们不断去构建相应的数据,根据已有范式,补充相应的内容。

光锥智能:网易伏羲有没有针对用户展开具体的用户画像分析,比如专业的、业余的等等。

赵增:目前,是希望服务专业生产。因为这部分用户离我们最近,我们最能知道他们想要什么,也能很明确的算出来,等到他们真正用起来以后,我们才能产生巨大的收益。

光锥智能:如何看待使用国外开源模型的问题?

赵增:我们内部对要不要直接拥抱开源的这个问题,做了很多次讨论,最后的答案是明确的:要构建自己的生成模型。

直接使用国外开源模型,存在几个非常大问题,首先是对生产能力可控性的把握。以文生图为例,从特征提取到真正拿来用,这中间还有很多环节,模型要怎样去理解一些非常领域化和中国化的内容变得很关键,如果直接调用国外模型肯定会出现水土不服。

另外,在跟进国外开源生态的过程中,我们发现,一些生成效果比较好的模型,背后其实是庞大数据在支持,如果技术不加以控制,就可能出现失控。其次是数据合规性问题。虽然技术没有国界,但事实证明现在生成的内容的确是有偏见的,我们需要保证最后生成的内容要符合实际生产需求。

篱笆女人狗电视剧第二部

总而言之,我们的目标是去构建更有中国特色的生成模型,对于这个生成模型,我们希望从底子上它就是可控的,所有构建过程都是白盒状态,模型、数据、工程框架优化、迭代演进等都是清晰透明化的,而不是只知道一个模型的版本号,开源后拿过来改改再用。

光锥智能:国外已经出现了几款爆款软件,进入大规模应用阶段。但目前在国内,这样的感知似乎不是很强烈。以您的观察来看,国内文生图应用发展到了什么阶段?

赵增:其实,无论国内外,我们认为现在文生图的应用基本都还处于探索阶段。因为以我们的标准来看,只有出现像Photoshop这样现象级的产品,能实现为整个行业去服务、产生巨大收益的时候,才算是进入一个工业化落地的阶段。

目前,短暂的体验型产品还远远不够。从纯图文层面来讲,现在的工具功能都是碎片化的,没有一个能够解决全流程的问题,我们的用户需要不断地在各个AI生产工具中切换,因此他们的支付意愿不高,对单个产品的依赖度也很低。

不过,虽然现在生产规模还在起点阶段,但各种从业人员包括高层都看到了图文的价值,还需要时间去探索如何规模化。

光锥智能:国外公司从文生图转向了文生视频,在文生视频方面,网易伏羲有做尝试探索吗?

赵增:文生视频我觉得是一个非常有价值的场景,但是从落地的角度来讲,还是需要持续投入,它的成熟度会比文本、图文更滞后一些。从技术难点看,它的数据量可能更大,需要处理前后帧的相关性。


返回网站首页

本文评论
一加首款折叠手机曝光 OnePlus Open下月发布「一加会出折叠手机吗?」
刘作虎爆料,一加首款折叠屏智能手机即将发布,而目前新机命名已经定了,最终命名OnePlus Open,发布的时间于8月19日发布。一加希望与目前的折叠手机区分开来,因为三星、谷歌等厂商...
日期:07-08
爱奇艺《青春有你2》5月30日迎最终舞台·成团之夜 李宇春受邀出席总决赛现场
  爱奇艺自制青年励志类综艺《青春有你2》将于5月30日20:00迎来最终舞台·成团之夜,届时重磅嘉宾李宇春也将来到总决赛现场,与粉丝一同见证激动人心的成团时刻。总决赛当晚...
日期:07-14
2020第四季度智能手机出货量「超高端智能手机占 2022 年第二季度智能手机总收入的一半」
10月9日消息:根据Strategy Analytics发布的数据,超高端智能手机批发价在600美元及以上,占2022年Q2智能手机总收入的一半,略低于前两个季度。除了100-190美元 (批发) 的中端价位外...
日期:10-10
视频调色软件 DaVinci Resolve 17 正式版发布:超 300 项新增和改进
  2 月 25 日消息 今天,DaVinci Resolve 17 正式版已于今天发布,官方表示这一版本汇集了逾 300 项新增和改进功能。   据了解,新版本调色页面设立了新的 HDR 调色工具,重...
日期:07-16
致远互联高光亮相中国企业服务年会 荣获年度创新企业(致远互联企业愿景)
  11月14日,由中国软件网主办,海比研究、光明网联合主办的“洞见2020中国企业服务年会”在北京香格里拉饭店隆重开幕,科创板上市企业致远互联(股票代码:688369)作为中国企业...
日期:02-18
安徽电信率先完成生产系统全栈国产化试点
通信世界网消息(CWW)随着信息技术产业的发展,数字经济逐渐成为我国“十四五”经济发展关键动力。中国电信持续践行“云改数转”战略,提出“成为关键核心技术自主掌控的科技型企...
日期:06-14
Google搜索现可以查询Reddit和Quora以回应开放式问题
4月初,软件工程师Dmitri Kyle Brereton发表了一篇博文--《Google搜索正在消亡(Google Search Is Dying)》并由此触动了人们的神经。这篇文章现在是Y Combinator的Hacker News...
日期:09-29
有颜又有料!一点扫拖机器人K650,仙女们的精致生活守护者_一点扫地机器人k650
  猫狗双全,完美的人生却要为无处不在的宠物毛发而烦恼?精致生活,可爱的小仙女却要为家里的粉尘飞絮清理挥洒汗水?亲子时光,难得准时下班的全能辣妈却还要为拖地发愁?炎...
日期:07-14
天玑1200苹果a13「性能超苹果A17 天玑9300卷出新高度:4个X4超大核详细规格出炉」
快科技5月31日消息,今年双11左右,高通、联发科新一代旗舰就要发布了,都会上新一代X4超大核,但骁龙8G3是152配置,发哥的天玑9300则是44配置,直接上4个X4超大核CPU。除了4个X4之外,天...
日期:05-31
高速随意变道引发车祸「百万豪车高速任性变道被大车撞飞:扣1分罚200」
有些人开车从来都是顾前不顾后,顾己不顾人,哪怕是在高速公路上,也是说变道就变道,丝毫不管后方有没有来车。特斯拉回应上海车展据报道,7月7日,长深高速湖州段,一价值百万的玛莎拉蒂...
日期:07-12
云砺(票易通)完成累计近2亿美金C系列融资,继续领跑企业协同服务赛道
  全球领先的企业协同服务商—云砺信息科技(产品名:票易通,简称云砺)于6月1日宣布完成C+轮及C++轮融资,C系列累计融资额近2亿美金,创中国企业协同服务领域的最大融资记录,成...
日期:05-10
美团推出多款机器人  无人机“3公里15分钟”送货到家  _网易科技(美团无人配送机器人)
8月18日,美团在2022世界机器人大会上,展示多款在仓、在途、在楼机器人产品。本次大会吸引了130余家企业携500余件展品亮相,30余款全球首发新品将在博览会现场集中发布。资料图...
日期:08-19
千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?「哔哩哔哩千万up」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-09
美国为了打压中国芯片业竟然禁止卖金刚石 这太荒唐了
运营商财经 康钊/文近日,美国相关部门宣布对中国禁止出售四种产品,都是针对中国芯片业,其中禁止对中国出口金刚石,这令人好笑,因为金刚石就是钻石的原材料。金刚石就是通常人们理...
日期:08-16
专访Linus Torvalds:鄙视用道德绑架开源的行为
【51CTO 5月18日外电头条】编者按: 今年,Linux 20岁了。在Linux开始发布时,Linus Torvalds为何选择非GPL版权而不是GPL许可?让我们一起来看看Linus Torvalds的回答。本文是Li...
日期:07-28
文献版权争议难解 知网发声:提高稿酬(知网论文撤稿)
来源:北京商报   8月11日上午,知网副总经理兼新闻发言人肖宏在接受采访时首次披露多方面信息。肖宏回应,目前知网为100%国有控股企业,2021年同方(知网)支付版权费用1.56亿元。如...
日期:08-12
Outlook取代邮件和日历应用引争议!微软回应:将重新进行评估「outlook 日历」
快科技6月20日消息,早些时候,微软曾在Microsoft365消息中心发布通知,宣布将在2024年9月起用Outlook取代Windows邮件与日历应用。kindle怎么写在通知发布后,大量用户表达了自己的...
日期:06-20
智能网络编排技术自主攻关,实现江苏联通OTN业务运营能力新突破_联通oa办公系统官网
通信世界网消息(CWW)中国联通持续推进网络的智能化。随着5G和行业的数字化转型加速发展,中国联通凭借SDN技术的优势及应用创新实践,使得智能化的网络建设和运维成为现实。江苏分...
日期:06-27
旧手机回收恢复出厂设置会不会泄露隐私「卖旧手机又不想泄露数据,只恢复出厂设置可不行」
较真要点01仅通过手机恢复出厂设置不能保障信息安全,稳妥的办法是在手机恢复出厂设置并重启后,通过多次拷贝视频、下载软件等方式,把原有手机存储内存占满,覆盖掉原有数据,然后再...
日期:09-24
一周涨粉上百万,“温暖一家”玩出了哪些新花样?
声明:本文来自于微信公众号 KOL使用手册(ID:KOL-TOPKLOUT),作者:雨过炊烟,授权转载发布。俗话说:“一个女婿半个儿”,抖音博主“温暖一家”就上演了一幕幕东北内蒙老丈人和南方女...
日期:12-12