您的位置:首页 > 互联网

千呼万唤的可灵网页版来了!基础模型重磅升级,新功能“炸场”WAIC

发布时间:2024-07-08 12:09:05  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西,授权转载发布。

“这可能是本届WAIC上欢呼声最多的一场发布”

在刚刚闭幕的世界人工智能大会(WAIC)上,快手晒出了可灵发布一个月以来的成绩单:

“超50万人申请,已开放给超30万用户使用,生成超700万条短视频。”

作为全球首个用户可用的真实影像级视频生成大模型,可灵一经问世便引发了强烈反响,连外国网友都纷纷投来了羡慕的目光……

甚至Stability AI的前CEOEmad Mostaque看了也表示,中国这次已经遥遥领先。

但快手似乎并不满足于此。

可灵Web端上线、更高清画质、首尾帧、镜头控制、文生视频开放到10s;可图开源……

随着快手高级副总裁、主站业务与社区科学线负责人盖坤宣布多个重磅消息,现场几度沸腾。

可灵网页端上线,文生图模型重磅开源

之所以一上线就火到出圈,是因为可灵生成的视频不仅质量高,而且更符合物理规律,大幅度的运动也能准确刻画。

比如这个在公路上高速奔跑的老虎,不仅画面连贯,随镜头角度的变化合理,老虎四肢的动作协调,而且还把奔跑过程中躯干部分的抖动也展现得淋漓尽致。

两周之后的CVPR上,可灵又新上线了图生视频和视频续写两项功能。

其中图生视频功能,拥有很强的逼近世界运行规律的能力,比如网友利用可灵,让《戴珍珠耳环的少女》中的人物动了起来,玩手机、喝咖啡、吃苹果……动作真实又不失优雅。

而且,该功能还表现出了很强的泛化能力。

神画投影仪q1臻品

比如一幅水墨画,加上简单的提示词,可灵就能让水墨画中的动物惟妙惟肖地运动开来。

但盖坤介绍,水墨画这样的素材在可灵训练的过程中非常少见,甚至连团队自己都没见过。

更有意义的是,可灵的图生视频不仅能用来娱乐,还有网友用它“复活”了长辈的老照片,留下了一段感人的故事……

而视频续写功能,则可以把前面生成的视频不断延长,每次5秒,最长可以扩展到三分钟。

这次的WAIC上,快手高级副总裁、主站业务与社区科学线负责人盖坤又宣布,可灵再次迎来一系列重磅更新。这也是可灵从发布起一个月内的第三次大动作。

首先是基础模型的升级,可灵生成的视频,画质得到了进一步提升。

以这个名场面为例,可灵的作品在升级前后的对比是酱婶儿的,可以看出所有的细节处理都比原来更加精细。

另外,新版本可以一次性直接生成10秒的视频,不需要先生成5秒再延长了。

功能方面,这次可灵还新增了首尾帧控制(图生视频)和镜头控制(暂只支持文生视频)。

只需上传首尾两张图片,可灵就能自动“脑补”出中间的运动变化过程。

△素材图片由快手图片生成大模型“可图”生成

镜头控制功能则让创作者可以直接指定运镜方式,不会写镜头提示词也不需要再“开盲盒”了。

对于可灵背后的技术方案,快手视觉生成与互动中心负责人万鹏飞从模型设计、数据保障、计算效率、能力拓展等方面进行了深入剖析。

万鹏飞介绍,可灵最新发布的版本中,在运动生成、物理规律、视频画质、指令响应等七个方向的能力亮点实现了进一步升级。

未来,预计视频生成模型将对游戏、动画、泛视频行业带来新机遇,并有望作为世界模拟器,为具身智能提供互动仿真环境。

除了模型的升级和功能上的更新,快手还重磅发布了可灵Web版本(传送门见文末),可以在PC上更加方便地创作并管理作品了。

包括Web界面在内,这些新功能也是坚持了快手一以贯之的“不画饼”原则,发布即上线,目前限时免费体验。

另外,此次上线的Web界面同时整合了图片生成功能,它的背后是快手自研的文生图大模型——可图。

而且可图在这里与可灵深度联动,生成图片后可以一键转到图生视频,图生视频当中也可以直接选择可图绘制的图片。

说回可图本身,它和其他图像生成模型相比,拥有更高质量和语义跟随能力,支持的场景也更加丰富。

在内部进行的盲测当中,可图取得了第一名的耀眼成绩,超越了MidJourney、Stable Diffusion等一系列知名模型。

在北京智源研究院的第三方测试中,可图也以75.23分的成绩获得了第二名,仅次于76.66分的DALL·E-3。

另外,可图还拥有很强的“写字”能力,支持在图像中用真实的效果嵌入文本。

而且更懂中文,甚至能理解一些古诗词,比如韩愈的《春雪》中,一句“白雪却嫌春色晚,故穿庭树作飞花”就被可图还原得淋漓尽致。

仔细观察图中的细节,你会发现远处虚化的树木已经变成了绿色,还有树上已经绽放的花朵,都符合了诗句当中的季节设定。

可图的上线时间稍早于可灵,于今年的5月31日向公众开放,而就在这次的WAIC大会上,盖坤又隆重宣布,可图大模型正式开源。

目前可图的推理代码和Checkpoints已经在GitHub中公布,未来相关的LoRA、ControlNet和ComfyUI工作流也将陆续上线。

这部分的最后,我们再来展示个小彩蛋——

将于本月上线的快手首部AIGC短剧《山海奇镜之劈波斩浪》,就有可灵的深度技术支持。

在快手的大模型家族当中,可灵和可图因为可以直接用于创作,所以我们的感触更加直接。

但其实,快手还拥有更为庞大的“大模型矩阵”。

快手大模型家族全员亮相

除了可灵和可图这样的视觉生成大模型,快手的大模型矩阵还包括语言大模型、推荐大模型等等。

比如为了让你刷到的内容更符合你的偏好的、“默默无闻”的推荐大模型。

盖坤介绍,快手的推荐大模型基于SIM(Search Interest Model)模型打造,拥有10万亿参数量。

而且,对每一个用户,快手推荐大模型处理的行为序列长度,都可以达到百万。

现在,快手大模型团队正在积极研发基于Transformer的下一代推荐大模型技术。

还有语言模型“快意”,在内部盲测中,中文能力已经达到了GPT-4水平。

快手副总裁、大模型团队负责人张迪介绍,快意大模型从最早开始,已经研发了四个版本。

从早期的13B版本开始,到现在已经有了主力应用的175B版本和多模态版本,经过了多个版本的研发快意大模型已经在快手内部应用在包括素材创作、AI互动和内容生产等多个场景中。

在快手大模型家族中,快意是最基础的能力,未来除了持续提升快意大模型的基础能力之外,团队还将结合快手的应用场景,做出差异化的功能。

快手家族的这些大模型覆盖了生成、推荐和理解等多个层面,并已经深度服务于快手的各大业务场景。

另外,基于系列大模型能力,快手还搭建了数字人全流程AIGC服务。

这其中包括了数字人脚本创意生成、数字人渲染生成、数字人实时互动、智能客服问答等整个流程。

而在C端,快手也在APP评论区中上线了基于大模型的智能体“AI小快”,它是快手官方的智能互动小助手,定位是快手用户有用、有趣且有温度的聊天搭子。

你可以问他视频中各种各样的内容,基于多模态大模型的理解能力可以做出准确的回答,而且AI小快也非常有趣,你可以在评论区画图、画表情包,还能在评论区各种求安慰、求祝福,实现情绪价值。

目前,AI小快有超过1000万的粉丝量,同时有超过1.5亿次的累计互动,而且这还是在AI小快不会主动对你进行评论,只能被动召唤的条件下达到的。

总之,借助大模型矩阵中的各种模型,快手用AI把从B端到C端,从服务到产品的整个生态都武装到了牙齿。

那么,在这背后,快手又有怎样的战略布局呢?

坚持自研,拥抱开源开放

在快手的战略框架当中,坚持全栈自研、坚持技术创新是至关重要的一环。

快手团队在大模型的基础研究和前沿探索方面持续投入,从底层芯片算力、网络架构到顶层应用,都能看到快手自研技术的身影。

张迪表示,快手认为坚定投入自主研发长期来说会带来“技术雪球”效应以及巨大的成本优势。

在上层,快手一个非常大的优势是快手本身有非常多的AI应用场景,这会给大模型带来非常多的落地机会,我非常有信心的说快手可能是国内在大模型应用上探索最深入的公司。

放眼于具体,快手的大模型技术体系涵盖了文本(快意)、图像(可图)、视频(可灵)等多种数据模态,并且强调多模态大模型之间的关联互通,实现更加智能灵活的感知和生成能力。

在自研精神的驱动和不断的研发投入这下,快手已在视频生成、对话互动、数字人等方向取得了行业领先的突破。

当然,有了完备的技术体系,还要与实际应用场景深度融合,才能实现落地,快速产生商业价值。

这也是快手战略体系中的另一个重要环节。

当然,得益于庞大的内容平台和创作生态,快手的一个优势,正是更容易找准大模型技术的最佳应用落点。

具体说,快手重点聚焦在内容推荐、创作助手、互动社区、电商直播、数字营销等几大场景,力求将大模型技术嵌入业务的各个关键环节。

比如在电商直播场景,快手希望通过虚拟主播、智能导购助手等大模型应用,为商家提供了更加智能高效的直播带货解决方案;

又如在数字营销当中,快手将大模型技术与广告平台深度融合,强化多模态广告素材的智能创意生成,提升广告投放的性价比,为广告主创造出了更大价值。

独乐乐不如众乐乐,所以在不断强化自身之余,快手还积极致力于推动生态发展。

可图的开源就是一个很好的例证。

另外,快手不仅与多家高校或科研机构合作进行技术研发,还设立专项了基金支持,学术界的研究创新。

比如与中国计算机学会(CCF)与快手携手,共同宣布成立“CCF-快手大模型探索者基金”。

股权转让可以授权委托吗

该基金针对“大语言模型”、“视觉理解与生成”等五大核心领域,于本年度推出共计12个研究项目,每项课题最高可获30万元人民币的支持。

纵观整个WAIC大会,大模型、算力、数据、AI治理等都是今年的热点议题。而谈及大模型,开源与否又是一个不可避免被谈及的问题。

但快手并没有参与这场口水仗,而是用行动给出了选择,用可图的成绩单证明了开源模型的实力。

这样的做法,亦是快手大模型一贯务实作风的体现,不搞花拳绣腿、不开空头支票,始终坚持产品发布即可用,坚定地为用户做最好的AI技术。

可灵Web版传送门:

https://klingai.kuaishou.com

可图GitHub页:

https://github.com/Kwai-Kolors/Kolors

可图模型权重:

https://huggingface.co/Kwai-Kolors/Kolors

—完—


返回网站首页

本文评论
[图]Gboard更新:针对Android平板优化键盘布局 更容易点击_安卓系统选择键盘布局
Gboard 在今年早些时候的版本更新中,针对可折叠设备推出了拆分的键盘布局。而在近日获得的版本更新中,Gboard 再次针对 Android 平板设备优化了输入键盘布局,每个键的间隔更宽,...
日期:10-15
美国黑色星期五网购创下新纪录,突破98亿美元,全球达709亿美元!_美国黑色星期五购物
**划重点:**手机会弄坏sim卡吗哈啰单车发现违规1. 香港恒生指数收涨0.47%iphone12pro max双十一能降价吗...
日期:11-27
拼多多发布第三季度财报:营收142亿元 月活用户超6亿(快看 | 拼多多第二季度营收72.9亿元,月活用户数3.66亿)
11月12日 消息:今天,拼多多发布了2020年第三季度财报。财报数据显示,第三季度拼多多实现营收142.098亿元,同比增长89%;归属于普通股股东的净利润为4.664亿元。据悉,这是拼多多上...
日期:08-07
2021年最值得入手的投影仪是哪款?这10款随便选不会错(2021投影仪哪个品牌好,哪款适合家用)
  作为新型家用观影设备,投影仪凭借独特的观影效果和使用体验,揽下一众追随者。但是在选购上,想必很多朋友仍然是一头雾水,究竟怎样的投影仪的性价比最高?有哪些值得推荐...
日期:07-16
网购低价优势遭遇挑战:近日快递公司悄悄涨价_快递价格下降
  刚刚恢复正常配送的快递公司,近日悄悄地把快递价格提高了1-2元。   受配送费用上涨、房屋租金上调及用工成本增加等因素影响,网购行业的低价优势能否支撑,成为业内不得...
日期:07-26
男子买2张头等舱想坐3人还骂人 导致航班取消:300人改签没补偿_飞机头等舱购买
据多名网友曝料,12月30日的一趟北京飞成都航班上,一名男子只购买了2张头等舱的票,却要坐3个人,还与机组人员发生冲突,导致航班被迫取消,300多人只能改签,却没得到任何补偿。从网友...
日期:01-04
小米汽车车型「卢伟冰:Q2开始 公布小米汽车具体数据」
快科技5月23日消息,小米集团总裁卢伟冰在一季度业绩会上披露,从第二季度起,小米将公布一些与汽车业务相关的具体数据。不过,他并未披露会公开具体哪些数据,猜测可能会涉及小米汽...
日期:05-24
重磅:百度文心一言全面开放_百度文学城
重磅:百度文心一言全面开放 通信产业网|2023-08-30 23:26:52作者:通文来源:百度【通信产业网讯】记者8月30日深夜从百度获悉,备受关注中国通用AI第一应用—文心一言,在经过广泛的...
日期:09-01
90后大学副教授,用另一个身份,圈粉百万「90后高校教授」
澎湃新闻记者 钟煜豪当曲率、度归、引力波……这些听起来高深的物理学专业词汇让她圈粉100多万!近日,靠短视频科普“弦论”走红的周思益传来好消息——她刚刚被重庆大学聘为副...
日期:09-13
Google收购eBook Technologies 将是2011年第一笔收购
  CNET科技资讯网1月15日国际报道 Google已收购eBook Technologies,这将是2011年的第一笔收购。   eBook Technologies在网页上发表声明称:“eBook Technologies很高兴公...
日期:07-25
白鸽宝成为第21届中国国际投资贸易洽谈会指定保险经纪公司(白鸽保保险经纪)
  2021年9月8日至11日,第21届中国国际投资贸易洽谈会(以下简称“投洽会”)将在中国厦门举办。作为中国目前唯一促进双向投资为目的的国际投资促进活动,也是通过国际展览...
日期:07-17
即将发布!小米14、14 Pro马上见 卢伟冰:准备去工厂打螺丝_小米14ultra
快科技10月22日消息,首款澎湃OS手机,加上最完美徕卡镜头,让小米14系列热度高涨,未发先火。今日,卢伟冰发微博表示:准备出趟长差,回来后有可能直接去工厂为小米14系列打螺丝”。值得...
日期:10-23
墨水屏+AI成亮点-首发优惠价3899元 猿辅导发布小猿学练机
【】5月30日消息,沉默近两年的猿辅导在智能硬件领域释放重磅动作,推出旗舰型产品小猿学练机。该产品面向全国中小学生,主打学练一体、以练促学,重新定义学练一体化的数字化产品...
日期:09-25
重新定义运动耳机!1MORE万魔开放式运动耳机新品S50正式发布「万魔耳机体验」
重新定义运动耳机!1MORE万魔开放式运动耳机新品S50正式发布 通信产业网|2023-06-28 18:26:40作者:通文来源:通信产业网6月28日,万魔在北京香格里拉酒店举行2023“气场全开”新品...
日期:06-28
中国信通院副院长王志勤:在5G-A时代,核心网需要加速升级
通信世界网消息(CWW)日前,在第31届中国国际信息通信展“5G-A核心网产业论坛”上,中国信息通信研究院副院长王志勤表示,我国5G建设已经硕果累累,新应用与新需求对5G网络能力和网络...
日期:06-07
卢伟冰小米中国区总裁「卢伟冰证实:小米确有在开发全新车型!」
快科技5月24日消息,小米集团最新公布了第一季度财报数据。截至4月30日,小米SU7系列累计锁单量88063辆;截至5月15日,小米SU7系列累计交付量突破1万辆,目标是及今年6月单月交付破万...
日期:05-24
苹果新款第十代 iPad 的 USB-C 接口比其他型号更慢「ipad usb-c转usb」
10月28日消息:与最新的 iPad Pro、iPad Air 和 iPad mini 等机型相比,苹果新的第 10 代 iPad 配备了较慢的 USB-C 接口。欣旺达 储能正如 The Verge 在本周发布的新 iPad 评...
日期:10-28
电池229元 iQOO-Neo9 Pro维修备件价格公布,屏幕690元_iqooneo5维修
来源:中关村在线vivo iQOO Neo9 Pro维修备件价格公布,人工费均为50元。在不拆机维修情况下,vivo会员可以免人工费进行维修;如果需要拆机维修,则每月的18日至20日亲自到服务中心送...
日期:12-31
微软Windows 7份额超过20% IE份额持续下滑(windows 市场份额)
微软和Google都推出了两款成功的产品:Windows已经超过了20%的份额,而Chrome的份额也达到了两位数。在浏览器市场上,IE8增长强劲,IE9也已推出,IE的份额还是继续探低。Firefox的用...
日期:07-25
天冕科技携手华为云共同打造高效智能的数据中台
天冕信息技术(深圳)有限公司(以下简称天冕科技)是WeLab汇立集团旗下领先的一站式金融科技服务商,依托集团 10 年金融科技的输出与积累,以大数据分析、人工智能、隐私计算、机器学...
日期:06-06