您的位置:首页 > 互联网

Midjourney V6刷屏,但它最可怕的地方居然不是那些神图?

发布时间:2023-12-25 21:21:12  来源:互联网     背景:

声明:本文来自于微信公众号 硅星人Pro(ID:Si-Planet),作者:苗正 王兆洋,授权转载发布。

Midjourney在沉寂九个月后推出了Midjourney V6,这个文生图产品体现出的更细腻的细节处理,更强大的语言理解能力和更加“不像AI”的图片效果在过去几天引发一片惊呼。

作为一个闭源的模型产品,Midjourney的魔法配方并不为人所知,但就像OpenAI和Google一样它会在产品更新时发布官方技术公告,有心人还是可以从中一窥模型能力提升的技术原理。

而我们去扒了扒它透露的信息后,发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….

Midjourney v6生成,电影月光光心慌慌的假剧照,图片源自reddit

图片模型的突破,却靠的是语言模型能力?

“Midjourney v6作为一个“文生图”模型,此次改进的核心能力却来自其自然语言处理能力的提升。

这首先是对提示词理解的’跟随能力’的提升。在其官方文档中,这被称为“prompt following”。简单来说,这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力,Midjourney现在能够更好地解析复杂的提示,无论是关键词、命令还是问题,都能够准确把握。

Midjourney v6生成,电影疤面煞星的假剧照,图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强,另外则依靠模型连贯性的提升。

所谓连贯性,用一个经典的故事就能解释。A问B:“下午大扫除,你来吗?”B说:“我去!我不去!”那么B的意思毫无疑问是不去,因为上文中的大扫除非常累,而B说的“我去!”在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。

新款ipad pro 11寸芯片

Midjourney v6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit

这两个自然语言能力上的改进,Midjourney具体是如何做的?

在跟随能力方面的改进,主要基于三个方面:

上下文管理,它通过分析上下文关系来更准确地理解用户意图;序列建模,利用循环神经网络(RNN)和长短时记忆网络(LSTM)来捕捉对话中的长期依赖;以及交互状态跟踪,它持续追踪用户的目标、意图和对话状态,以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。

但它毕竟是个文生图模型,也就是语言能力和图片能力结合的模型,这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同,Midjourney v6生成的图片目前来看,全部是公共资源。

也就是说你花钱买了服务以后,图片是公共的,模型会生成两份,你拿一份,V6的服务器(也就是V6discoard)也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中,继续训练模型以提高性能。

所以这还引出一个有意思的话题,如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段,而数据真的成为模型训练的决定性因素后,是不是文生图模型有可能训练出比大语言模型更强的语言能力?

在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说,想要提高连贯性并不简单,涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型,事实上简化了过程,由于它不涉及与用户进行持续对话,因此无需应用束搜索等启发式算法,也无需处理自然语言生成中的后处理问题,如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务,从而显著提升了其在理解和响应用户输入时的逻辑一致性。

懂视觉的模型能有更好的文字能力?

图像模型却靠语言能力突破,这其实已经不是第一次。此前同样引发一阵骚动的Dalle3,也是如此。作为OpenAI的模型,背靠ChatGPT,语言能力自然更强。

在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式,以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT,所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中,V6增加的另一个非常重要的能力,也与语言有关。Midjourney称,其现在拥有了文本绘制能力,虽然依然较弱。

对于人工智能绘图来说,能绘制文本无疑是一项重大进步。

文字不再是乱码。图源:X.com

这个能力并非像看起来那样,直接来自模型里大语言模型的模块。在官方更新里,文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂,但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据,是一些通过泛化和模糊处理的图像内容。我们都知道,分辨率越高的图片数据量越大,反之,越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样,他们是按照统计学的一个概念叫做“模式识别”,通过图片中的特征来理解。使用泛化和模糊的图片好处在于,小数据量的图片读取速度快,训练时间就短。但想要用这种训练方式来理解文字是非常难的,因为文字是一种符号,这种泛化处理对于图像中的文字尤其不利,即使是微小的变形或模糊都可能导致文字难以辨认。同时,训练所使用的图像分辨率很低,那么生成图片时,分辨率也不会高到哪里去。

而Midjourney的训练方法,其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型(denoising diffusion probabilistic models),这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下,就像我们用软件修复模糊的老照片,Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。

也就是说,这是像Midjourney这样的图像模型一直在做的事情,训练越久优化越久它的图像“放大”能力就越强,也就会逐渐产生关于文字的生成能力。

在直觉上,这种能力肯定不如“纯粹”的语言模型的语言能力,但一些研究已经在给出不同的指向,在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论,当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成,则差很多。

这是一种很奇怪也很有意思的现象,这一次V6似乎把它再一次轻微的展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时,一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。


返回网站首页

本文评论
审美真在线!比亚迪B级纯电猎装SUV宋L谍照曝光:20万或卖爆「比亚迪宋纯电动2021款报价」
快科技7月28日消息,我们从相关渠道获取了一组比亚迪宋L量产版路试谍照,该车概念版已经在今年上海车展期间亮相,隶属于王朝网,定位于纯电B级猎装SUV,将于今年第四季上市。从拍摄的...
日期:07-28
微软裁掉整个AI伦理道德团队,目前仅剩一部门制定AI应用守则_微软allen
据Platformer报导,微软在最近一波涉及大约1万名员工的裁员当中,裁掉了一整个指导AI创新的团队,而这个团队的目标本来是为了让AI的发展更加可持续、负责任以及合乎伦理道德方面...
日期:03-14
Omdia: OTN延伸至网络边缘是趋势,可实现大带宽、低时延和更优TCO
Omdia: OTN延伸至网络边缘是趋势,可实现大带宽、低时延和更优TCO 华为mate 50 pro 最新消息兰博基尼下一代大牛发布iqoo 无线快充的机型...
日期:05-26
从小鹏 P7 事故分析,看智能驾驶瓶颈在哪?(小鹏P7智能驾驶)
8 月 10 日,宁波高架发生一起小鹏 P7 追尾致人死亡的事故。   发生事故的原因主要有两点,一是被撞车辆是静止的。二是被撞人员站在车后。离车很近的地方是水泥护栏,还有一个...
日期:08-17
又见“雪崩”,芯片价格为何总是暴涨暴跌?_芯片价格飙涨5倍原因
记者/彭新   消费电子市场需求的持续减弱,曾在上半年引发过一波芯片急跌,而近日多款芯片报价“雪崩”,让半导体供应问题再度成为行业焦点。   据央视新闻报道,作为电子控制...
日期:08-19
不仅有灵动岛 Pro版屏幕边框将更窄 iPhone-15系列正面外观曝光_灵动18氪测评
这段时间以来,外界越来越将目光转移到新一代的iPhone 15系列上,这段时间已经有关于该机外观和配置的不少爆料传出,不出意外的话该系列将继续推出包含iPhone 15、iPhone 15 Plus...
日期:09-19
三星SDS推出Brity Copilot 、 FabriX两款生成式AI服务
9月14日 消息:三星集团旗下的IT解决方案提供商三星 SDS 推出了两项生成式AI新服务,Brity Copilot 和 FabriX,旨在帮助企业客户实施生成 AI 以提高工作场所的生产力。2020 q4手...
日期:09-14
Facebook首席执行官马克·扎克伯格人身安全遭遇威胁(马克扎克伯格facebook主页)
  2月9日消息,据国外媒体报道,近日Facebook首席执行官马克·扎克伯格(MarkZuckerberg)的安全遭到一位名叫普拉迪普·马努肯达(PradipManukonda)男子的“威胁”。   据悉,马...
日期:07-26
在云朵里唱歌 在水墨中画水墨 山东联通科技助老 点亮银龄潮生活
在云朵里唱歌 在水墨中画水墨 山东联通科技助老 点亮银龄潮生活 通信产业网|2023-07-19 10:37:46作者:通文来源:通信产业网【通信产业网讯】“张姐,你怎么在云彩里唱歌?这是想变...
日期:07-19
WPS AI二次亮相 展示类微软Copilot能力
5 月 16 日,金山办公旗下生成式人工智能应用 WPS AI 正式对外展示了类微软Copilot的能力,继 4 月 18 日搭载在轻文档落地后,WPS AI 加速进化,接入了文字、海外版表格、PPT演示文...
日期:05-16
AVG 2011 SP1永久免费中文版正式发布,多项功能大幅改进
  近日,AVG官方面向全球正式发布AVG 2011 SP1版。此次,收费版和免费版同步升级,多项功能得到了改进和优化,推荐广大用户进行下载升级。接下来我们对新鲜出炉的免费版进行一下...
日期:07-27
网络交易明显欠缺综合信用评定体系(完善信用评估体系)
  当前,网络交易市场“信用炒作”层出不穷,主体认证不够完善,网络诚信体系所涉及的网络交易平台、信用评估服务机构、政府部门三方均没有掌握较完整全面真实的经济主体信用...
日期:07-26
印度软件商Infosys拟投1.5亿美元在华拓展业务_印度应用管理
腾讯科技讯(马文) 北京时间5月21日消息,据国外媒体报道,印度第二大软件服务出口商Infosys周六在公布的一份声明中表示,该公司计划投资1.25亿美元至1.50亿美元,在中国新建一个业...
日期:07-28
网约车订单量缩水三成_网约车减少
“新十条” 出台后的两周,受供给减少和需求下滑影响,几家头部网约车平台单量均持续下滑。《晚点财经》了解到,12 月以来,滴滴日均约 1250 万单,花小猪日均约 140 万单,高德聚合日...
日期:12-20
功能看齐华为 性能对标苹果:vivo X100 Pro有望支持卫星通信_华为x10支持北斗导航吗
快科技10月4日消息,按照以往的惯例来看,vivo将会在今年年底发布旗舰手机的迭代产品X100系列。据vivo品牌副总裁贾净东透露,亚运之后X100系列就越来越近了。随着发布时间的临近,...
日期:10-04
亚马逊生成式 AI 增强语音助手:通过 Alexa LLM 改善智能家居的大脑_亚马逊语音助手叫什么
9月21日消息:亚马逊的 Alexa 即将迎来革命性变革,而其新面貌可能非常引人注目。在周三的秋季硬件发布活动中,该公司揭示了由其全新 Alexa 语言模型提供支持的全新 Alexa 语音...
日期:09-21
AMD下代显卡集体现身:首批至少8个型号「下一代amd显卡」
NVIDIA RTX 40系列已经发布,即将陆续解禁上市,AMD也已官宣将在11月3日发布下代显卡。根据曝料者_rogame,AMD Navi 3x系列首批就有至少八个不同的PCI ID,对应不同产品,其中不仅有...
日期:10-05
酷6裁员背后:国内视频网站分化进行时
5月18日,中国视频行业可用冰火两重天来形容。凤凰新媒体在上市不到一周内对外宣布,启动凤凰视频“凤鸣计划”即“视频媒体”路线,打造中国最大的视频资讯观看、聚合、分发平台...
日期:07-28
等苹果15pro还是等小米14pro","info":{"wordid":"7249882875914687783"}},{&qu
来源:中关村在线大疆配13promax近五年特斯拉股票价格土巴兔创始人王国彬哪里人今年iPhone 15 Pro系列在外观上进行了多处变动,包括弧形玻璃、弧形中框以及钛合金材质等。据最...
日期:09-26
iPhone 14 Pro立功了!苹果市值一夜暴涨超万亿元「iphone 12 pro 销量」
日前,苹果公司正式发布了2022年第三季度业绩报告。其中显示,本季度实现营收901.46亿美元,同比增长8.1%,实现净利润207.1亿美元(约合人民币1500亿元),同比微增0.83%。这一季度业绩十...
日期:10-31