您的位置:首页 > 互联网

性能直追GPT-4,5000个H100训成,DeepMind联创发全新一代大模型_联创模式

发布时间:2023-12-06 12:08:56  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:拉燕,,授权转载发布。

【新智元导读】Inflection-2最新发布!性能碾压一众大厂模型,仅输一手GPT-4,还要集成到Pi?

最近,InflectionAI发布了全新的一款AI模型。

更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。

到底是什么样的表现让InflectionAI能夸下如此海口呢?

在介绍具体的模型性能以前,我们先来看看它的基本信息。

这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.

联创产品

这么来看,InflectionAI确实可以有这个自信。

公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。

InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。

集成到Pi?

除了新模型的发布,还有另外一个重磅信息。

相关人员表示,新发布的模型将很快集成到Inflection于5月份发布的聊天机器人Pi中。

CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即对齐,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。

无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。

Suleyman表示,不会太久。但是具体发布日期却没有明说。

同时,他也不愿意提供聊天机器人Pi的最新用户数量,但表示Pi非常受欢迎,用户留存率相当高。

要知道,两周前,OpenAI曾经披露其免费的ChatGPT服务的周用户数量已达到1亿。

当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。

不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。

相比LLM业内也会因为Inflection-2的发布继续出现动荡的局面。

此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。

不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。

性能吊打一众模型,只输GPT-4

为了训练Inflection-2,Inflection AI使用了5000个英伟达H100图形处理器(GPU),要知道,训练Inflection-2的前身模型,使用的是几千个相对比较旧的A100图形处理器。

Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。

InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。

联创产品

Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。

下图即为Inflection-1(新模型的前身),Inflection-2,以及谷歌的PaLM2之间的性能对比。

RTX显卡原价

我们可以看到,在HellaSwag、MMLU、TriviaQA Wiki、PIQA、GSM8K和ARC-C等六项基准上,Inflection-2都拔得了头筹。

Suleyman表示,Inflection-2的性能已经超过了最大的700亿参数版本的LLaMA2、马斯克xAI的Grok-1、谷歌的 PaLM2Large和Anthropic的Claude2,性能仅次于GPT-4。

iphone 14 pro max粉红色

报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA2和PaLM2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM2Large。

此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。

不过,在OpenAI已分享结果的两项基准测试中,它的成绩远远落后于GPT-4。

Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。

总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。

从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。

相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。

一句话说明,就是InflectionAI的人有自信,在12个月内,让模型规模翻个一百倍。

个人助理Pi

对于不熟悉的朋友,咱们还是掉过头来再讲讲InflectionAI的个人助理Pi。

咱们可以这么说,CEO Suleyman的认知里,这一切都是很自洽的。

曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。

而Suleyman之所以有这样的论断,也许和他自己的经历有关:

1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。

后来他被牛津大学录取,学习哲学和神学,但一年后就退学了。

这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。

他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。

这个个人助理,就是Pi。

苹果开发者大会会发布vr头显吗

而这一切也是有理论基础的。

心理学还真有这个研究:聊天机器人相比人类有着更高的情感认知。

测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。

情绪描述越详细、越容易理解,情绪意识水平量表(LEAS)得分越高。

研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n =750)中进行的研究进行了比较。

在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。

很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。

可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。

那么,Suleyman创立的Inflection AI推出的个人助理Pi已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。

我们可以看到,Pi的登录界面还是非常简洁的。

进入到Pi的聊天页面,点击左下角的田字格,可以看到官方为用户准备的几个常用场景。

每个场景相当于一个定制化指令,选择一个之后,就会自动给聊天机器人设定一个工作环境。

聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了motive myself之后,系统会提示我要如何开始聊天。

总而言之,Pi寄托了Suleyman的美好愿望。

而有了新模型Inflection-2的加持,相信Pi会迸发出更加不一样的火花。

说不定,真能充当心理咨询的角色呢。

参考资料:

https://www.forbes.com/sites/alexkonrad/2023/11/22/inflection-ai-releases-2nd-model-on-gpt-4-heels/?sh=410d2f366b05

废旧家电及电子产品回收处理管理条例


返回网站首页

本文评论
盘古大陆模型「华为盘古大模型 3.0 将于7月7日发布」
通信世界网消息(CWW)7月6日,华为轮值董事长胡厚崑在2023世界人工智能大会开幕式上表示,盘古大模型3.0将在7月7日的华为云开发者大会上正式发布。galaxy watch 4续航胡厚崑称,通用...
日期:07-06
像PPT一样生成3D虚拟人视频!魔珐科技发布三款消费级产品
允中 发自 凹非寺量子位 | 公众号 QbitAI只需像PPT一样操作,就能生成3D虚拟人视频。在魔珐科技最新发布会上,直接推出了三款消费级产品:“魔珐有言”虚拟人视频AIGC平台;“魔珐...
日期:08-17
手感绝了!小米Civi 3重量173.5g:薄7.56mm,宽71.7mm「小米civi有多长」
小米手机官方微博宣布,小米Civi 3将于5月25日发布,搭载联发科天玑8200-Ultra芯片。该手机重量为173.5克,厚度为7.56毫米,宽度为71.7毫米,可单手握持,后置50MP主相机。小米Civi 3采...
日期:05-22
2021上海春游「上海春游迎人从众模式 进入春季旅游高峰」
近日,随着全国各地气温回升,上海也出现春光明媚,是旅游的好季节。上海进入春季旅游高峰,外滩亲水平台游人如织,呈现出人潮模式!福特 高端品牌除了上海出行旅游的游客增多之外,周边...
日期:03-13
22岁丫丫约等于人类80岁:大熊猫最高年龄可达38岁「大熊猫的岁数有多长」
最近,旅美大熊猫丫丫现状堪忧,已经饿到皮包骨不成熊样,因此受到不少网友的关注,甚至有一些企业提出认养。特斯拉高层组团大熊猫是大自然中非常罕见的动物,也是一种深受保护的濒危...
日期:03-14
梅西在迈阿密「梅西正式加盟迈阿密国际:身穿粉色10号球衣 贝克汉姆发文欢迎」
快科技7月16日消息,今天凌晨,迈阿密国际正式官宣梅西加盟球队。华硕(ASUS) 灵耀X双屏 11代酷睿14英寸轻薄笔记本梅西的合同为期两年半,并可以选择在2026赛季再延长一年。迈阿密...
日期:07-16
消失的他「《消失的她》票房突破10亿大关!豆瓣评分跌至6.7分」
6月27日消息,根据灯塔专业版提供的信息,截止今天18时42分,影片《消失的她》票房成功突破10亿大关。淘宝网的电子商务运营模式为什么会成功截至目前,《消失的她》已经连续6天单日...
日期:06-28
日本车企要跑了?_日本车企停产
出品丨虎嗅汽车组作者丨李文博编辑丨周到头图丨视觉中国最近,有两条关于汽车供应链的新闻,似乎让全球汽车工业感受到了一股别样的风。第一条:日本《产经新闻》近日报导,本田汽车...
日期:09-14
华为:持续坚持自主创新 构建自主可控的全光底座
快科技8月29日消息,第七届未来网络发展大会未来网络助力东数西算论坛,日前在南京举办。论坛上,华为光产品线政企领域总裁谷云波做了F5G,构筑东数西算全光运力网络”主题发言,分享...
日期:08-29
AI性能爆炸增长 骁龙8-Gen3曝光_骁龙8cx gen2
来源:中关村在线据最新报道,高通即将在骁龙峰会上发布最新的旗舰芯片——骁龙8 Gen3。虽然搭载该处理器的手机如小米14等已经曝光其跑分,但关于其完整的性能规格仍不清楚。近日...
日期:10-24
tiobe编程语言排行榜2021年9月「TIOBE:C++ 成为 2022 年最受欢迎的编程语言」
var cid = "1486439".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.spli...
日期:01-09
铭影迷你主机「4599元 铭凡推出NAG6迷你主机:12代i9 RX 6600M」
快科技11月24日消息,铭凡推出了新款迷你主机NAG6,首发价4599元。苹果都哪款支持快充据了解,新款迷你主机的处理器采用的是i9-12900H,14核心20线程、24MBL3缓存,最高睿频达5.0GHz...
日期:11-25
COO套现3000万美元 苹果股价第一季度上涨22%_苹果股价多少钱
3月28日消息,苹果最新提交给美国证券交易委员会的监管备案文件显示,该公司首席运营官杰夫·威廉姆斯(Jeff Williams)上周出售了价值3000万美元的苹果股票。在今年第一季度,苹果股...
日期:10-05
爱彼迎联合创始人加入特斯拉董事会「爱彼迎联合创始人加入特斯拉董事会了吗」
  Airbnb联合创始人加入特斯拉董事会苹果明年将推出5g手机pico 4K  讯 北京时间9月29日消息,特斯拉发布消息称,Airbnb(爱彼迎)联合创始人约瑟夫·格比亚(Joseph Gebbia)已经加...
日期:09-29
腾讯正有序推进ChatGPT专项研究;百度称文心一言尚未注册社交账号;禾赛科技上市
文章目录 腾讯正有序推进ChatGPT专项研究 百度称文心一言尚未注册社交账号 禾赛科技上市 字节跳动四年期权归属计划腾讯正有序推进ChatGPT专项研究据科创板日报报道,腾讯方面...
日期:02-13
进口生鲜一站购 神劵满减钜惠享 京东国际5周年进口消费体验再升级
  一身笔挺的白衣蓝裤,头戴礼帽,手拿护照,“国际范儿十足”的“京东JOY”正式亮相!这正是京东旗下进口商品一站式消费平台——京东国际上线5周年之际迎来的新“形象”,传递着...
日期:11-02
被美女包围 怎么形容「被美女包围,要多少钱」
被美女包围会怎么样?这是典型的爽文情节。现在却出现在游戏中。而且,还是真人出镜!想象一下,当你是一个负债累累的“失败者”,却被众美女环绕,争着抢着和你谈恋爱。你会有何感受?最...
日期:11-01
中国移动在北京2000里外建了超大数据中心_中国移动在北京2000里外建了超大数据中心
8月19日 消息:近年来,宁夏积极发展数字基础设施,并加大对中卫西部云基地的网络升级力度,从而实现了直达北京、上海、广州、成都等城市的链路。中国移动(宁夏)数据中心是目前宁夏...
日期:08-19
IPHONE12pro pro卖多少钱「iPhone 14 Pro系列国内日均卖出10万台」
10月29日 行业销售数据显示,10 月 24 日 “双十一” 预售首日,仅 iPhone 14 Pro 和 Pro Max 销量就超过 13 万台。5G基站辐射量据《晚点财经》报道,一家行业调研机构给出的数据...
日期:10-31
ipad竞争产品_Amazon平板挑战iPad市场权威
  据国外媒体报道,曾因Kindle颠覆电子阅读行业的Amazon公司预计在本周发布一款平板电脑,据分析这款平板将严重挑战iPad的市场主导地位。   Amazon在上周五邀请各路媒体参...
日期:07-23