您的位置:首页 > 互联网

挑战拯救痴心“舔狗”,我和大模型都尽力了

发布时间:2024-04-24 10:37:50  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

天降猛男,大模型化身为 “痴情男大”,等待人类玩家的拯救。

一款名为 “拯救舔狗” 的大模型原生小游戏出现了。

游戏规则很简单:如果玩家在几轮对话内说服 “他” 放弃追求对他并无青睐的女神,就算挑战成功。

听起来并不难,然而游戏源于生活,模型人设是痴情属性,相当油盐不进且自我攻略,在长达近一个小时的 “劝说” 中,大模型 “好友” 偶有松动但又要坚持的态度很有些现实意味。

实战拯救痴心 “舔狗”,和 AI 斗智斗勇

游戏过程是这样的:

游戏开头是一个利好消息—— 女生回复了他的消息,通过几轮对话,模型很清晰地交代了过往经历和现有情况。

与真实世界走向一致,在他的描述中会发现他的感知与实际情况存在较大出入,但自身却不愿正视。

这也是这个游戏的难点,这个模型相当 “拟人”,你无论对他提出怎样的质疑,,他都保持着如此思维方式,并且记忆力清晰,完全不存在驴唇不对马嘴的情况,不存在任何人设崩塌的时刻。

当然人类玩家也并非势单力薄,如果你词穷了,AI 会根据上下文智能地提供一些提示词,让游戏继续下去。

最后在提示词的帮助下,以及挑破告白失败无数次的惨痛现实,玩家和大模型都收获了绝美兄弟情,最终挑战成功。

这款大模型原生小游戏正是基于商量拟人大模型 “SenseChat-Character” 打造的试玩体验程序,“SenseChat-Character” 是由商汤原创打造的语言大模型产品。

体验地址:https://character.sensetime.com/

商量 - 拟人大模型可以熟练地 “捏人”,支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,这是一款充满趣味性和情绪价值的大模型,可以用于情感陪伴、影视 / 动漫 / 网文 IP 角色、明星 / 网红 / 艺人 AI 分身、语言角色扮演游戏等拟人对话场景。

除 “拯救舔狗挑战” 游戏外,商量 - 拟人大模型还提供了多种各类影视角色,例如苏妲己、高启强,以及马斯克等现实名人。

体验了一下,还能专访 “马斯克”。

由于商量 - 拟人大模型支持长对话记忆,使 AI 角色可精准记忆几十轮以上历史对话内容,还能进行深度 “专访”。

这些种种快乐体验均得益于在今日商汤技术交流日上“全新升级的日日新 SenseNova5.0” 大模型体系。

能看能写能编程,还免费!

多模态交互加持,畅玩新版商量” 全能王”

自去年4月首次面世,商汤 “日日新 SenseNova” 大模型体系已正式推出五个大版本迭代。

本次日日新5.0升级一大亮点在于多模态能力的注入,交互能力及整体性能大幅提升。

这些卓越的性能都集成在了 “商量” 应用中,我们来试一下。

体验链接:商汤商量语言大模型 (sensetime.com)https://chat.sensetime.com/wb/login

从商汤商量的最新页面可以看出两大功能 —— 对话和文档,前者侧重问答,后者侧重多类文档解析。

我们从对话开始,先是基础问答,优秀的大模型必须文理双修,我们直接上高考题。

首先是文字创作,去年的全国高考作文题目,完美理解考题立意 —— 科技发展带来的两面性,迅速写出一篇文章,论述现状并且给出解决方向,文采和逻辑兼备。

再来一道2023年北京高考卷的一道数学题,我们直接把卷面截图上传给商量,这样即能直接检验数学能力,还能考验商量跨模态的OCR 识别能力:

事实上增加了多模态能力后,商量应对混合场景的对话能力大幅提升,不少任务都能在一次提问中得到答案。

单模态的混合场景任务更是不在话下,直接看看代码能力——

也完全正确,代码直接可以跑通 ——

在逻辑推理的测试中,我们直接邀请了逻辑推理的语料之神,“弱智吧 Benchmark”进行测评:

经典问题:我爸妈的婚礼为什么没邀请我参加?

商量也觉得这个问题很有意思,然后理性又耐心的语气解释了这个问题,最后还送上了安慰,很有耐心一模型了。

那再来一个左右手互博问题:生鱼片其实是死鱼片。

很懂幽默感和多重语义 ——

然后就是文件处理,现在可以支持上传5个文件,丢本《道德经》进去 ——

注:因文件大小限制,进行了2倍加速处理。

快要考试了,传个试卷、题库进去,快速找出一些重点考题,还可以指定题目类型,提高复习效率就是这么 easy——

喜欢古诗词?传本《唐诗宋词》进去,从中找几个描写月亮的诗或词,轻松化身古文小能手 ——

精准定位、搜索,解释分析一气呵成,虽然因文件大小限制,进行了2倍加速处理,但解析速度依然相当快。

接下来就是多模态交互能力的一系列测试:

看懂氛围,还能送上氛围:

还能充当生活助手,准确识别食物并提供卡热量参考:

提供养宠物建议:

商量看得如此精准主要是因为其底层的商汤多模态大模型图文感知能力已达到全球领先水平 —— 在多模态大模型权威综合基准测试 MMBench 中综合得分排名首位,在多个知名多模态榜单 MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 成绩也相当亮眼。

今天最新升级的 “日日新 SenseNova5.0” 也在主流客观评测上取得多项 SOTA,在主流客观评测上达到或超越 GPT-4Turbo,数学推理、代码编程、语言理解等多个维度取得重大突破。

如果说目前的谷歌无人驾驶汽车

大模型性能边界在哪里?

商汤:尺度定律是人工智能发展最基本的法则

随着模型规模的不断扩大和复杂度的增加,人们自然会产生一个问题:大模型的性能到底有多强?

在这个问题上,尺度定律(Scaling Law)被认为是一个关键性的原理,即伴随模型规模的增大,模型的性能也会随之提升,每次大模型训练的结果都高度可预测。

商汤也以此作为大模型研发的基本法则,不断探究大模型性能的边界。

然而,数据和算力依然是大模型在尺度定律探索道路上的瓶颈,商汤也对此一直在突破。

对此,商汤不断突破数据和算力的边界。

比如,在此次 “日日新5.0” 的升级中,商汤扩展了超过10TB tokens 的预训练中英文数据,规模化构建高质量数据,解决大模型训练的数据瓶颈。在算力方面,商汤前瞻布局的算力基础设施 SenseCore 商汤大装置,更通过算力硬件系统及算法设计的联合设计优化,为大模型的创新提供超高算力效率。

高质量数据和高效率算力的支持,为商汤践行尺度定律,奠定了长期基础。

在此之上,商汤还探索出了大模型能力的 KRE 三层架构,具象化展现了大模型能力边界的定义。

其中,K 是指知识(Knowledge),即世界知识的全面灌注;R 是指推理(Reasoning),即理性思维的质变提升;E 是指执行(Execution),即世界内容的互动变革。

三层之间互有依赖,但又相对独立。最终的目标,是建立大模型对世界的强大学习、理解和交互能力。

大模型在学习这个世界,也在创造一个 AI Native 的世界,无论是大模型原生小游戏,还是功能越来越全的大模型对话,都在展现世界内容的互动变革,随着尺度规律的不断发展,下一步会怎样?

在这次技术交流日上,商汤最后放出了一段文生视频,一起来看看。


返回网站首页

本文评论
哈啰顺风车:全年安全体验投入超5亿元,累计拦截或永久封禁车主超11万人
12月1日消息,第十二个“全国交通安全日”到来之际,哈啰顺风车发布年度安全治理和用户体验提升成果,并宣布全年相关投入已超过5亿元。同时,哈啰顺风车将启动“安全出行月”,将面向...
日期:12-01
AMD 下一代 APU 路线图更新:Strix HaloSarlak推迟至 2025 年,AI 性能得到显著提升
11 月 1 日消息:近日,Moore’s Law Is Dead 分享了关于 AMD 下一代 APU 系列的最新消息。关键亮点是,被称为 Sarlak 或 Strix Halo 的产品现已被安排在 2025 年推出。此外,在 Ph...
日期:11-02
人工智能创新创业大赛作品「20强AI创业项目集结深圳12月4日角逐2023新一代人工智能创业大赛冠军」
文\ 普子胥12月4日,2023新一代人工智能(深圳)创业大赛总决赛将在深圳拉开帷幕。来自北京、南京、广州等全国20支人工智能创业团队陆续抵达深圳,角逐2023新一代人工智能创业大赛...
日期:12-03
宁德时代:确以约 19 亿元人民币收购加拿千禧大锂业公司
  9 月 29 日消息 据财联社报道,针对加拿大千禧锂业公司(Millennial Lithium)当地时间周二表示,中国电池制造商宁德时代 (CATL) 已同意以 3.77 亿加元(约合人民币 19.2 亿...
日期:07-17
第三次试飞要来了!马斯克信心满满:人类最强火箭星舰必会成功
快科技3月7日消息,SpaceX 创始人埃隆?马斯克近日在X平台转发了自家公司为星舰火箭试飞开展加注推进剂测试工作的帖子,并在配文中宣布,星舰正在为第三次试飞做准备。第6大陆 严...
日期:03-07
MDTv2开源,Sora 核心组件 DiT 训练提速 10 倍
**划重点:**1. 小红书博主都很有钱吗...
日期:03-13
几万元加盟的小说代理平台,瓜分网文市场一大“利器”?_小说网站加盟
声明:本文来自于微信公众号锌刻度(ID:znkedu),撰文/孟会缘,编辑/黎文婕,授权转载发布。前期投入,后期躺赚?“打工不如代理小说平台,一部手机就能创业。”最近,关于小说平台的代理广...
日期:12-18
苹果与诺基亚签订新长期专利授权协议 包括5G及其他技术专利_诺基亚和苹果的专利战
7月4日消息,据外媒报道,在与高通之间因专利授权费而起的纷争和解、并达成多年的专利授权协议及芯片供应协议之后,苹果也在2020年的秋季推出了全系支持5G的iPhone12系列智能手机...
日期:07-04
性价比高的智能手机推荐「性价比高的智能手机推荐知乎」
当今智能手机市场上,品牌和型号众多,让消费者非常困惑。为了买到性价比高的智能手机,本文整理了一些值得推荐的品牌和型号。家用投影仪 选择surface duo处理器iphone14 pro max...
日期:05-29
方便了!明天起香港/深圳乘车码互认互通:支付宝就能刷「香港坐公交可以用支付宝吗」
快科技5月31日消息,今天支付宝官方宣布,明日起深港公交地铁将实现乘车扫码互联互认互通。iphone14会涨价吗在深圳市交通运输局的指导下,深圳市深圳通有限公司与支付宝、AlipayH...
日期:06-01
iPhone 14 Pro息屏显示功能细节曝光:状态栏发生重大变化「苹果12pro有没有息屏显示」
9月4日消息,据外媒报道,苹果公司将于今年发布的iPhone 14 Pro将支持息屏显示功能,其相关细节正浮出水面。据知情人士透露,该功能非常独特,将使状态栏发生重大变化。据悉,iPhone 14...
日期:09-19
百万中小商家掀起“入淘潮” ,电商圈发生了什么?
声明:本文来自于微信公众号 电商在线(ID:dianshangmj),作者:王崭,授权转载发布。618收官。今年,各大平台都不再公布大促GMV数据,这似乎已经成了行业共识。但GMV之外的618更值得关...
日期:06-29
集中回收 补贴!北京加速违规电动三四轮车退市:明年禁止上路
快科技8月18日消息,根据北京市相关规定,2024年1月1日开始,违规车禁止上路行驶,也不得在道路、广场、停车场等公共场所停放。无牌照、无法开具发票、没有出厂合格证书,是违规车的...
日期:08-18
OpenAI开源超级对齐方法:用GPT-2,监督、微调GPT-4
声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。12月15日,OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型,实现更好...
日期:12-16
马斯克抱着水槽走进推特总部,英媒:神奇老板或能带推特走出困境
  [环球时报特约记者;甄 翔]在法院下达的收购截止日期前,26日,埃隆·马斯克访问了社交媒体推特公司位于美国旧金山的总部。据报道,马斯克在社交媒体上发布的一段视频显示,他抱...
日期:11-02
华为上调2023年手机出货量目标 Mate60系列销量攀升_2021年华为手机出货量
来源:中关村在线爱奇艺紧急公关论述蛋白质工程的研究策略广域铭岛数字科技有限公司天眼查美国使用苹果手机占比华为上调智能手机出货量目标,2024年预计出货量6000万台至7000万...
日期:10-15
如何选择一款好的蒸烤一体机?选择森歌就是把幸福带回家(森歌蒸烤一体机怎么用)
  周末在家,大家都喜欢做什么?除了看电视、睡觉、玩手机、打游戏、打扫卫生,相信还有很多人喜欢烹饪。尤其是疫情爆发以来,在家不断解锁美食的过程中,让不少年轻人找到了烹饪...
日期:11-21
微软宣布 Edge 浏览器外观重新设计,引入 Mica 材质、圆角等_edge浏览器长什么样
IT之家 5 月 24 日消息,微软在 2023 年 Build 大会上为使用 Edge 浏览器的用户带来了一个好消息,该公司宣布了该浏览器的全新设计,包括备受欢迎的 Mica 材质、圆角标签、内容容...
日期:05-24
快升级!苹果发布iOS 16.0.3:修复iPhone 14相机启动慢等烦人问题_苹果7更新ios14后相机用不了
今天早些时候,苹果发布了iOS 16新版,主要修复了iPhone 14比较烦人的问题,比如相机启动慢等。iOS16.0.3正式版更新大小达到了1.21GB,带来了多项修复内容。需要注意的是,因苹果各区...
日期:10-12
谷歌影像「谷歌AI研究提出新的视频注释方法VidLNs 精准定位视频描述」
1. VidLNs 是一种视频注释方法,通过口述和光标移动来获取语义正确且密集定位准确的视频描述。2. VidLNs 使用关键帧来创建每个角色的独立叙述,实现复杂情节的细致描绘。3. Vid...
日期:08-09