您的位置:首页 > 互联网

百川股份 分析讨论「实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强?」

发布时间:2024-01-30 12:06:56  来源:互联网     背景:


刚发完Baichuan-NPC还不足月,百川智能又对产品进行了一次大更新,发布了Baichuan 3模型。这次更新后,在多个权威通用能力评测CMMLU、GAOKAO和AGI-Eval中,其英文能力已经逼近 GPT-4,在中文任务表现上甚至超越了GPT-4:


智能手表续航测试2020年



百川智能一直在强调Baichuan 3在医疗场景方面的优化。在预训练阶段,百川智能就为Baichuan3构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。此外,他们在推理阶段进行了系统性的调优,让Baichuan 3在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

而从Baichuan 3在MCMLE、MedExam、CMExam等中文医疗任务的评测的表现来看,这款大模型在中文医疗场景的表现已经超过了GPT-4,而英文相关问题其表现也不错,仅次于GPT-4。


上手实测:医疗能力最强的中文大模型?

当然,跑分只是模型能力的一个剪影,硅星GenAI 选了一些关于医疗行业和中国传统文化相关的问题来让他回答,看看Baichuan 3的实际表现。

对于百川大模型的医疗知识与思考角度进行测试,由简单到更具专业性循序渐进地问了Baichuan 3几个就诊问题:





通过百川的回答可以看到,其“看诊”的逻辑和我们去医院看医生的问诊思路几乎是一致的。都会从引发病症的优先级考虑,对每个答案为何优先考虑和排除会给出专业、科学的解释,至少不会一上来就罗列最坏的情况,让人觉得自己小命不保。

如果遇到一些不太熟悉的药物,Baichuan 3还能够给出详细的介绍和使用方法教程。


苹果xs带美颜摄像头吗

百川也会对患者症状的口语描述会做出专业的名词解释再分析,这有利于患者在就医时与医生提高沟通效率与准确性,也会缓解部分患者表述不清症状的焦虑感。

当然,Baichuan 3给出的回答是否真的专业和准确,一般人也很难分辨,感觉目前对 AI 还是缺乏信任感,难以满足人们对于医疗判断权威性和准确性的依赖。

除了医疗领域,中国传统文化中的诗词创作的格式、韵律、表意等方面,也是这次更新的重点方向。

在文学创作方面,中学时代常学到的修辞手法有古诗里的“顶针”、“用典”,下面就先从这两点先测试一下Baichuan 3:


在第一次让Baichuan 3运用“顶针”的修辞手法写一首关于龙年的古诗时,它并没有运用这个修辞手法。

这时,我不禁好奇它到底知不知道这个修辞手法,于是便问了它:


根据百川的回答我看到,对于“顶针”手法的第一词条显示是它的别称“顶真”,基于优先级的关系,我这次选择用“顶真”这两个字来问它。


不错,这次写出来了。

但再次以“顶针”这两个字让Baichuan 3创作,依旧是上文显示没有用到此修辞手法的答案。这就好比知道 1+1=2,但问一加一等于多少就不会算了一样。还是有些相对“死板”。

为了做对比,我们也问了问ChatGPT知不知道“顶针”。

不负众望,ChatGPT也不知道这种说法。

我都开始怀疑是不是至始至终都只有“顶真”一种说法,而“顶针”只是人们的错别字说法了。


但问ChatGPT知不知道“顶真”二字的修辞手法时,ChatGPT给出了回答:

百川股份未来黑马


我们试着让 ChatGPT 再用顶真的修辞手法写一首诗出来,它写的诗是:


从形式上来看,确实是“顶真”的格式。先不论这首五言律诗的质量,至少也算 OpenAI 也能完成任务了。要说文采是 OpenAI 好还是百川智能的好,这个交给你们来判断吧。


下面是中国诗词最广博的修辞手法——“用典”的测试。


可惜,Baichuan 3对于典故的理解和大众有些出入,这方面还需要加强。

另外,对对子的平仄规律也是中国文学的独特魅力。我们先问了问Baichuan 3知不知道如何写对联,并让它写了一副对联出来:



百川对于此次指令的完成度极高,并且在词性、结构等方面的十分契合上文提到的对联7个要点。基本上可以直接写出来贴门上了,正好马上过年,可以用到了。

技术亮点

根据百川智能官方介绍,目前Baichuan 3的参数规模已经超千亿,为解决由于参数量巨大导致的在训练过程中出现梯度爆炸、loss跑飞、模型不收敛等问题,百川智能在训练过程中提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等技术手段及方案,来提升Baicuan 3的各项能力。具体更新细节,大家可以看百川官方的文章《 》。

i3是最低配置吗?

总结一下,Baichuan 3有几个技术要点:

百川数据网

  1. 动态训练数据选择方案:可以在训练过程中动态选择训练数据,提高数据质量。

  2. 重要度保持:可以在训练初期保证模型训练初期的稳定性。

  3. 参数“有效秩”:用于在各项指标上发现训练过程的问题,加速问题定位,确保瘦脸效果

  4. 异步CheckPoint存储机制:保证无性能损失的同时加大存储频率,较少机器故障的影响。

在去年百川智能成立之初,王小川便表示会在年底推出一款对标GPT-3.5的大模型,而现在他们已经超额完成了这个目标。

欢迎加入这个星球,见证硅基时代发展↓


返回网站首页

本文评论
腾讯:医疗AI发明专利申请突破1000件_腾讯智能医疗实现突破
4月27日 消息:昨日,腾讯公布数据称,在医疗健康领域,腾讯目前对外申请且公开的AI医疗相关中国发明专利总数已经累计突破1000件,涵盖医学影像、AI导辅诊、药物发现、基因应用、病...
日期:04-27
高德地图2021活动「高德启动2023全民出行节,提供总价值超2亿元消费补贴」
9月22日消息,黄金周出游高峰即将到来,高德地图近日宣布启动“2023全民出行节(以下简称‘出行节’)”。据悉,高德地图将联合众多生态合作伙伴,基于数字化能力全方位服务用户长假期...
日期:09-22
keep业绩「调整后净亏损收窄至2.23亿元 「Keep上半年营收9.85亿元」」
Keep(3650.HK)今日发布2023半年报。财报显示,公司在报告期内总收入9.85亿元,按照非国际财务报告准则调整后净亏损2.23亿元,较去年同期的净亏损3.17亿元大幅收窄。高通骁龙芯片分...
日期:09-16
摸着“董宇辉”过河,好未来直播间也卖起农产品,平均一场只卖1.1万元
苏宁云商财务分析报告苹果se一代销量edge浏览器保存的数据H310 CPU图源:学而思优选直播间   来源:时代财经   文/李婷   “我在直播间卖吃的、喝的、用的、学的、玩儿的...
日期:08-12
苹果因封杀Beeper Mini招监管,美国议员请司法部调查其垄断行为_苹果被美国制裁
IT之家 12 月 18 日消息,本月初,一款名为 Beeper Mini 的应用横空出世,它可以让Android用户无需提供 Apple ID 凭证即可使用 iMessage 服务。然而,仅仅几天后,苹果就采取措施封杀...
日期:12-19
第十二届虎啸奖出炉,京东黑珑荣获“年度最佳智能营销平台”大奖
  6月3日晚,主题为“连接未来”的第十二届虎啸颁奖典礼在上海完美落幕。京东旗下全场域长效营销与技术服务商京东黑珑斩获“年度最佳智能营销系统/工具/平台”大奖。   ...
日期:10-16
FAANG时代结束?Meta重挫24.56%,亚马逊盘后跌超20%
  作者:陈玺宇;;责编:葛唯尔  周四美股涨跌不一。  *美股涨跌不一,科技股普跌,纳指跌超1.6%  *FAANG时代结束?Meta重挫24.56%,亚马逊盘后跌超20%  *欧股走势分化,欧央行...
日期:11-02
台积电将对半导体进一步涨价「半导体市场已变天 苹果拒绝芯片涨价?台积电回应了」
日前有消息称,随着半导体市场变天,由之前的产能紧张转向产能过程,市场需求不足,台积电原本想在明年再次提升芯片代工的价格,结果被被最大客户苹果拒绝。夏普旋转屏针对这一传闻,台...
日期:09-28
华为c8815刷机包「华为c8812刷机包」
华为C8812是一款经典的安卓手机,它在推出后的几年内成为了很多人的首选。而随着时代的发展,人们对手机的需求也在不断变化,有些用户会想要尝试刷机,以获得更好的使用体验和更高...
日期:06-01
这超窄下边框爱了,iQOO Neo7屏幕参数公布「iqoo7屏幕宽度」
中关村在线消息:iQOO Neo7发布会将于10月20日19:00举行,目前iQOO官方正在对新品进行预热。今日,iQOO Neo7的屏幕参数公布,海报显示,新机将拥有非常窄的屏幕边框。从海报中可以看...
日期:10-26
业主乱停车物业不让进「业主乱停车被禁止自由出入小区 法院:自作自受」
1月28日消息,浙江天平公布了一起案例,探讨物业根据业主管理公约对小区违规停车进行管理是否侵权?apple tv 4k 120hz据了解,浙江衢州某小区,前几年建成后,地面停车位仅有20余个,远远...
日期:01-28
搭载自家Exynos 2200芯片 「三星Galaxy」-S23 FE跑分出炉
与往年一样,此前就有外媒表示,三星Galaxy S23系列除了Galaxy S23、Galaxy S23+和Galaxy S23 Ultra外,还有一款Galaxy S23 FE会在今年Q3亮相。随着发布时间的日益临近,外界关于该...
日期:09-10
研究表明,开源语言模型无法与 GPT-4 相提并论
5月29日 消息:开源语言模型的进步是无可争议的。但它们真的能与来自 OpenAI、谷歌和其他公司的训练有素的语言模型竞争吗?诸如之前所报道的,使用Alpaca Formula训练的开源语...
日期:05-29
浙江零跑科技股份有限公司通过港交所上市聆讯_网易订阅_浙江零跑科技有限公司股票
据港交所文件,浙江零跑科技股份有限公司通过港交所上市聆讯。【零跑汽车赴港IPO获证监会核准 2025年计划推8款新车】8月19日,证监会核准浙江零跑科技股份有限公司(即零跑汽车)发...
日期:09-16
GLM-4体验入口 智谱AI多模态大模型在线使用地址_智谱·ai
GLM-4是由智谱AI在首届技术开放日上发布的一款新型大模型。GLM- 4 在性能上全面提升近60%,支持更长的上下文、更强的多模态支持和更快速的推理。产品定位为下一代基座大模型,...
日期:01-18
netflix 2018「Netflix将于10月19日发布2022年第三季度财报」
  讯 北京时间9月27日下午消息,流媒体视频服务提供商Netflix(Nasdaq:NFLX)宣布,将于太平洋时间10月18日下午1点(北京时间10月19日凌晨4点)发布2022年第三季度财报。  届时,Netfl...
日期:09-28
相伴20载,新一代数据中心首次换新标
  2019年10月9日,IDC圈华南地区的佼佼者——新一代数据中心(GZIDC)正式更换企业LOGO,以全新面貌展示企业新形象。   新一代数据中心于2000年成立,凭借优秀的运营团队、...
日期:05-02
字节跳动:已采取措施保证对GPT的API 调用符合规范要求
对于外媒报道称,字节跳动在使用OpenAI技术开发自己的大语言模型,违反了服务条款。对此,字节跳动相关负责人向《科创板日报》回应称:今年年初,当技术团队刚开始进行大模型的初期探...
日期:12-18
手机易拆卸电池要回归 但网友坐不住了!「能拆卸电池的智能手机」
2027年起电子产品须为“易于拆卸和更换的电池”设计,消息一发就引起了热议!截至6月20日17时30分,已有39370人参与调查,来看看网友们有哪些看法。火炬之光2难度修改魔法门之英雄...
日期:06-22
京东百亿补贴30天:静悄悄的10亿和刘强东的迷茫「京东百亿补贴持续多久」
图片来源@视觉中国文 | 商隐社,作者 | 阿空,编辑 | 齐马京东集团首席执行官徐雷曾在2022全年业绩电话会上表示,包括平台、商家多方共同投入的营销资源在内,京东第一个月在百亿补...
日期:04-07