您的位置:首页 > 互联网

医疗评估是什么意思「Hugging Face 发布医疗任务评估基准Open Medical-LLM」

发布时间:2024-04-19 12:57:26  来源:互联网     背景:

划重点:

⭐️ Hugging Face 发布了一个新的医疗任务评估基准,旨在测试生成式人工智能模型在健康相关任务上的表现。

⭐️ Open Medical-LLM 基准由现有测试集拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。

⭐️ 一些医学专家对 Open Medical-LLM 提出了警告,强调实际临床实践与医学问题回答之间存在较大差距,强调基准测试结果不能替代真实世界测试。

4月19日 消息:近期,Hugging Face 发布了一项名为 Open Medical-LLM 的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。

防水拍照手机

苹果手机的生态

amd7900xt值得买吗

该基准由 Hugging Face 与非营利组织 Open Life Science AI 和爱丁堡大学自然语言处理小组的研究人员合作创建。Open Medical-LLM 的目标是标准化评估生成式人工智能模型在一系列医学相关任务上的性能。

Open Medical-LLM 并非从零开始的基准测试,而是由现有测试集(如 MedQA、PubMedQA、MedMCQA 等)拼接而成,涵盖多个医学领域,如解剖学、药理学、遗传学和临床实践。基准测试包含多项选择和开放性问题,需要医学推理和理解,涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管 Hugging Face 将该基准视为医疗界生成式人工智能模型的 “健全评估”,但一些医学专家在社交媒体上对 Open Medical-LLM 提出了警告,指出实际临床实践与医学问题回答之间存在较大差距。他们强调,基准测试结果不能替代在真实世界条件下的仔细测试。

首家5G全连接工厂

医疗评估的侧重点

对此,Hugging Face 的研究科学家克莱门汀・弗里尔(Clémentine Fourrier)在社交媒体上表示,这些排行榜只能作为探索特定用例的第一近似值,但实际上需要进行更深入的测试阶段,以检查模型在真实条件下的局限性和相关性。她指出,医学模型绝不能单独由患者使用,而应该被训练成为医生的支持工具。

尽管 Open Medical-LLM 等基准测试具有一定的参考意义,但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而,Open Medical-LLM 和其他任何基准测试都不能替代经过深思熟虑的真实世界测试。例如,谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统,但尽管理论上准确度很高,该工具在实际测试中却表现不佳,导致患者和护士对其结果的不一致性感到沮丧,与实际临床实践缺乏协调性。

至今,美国食品药品监督管理局已批准的139个与人工智能相关的医疗设备中,没有一个使用生成式人工智能。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。

官方博客:https://huggingface.co/blog/leaderboard-medicalllm


返回网站首页

本文评论
小米最新发布手表「支持4G!曝小米旗舰手表11月发布:系统、芯片成悬念」
快科技9月5日消息,数码博主数码闲聊站”今日曝光了小米新款智能手表的部分特性,产品定位旗舰手表,预计11月发布。据介绍,全新小米手表配备OLED材质的大屏幕表盘,电池容量提升至52...
日期:09-05
马斯克进军AI 解释为何在今天成立xAI「马斯克为shib」
7月13日 消息:今天早些时候,埃隆马斯克宣布成立人工智能领域的公司xAI,并且透露了公司成立日期2023年7月12日的原因。他表示这个日期是生命、宇宙和万物的终极问题的答案,即42...
日期:07-13
高德地图上线北斗卫星定位查询系统_高德地图如何查看北斗卫星
11月17日消息,近日,高德地图上线了北斗卫星定位查询系统,用户在定位导航时可查看当前所调用的北斗卫星数量,以及具体编号、方位角、高度角、频点、信号强度相关详细信息。除此之...
日期:11-18
Meta AI实验室推三项新AI项目庆祝成立十周年:Ego-Exo4D、Audiobox等
**划重点:**双11游戏本排行1. 流浪地球 众筹...
日期:12-01
良渚文化村未来城_良渚新城数字文创基地落成,相芯用AI数字人打造产业服务升级
  2020年1月7日,《2020数字文创·澎湃新良渚高峰论坛暨良渚新城光之谷数字文创基地启动仪式》在良渚万科未来之光·新生城市展厅盛大举办。相芯科技在本次高峰论坛中为与...
日期:06-13
苹果13溢价严重「挤牙膏式升级果粉不买账!iPhone 14贬值率是iPhone 13两倍」
在经过一段时间的抢购后,今年的iPhone 14系列显然出现两极分化的情况,iPhone 14系列遇冷,iPhone 14 Pro火爆,不过整个系列的销量表现目前难超iPhone 13系列。近日,研究机构SellCe...
日期:10-04
2万亿IoT市场,OPPO凭什么立足?(oppo iot是什么意思)
  OPPO 5G CPE T1 路由器   想象一下,一个只需插上一张5G SIM卡的设备,在接通电源后,就可以提供比百兆光纤网速最高快40倍的WiFi,下载一部2GB大小的电影仅需4秒。是不是...
日期:07-14
淘宝成为全球最大创意集散地 推出哇哦征集购物分享
2011年10月31日,淘宝网宣布,将依托旗下购物分享平台“淘宝哇哦”征集创意商品、创意达人活动,把淘宝网打造成为全球最大的创意集散地。据了解,此次名为“哇哦,我的心头爱”活动(h...
日期:07-24
网易云音乐社交功能「网易云音乐首款音乐社交App MUS开放注册」
  蓝鲸TMT 费腾 图片来源:东方IC apple macbook pro 14寸蔚来新换电站领克汽车四缸1.5T  蓝鲸TMT频道9月27日讯,网易云音乐首款音乐社交App MUS正式开放注册。据悉,MUS是一...
日期:10-01
中国在南极建立了哪些站「我国将在南极建设海外卫星地面站:位于南极中山站」
据中国航天报公众号消息,近日,中国航天科工集团有限公司航天建设所属航天设计中标海洋观测卫星地面系统海外卫星地面站建设工程项目,中标金额4395万元。该项目由国家卫星海洋应...
日期:02-02
荣耀升级系统好吗「为了更好迎合用户,荣耀这波操作真香,老手机升级新系统?」
众所周知,在2023年华为开发者大会之上,有一个系统版本横空出世,它就是HarmonyOS 4,同时讲实话HarmonyOS 4也顺势成为了当下业内关注的焦点,不仅仅该系统版本功能强大,同时在综合体...
日期:08-08
鹏博士兰州5g大数据产业园「支持液冷与智算 鹏博士西北5G大数据产业园一期主体封顶」
8月31日,鹏博士西北5G大数据产业园一期1#互联网数据中心工程主体在甘肃兰州正式封顶。封顶现场算力规模500P  支持高功率AI服务器鹏博士西北5G大数据产业园位于甘肃省兰州市...
日期:09-06
助力推进特色产业园区建设  中国电信将在上海发布数字化转型智慧园区
  全面推进城市数字化转型,是上海“十四五”经济社会发展的主攻方向之一。开局之年,上海已吹响数字化转型赋能的号角。按照 “中心辐射、两翼齐飞、新城发力、南北转型”的...
日期:07-13
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型_李开复otto2
声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:允中 ,授权转载发布。仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——在Alpaca经认证的模型类别中,以94.08%的胜率,超...
日期:12-12
山寨版杀毒软件瞄准手机吸费 金山手机卫士全面拦截_金山毒霸手机杀毒软件
  5月5日消息,金山手机卫士云安全中心监测到一种伪装成手机杀毒软件的恶意吸费程序正在通过手机短信传播,不慎安装这个伪装过的山寨杀毒软件,会被欺骗订购某些SP业务,从而导...
日期:07-27
一口价27.7万元 WordPress推出100年域名托管服务「wordpress免费托管」
快科技8月28日消息,WordPress宣布推出100年的超长期域名托管服务,包括24小时协助和托管网站服务。目前大多数标准域名注册的有效期为10年,WordPress这项服务将提供100年的域名...
日期:08-28
魅族公布618终极战报:销售额同比增长500%「魅族618销量」
凤凰网科技讯 6月19日消息,魅族公布618终极战报:魅族618全周期销售额同比增长500%,销售额增速第一。魅族商城:魅族旗舰机型销量达成去年同期378%京东:魅族618全周期销售额同比增...
日期:06-19
红杉中国宣布成立创业加速器YUÈ
界面新闻获悉,8月15日,红杉中国宣布成立创业加速器YUÈ,为处于天使轮到A轮的中国创业者提供红杉独家研发的体系化创业课程和资源服务。   创业加速器YUÈ由红杉全球执行合伙...
日期:08-16
网信办:整治利用生成式AI制作发布涉未成年人有害信息行为
6月27日 消息:中央网信办发布《关于开展“清朗·2023年暑期未成年人网络环境整治”专项行动的通知》称,即日起,开展为期2个月的“清朗·2023年暑期未成年人网络环境整治”专项...
日期:06-27
爱回收科技资讯:vivo X70 有望下半年发布 跑分数据曝光_vivo X70跑分
  近日有媒体发布有关vivo X70的相关跑分数据引起网友关注,vivo新机在GeekBench4基准下跑出了单核心3532分,多核心9296分的成绩。作为vivo家族最受关注的产品线,X系列一直深...
日期:01-27