您的位置:首页 > 互联网

首个千亿生物医药ChatGPT来了!清华AIR聂再清:这个行业未来的“Killer APP”

发布时间:2023-09-23 01:11:25  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:萧萧 ,授权转载发布。

制药行业的“专家版ChatGPT”,终于来了!

就在这两天,首个生物医药的千亿参数大模型产品ChatDD发布,不仅制药各阶段知识“样样通”,还能和药学专家进行对话,瞬间秒懂一些行业神秘“黑话”。

这和AlphaFold2直接加个Chat功能还不太一样——

现阶段大模型虽然能在药物发现上做得不错,但要么只涉及单个模态,要么不具备直接对话能力。

ChatDD则兼具多模态和对话双重特点,顺便还能给医药界学生“解个惑”。

做出这个产品背后的水木分子,是今年6月新成立的一家公司。清华大学智能产业研究院院长张亚勤院士指出:

ChatDD通过人机协作对话方式有效地将专家知识与大模型知识相联结,开拓了继传统药物研发TMDD、CADD、AIDD之后的第四代药物研发新模式。

所以,它究竟在什么功能上做到“划时代”?

我们和清华AIR教授、水木分子首席科学家聂再清聊了聊,详细了解了ChatDD的来龙去脉。

ChatDD是一个什么样的产品?

先来看看ChatDD能做哪些事儿,具体又能用在哪里。

它的外观和ChatGPT有点像,是一个网页版,同样能通过对话来实现各种功能。

对话能力上,不仅英文总结不错,中文对话也来得,直接hold住“疾病画像”这样的专业黑(术)话(语):

如果有看不懂的分子,可以直接一键上传相关文件,让它来负责解读这种分子的作用:

试试更复杂一点的任务,例如计算亲和力问题,大模型竟然直接“推荐”了一个工具,并快速计算出结果:

此外,也不用担心问答内容超出ChatDD训练数据截止日期,毕竟它还学会了自己联网、或是从数据库中查找答案。

总结来看,ChatDD虽然用法上像ChatGPT,但在生物医药这块是“专业的”。

无论是掌握的多模态(小分子+大分子+文本)医药专业知识量,还是对行业的理解程度、完成任务的能力,ChatDD都要比ChatGPT“更像个学医药的人”。

与同行AI不同的是,ChatDD的“业务范围”,涵盖了制药的前、中、后期三个阶段。

此前的医药行业AI,即使是大模型,往往也只能用于制药的部分阶段,例如前期的药物发现,或是中期的临床前研究。占研发成本大部头的后期临床试验,几乎无人问津。

而ChatDD不仅能参与药物发现、立项、商业智能(BI,Business Inteligence)、临床试验各环节,还能帮助提升成功率。

聂再清介绍表示,ChatDD用于后期临床试验设计,也是大伙儿最期待的功能。

首先,药物在临床试验阶段的通过率,往往并不高。

尤其二期到三期临床,通过率只有34%,三期到四期通过率也不高。但临床试验加上前中期的费用往往又极高,一旦不通过,就是几亿美元成本“打水漂”。

其次,药物通过率不高的原因,(除非药物本身不行)很大程度上是因为没找到适合“对症下药”的患者。

药厂通常会从临床信息数据库中,筛选适合用药的病人。

假设这个药物对数据库中5%的患者有效,那么从这5%的患者中挑选进行临床试验,肯定比剩下95%的患者有效率高。

在综合各方面信息做判断这件事上,ChatDD往往比人类更适合筛选出“对症下药”的患者。

聂再清特意举了一个例子,来表明ChatDD的能力:

注意这里未来会是“私有化部署的合作伙伴的单细胞RNA测序数据”,现在因为没有,所以我们用了水木分子收集到的公开数据计算出来的。

这样的ChatDD,背后功能究竟是怎么实现的?

医学院博士后负责数据构建

ChatDD背后的底座,取名ChatDD-FM,参数量达到千亿级别。

这次推出的ChatDD-FM-100B,是全球首个千亿参数多模态生物医药对话大模型,其在C- Eval评测中达到全部医学4项专业第一、也是唯一平均分超过90分的模型。

联想到团队前不久发的BioMedGPT-10B,其自然语言模态的大模型同样基于LLaMA2架构,这二者是否有什么联系?

聂再清表示,ChatDD-FM和BioMedGPT,在受众和用途上都不太一样,“有点像ChatGPT和GPT-3.5的区别,前者在对话和意图对齐能力上有更大提升”。

BioMedGPT主要用于科研领域,更擅长英文生物医药科研任务,适合直接拿来作为生物医药领域的相关科研任务的基础模型。

ChatDD-FM主要给国内医药行业“打辅助”,侧重中文对话能力,融入了更多专家的对话模式和经验。

技术上,ChatDD-FM相比BioMedGPT,主要增强了三大方面,模态、训练数据和参数量级——

模态上,增加了蛋白质结构数据;训练上,增加了用于中文、专家对话和调用工具能力的数据;参数量级上,从百亿增加到千亿。

让ChatDD-FM提升“专业度”、说话像“行内人”的秘诀,依旧在于高质量数据上。

这些数据主要分为两部分。

第一部分,是预训练用的医药知识数据,主要目的是让ChatDD-FM提升专业素养,几个月内掌握行业知识。

由于之前业内缺少相关(大小分子等多个模态和自然语言对齐)数据集、尤其是中文数据,所以团队又自己收集整理了一系列训练数据集。

首先,和厂商合作翻译专业英文期刊、整理中文期刊,收集带有中文专业名词的大量数据,降低大模型没见过的专业词汇比率;

然后,找来一批医学院博士和博士后,设计一套系统对这些数据进行整理,直到它们可以被喂给大模型使用。

聂再清强调,这些博士不是在做数据标注,毕竟相比有监督学习,自监督学习更重要的是清洗、查找数据的工作:

这些期刊数据当然不是一个人一篇一篇地看,那绝对不行,也不是一个字一个字敲进去,也肯定不行。

毕竟大模型最主要的能力还是来源于自监督学习,所以更多是让他们进行数据清洗和查找的工作。

当然,医药界期刊总是在更新,因此这部分的工作也会持续进行。

vivo x fold了解新机

第二部分,是“专家数据集”,专门用于提升ChatDD-FM的对话能力。

ChatDD的用户,会有不少医药领域的专业用户,为了让它能无缝读懂业内人的“专言专语”,就必须要先了解专家们平时都会怎么说话。

团队为此找了一些专家,“观察”他们平时是怎么提问的,根据这些问题整理了一套数据集,专门喂给ChatDD。

这样医药专业的用户在使用时,不仅能像和同事聊天一样直接提问,也能选择“提示词模板”直接换词填充。

此外,为了进一步增强模型解决实际医药任务的能力,团队也接入了不少实用工具和开源算法,解决用户遇到的问题,主要分为查询和计算两大类,如知识库查询工具、或靶点亲和力计算工具。

但,ChatDD-FM作为大模型,总归绕不过幻觉这个问题。

此前发布BioMedGPT时,聂再清就曾表示过不用害怕科研、药物发现等阶段的“幻觉”。现在发布商业版ChatDD-FM,是否还这么想?

聂再清表示,现阶段ChatDD-FM可以根据不同的需求,调整大模型出现幻觉的情况。

例如在做商业智能的时候,就尽可能降低大模型的幻觉,做到每一句话都有来源可追溯;

但在做药物发现的时候,只要有实验人员把关,都可以去适当提升幻觉,增加一部分模型想象力来“换换思路”,或许能试出有意思的结果。

后期,ChatDD-FM理论上甚至能做到“一键更改回答出现幻觉的比率”。

“对制药行业有划时代意义”

ChatDD背后的公司水木分子,目前已完成千万级种子轮融资。

水木分子自定义为“大模型时代的CRO公司”,即利用大模型或AI技术,帮助别人更好更快地制药。

公司的盈利方式目前有三种,包括ToB付费会员(按使用次数收费)、私有化部署和制药分成。

已经有制药厂商找来合作了——复星医药计划对ChatDD进行私有化部署,用于辅助药物立项等阶段。

药物立项,涉及大量资料查找和判断,包括查找有无药物相关(官能团、分子结构保护等)专利,还要根据大量文献和实时市场信息等资料判断是否值得立项。ChatDD能通过整合文献和相关专利,生成一个完整的参考报告。

ChatDD的出现,聂再清认为对于行业而言有跨时代意义:

它真正将专家的经验和直觉、以及大模型的“智力涌现”能力融会贯通了起来。

此前,制药行业经历了三个阶段,分别是TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)。

但无论是人工试验,还是计算或AI辅助药物研发设计,都需要大量人力去“学会如何使用”模型,尚未出现一个能和科研人员直接对话的系统。

现在,ChatDD的出现真正改变了这一现状。

它不仅能将制药的知识经验集成到大模型中,通过提示词就能激发调用出来,还能通过学习专家对话方法掌握专业沟通能力,“相当于把人和机器最powerful的地方做了个融合。”

不过,要完全实现ChatDD的全部潜能,真正进入比较成熟的阶段,聂再清认为至少还有10年的黄金时代。

一方面,对于生物医药行业来说,人类对于蛋白质、细胞、小分子之类的理解也还远远不够,在这个学科方面仍然可以做出很多成绩和进展;

另一方面,对AI行业来说,无论是数据还是算法,也都还没发展到足够成熟的阶段。

数据上,目前生物医药领域内各模态和自然语言对齐的数据还很少。

(就像图文一样,虽然文字和图像各自的数据很多,但图文对齐如VQA的数据却相对要少很多)

对此依旧需要不断收集整理出PQA(蛋白质问答)、MQA(小分子问答)等模态的数据,来让多模态大模型的效果变得更好。

模型上,大模型目前的效果还不是最好的,无论是单模态还是多模态,都值得继续去探索。

所以,公司的下一步计划,就是继续优化模型、增加更多模态,并找到更多的场景落地需求。

对于ChatDD最终形态的设想,聂再清表示:

它会成为一个各模态(大小分子、蛋白质结构、DNA、单细胞等)和自然语言全部对齐的生物医药基础大模型产品。

他也在发布会上预言,这个产品会成为生物医药行业的大模型“Killer APP”。

到那时候,才会真正打破医药界的“双十定律”,高性价比的实现人机协作新药研发。

—完—


返回网站首页

本文评论
在东南亚销量超过特斯拉,比亚迪靠价格也靠当地伙伴
9月20日消息,中国电动汽车制造商比亚迪在东南亚市场表现出色,已超过特斯拉等竞争对手,占据当地电动汽车销售市场份额的四分之一以上。三星s20电池续航评测高管和分析师表示,除了...
日期:09-20
iPhone备忘录被曝莫名清空 苹果:会尝试在系统中帮忙恢复
10月10日 消息:相信不少用户都有在手机备忘录中记录一些重要事情的习惯,避免因为忙等原因而疏忽忘记。近日,不少iPhone用户反映称自己的苹果备忘录被莫名清空,在苹果云端服务(iC...
日期:10-19
广汽本田-雅阁混动版「外观大变 首增插混!全新广汽本田雅阁开启11元盲订」
4月30日,快科技了解到,全新雅阁正式已于日前开启预售。鸿蒙应用开发大赛即日起至5月20日15:00,通过广汽本田商城和App下单全新雅阁e:PHEV/全新雅阁锐T动车型,并于8月31日前(含)完...
日期:04-30
苹果重磅新品!首款AR / VR头显零件照片曝光「iphone ar头像」
3月14日消息,苹果此前就表示将会推出AR头显设备,并打算用头显在10年内取代,是苹果的重磅新品。近期有知情人士分享了4张苹果首款AR / VR头显零件照片,展示了头显的不同部分。世...
日期:03-14
目前探月工程已发射多少颗卫星「我国探月计划公布:嫦娥七号将在月球南极着陆 要建月球科研站」
据国家航天局消息,我国日前在海南海口召开了月球与深空探测特别会议。与会专家表示,嫦娥六号任务计划于2025年前后在文昌发射,目前已确定了氡气探测仪等4台国际荷载。据介绍,嫦...
日期:11-27
红魔8 128的电竞手机多少钱「红魔8S Pro官宣:全球首发鸡血版骁龙8 Gen2 7月5日登场」
快科技6月25日消息,红魔向数码博主发送邀请函,宣布将于7月5日举行新品发布会,正式发布红魔8S Pro。值得注意的是,红魔8S Pro邀请函是一份电竞成绩单”,从这份邀请函透露的信息可...
日期:06-26
国家邮政局:邮政快递业累计投放可循环快递箱(盒)978万个_邮政可循环集装袋使用次数
10 月 14 日消息,国家邮政局今日举行 2022 年第四季度例行新闻发布会,介绍邮政快递业绿色发展“9917”工程进展情况。截至 9 月底,全行业采购使用符合标准的包装材料和规范包装...
日期:10-21
mit十大突破技术2020_MIT2021全球十大突破性技术榜单揭晓 作业帮凭“远程技术”入选
  2021年2月24日,《麻省理工科技评论》2021年“全球十大突破性技术”( TR10)在杭州全球同步首发。作为“远程技术”的主要研究者,全球用户规模最大的在线教育公司作业帮...
日期:07-16
快跑,罗敏又来了
  作者/何子维   编辑/莫奈   朋友对我说:做校园贷的没有一个好人。   这话听上去有些苛刻与绝对,实则是罗敏们该为自己做过的事付出代价。   如今,罗敏们想要改头...
日期:07-31
华为云SQL Server全版本100%支持两大全新上线服务功能
  近日,分布式事务与 Linked Server 服务功能全新上线,特别指出的是,华为云 SQL Server 所有版本均100%支持此两项服务功能。该服务可极大的方便用户通过创建 Linked Server...
日期:05-14
小米最新发布手表「支持4G!曝小米旗舰手表11月发布:系统、芯片成悬念」
快科技9月5日消息,数码博主数码闲聊站”今日曝光了小米新款智能手表的部分特性,产品定位旗舰手表,预计11月发布。据介绍,全新小米手表配备OLED材质的大屏幕表盘,电池容量提升至52...
日期:09-05
马斯克拜访「美媒:访客要等1个多小时才能见到马斯克 还不能先开口」
12月27日消息,自从收购推特以来,埃隆·马斯克(Elon Musk)的领导风格就始终受到批评。美媒最新爆料称,马斯克的架子相当大,前往旧金山推特总部的访客经常要等一个多小时才能见到他,...
日期:12-27
上海“领带小哥”飞身跳桥救人:没别的想法 就想快救人_上海跳桥男孩视频
9月22日消息,据媒体报道,上海乍浦路桥附近有人跳桥落水,关键时刻一领带小哥”飞身跳桥下水救人。最终,落水者被成功营救上岸。华为matebooke和微软surfaceprogo领带小哥”表示,没...
日期:09-22
消费需求降温,传亚马逊尝试出售货运飞机的多余运力
12月24日消息,据知情人士透露,随着消费者需求降温,亚马逊一直在试着出售货运飞机的额外运力,这也是公司为适应线上消费需求增长放缓而做出的最新努力。亚马逊在美国和欧洲市场拥...
日期:12-24
Facebook雇公关公司攻击谷歌 称不构成诽谤_facebook面临的威胁
  美国新闻网站 “野兽日报”昨天曝光称,全球最大社交网站 Facebook私下雇佣一家公关公司发布大量有关谷歌的负面新闻报道。Facebook证实确有此事,但坚持认为这并不构成对...
日期:07-27
并非“大更新”?消息称Win11 23H2仅基于22H2优化改进「21h2 win11」
快科技5月19日消息,不久前,有消息称,微软将在今年下半年带来Win11的年度更新23H2。amd锐龙5000国行价格公布深圳苹果直营店买12手机要排队吗现在,有消息称,23H2可能并非一次大规...
日期:05-19
明天端午假期首日火车票开售3「三天假不调休!元旦假期首日火车票本周六开售」
据国务院办公厅消息,2023年元旦放假时间:2022年12月31日(周六)、2023年1月1日(周日)、2023年1月2日(周一),共三天,没有调休。按照当前铁路客票预售期15天的规定,12月17日(本周六)起...
日期:12-15
元宇宙 招聘「智联招聘:1-7月全平台元宇宙相关招聘岗位同比增长16.6%」
10月8日消息,智联招聘近日发布《2022元宇宙行业人才发展报告》。报告显示,今年1-7月,元宇宙领域研发人才稀缺,全平台元宇宙相关招聘职位数同比增长16.6%。除了信息技术产业,元宇...
日期:10-25
优酷古永锵读《史蒂夫·乔布斯传》:他一直与死亡竞速
  《史蒂夫·乔布斯传》简体中文版内地唯一出版机构中信出版社,曾在传记未发行前邀请优酷CEO古永锵提前阅读分享,古永锵在读过后感慨万千,写下长达7000字的读后感,并当下确定...
日期:07-24
解构隐私信息泄漏难题,数安行提出数据运营安全新理念_数据安全 行为安全
  近年来,随着全球信息化和数字化程度的不断加深,人类的生产生活方式正在发生深刻的变革,全球各行业都在加速数字化转型的进程。而作为时代高速发展的核心动力,“数据”...
日期:11-21