|
明敏 发自 凹非寺
量子位 | 公众号 QbitAI
谷歌对外发布才2个月的医疗大模型Med-PaLM 2,已经“偷偷”在医疗诊所实习很久了。
《华尔街日报》爆料,早在今年4月(也就是对外发布前),Med-PaLM 2就开始在多家诊所内测试。
负责的工作包括回答医疗问题、总结文件或处理医疗大数据等。
基于谷歌当下最先进的大语言模型PaLM 2以及大量医疗数据训练,Med-PaLM 2是第一个在MedQA测试集中达到“专家”水平的AI大模型。
谷歌曾经表示,在医疗领域,Med-PaLM 2的效果优于Bard、Bing、ChatGPT等通用大模型。
实际上,谷歌最新被曝光的这一动作,也被视为和微软竞争的一个方面。
毕竟ChatGPT爆火引发了医疗系统对于AI提升工作效率的新一轮思考,而基于GPT-4能力的AI工具,被曝已经为130个诊所、600名以上医疗工作者提供服务。
所以,谷歌在AI医疗的新一轮发力,进展如何?
Med-PaLM 2能力如何?
Med-PaLM 2基于谷歌当下最先进的大语言模型PaLM2,PaLM 2具备3400亿参数、3.6万亿tokens。
它的前身Med-PaLM是首个在美国医疗执照考试(USMLE)中取得“及格”以上分数的AI模型,在MedQA数据集上的得分为67.2。
Med-PaLM 2将这一分数提升了19%,达到86.5。
并且在MedMACQA、PubMedQA和MMLU几个临床方面的数据集上性能接近或超过SOTA。
在1000多个实际医疗场景问答中,Med-PaLM 2在9项基准测试中,有8项表现良好,相较于人类医生回答更受认可。
和普通医生的回答相比,Med-PaLM 2有72.9%的回答被认为是和医生回答相对一致的。
但这些数据距离Med-PaLM 2能被完全投入到实际医疗场景中应用,还有一段距离。
参与Med-PaLM 2研发的谷歌技术高管格雷格•科拉多(Greg Corrado)也表示,目前这一技术的应用仍处于早期阶段。
它还没有到达能让人放心使用的程度。
最明显的就是Med PaLM 2在回答问题的准确性和稳定性上,表现依旧不是很好。
比如上面的测试中Med PaLM 2唯一一项没有被认可的基准测试,就是“信息准确性/相关性”。
今年世卫组织也对LLM回答的不稳定性表示担忧。
除此之外,AI在医疗领域的应用上,数据问题非常关键,这涉及到患者的个人隐私。此前DeepMind开发的医疗软件就被发现,违法使用了160万份患者诊断记录。
在这方面,谷歌声明所有数据将由医疗机构负责保管,谷歌是无法拿到的。
尽管在实际应用落地中存在诸多困难,但不可否认,AI医疗领域现在已成为科技巨头们紧盯的一块重要阵地。
科技巨头一直紧盯医疗领域
正如谷歌曝光邮件中所写的那样,Med-PaLM 2等医疗大模型的应用,能够给医疗资源紧张地区提供很大帮助。
近年来,如微软、谷歌、IBM等科技大厂也在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前,AI检测心电图、X光片已在一些医院中投入应用。
而ChatGPT一来,AI医疗有了更多实质性进展。
比如微软和医疗软件公司Epic合作,开发了一种基于ChatGPT的工具,可以向患者自动发送信息。
还有Carbon Health也基于GPT-4推出了一种AI工具,可以根据医生病人之间的对话,自动生成诊断记录。
据介绍,这个工具可以在4分钟内完成咨询的总结,比医生自己操作快12分钟。
目前这个AI工具已经被130+家诊所、超过600名医疗人员使用,旧金山的一家诊所表示在使用了这个工具后来就诊的病人数量增加了30%。
以及国内也有这方面进展。
MedGPT——基于Transformer的1000亿参数大模型,目前共接诊120多名患者,从问诊、检查到诊疗方案全流程覆盖。
但在大厂们热烈推进AI医疗应用的另一边,不少人对于这种应用还表示比较担忧,毕竟医疗行业是非常严肃的一个领域。
有人就表示,LLM产生的“幻觉”非常多,他不相信LLM能帮他完成研究。
还有数据隐私方面的担忧,更是老生常谈了。
不过如果仅仅是让AI帮助医生完成一些重复性的基础性工作,有人觉得这还是值得提倡的。
即使LLM有幻觉,但是在生成笔记上还是非常成熟的。
你怎么看?
参考链接:
[1]
[2]
[3]
[4]
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态 |
|