外媒 | 谷歌的医疗LLM技术提高了准确度
《自然》杂志上发表的一项研究显示,谷歌的生成式AI技术Med-PaLM在回答医疗问题时,有92.6%的答案与科学共识相符,与医生回答问题的92.9%相当。Med-PaLM是一种生成式AI技术,利用谷歌的LLM技术回答医疗问题。
研究人员利用了MultiMedQA标准,该标准结合了六个现有的医疗问题数据集,涵盖了研究、专业医学和消费者查询的范围,以及HealthSearchQA,一个常见的医疗问题数据集。
MultiMedQA问题经过了PaLM,一个5400亿参数的LLM技术,以及Flan-PaLM,它的指令调整变体。然后将答案进行人工评估,以评估理解、推理、事实准确性以及可能的危害和偏见。
使用各种提示策略,Flan-PaLM在回答MultiMedQA数据集方面显示出准确性,美国医学执照考试类型的问题准确率为67.6%,超过了以前的准确率水平17%。但研究人员指出,它对消费者医疗问题的回答存在关键差距。
因此,研究人员引入了指令提示调整,一种数据和参数有效的对齐技术,产生了Med-PaLM,它的答案明显比Flan-PaLM(61.9%)更准确(92.9%)。Flan-PaLM的答案也被评为可能导致有害结果的情况占29.7%,而Med-PaLM只有5.9%。临床医生生成的答案的不准确率与Med-PaLM相似,为5.7%。
研究人员指出,在这些模型适用于临床使用之前,仍需要克服许多限制,并需要进一步评估,特别是关于安全性、偏见和公平性方面。
“我们希望像Med-PaLM这样专门设计用于医疗应用,并把安全作为首要考虑的LLM系统,能够使医疗信息的获取民主化,特别是在医疗专业人员数量有限的地区,”谷歌AI研究员之一Vivek Natarajan在LinkedIn上说道。
“随着进一步的发展、安全性和有效性的严格验证,我们希望Med-PaLM能够在直接护理路径中得到广泛应用,增强我们的临床医生,减轻他们的行政负担,帮助他们做出临床决策,让他们有更多的时间专注于患者,从而使医疗更加可访问、公平、安全和人性化。”
更大的趋势:
今年3月,谷歌的Med-PaLM 2在美国医学执照考试类型的问题上进行了测试,准确率达到“专家”级别,超过85%。它还通过了认证。
版权声明 本网站所有注明“来源:普瑞纯证”或“来源:pureFDA”的文字、图片和音视频资料,版权均属于普瑞纯证网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:普瑞纯证”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。