智源社区 10月03日
大模型赋能医疗:弥合AI与专家差距的关键
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了大语言模型(LLMs)在医疗领域的应用潜力与挑战。强调了AI而非专家本身将被淘汰的观点,并深入分析了当前LLMs在严肃医疗场景下与专家知识的差距。这种差距主要体现在背景知识的缺乏,例如对肿瘤研究中终点指标(如OS)的解读需要结合适应症、患者基线和试验设计等复杂因素。文章以HARMONi-2临床研究为例,详细阐述了专家如何从对照组选择、分层因素、PFS临床意义及亚组分析等多个维度对研究进行严谨评估,并指出AI若要达到同等水平,需要大量、细致的特定领域背景知识,如指南推荐疗法、生物标志物基准、转移情况等。最终,文章强调了构建针对具体适应症的医药大模型,并补充必要背景知识的重要性,是解决当前LLMs应用瓶颈的关键。

💡 **AI的未来与专家的角色**:文章指出,未来被淘汰的不是专家本身,而是不懂人工智能的专家。大语言模型(LLMs)在严肃医疗场景下的应用,其核心挑战在于弥合AI与人类专家在专业知识深度和理解力上的差距。AI需要具备理解复杂背景信息的能力,才能输出有价值的、具有建议性的结论,而不仅仅是泛泛而谈。

🔬 **背景知识是LLMs在医疗领域的核心瓶颈**:当前医药大语言模型面临的最大问题是缺乏特定领域的背景知识。例如,在评估肿瘤研究的终点指标(如OS)时,AI需要理解具体的适应症、患者基线特征、试验设计方案等多种复杂因素,才能准确判断结果的意义。对于临床评价,AI还需要掌握目标适应症的生物标志物(biomarker)和相关基准(benchmark),才能对新出现的临床结果做出有价值的判断。

📊 **以HARMONi-2研究为例的专家评估维度**:文章通过分析HARMONi-2临床研究,展示了专家评价的严谨性。专家会考量对照组选择的合理性(是否符合当前临床指南的一线疗法)、分层因素的潜在偏倚(是否平衡了转移情况等混杂因素)、PFS的临床意义(是否结合OS数据判断生存获益),以及亚组分析的多重性(是否校正多重比较以避免假阳性)。这些都是AI需要学习和内化的关键评估逻辑。

📚 **构建针对性医药大模型的重要性**:为了让LLMs在医疗领域发挥更大作用,文章强调需要构建针对不同适应症(如NSCLC)的临床结果评价模型。这需要大量细致的背景知识储备,包括:各适应症下终点指标(OS/PFS/ORR)的当前基准;相关基因突变的范围尺度;以及肝转移、脑转移等不同转移情况的基线比例。缺乏这些背景知识,LLMs的输出将难以获得真正的价值。

大语言模型的发展给医疗领域带来了前所未有的可能,未来淘汰的是不懂人工智能的人,而不是专家本身,这句话的含义不知道大家是否能够真正理解。作为严肃医疗使用场景,大语言模型到底和专家差在哪里?这种差距如何进行补充就是本次内容要讨论话题。
当一个大语言模型输出一个带有建议性的结论时,首先需要的是背景知识。如果大模型不具有这样的知识,那么自然无法输出有建议性的观点。
比如在肿瘤研究中,终点指标OS为8.9个月,那么是否算长?当然这需要细化到具体的适应症,患者基线,试验设计方案等诸多因素。但是大语言模型能够在这些因素变化的情况下,准备是评级出一个临床试验的结论。这就需要AI具有相关的背景数据,才能够完成结论性输出
由此可见,当我们希望使用大语言模型输出一些观点时,AI需要背景知识。对于临床评价而言,需要知道目标适应症的biomarker以及相关的benchmark,这样在出现一个新的临床结果时,才能输出有价值的观点。这就是当前医药大语言模型应用一个亟待解决的问题。
我们用Harmoni-2临床研究来说明这个问题。

HARMONi-2试验(AK112-303;NCT05499390)的主要分析结果,对于PD-L1阳性晚期NSCLC患者,与帕博利珠单抗相比,依沃西单抗一线治疗可使疾病进展或死亡风险降低49%。依沃西单抗是一种针对PD-1和VEGF的新型双特异性抗体,前期已被证明在该人群中具有临床获益和安全性(1b/2期HARMONi-5试验)。

HARMONi-2试验纳入ECOG体能状态(PS)评分为0或1、PD-L1 TPS≥1%的IIIB至IV期晚期NSCLC患者,排除接受过系统性治疗、EGFR突变或ALK重排的患者。研究将398名患者按1:1的比例随机分配接受依沃西单抗(20mg/kg,每3周一次[Q3W])或帕博利珠单抗(200mg,Q3W)治疗。治疗持续长达24个月或临床获益丧失或毒性不可接受。患者按临床分期(IIIB/C vs. IV期)、组织学类型(鳞状vs非鳞状)和PD-L1 TPS(≥50% vs. 1%-49%)分层。研究的主要终点是按照RECIST 1.1标准通过盲法IRRC确定的PFS。次要终点包括总生存(OS)、研究者评估的PFS、ORR、缓解持续时间(DOR)、至缓解时间(TTR)和安全性。生活质量作为探索性终点。

疗效数据
在8.67个月的中位随访期内,依沃西单抗治疗患者的中位PFS为11.14个月(95%CI: 7.33-不可估计[NE]),而帕博利珠单抗治疗患者的中位PFS为5.82个月(95%CI: 5.03-8.21)(分层HR=0.51;95%CI: 0.38-0.69;P<0.0001)。依沃西单抗和帕博利珠单抗的9个月PFS率分别为56%(95%CI: 47%-64%)和40%(95%CI: 32%-48%)。无论肿瘤PD-L1表达或组织学类型,依沃西单抗治疗组的PFS都有所改善。对于PD-L1肿瘤比例评分(TPS)介于1%~49%和≥50%的患者,分层HR分别为0.54(95%CI: 0.37-0.79)和0.46(95%CI: 0.28-0.75)。鳞癌和非鳞癌患者的HR分别为0.48(95%CI: 0.31-0.74)和0.54(95%CI: 0.36-0.82)。亚组分析显示,临床IIIB/C期患者(HR=1.01;95%CI: 0.29-3.51)是唯一未从依沃西单抗中获益的人群。

对于这样一个实验,我们先看专家如何来评价。

1.对照组选择的合理性:对于PD-L1低表达(TPS 1-49%)患者,国际指南推荐免疫治疗联合化疗,而非单药免疫治疗(如Pembrolizumab)。本研究对照组仅使用Pembrolizumab单药,可能未反映当前临床实践的最优选择,导致结果的外部有效性受限。

分析:对于阳性对照而言,这个试验使用的单药,而非一线治疗。所以只能评价针对非化疗的患者中,KA112优于K药,而无法证明KA112联合化疗优于K药联合化疗。背景知识是阳性对照首先应使用指南中的一线疗法,如果不使用一线疗法,需要考虑外部结果受限。所以AI需要了解针对相应适应症的所有一线疗法类型。

2. 分层因素的潜在偏倚:分层因素包括组织学类型、临床分期和PD-L1表达,但未明确说明是否平衡了其他潜在混杂因素(如肝转移、脑转移比例),可能影响结果的解释。  

分析:仅仅描述biomarker的表达情况,但没有提及基线转移的情况,可能存在更多的变量而影响结果。背景知识是对于转移情况的判定,需要统一考虑在基线分析中。

3. PFS的临床意义:中位PFS差异(11.1 vs 5.8个月)虽具有统计学意义,但需结合OS数据判断临床价值。目前OS数据尚未成熟,无法确认生存获益。  

分析:这是一个常见情况,需要继续试验观察。背景知识是需要直接获得金标准OS的数据结论,也就是AI应该知道哪些指标的真正的金标准。

4. 亚组分析的多重性:亚组分析未校正多重比较(如PD-L1高/低表达、鳞癌/非鳞癌等),可能增加假阳性风险。例如,PD-L1高表达亚组HR=0.48的结论需谨慎解读。

分析:对于而成二交叉变量,需要分布列举确定不同变量组合的指标。背景知识是对于亚组分析时,需要根据不同变量确定风险比。

那么如果我希望用大语言模型也得到专家这样的评论,应该如何做呢?
首选就是需要梳理不同适应症的背景知识,而且这类模型必须按照不同的适应症进行区分。例如,我们仅仅来构建一个针对NSCLC的临床结果评价模型。对于终点指标,我们需要通过当前指南相关的RCT试验进行确定,对于OS/PFS/ORR等指标达到多少才是当前的Benchmark。对于表达情况,我们需要准备好相关的基因型的突变范围尺度。对于转移情况,我们需要确定好肝转移、脑转移、腹膜等不同器官转移的基线比例。还有很多很多我们需要去补充的背景知识。
这就是大语言模型真实应用中的一个亟待解决的大问题,没有对于背景知识的评估,永远无法获得有价值的输出。

欢迎关注《医药大模型》图书,共同讨论大语言模型在医药行业的发展。有不同意见欢迎到群众交流。


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 医疗AI 人工智能 临床试验 背景知识 LLMs Medical AI Artificial Intelligence Clinical Trials Background Knowledge
相关文章