百川大模型 22小时前
百川大模型发布M2 Plus,打造“医生版ChatGPT”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百川智能发布了循证增强医疗大模型Baichuan-M2 Plus及其配套应用百小应,旨在解决通用大模型在医疗场景中的幻觉问题。M2 Plus采用首创的六源循证推理(EAR)范式,通过“六源循证”、“循证检索”和“循证推理”三大核心技术,构建了从原始研究到真实世界反馈的完整知识体系。评测显示,M2 Plus的医疗幻觉率相比DeepSeek降低约3倍,优于美国医疗应用OpenEvidence,可信度比肩资深临床医生。该模型在多项国内外医学考试中表现优异,展现了其在复杂医学知识运用上的强大能力,标志着医疗AI在辅助临床诊疗方面迈过了“敢用、可用”的关键门槛。

💡 **医疗幻觉率显著降低,可信度比肩资深医生**:Baichuan-M2 Plus通过首创的“六源循证推理(EAR)”范式,构建了从原始研究到真实世界反馈的六层证据体系,并采用“循证检索”和“循证推理”机制,显著降低了医疗幻觉率,相比DeepSeek降低约3倍,可信度达到了与资深临床医生相当的水平,使其在严肃医疗场景中更具应用价值。

🔍 **“六源循证”构建权威知识体系**:该模型整合了海量医学期刊论文、系统评价、临床指南、专家共识、病例报道、公共卫生知识以及药监公告等信息,构建了一个金字塔形的“六源”知识体系。这种体系确保了模型回答的全面性和权威性,能够从不同维度回答“事实是否存在”、“结论是否一致”、“行业如何规范”、“医生应如何决策”等问题,实现了从“生成答案”到“据实回答”的转变。

🎯 **“循证检索”实现精准定位“铁证”**:M2 Plus采用PICO框架思维将查询转化为结构化医学问题,并在六源数据库中进行分层匹配,克服了通用RAG在医学语义理解和文献可靠性辨别上的不足。通过智能提问、精准锁定临床因果链和证据排序,能够优先呈现最可信、最相关的“铁证”,确保信息准确性。

🧠 **“循证推理”让模型“像医生一样思考”**:通过“循证增强训练”,M2 Plus被训练成“引用,而非臆测”。模型在训练中被奖励“引用”权威来源,惩罚“臆测”,并内置“证据评估器”优先采纳高可信度信息。其回答句句有据,可回溯、可验证,自动附带参考文献和指南出处,赋予了AI回答更高的可解释性和可信赖度。

🏆 **多项医学考试断崖领先,超越人类医生水平**:Baichuan-M2 Plus在多项国内外医学考试中取得了压倒性成绩,包括美国执业医师资格考试(USMLE)获得97分,中国执业医师资格考试(NMLE)获得568分,以及中国硕士研究生招生考试临床医学综合能力考试获得282分。在日本、英国、澳大利亚等国高级医师职称晋升考试中准确率也远超及格线,充分证明其在复杂医学知识运用能力上已超越人类医生水准。

百川大模型 2025-10-22 14:04 天津

医生专属ChatGPT,幻觉率相比DeepSeek降低3倍,超越美国最火医疗应用OpenEvidence

今天我们发布循证增强医疗大模型 Baichuan-M2 Plus,同步升级配套应用百小应并开放 API。这是我们自 8 月开源 Baichuan-M2 以来的又一次重要动作。评测显示,M2 Plus 的医疗幻觉率较通用大模型显著降低,相比 DeepSeek 低约 3 倍,优于美国最火医疗产品 OpenEvidence,可信度比肩资深临床医生水准。通用大模型固有的幻觉问题导致其在严肃医疗场景中难以真实应用。国内众多医院虽积极尝试部署和优化 DeepSeek,但实际效果不尽人意。反观大洋彼岸的现象级医疗大模型产品 OpenEvidence,给我们提供重要启示。该产品因符合医学认知的循证增强,已有 40% 美国医生在临床场景中注册使用,每月咨询量达 1650 万次。两天前,其 C 轮融资 2 亿美金,估值达 60 亿美元。

百川 M2 Plus 首创六源循证推理(EAR)范式,打造“医生版 ChatGPT”,让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛,不仅适合中国医疗环境,在美、日、英的医疗评测中均超过 OpenEvidence,代表中国在世界大模型擂台上再下一城。

首创六源循证推理范式,把循证做“全”、检索做“准”、推理做“对”(一)六源循证:打造从原始研究到真实世界的完整知识体系循证医学(Evidence-Based Medicine, EBM)作为现代医学知识体系的核心范式,是确保医疗决策可信的关键。

通用大模型像一个“博学但不可靠”的专家,即便有搜索增强,也会因为知识来源混杂不符合循证医学范式。

我们不仅主动屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系:

这个金字塔形的“六源”,是一层一层演化而来:原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。这让模型从“生成答案”走向“据实回答”,实现了从语言可信度知识可信度的跃升。

(二)循证检索:从“找得到”跃升到“找得准”传统的 RAG 检索往往追求“找得到”,而循证检索追求“找得准”。

M2 Plus 采用 PICO 框架(人群 Population、干预 Intervention、对照 Comparison、结局 Outcome)思维,将查询转化为结构化医学问题,并在六源数据库中进行分层匹配。

例如:当输入“老年 OSA 患者使用 CPAP 能否改善高血压?”时,系统优先在高等级证据(系统综述、RCT 元分析)中搜索,并自动辨识研究质量、样本量、置信区间与结局指标。

这种方法克服了通用 RAG 的两大缺陷:一是缺乏医学语义理解(无法区分 CPAP 疗效与依从性分析);二是无法辨别文献可靠性(新闻与指南同权)。

在此基础上,M2 Plus 能够三步精准锁定“铁证”:

(三)循证推理:让模型“像医生一样思考”如果说“六源循证”解决了医疗 AI 知识从哪来的问题,“PICO 智能检索”解决了如何快速找到正确证据的问题,那么最关键的一步是如何确保 AI 在手握证据时,不会“自由发挥”、脱离事实胡乱回答。

我们在 M2 Plus 中引入“循证增强训练”机制,为模型的回答过程“上了一道锁”,从根本上改变了其生成逻辑,让它学会“引用,而非臆测”:

幻觉最低,达到与人类资深临床专家同等可信度这种“循证驱动”的生成逻辑,让 M2 Plus 几乎杜绝了无中生有的内容。在多场景评测中,其综合幻觉率在所有大模型当中最低,相较 DeepSeek R1 最新版降低3倍,显著领先 OpenEvidence。不仅如此,在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中,达到了与人类资深临床专家同等的可信度。

301医院的姜医生提问,“目前公认最有效的基因治疗药物靶向足细胞递送方案有哪些?”很多通用大模型回答这个问题时都产生了明显幻觉,而 M2 Plus 的回答不仅查到了全球最新研究成果,还能按纳米系统 / AAV病毒载体等维度分类。姜医生赞叹:“引用文献非常具有专业性、且信息源紧贴顶刊 ERA 等最新进展,对足细胞基因治疗这么前沿的方向,能帮我快速了解国际热点技术路线,少走弯路。”

北京天坛医院的熊医生,在研究目前 PACAP 在偏头痛中的研究进展如何时发现,头痛相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。他试用百小应时看到,“能梳理全球PACAP偏头痛研究,从机制到III期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。”

无论是专业医疗问题还是常规医疗问答M2 Plus都会引用权威医学证据

多国医学考试断崖领先,医学知识运用能力超越人类医生美国执业医师资格考试(USMLE)是评估临床知识和推理能力的黄金标准,即便是经验丰富的临床专家,要突破 90 分也极具挑战。在此项考试中,M2-Plus 取得了惊人的 97 分,不仅远超人类考生平均水平,更与 GPT-5 的成绩持平,稳居全球第一梯队,展示了其世界级的临床问题解决能力。

中国执业医师资格考试(NMLE)及格线为 360 分,对于广大医学生而言,能考到 450 分以上已是高分,超过 500 分则被视为“学神”级别。M2 Plus 取得了 568 分的“碾压级”成绩,在所有公开测试的主流大模型中位列第一,充分证明其对中国临床指南和医疗实践的掌握已炉火纯青。

如果说执医考是“从业门槛”,那么中国硕士研究生招生考试临床医学综合能力(西医)考试则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广,且题目设计极为复杂,对临床思维要求高。通常,能考到 280 分以上的考生,都是协和、北医等顶尖学府的头部学霸。M2 Plus 在此项考试中取得了 282 分。

同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,准确率 85% 以上,远超各国及格线。

这些压倒性的成绩充分说明,M2 Plus 在复杂医学知识运用上的能力,已经超越了人类医生水准。

“医生版 ChatGPT”推动医疗 AI 迈入可信可用阶段接入 M2 Plus 的百小应已在各大手机应用商店更新,成为"医生版 ChatGPT"。为方便电脑端使用,网页版(ying.ai)也同步上线。

随着大模型普及除了需要借助 A高效地辅助临床决策,医生还开始面对新的挑战:患者用 DeepSeek 自诊和带着 DeepSeek 就医的现象越来越多。虽然知道大模型可能有幻觉和偏颇,但没有时间和精力去甄别哪句对哪句错。通过百小应,医生有了面对通用模型挑战的“专属武器”。

对于希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑的患者及家属,面对复杂的就医环境和不同医生给出的诊疗方案,百小应让他们有机会获得最新最权威的知识、顶尖专家的思维和视角,得到无限耐心的专业解答。

Baichuan-M2 Plus 也提供了标准化 API 接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗 AI 行业的开发者,则可以通过 API 将循证推理接入服务场景,提升 AI 服务的医学专业性。

通过开源 Baichuan-M2、发布 Baichuan-M2 plus、百小应,开放API,百川致力于持续提升 AI 医疗在真实临床场景的可用性,推动大模型在严肃医疗场景进入落地可用新阶段。

扫描二维码即可下载百小应

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

百川大模型 Baichuan-M2 Plus 医疗AI AI医疗 循证医学 ChatGPT 百小应 医学大模型 AI in Healthcare Medical LLM Evidence-Based Medicine
相关文章