百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5
百川发布新一代医疗增强大模型M4,超越GPT-5.5登顶OpenAI医疗评测,幻觉率仅3.3%,首创证据锚定与全病程记忆。点击了解技术突破!
6 月 22 日消息,百川智能与清华大学研究团队今日联合发布新一代医疗增强大模型 Baichuan-M4。
该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。
在 OpenAI 提出的医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,M4 领先达 15.9 分。

M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。
百川智能介绍称,该公司借鉴医学教育中长期使用的 OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。
在这套评测中,M4 初诊 79.0、复诊 74.7,均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

此外,Baichuan-M4 推出「全病程记忆」,打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。
在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。
百川还首创“证据锚定”,要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落,而不只是标注引自哪篇文献。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。
M4 在此之上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。
在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,GPT-5.5 为 54.7,OpenEvidence 为 55.9。
附技术报告链接如下:
https://arxiv.org/abs/2606.08982
- 1经典IP团战续作重燃亚丁战火 《天堂2:盟约》今日全平台正式上线
- 2预约已开启!韩国武侠MMORPG《血风》定档7月14日公测
- 3《天堂2:盟约》职业该怎么选?零氪微氪重氪对应职业全讲解
- 4《第九封印:无尽召唤》正式开启公测 主打骑乘战斗与幻兽养成
- 5一刀未剪展现全新江湖!《逆水寒:新世界》前15分钟完整实机演示
- 6三分钟全是彩蛋!逐帧拆解《激战:大牌英雄》预告!
- 7《天使之恋Online 国际版》今日正式上线 支持实时翻译系统
- 8全新职业“炼金术师”!韩国MMO《奥丁:神叛》5周年庆版本今日上线
- 9腾讯大砍海外游戏投资 《艾尔登法环》开发商排除在外
- 10《守望先锋》联动同步登场!《暗黑破坏神4》S14“苏醒赛季”7月1日上线

