0

0

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

PHPz

PHPz

发布时间:2023-09-05 12:01:05

|

1179人浏览过

|

来源于机器之心

转载

随着远程医疗的兴起,患者越来越倾向于选择在线问诊和咨询,以寻求便捷高效的医疗支持。最近,大型语言模型(llm)展示出了强大的自然语言交互能力,给健康医疗助手走进人们的生活带来了希望


医疗健康咨询场景通常较为复杂,个人助手需要有丰富的医学知识,具备通过多个轮次对话了解病人意图,并给出专业、详实回复的能力。通用语言模型在面对医疗健康咨询时,往往因为缺乏医疗知识,出现避而不谈或者答非所问的情况;同时,倾向于针对当前轮次问题完成咨询,缺少令人满意的多轮追问能力。除此之外,当前高质量的中文医学数据集也十分难得,这为训练强大的医疗领域语言模型构成了挑战。

复旦大学数据智能与社会计算实验室(FudanDISC)发布中文医疗健康个人助手 ——DISC-MedLLM。在单轮问答和多轮对话的医疗健康咨询评测中,模型的表现相比现有医学对话大模型展现出明显优势。课题组同时公开了包含 47 万高质量的监督微调(SFT)数据集 ——DISC-Med-SFT,模型参数和技术报告也一并开源。

  • 主页地址:https://med.fudan-disc.com
  • Github 地址:https://github.com/FudanDISC/DISC-MedLLM
  • 技术报告:https://arxiv.org/abs/2308.14346

1、样例展示

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 1:对话示例

患者感到身体不适时,可以向模型问诊,描述自身症状,模型会给出可能的病因、推荐的治疗方案等作为参考,在信息缺乏时会主动追问症状的详细描述。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 2:问诊场景下的对话

用户还可以基于自身健康状况,向模型提出需求明确的咨询问题,模型会给予详尽有助的答复,并在信息缺乏时主动追问,以增强回复的针对性和准确性。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 3:基于自身健康状况咨询的对话

用户还可以询问与自身无关的医学知识,此时模型会尽可能专业地作答,使用户全面准确地理解。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 4:与自身无关的医学知识询问对话

2、DISC-MedLLM 介绍

DISC-MedLLM 是基于我们构建的高质量数据集 DISC-Med-SFT 在通用领域中文大模型 Baichuan-13B 上训练得到的医疗大模型。值得注意的是,我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-MedLLM 具有三个关键特点:

  • 可靠丰富的专业知识。我们以医学知识图谱作为信息源,通过采样三元组,并使用通用大模型的语言能力进行对话样本的构造。
  • 多轮对话的问询能力。我们以真实咨询对话纪录作为信息源,使用大模型进行对话重建,构建过程中要求模型完全对齐对话中的医学信息。
  • 对齐人类偏好的回复。病人希望在咨询的过程中获得更丰富的支撑信息和背景知识,但人类医生的回答往往简练;我们通过人工筛选,构建高质量的小规模指令样本,对齐病人的需求。
模型的优势和数据构造框架如图 5 所示。我们从真实咨询场景中计算得到病人的真实分布,以此指导数据集的样本构造,基于医学知识图谱和真实咨询数据,我们使用大模型在回路和人在回路两种思路,进行数据集的构造。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 5:DISC-Med-SFT 的构造

3、方法:数据集 DISC-Med-SFT 的构造

在模型训练的过程中,我们向 DISC-Med-SFT 补充了通用领域的数据集和来自现有语料的数据样本,形成了 DISC-Med-SFT-ext,详细信息呈现在表 1 中。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

表 1:DISC-Med-SFT-ext 数据内容介绍

重构 AI 医患对话

数据集。分别从两个公共数据集 MedDialog 和 cMedQA2 中随机选择 40 万个和 2 万个样本,作为 SFT 数据集构建的源样本。

重构。为了将真实世界医生回答调整为所需的高质量的统一格式的回答,我们利用 GPT-3.5 来完成这个数据集的重构过程。提示词(Prompts)要求改写遵循以下几个原则:

  • 去除口头表达,提取统一表达方式,纠正医生语言使用中的不一致之处。
  • 坚持原始医生回答中的关键信息,并提供适当的解释以更加全面、合乎逻辑。
  • 重写或删除 AI 医生不应该发出的回复,例如要求患者预约。

图 6 展示了一个重构的示例。调整后医生的回答与 AI 医疗助手的身份一致,既坚持原始医生提供的关键信息,又为患者提供更丰富全面的帮助。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载
图 6:对话重新改写的例子

知识图谱问答对

医学知识图谱包含大量经过良好组织的医学专业知识,基于它可以生成噪声更低的 QA 训练样本。我们在 CMeKG 的基础上,根据疾病节点的科室信息在知识图谱中进行采样,利用适当设计的 GPT-3.5 模型 Prompts,总共生成了超过 5 万个多样化的医学场景对话样本。

行为偏好数据集

在训练的最终阶段,为了进一步提高模型的性能,我们使用更符合人类行为偏好数据集进行次级监督微调。从 MedDialog 和 cMedQA2 两个数据集中人工挑选了约 2000 个高质量、多样化的样本,在交给 GPT-4 改写几个示例并人工修订后,我们使用小样本的方法将其提供给 GPT-3.5,生成高质量的行为偏好数据集。

其他

通用数据。为了丰富训练集的多样性,减轻模型在 SFT 训练阶段出现基础能力降级的风险,我们从两个通用的监督微调数据集 moss-sft-003 和 alpaca gpt4 data zh 随机选择了若干样本。

MedMCQA。为增强模型的问答能力,我们选择英文医学领域的多项选择题数据集 MedMCQA,使用 GPT-3.5 对多项选择题中的问题和正确答案进行了优化,生成专业的中文医学问答样本约 8000 个。

4、实验

训练。如下图所示,DISC-MedLLM 的训练过程分为两个 SFT 阶段。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 7:两阶段训练过程

评测。在两个场景中评测医学 LLMs 的性能,即单轮 QA 和多轮对话。

  1. 单轮 QA 评测:为了评估模型在医学知识方面的准确性,我们从中国国家医疗执业医师资格考试(NMLEC)和全国硕士研究生入学考试(NEEP)西医 306 专业抽取了 1500 + 个单选题,评测模型在单轮 QA 中的表现。
  2. 多轮对话评测:为了系统性评估模型的对话能力,我们从三个公共数据集 —— 中文医疗基准评测(CMB-Clin)、中文医疗对话数据集(CMD)和中文医疗意图数据集(CMID)中随机选择样本并由 GPT-3.5 扮演患者与模型对话,提出了四个评测指标 —— 主动性、准确性、有用性和语言质量,由 GPT-4 打分。

评测结果


比较模型。将我们的模型与三个通用 LLM 和两个中文医学对话 LLM 进行比较。包括 OpenAI 的 GPT-3.5, GPT-4, Baichuan-13B-Chat; BianQue-2 和 HuatuoGPT-13B。

单轮 QA 结果。单项选择题评测的总体结果显示在表 2 中。GPT-3.5 展现出明显的领先优势。DISC-MedLLM 在小样本设置下取得第二名,在零样本设置中落后于 Baichuan-13B-Chat,排名第三。值得注意的是,我们的表现优于采用强化学习设置训练的 HuatuoGPT (13B)。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

表 2:单项选择题评测结果

多轮对话结果。在 CMB-Clin 评估中,DISC-MedLLM 获得了最高的综合得分,HuatuoGPT 紧随其后。我们的模型在积极性标准中得分最高,凸显了我们偏向医学行为模式的训练方法的有效性。结果如表 3 所示。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

表 3:CMB-clin 结果

在 CMD 样本中,如图 8 所示,GPT-4 获得了最高分,其次是 GPT-3.5。医学领域的模型 DISC-MedLLM 和 HuatuoGPT 的整体表现分数相同,在不同科室中表现各有出色之处。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 8:CMD 结果

CMID 的情况与 CMD 类似,如图 9 所示,GPT-4 和 GPT-3.5 保持领先。除 GPT 系列外,DISC-MedLLM 表现最佳。在病症、治疗方案和药物等三个意图中,它的表现优于 HuatuoGPT。

复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集

图 9:CMID 结果

各模型在 CMB-Clin 和 CMD/CMID 之间表现不一致的情况可能是由于这三个数据集之间的数据分布不同造成的。CMD 和 CMID 包含更多明确的问题样本,患者在描述症状时可能已经获得了诊断并表达明确的需求,甚至患者的疑问和需求可能与个人健康状况无关。在多个方面表现出色的通用型模型 GPT-3.5 和 GPT-4 更擅长处理这种情况。

5、总结

DISC-Med-SFT 数据集利用现实世界对话和通用领域 LLM 的优势和能力,对三个方面进行了针对性强化:领域知识、医学对话技能和与人类偏好;高质量的数据集训练了出色的医疗大模型 DISC-MedLLM,在医学交互方面取得了显著的改进,表现出很高的可用性,显示出巨大的应用潜力。

该领域的研究将为降低在线医疗成本、推广医疗资源以及实现平衡带来更多前景和可能性。DISC-MedLLM 将为更多人带来便捷而个性化的医疗服务,为大健康事业发挥力量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

643

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

34

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

8

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

33

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

37

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

13

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号