微头条丨医疗GPT来了 如何破解语料稀缺瓶颈?
在医疗领域,大型语言模型(LLM)具有广阔的应用潜力。然而,目前类似ChatGPT这样的语言模型在回答患者描述症状时,仍然缺乏精确的专业解读,与医生差距较大。其中很大一部分原因在于训练大模型的数据仍有局限性。
(相关资料图)
针对这一痛点,香港中文大学(深圳)和深圳市大数据研究院王本友教授团队利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到结合点,训练并开源了一个新的医疗大模型 华佗GPT(HuatuoGPT)。通过从ChatGPT中提取的“蒸馏数据”,并结合真实世界医生回复的数据,从而试图训练出具备像医生一样诊断能力的大型语言模型。
只提取大模型中的特定数据,这在专业上被称为“数据蒸馏”。“这种方法既保留真实医疗数据的专业性和准确性,又借助ChatGPT的多样性和内容丰富性的特点,结合两者的混合反馈进行优化,可以与用户保持流畅的交互。”研究团队表示。
另据介绍,在多轮问诊场景中,团队成员收集了涵盖20个科室的100个多轮对话进行评估。结果显示,华佗GPT在处理更加复杂的多轮问诊场景中的表现优异,在某些性能方面甚至超过GPT3.5。
第一财经记者尝试使用华佗GPT,在问诊中输入:糖尿病的症状有哪些?华佗GPT的回答比较全面;记者又反过来输入糖尿病的某些症状,问是什么疾病?但华佗GPT的回答较为宽泛,答:可能是由多种原因造成的。
“这至少能说明,这个大模型已经拥有了部分疾病谱的语料,例如糖尿病。”一位专注于医疗大模型开发的研究人员对第一财经记者分析称。
他同时指出,医疗领域的数据相对来说较为稀缺,主要由医院掌握,技术公司要获得医疗数据“门槛很高”。“如果把大模型看作是人,语料就是面包,数据就是面粉。”他说道,“语料越丰富,模型也就越强大。”
针对医疗语料缺乏的问题,业内已经开始寻求解决方案。近日,在天桥脑科学研究院(TCCI)主办的一场“面向AI模型的数据生成方法及其对医疗领域的启示”论坛上,研究人员探讨了被称为“自对话”和“自蒸馏”的训练,可以快速构建专属的大模型。
美国加州大学圣迭戈分校博士生许灿文和中山大学团队的合作者提出一种能自动生成高质量多轮聊天语料库的流程,他们利用ChatGPT与其自身进行对话,生成对话数据,再基于产生的对话数据调优,增强开源的大型语言模型LLaMA,获得了高质量的医疗专属模型“白泽”。
许灿文向第一财经记者介绍道,“白泽”在这个过程中并没有学会新的知识,只提取了大模型中的特定数据,并且保留了ChatGPT分点作答的语言能力。通过自动化的“数据蒸馏”,在特定领域能够达到ChatGPT的能力,但成本却远远低于ChatGPT,兼具经济意义和实用意义。尤其是在医疗领域,本地化或私有化建构的模型有助于消除隐私顾虑,辅助患者诊疗。
美国莱斯大学博士生唐瑞祥与合作者提出另一种新策略,即利用大型模型生成大量医疗数据,再通过小型模型对这些数据进行训练。实验结果显示,相较于直接利用大型模型执行下游任务,这一新策略能够取得更出色的效果。同时由于模型数据在本地,这也大幅降低了潜在的隐私风险。
展望未来,业内普遍认为,医疗大模型一方面是要具备广泛的适应性和泛化能力;另一方面是需要从特定任务出发,进一步精细化地处理。
上海交大博士生曹瑞升在TCCI论坛上表示:“在医疗领域,大模型应该能够做到可以针对特定类型的疾病,例如抑郁症进行专业化的任务处理,并提供更加精准和个性化的解决方案。而最终,数据生成和模型训练的过程将从分离走向融合。”
关键词:
下一篇:最后一页
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
- 重庆曝光4起违反中央八项规定精神典型问题 警示党员干部清新过节
-
【港股异动】九毛九(09922.HK)跌3.77%
三亚2023年5月31日 美通社 --来自南海网的一篇报道:4月1日,2023中国种子大会暨南繁硅谷论坛开幕,超3000
-
抓获51人!山东青岛警方打掉一涉毒涉黄犯罪团伙
近日,青岛警方经过缜密侦查,打掉一个涉及山东、湖北、内蒙古、辽宁四省区的,全链条吸毒贩毒团伙,抓获涉
-
世界快看点丨瑞虎5性价比怎么样?外观、空间、动力和口碑全面解析
瑞虎5性价比怎么样瑞虎5是长安汽车推出的一款紧凑型SUV,自问世以来备受消费者的关注。在当今竞争激烈的汽
-
江子晨(5.31)—美指破高需调整,黄金探底回升有延续
5月份即将结束,在结束时间段,市场出现多空换手,是常有的事情!在昨日周二的走势之中,我们也看到了市场
-
歌手华晨宇现身PEL夏季赛战队大名单 或随队出战 | 电竞头条-环球资讯
该赛事总奖金额达到27万美元,将在欧洲、北美、南美、日本、韩国、东南亚六大赛区率先开启区域赛,区域赛的
-
robotstudio权限 robots限制怎么解决
今天来聊聊关于robotstudio权限,robots限制怎么解决的文章,现在就为大家来简单介绍下robotstudio
-
未来几天北方雨水添清凉 华南多地高温持续
今明两天(5月31日至6月1日),四川东部、重庆、陕西南部等地部分地区仍有较强降雨。本周四川东北部和陕西
-
华亭:“畜”势而上“牧”牛事
现代化的养牛场“全省各地的专家要来基地指导工作,每个环节都不能有差错。”华亭市东华镇黎明村红牛养殖基
-
总投资91.5亿元!聆达股份20GW高效光伏电池片项目落地安徽铜陵|头条焦点
总投资91 5亿元!聆达股份20GW高效光伏电池片项目落地安徽铜陵,近日,聆达股份发布公告,拟与铜陵狮子山高
-
qq农场部分好友不显示_qq农场不显示好友 当前最新
1、您好,由于农场、牧场好友列表服务器进行升级维护,可能会导致部分农友的好友列表无法正常显示,给您带
X 关闭
微头条丨医疗GPT来了 如何破解语料稀缺瓶颈?
耄耋之年是什么意思_执念是什么意思
圆通速递曲靖分公司举行“情系教育 爱心助学”捐赠仪式 环球百事通
女孩翼装飞行去世,生前19秒视频曝光:空中露出奇怪的微笑
脑机接口引爆相关概念,将成为未来重要发展方向!_每日快看
X 关闭
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果
云南两地发现核酸阳性人员 西安实行最严格的社会面管控
广东梅州大埔中央红色交通线沿线发现多株百岁古树