研究显示AI大语言模型在处理医疗编码方面有着明显局限性

bjylkjyxgs5个月前新闻资讯141
摘要:

西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员发现,最先进的人工智能系统,特别是大型语言模型(LLMs)在医学编码方面表现不佳。他们的研究最近发表在NEJM AI 杂志上,强调在考虑临床应用之前,有必要对这些技术进行改进和验证。

GMHiRQtW0AMDnEP.jpg

这项研究从西奈山医疗系统 12 个月的常规护理中提取了 27000 多个独特的诊断和手术代码,同时排除了可识别的患者数据。通过对每个代码的描述,研究人员促使 OpenAI、Google和 Meta 的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较,并分析了错误的模式。

研究人员报告说,所研究的所有大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b 在再现原始医疗代码方面都显示出有限的准确性(低于 50%),这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4 的性能最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和 CPT 代码(49.8%)的精确匹配率最高。

GPT-4 还生成了最高比例的错误代码,但仍然表达了正确的含义。例如,当给出 ICD-9-CM 中"结节性前列腺,无尿路梗阻"的描述时,GPT-4 生成了"结节性前列腺"的代码,展示了其对医学术语相对细微的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。

其次是 GPT-3.5 模型,该模型的模糊倾向最大。与准确的代码相比,它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下,当提供 ICD-9-CM 描述"未指定的麻醉不良反应"时,GPT-3.5 生成的代码为"其他未在别处分类的特定不良反应"。

研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学(D3M)和医学(消化内科)助理教授、医学博士、理学硕士阿里-索罗什(Ali Soroush)说:"我们的研究结果突出表明,在医疗编码等敏感业务领域部署人工智能技术之前,亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力,但必须谨慎对待并不断开发,以确保其在医疗保健领域的可靠性和有效性。"

研究人员说,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。

1713871129639.jpg

"以前的研究表明,较新的大型语言模型在处理数字任务时非常吃力。然而,这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究,"共同第一作者、D3M 的生成式人工智能研究项目主任、医学博士 Eyal Klang 说。"因此,我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"

研究报告的作者提出,将 LLM 与专家知识相结合可以实现医疗代码提取的自动化,从而有可能提高账单的准确性并降低医疗保健的管理成本。

"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战,强调了在广泛采用之前进行仔细考虑和进一步完善的必要性,"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼 D3M 系统主管艾琳-费什伯格博士(Irene and Dr. Arthur M. Fishberg)医学博士、医学博士吉里什-纳德卡尔尼(Girish Nadkarni)说。

研究人员提醒说,这项研究的人工任务可能并不能完全代表真实世界的情况,在这种情况下,LLM 的表现可能会更糟。

下一步,研究团队计划开发量身定制的 LLM 工具,用于准确提取医疗数据和分配账单代码,以提高医疗运营的质量和效率。

编译来源:ScitechDaily

相关文章

剑桥科学家确认其开发的"第三拇指"可被人们轻松掌握与应用

剑桥科学家确认其开发的"第三拇指"可被人们轻松掌握与应用

摘要:剑桥大学的研究人员证明,人们可以快速学会控制假肢的额外拇指(即"第三拇指"),并有效地用它来抓握和处理物体。研究小组在不同的参与者身上测试了这种机器人设备,他们认为这对于确保...

60亿光年外 有一颗璀璨的“宝石钻戒”

60亿光年外 有一颗璀璨的“宝石钻戒”

摘要:宇宙的神奇,永远没有尽头。最近,詹姆斯韦布望远镜拍到了约60亿光年外、巨爵座方向的类星体RX J1131-1231的引力透镜现象,看起来就像是一颗璀璨的“宝石钻戒”。它的前方有一个巨大的星系,从...

国内首个液体通用型火箭发射工位正式竣工 支持长征、快舟等10余款火箭

国内首个液体通用型火箭发射工位正式竣工 支持长征、快舟等10余款火箭

摘要:经历了585天的紧张建设,国内首个液体通用型发射工位——海南商业航天发射场二号发射工位于6日正式竣工。该工位于2022年10月30日开工,采用了创新的“三平”快速发射模式,显著提升发射效率的同时...

火星一闪而过:脉冲等离子火箭未来有望改变太空旅行

火星一闪而过:脉冲等离子火箭未来有望改变太空旅行

摘要:航天文明的未来将取决于高效、快速地运送货物和人员的能力。由于太空旅行的距离非常遥远,航天器必须达到很高的速度,才能在合理的时间内完成任务。因此,一个能产生大推力和大比冲的推进系统是必不可少的。然...

国际空间站宇航员完成太空行走 安装通信和防腐蚀设备

国际空间站宇航员完成太空行走 安装通信和防腐蚀设备

摘要:在 4 个多小时的太空行走中,宇航员科诺年科和尼古拉-丘布成功地部署了通信系统和腐蚀分析设备。美国东部时间4月25日下午3点33分,俄罗斯航天局宇航员奥列格-科诺年科(Oleg Kononenk...

南部非洲遭受严重干旱 数百万人面临"危机水平"的粮食不安全

南部非洲遭受严重干旱 数百万人面临"危机水平"的粮食不安全

摘要:2024 年初,南部非洲持续干旱,农作物枯焦,数百万人的粮食安全受到威胁。持续不断的厄尔尼诺现象在很大程度上助长了干旱,改变了生长季节的降雨模式。几十年来最干旱的一个生长季节导致农作物绝收,数百...