西奈山伊坎医学院的研究人员表示,被称为大语言模型 (LLM) 的最先进的人工智能系统是糟糕的医疗编码员。他们的研究发表在 4 月 19 日的NEJM AI在线期刊上,强调了在考虑临床实施之前完善和验证这些技术的必要性。
该研究从西奈山卫生系统 12 个月的常规护理中提取了超过 27,000 个独特的诊断和程序代码的列表,同时排除了可识别的患者数据。利用每个代码的描述,研究人员提示 OpenAI、Google 和 Meta 的模型输出最准确的医疗代码。将生成的代码与原始代码进行比较,并分析任何模式的错误。
研究人员报告说,所有研究的大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b,在再现原始医学代码方面都显示出有限的准确度(低于 50%),这凸显了显着的它们在医疗编码方面的实用性存在差距。 GPT-4 表现出最佳性能,ICD-9-CM (45.9%)、ICD-10-CM (33.9%) 和 CPT 代码 (49.8%)的精确匹配率最高。
GPT-4 还产生了最高比例的错误生成但仍传达正确含义的代码。例如,当 ICD-9-CM 描述为“无尿路梗阻的结节性前列腺”时,GPT-4 生成了“结节性前列腺”的代码,展示了其对医学术语的相对细致的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。
下一个表现最好的模型,GPT-3.5,最容易变得模糊。它错误生成的代码比例最高,这些代码虽然准确,但与精确代码相比本质上更通用。在这种情况下,当提供 ICD-9-CM 描述“未指定的麻醉不良反应”时,GPT-3.5 生成了“其他指定的不良反应,未在其他地方分类”的代码。