尽管人工智能取得了进步人类监督仍然至关重要

发布时间：2024-04-23 10:22:04来源：

西奈山伊坎医学院的研究人员表示，被称为大语言模型 (LLM) 的最先进的人工智能系统是糟糕的医疗编码员。他们的研究发表在 4 月 19 日的NEJM AI在线期刊上，强调了在考虑临床实施之前完善和验证这些技术的必要性。

该研究从西奈山卫生系统 12 个月的常规护理中提取了超过 27,000 个独特的诊断和程序代码的列表，同时排除了可识别的患者数据。利用每个代码的描述，研究人员提示 OpenAI、Google 和 Meta 的模型输出最准确的医疗代码。将生成的代码与原始代码进行比较，并分析任何模式的错误。

研究人员报告说，所有研究的大型语言模型，包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b，在再现原始医学代码方面都显示出有限的准确度(低于 50%)，这凸显了显着的它们在医疗编码方面的实用性存在差距。 GPT-4 表现出最佳性能，ICD-9-CM (45.9%)、ICD-10-CM (33.9%) 和 CPT 代码 (49.8%)的精确匹配率最高。

GPT-4 还产生了最高比例的错误生成但仍传达正确含义的代码。例如，当 ICD-9-CM 描述为“无尿路梗阻的结节性前列腺”时，GPT-4 生成了“结节性前列腺”的代码，展示了其对医学术语的相对细致的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。

下一个表现最好的模型，GPT-3.5，最容易变得模糊。它错误生成的代码比例最高，这些代码虽然准确，但与精确代码相比本质上更通用。在这种情况下，当提供 ICD-9-CM 描述“未指定的麻醉不良反应”时，GPT-3.5 生成了“其他指定的不良反应，未在其他地方分类”的代码。

标签：

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

尽管人工智能取得了进步人类监督仍然至关重要

相关阅读

猜你喜欢

精选范文

生活经验

生活百科

生活常识

最新滚动

尽管人工智能取得了进步 人类监督仍然至关重要

相关阅读

猜你喜欢

精选范文

生活经验

生活百科

生活常识

最新滚动

尽管人工智能取得了进步人类监督仍然至关重要