大型语言模型表现优于医生，研究发现 - AI与医疗健康

大型语言模型表现优于医生，研究发现LLM Outperforms Physicians, Study Finds

环球医讯 / AI与医疗健康来源：techweez.com肯尼亚 - 英语2024-11-25 13:00:00 - 阅读时长3分钟 - 1268字

一项开创性的研究发现，大型语言模型（LLM）在医疗诊断准确性方面超过了医生，但强调AI应作为辅助工具而非替代人类专家。

在一项开创性的研究中，研究人员证明，像OpenAI的GPT这样的大型语言模型（LLM），可以显著提高医疗领域的诊断推理能力。据《JAMA Network Open》报道，由Ethan Goh博士、Robert Gallo博士和Jason Hom博士领导的研究团队进行的随机临床试验表明，基于AI的工具可以帮助医生更快、更准确地做出诊断，从而改善患者结果。

“在健康AI领域的一个普遍观点是，人类+AI > 仅人类。”该研究的合著者Daniel Yang表示。然而，研究人员惊讶地发现，LLM单独在诊断准确性方面超过了研究中使用的两个组别，这两个组别分别是“人类结合传统资源”和“人类结合生成式人工智能”。

这项研究是如何进行的？

50名医生被邀请审查与患者相关的病例情景，提供诊断推理和知识。在这些临床案例中，一半的医生可以访问传统的资源，如互联网连接和支持工具，而另一半则可以访问生成式AI，如ChatGPT 4。

研究人员原本预计，拥有LLM（ChatGPT）的医生会胜过没有它的医生。然而，结果显示，两组在诊断准确性方面表现相同。LLM单独的表现令人瞩目，得分高于其他两组。

“我们会被取代吗？”一位听众在听到研究结果后提出了这个问题。Yang先生表示：“未经训练的临床医生使用空白的GPT4提示框，不太可能从该工具中获得显著的诊断价值。”

该研究强调了需要谨慎培训和明确指南，以确保AI补充而不是取代人类专业知识。研究人员警告说，不应将研究结果解读为可以在没有医生监督的情况下使用LLM进行诊断，而应将其视为支持医生做出明智决策和改善患者结果的辅助工具。

在肯尼亚，健康AI的发展迅速，为医疗行业的创新和增长创造了空间。因此，各种应用程序已经开发出来，如Sophie Bot、M-tiba、MYDAWA、ZuriHealth、iZola和Goodlife，以提高诊断准确性和患者护理水平。

Sophie Bot 是一款肯尼亚开发的AI聊天机器人，旨在提供有关性和生殖健康的信息。该聊天机器人利用人工智能提供个性化的健康建议，通过基于文本的对话回答性健康问题。

M-tiba 是一个移动平台，允许患者保存和管理用于医疗服务的资金。它利用AI分析健康数据，预测潜在的健康风险，提供个性化的健康服务和远程医疗服务。

iZola 专注于提供虚拟护理、健康建议和健康管理。它使用基于AI的算法评估用户输入的症状，并提供初步的诊断建议。

Goodlife 利用AI进行个人健康评估、供应链优化、客户服务和虚拟助手。AI聊天机器人帮助用户浏览网站，回答产品相关问题，提升用户体验。

MYDAWA 是一个用于购买药品和咨询服务的电子健康平台，利用AI提供个性化药物推荐、供应链和库存优化。

ZuriHealth 是一个远程医疗平台，利用AI在咨询中帮助医生快速评估患者症状并提出可能的治疗方案，提高远程咨询的准确性和效率。

随着医学领域的不断进步，这项研究展示了未来AI和人类专业知识将如何共同工作，以改善全球的医疗结果。

(全文结束)