AI工具在处理普通人的医疗症状查询时遇到困难AI tools struggle with layperson medical symptom queries

环球医讯 / AI与医疗健康来源:itbrief.asia美国 - 英语2024-11-05 12:00:00 - 阅读时长3分钟 - 1219字
研究发现,AI工具在处理普通人描述的医疗症状时准确性低于50%,但处理技术性问题时表现良好
AI工具医疗症状查询ConfidenceClub诊断准确性普通用户局限性医疗专业人员自我诊断
AI工具在处理普通人的医疗症状查询时遇到困难

ConfidenceClub发布了一项研究结果,该研究考察了人工智能(AI)工具在诊断医疗症状方面的准确性,突显了这些工具对于普通用户的重要局限性。这项由健康和保健品牌进行的研究测试了五种AI语言模型的能力,这些模型通常用于替代人们常说的“谷歌医生”这种传统的在线搜索方法。被评估的AI工具包括OpenAI的ChatGPT 4、Foundation 29的DxGPT、Microsoft的Co-Pilot、Google的Gemini以及X平台(前身为Twitter)的Grok。

每种工具都接受了40个问题的测试,这些问题来自一个医学实践考试。前20个问题是用考试中的确切措辞提出的,而剩下的20个问题则被转换成普通人语言,以模拟缺乏医学专业知识的人的描述。研究根据两个标准对AI模型进行了评分:回答问题的准确性以及是否建议咨询医疗专业人员。总体而言,这些模型在解释普通人提示时表现不佳,平均准确率低于50%。相反,这些工具在处理技术性提示时表现出色,平均准确率为89%。

研究提供的表格详细列出了每个AI工具的具体能力差距。ChatGPT 4在技术性提示上的准确率达到100%,70%的情况下建议用户咨询医疗专业人员,但在普通人提示上的正确答案率仅为45%。DxGPT也存在类似问题,无论是哪种提示类型,都没有建议用户咨询专业人员,其在普通人提示上的准确率仅略高于ChatGPT 4,达到55%。

尽管如此,X平台的Grok在专业建议的准确性方面表现出色,始终建议用户咨询专业人员,但在普通人理解方面同样遇到了类似的困难,准确率为45%。研究强调,这些AI工具表现出一种令人担忧的趋势,即拥有技术知识的用户收到的转诊建议较少,这可能导致熟悉医学术语的用户过度自信于自我诊断。

ConfidenceClub的联合创始人Garron Lipschitz表达了对研究结果的担忧,同时承认AI在辅助医疗专业人员方面的潜力。“作为一家致力于帮助人们掌控自身健康和福祉的企业,我们非常希望了解AI在这方面能提供多大的支持。我们的研究发现,虽然AI工具在处理复杂的医学术语方面表现出色,但在与普通用户的有效沟通方面却存在困难。这一差距令人担忧,尤其是随着越来越多的人转向AI进行症状检查。”他说道。

ConfidenceClub敦促人们在依赖AI工具进行自我诊断时要谨慎,并警告这种做法对不熟悉用户的风险。“更令人关注的是,当面对技术上正确的提示时,AI工具更少建议寻求专业帮助,这可能导致那些掌握术语的人在自我诊断时过度自信。我们希望这项研究能突出一个重要观点:尽管AI具有巨大的潜力,但它不能替代专业的医疗建议——特别是对于不熟悉医学术语的人来说。”Lipschitz评论道。

随着AI技术的进步,ConfidenceClub建议开发者确保这些诊断工具得到改进,使其更加易用和可靠,强调它们作为补充工具而非替代专业医疗建议的角色。


(全文结束)

大健康
大健康