AI工具在处理普通人的医疗症状查询时遇到困难 - AI与医疗健康

AI工具在处理普通人的医疗症状查询时遇到困难AI tools struggle with layperson medical symptom queries

环球医讯 / AI与医疗健康来源：itbrief.asia美国 - 英语2024-11-05 12:00:00 - 阅读时长3分钟 - 1219字

研究发现，AI工具在处理普通人描述的医疗症状时准确性低于50%，但处理技术性问题时表现良好

ConfidenceClub发布了一项研究结果，该研究考察了人工智能（AI）工具在诊断医疗症状方面的准确性，突显了这些工具对于普通用户的重要局限性。这项由健康和保健品牌进行的研究测试了五种AI语言模型的能力，这些模型通常用于替代人们常说的“谷歌医生”这种传统的在线搜索方法。被评估的AI工具包括OpenAI的ChatGPT 4、Foundation 29的DxGPT、Microsoft的Co-Pilot、Google的Gemini以及X平台（前身为Twitter）的Grok。

每种工具都接受了40个问题的测试，这些问题来自一个医学实践考试。前20个问题是用考试中的确切措辞提出的，而剩下的20个问题则被转换成普通人语言，以模拟缺乏医学专业知识的人的描述。研究根据两个标准对AI模型进行了评分：回答问题的准确性以及是否建议咨询医疗专业人员。总体而言，这些模型在解释普通人提示时表现不佳，平均准确率低于50%。相反，这些工具在处理技术性提示时表现出色，平均准确率为89%。

研究提供的表格详细列出了每个AI工具的具体能力差距。ChatGPT 4在技术性提示上的准确率达到100%，70%的情况下建议用户咨询医疗专业人员，但在普通人提示上的正确答案率仅为45%。DxGPT也存在类似问题，无论是哪种提示类型，都没有建议用户咨询专业人员，其在普通人提示上的准确率仅略高于ChatGPT 4，达到55%。

尽管如此，X平台的Grok在专业建议的准确性方面表现出色，始终建议用户咨询专业人员，但在普通人理解方面同样遇到了类似的困难，准确率为45%。研究强调，这些AI工具表现出一种令人担忧的趋势，即拥有技术知识的用户收到的转诊建议较少，这可能导致熟悉医学术语的用户过度自信于自我诊断。

ConfidenceClub的联合创始人Garron Lipschitz表达了对研究结果的担忧，同时承认AI在辅助医疗专业人员方面的潜力。“作为一家致力于帮助人们掌控自身健康和福祉的企业，我们非常希望了解AI在这方面能提供多大的支持。我们的研究发现，虽然AI工具在处理复杂的医学术语方面表现出色，但在与普通用户的有效沟通方面却存在困难。这一差距令人担忧，尤其是随着越来越多的人转向AI进行症状检查。”他说道。

ConfidenceClub敦促人们在依赖AI工具进行自我诊断时要谨慎，并警告这种做法对不熟悉用户的风险。“更令人关注的是，当面对技术上正确的提示时，AI工具更少建议寻求专业帮助，这可能导致那些掌握术语的人在自我诊断时过度自信。我们希望这项研究能突出一个重要观点：尽管AI具有巨大的潜力，但它不能替代专业的医疗建议——特别是对于不熟悉医学术语的人来说。”Lipschitz评论道。

随着AI技术的进步，ConfidenceClub建议开发者确保这些诊断工具得到改进，使其更加易用和可靠，强调它们作为补充工具而非替代专业医疗建议的角色。

(全文结束)