医疗教育中的人工智能：评估ChatGPT、Copilot和Google Gemini在心血管药理学中的准确性 - AI与医疗健康

医疗教育中的人工智能：评估ChatGPT、Copilot和Google Gemini在心血管药理学中的准确性Artificial intelligence in healthcare education: Evaluating the accuracy of ChatGPT, Copilot, and Google Gemini in cardiovascular pharmacology

环球医讯 / AI与医疗健康来源：www.frontiersin.org沙特阿拉伯 - 英语2025-01-22 06:00:00 - 阅读时长2分钟 - 649字

本文研究了三种生成式人工智能工具——ChatGPT-4、Copilot和Google Gemini在回答心血管药理学相关选择题和简答题方面的准确性，结果显示ChatGPT-4表现最佳，Copilot次之，而Google Gemini在处理复杂问题时存在明显局限。

医疗教育中的人工智能：评估ChatGPT、Copilot和Google Gemini在心血管药理学中的准确性

背景：人工智能（AI）正在革新医学教育，但其局限性尚未充分探索。本研究评估了三种生成式AI工具——ChatGPT-4、Copilot和Google Gemini在回答心血管药理学相关的选择题（MCQ）和简答题（SAQ）方面的准确性，心血管药理学是医疗教育中的关键科目。

方法：我们使用每种AI工具的免费版本，进行了45道选择题和30道简答题的测试，题目难度分为简单、中等和高级三个级别。AI生成的答案由三位药理学专家进行审查。选择题的回答准确性被记录为正确或错误，而简答题的回答则根据相关性、完整性和正确性进行1到5分的评分。

结果：ChatGPT、Copilot和Gemini在简单和中等难度的选择题中表现出高准确性（87-100%）。尽管所有AI模型在高级选择题部分的表现有所下降，但只有Copilot（53%准确率）和Gemini（20%准确率）显著低于其在简单和中等难度水平上的表现。对于简答题，ChatGPT（总体评分为4.7 ± 0.3）和Copilot（总体评分为4.5 ± 0.4）在所有难度级别上都表现出高准确性，两者之间没有显著差异。相比之下，Gemini在所有级别的简答题表现明显较低（总体评分为3.3 ± 1.0）。ChatGPT-4在回答选择题和简答题方面表现最佳，无论难度如何。Copilot排在第二位，而Google Gemini在处理复杂选择题和提供简答题的准确回答方面显示出明显的局限性。

结论：这些发现可以指导AI工具在专业医学教育中的持续改进。

(全文结束)