背景:人工智能(AI)正在革新医学教育,但其局限性尚未充分探索。本研究评估了三种生成式AI工具——ChatGPT-4、Copilot和Google Gemini在回答心血管药理学相关的选择题(MCQ)和简答题(SAQ)方面的准确性,心血管药理学是医疗教育中的关键科目。
方法:我们使用每种AI工具的免费版本,进行了45道选择题和30道简答题的测试,题目难度分为简单、中等和高级三个级别。AI生成的答案由三位药理学专家进行审查。选择题的回答准确性被记录为正确或错误,而简答题的回答则根据相关性、完整性和正确性进行1到5分的评分。
结果:ChatGPT、Copilot和Gemini在简单和中等难度的选择题中表现出高准确性(87-100%)。尽管所有AI模型在高级选择题部分的表现有所下降,但只有Copilot(53%准确率)和Gemini(20%准确率)显著低于其在简单和中等难度水平上的表现。对于简答题,ChatGPT(总体评分为4.7 ± 0.3)和Copilot(总体评分为4.5 ± 0.4)在所有难度级别上都表现出高准确性,两者之间没有显著差异。相比之下,Gemini在所有级别的简答题表现明显较低(总体评分为3.3 ± 1.0)。ChatGPT-4在回答选择题和简答题方面表现最佳,无论难度如何。Copilot排在第二位,而Google Gemini在处理复杂选择题和提供简答题的准确回答方面显示出明显的局限性。
结论:这些发现可以指导AI工具在专业医学教育中的持续改进。
(全文结束)


