主要发现:
- 研究人员要求Gemini和ChatGPT编写风湿病学医学执照考试风格问题
- 生成内容虽语法正确但存在事实性错误
芝加哥——根据2025年美国风湿病学会年会公布的数据,人工智能和大型语言模型创建的医学执照考试题往往语法正确但事实不准确。
"当前风湿病学专科培训医师普遍通过大量执照考试题进行备考,"范德堡大学(Vanderbilt University)凯瑟琳·德芬达尔医学博士(Catherine Deffendall, MD)表示。
"学习者在使用人工智能或大型语言模型学习时应保持谨慎,"德芬达尔医学博士在会上强调。她指出,现有备考资源数量有限且价格昂贵,同时AI工具的可靠性存在波动。
"我们需要确保这些工具既可靠又有效,"她补充道。
在本次试点研究中,德芬达尔团队评估了谷歌Gemini和ChatGPT免费版生成的医学执照考试题。研究人员针对糖皮质激素诱导性骨质疏松、疫苗接种、间质性肺病、类风湿关节炎及围手术期管理五大主题,向两个平台输入相同提示词,并建立多维度评分标准评估问题准确性与技术质量。
三位活跃于医学教育领域的认证风湿病学家参与评分,计算各AI工具的平均得分。Gemini和ChatGPT各生成5道题目,每题含4-5个选项,风湿病学家从10分制角度评估题目事实准确性。
研究显示,两项平台事实准确性综合得分为3.53分(Gemini 3.72分,ChatGPT 3.34分)。在错误选项是否反映临床常见误判的评估中,综合得分3.87分(Gemini 3.86分,ChatGPT 3.88分)。
"针对我们提出的所有问题,两种模型表现无显著差异,"德芬达尔表示。在语法等技术维度评估中,平台综合得分4.65分(Gemini 4.68分,ChatGPT 4.62分),"基于结构的问题正是大型语言模型表现较优的领域,"她解释道。
德芬达尔指出题目整体质量处于中等水平:"1-10分制的综合评分约为5.5分,意味着这些题目整体尚可。"
她着重强调研究的核心结论:"学习者在使用人工智能或大型语言模型进行医学学习时必须保持高度谨慎。"
【全文结束】


