- Thomas Thesen¹,² &
- Soo Hwan Park³
npj Digital Medicine 第8卷,文章编号:627(2025)
摘要
医学教育面临可扩展性危机,班级规模扩大使个性化教学受到压力,而学生越来越多地采用未经验证的生成式人工智能(GenAI)工具进行个性化学习支持。本研究调查了医学生如何将基于检索增强生成(RAG)的受限GenAI系统整合到其自主学习实践中,该系统将大型语言模型响应限制在教师策划的材料范围内,从而在减少"幻觉"现象的同时保持教学实用性。我们在连续两届医学生中部署了一个基于RAG的教学助手,用于医学院基础科学课程,通过分析使用模式、对话内容和学生反馈来了解采用情况和学习行为。学生表现出战略性、情境依赖性的使用行为,高风险评估期间使用强度增加,并在非工作时间有大量使用。用户主要寻求基础概念的澄清,重视系统的持续可用性和基于来源的响应。然而,确保准确性的知识库限制也限制了更广泛的查询,造成了可靠性与全面性之间的张力,影响了学生将该工具融入学习常规的方式。这些发现为医学生如何导航受限AI工具进行自主学习提供了实证证据,为将这些技术整合到教学框架中的机构策略提供了参考。
引言
生成式人工智能有可能为医学教育提供个性化学习机会。医学院班级规模不断扩大,加之学生学习需求日益多样化,使得提供个性化关注变得越来越困难。同时,传统讲授式课程难以适应学生不同的学习进度和理解水平,特别是在内容繁重的学科中,如基于器官系统的临床前课程。这一问题因标准工作时间之外教师提供个别澄清和支持的有限可用性而进一步复杂化,而许多学生恰恰在这些时间学习。
人工智能驱动的平台有可能根据学生的个别弱点量身定制教学,并提供即时的定制反馈。个性化教学的教育效益已得到充分证实。研究表明,减少师生比例能显著提高学习效果,而一对一辅导可以大幅提升学生表现。虽然同伴辅导项目解决了其中一些问题,但为所有医学院课程中的每位医学生提供个性化的人类辅导在大规模实施上仍不切实际。如今的医学生作为数字原住民,越来越多地转向在线资源寻求即时、互动的学习支持。事实上,随着生成式人工智能(GenAI)的广泛商业化,调查显示约一半的医学生在学习过程中使用大型语言模型(LLM)聊天机器人,如ChatGPT,许多人每周甚至更频繁地使用这些工具进行学习和写作辅助。值得注意的是,学生通常更倾向于向LLM提问,而不是查阅教科书或咨询教师,这源于即时、个性化响应的吸引力。这代表了医学教育中向数字、按需学习工具的根本性转变。
然而,这种技术采用带来了特定挑战。LLM虽然强大且乐于生成有用的解释,但容易产生不正确或编造的信息,即所谓的"幻觉"。这对医学培训中的实际应用构成了重大挑战,因为内容准确性和与课程标准及当前医学最佳实践的一致性至关重要。检索增强生成(RAG)为解决这些准确性问题提供了一个有前景的解决方案。RAG是一种混合方法,将LLM的生成能力与检索机制相结合,后者搜索经过策划的知识库。当用户提出问题时,系统首先从特定数据库(在本例中为课程材料)中检索相关信息,然后将这些检索到的内容作为上下文提供给LLM,LLM据此生成基于这些权威来源的响应,而不是仅依赖其预训练知识。通过将LLM响应限制在教师策划的、特定于课程的材料范围内,而不是允许从可能包含未经验证或过时医学信息的一般训练数据中进行无约束生成,RAG在保持LLM作为教育工具所具有的对话灵活性的同时,显著降低了"幻觉"风险。这种方法在各种商业和教育环境中已显示出成功,能够减少幻觉并提高响应的相关性和准确性(见图1)。
图1:NeuroBot TA系统架构与信息流
示意图对比了标准LLM实现与NeuroBot TA中使用的检索增强生成(RAG)流程。A 传统LLM工作流程:模型在通用训练数据上进行预训练,并直接回应学生问题,没有特定于课程的上下文。B NeuroBot TA中实施的RAG LLM工作流程:教师提供的课程材料经过文本加载、分割和嵌入处理后存储在向量数据库中。当学生提交关于课程内容的问题时,系统从向量化的知识库中检索相关的文本块,将它们与系统提示一起组装成上下文丰富的查询发送给LLM,LLM据此提供专门基于课程相关材料的答案,而不是仅基于LLM预训练的通用知识。
尽管RAG在提供准确信息方面前景广阔,但鉴于医学生代表具有特殊学习需求的独特成年学习者群体,尚不清楚该技术如何很好地整合到医学教育中。在压缩时间内处理大量复杂信息的认知需求,加上医学生已建立的利用多种学习资源的习惯,为医学教育中AI学习工具的实施和采用带来了独特的挑战。
技术接受模型(TAM)认为,感知有用性和易用性决定了系统使用,许多研究已使用这一框架调查学生对学习技术的采用。学生倾向于采用他们认为既有利于学习目标又易于整合到现有学习实践中的工具。基于这一框架,我们提出了以下研究问题:(1)医学生如何将AI教学助手整合到他们的自我调节学习过程中?(2)基于RAG的设计是否会通过提高对AI生成答案的信任度来增强感知有用性?(3)与传统资源相比,对话界面和24/7可用性是否会提高感知易用性?根据TAM,我们假设如果学生认为NeuroBot TA能够提高他们的学习效率(即有用性),同时需要最少的学习和操作努力(即易用性),他们就会采用它,并且使用模式将对应于信息需求高的时期,此时系统的附加值最为明显。基于认知负荷理论,我们预期会出现这种以考试为重点的战略性采用模式,该理论预测学生在认知需求达到峰值且时间限制使不确定性澄清效率最有价值时,会优先寻求外部支持。
虽然人们对在医学教育中部署LLM有着浓厚兴趣,但据我们所知,这是第一项报告在医学教育中部署和评估基于RAG的LLM平台使用模式和学生态度的研究。唯一已部署的基于语料库的系统已在研究生医学教育期刊俱乐部中使用,该俱乐部将指定文章嵌入向量数据库,并由住院医师和教师进行定性评估。相比之下,迄今为止的大多数工作都依赖于基本LLM,没有自动和受限的检索,范围从实习反馈工具和病房病例研究到共同设计的辅导概念,但未采用来源基础的检索。
结果
使用和参与统计
在两个学年中,学生与NeuroBot TA发起了360次独特的对话,生成了总计2946条独立消息。有关使用分析和参与模式,请参见图2。对话长度从1到47轮不等(1轮定义为对话中学生或助手发送的一条新消息),平均每次对话3.6轮(中位数=2)。对话轮次的分布如图2A所示。学生消息长度从1到272个单词不等(中位数:7个单词,标准差=20.65),而机器人响应长度从2到1338个单词不等(中位数:82个单词,标准差=130)。
图2:使用分析和参与模式
A 对话轮次分布,显示按轮次数划分的交互频率。带有核密度估计叠加的直方图。平均对话深度:3.6轮(红色垂直线)。B 按周几划分的对话分布,显示一周内所有天的总交互数。C 2023-2024学年(蓝色)与2024-2025学年(绿色)之间的消息量比较。按消息类型分离数据:总消息、用户消息和机器人消息,每个条上标注计数。D 两学年之间的总对话量比较。
每周交互模式的时间分析显示,使用量在周中达到峰值,周五和周六参与度最低(图2B)。两学年之间,总对话数从256减少到104(-59.4%),消息数从1922减少到1024(-46.7%)。
时间分析
每日模式显示白天使用量最高,但也有大量非工作时间使用(即下午5点后)(图2A)。两个队列的对话频率时间序列显示,在考试前几天使用量大幅增加(图3B,D)。虽然第一队列的学生在整个课程中持续与NeuroBot TA互动,但第二队列学生的使用量在整个课程中显著下降。在两个队列中,独立样本t检验比较考试前时期(定义为每次考试前三天,平均值=5.11,标准误=1.00,样本数=18)与常规课程时期(平均值=1.14,标准误=0.14,样本数=236)的对话量,显示考试前时期相比常规课程时期有显著增加(t(252) = 3.95,p < 0.001,Cohen's d = 1.74),总体代表考试前三天对话量增加了329.6%。2023-2024学年的子分析显示,考试前时期对话频率增加(7.33 ± 1.22次/天),相比整个期间的平均频率(1.58 ± 0.23次/天),代表增加了363.2%(t = 4.616,p = 0.0014,Cohen's d = 2.232)。对于2024-2025年,也出现了类似的模式,考试前时期平均为2.89 ± 1.22次/天,而常规时期为0.67 ± 0.13次/天(增加了329.6%),尽管这种差异未达到统计学显著性(t = 1.809,p = 0.1073,Cohen's d = 1.344)。对话量差异的结果如图3C所示。双向方差分析确认了条件(考试前vs常规,p < 0.001)和学年(p < 0.001)的显著主效应,以及显著的交互效应(p = 0.0010),表明第一队列在考试准备中更多地使用了TA机器人。
图3:使用模式和考试时间分析
A NeuroBot TA全天平均小时分布。颜色编码的时间段表示早晨(5:00-12:00,黄色)、下午(12:00-17:00,橙色)、晚上(17:00-22:00,红色)和夜晚(22:00-5:00,蓝色)。B 2023-2024学年期间相对于考试日期的每日对话量。绿色垂直带表示考试前时期(每次评估前三天)。蓝线表示每日对话计数,红线显示7天移动平均值。黄色标签表示考试日期。C 常规课程日(蓝色)和考试前日(绿色)之间的平均每日对话量比较。误差条表示平均值的标准误。D 2024-2025学年期间相对于考试日期的每日对话量。格式遵循(B)。
对话内容分析
对学生向聊天机器人的消息进行主题分析,确定了八个主要内容领域(图4A)。神经解剖学和生理学构成了最频繁的主题(65.9%,216次对话,示例:告诉我关于小脑蚓部的信息;乳头体有什么作用?),其次是临床综合征和疾病(53.7%,176次对话,示例:什么是Brown-Sequard综合征?;ALS的原因是什么?)。其他包括教育方法和资源(31.4%,103次对话,示例:课程成绩由什么组成?;给我一些Benchmark #2的高价值信息)、神经通路和传导束(29.6%,97次对话,示例:触觉的通路是什么?;背柱内侧丘系通路有髓鞘吗?)以及课程和考试信息(28.4%,93次对话)。较少见的主题包括药理学和治疗(14.9%,49次对话,示例:关于三己芬迪我需要了解什么?;卡比多巴的副作用是什么?)、临床病例讨论(14.3%,47次对话,示例:左眼疼痛患者的鉴别诊断是什么?;一名23岁女性在车祸后被送往急诊室...)以及影像和诊断技术(7.0%,23次对话,示例:帕金森病在MRI上会显示什么?;MRI上的"热十字包"征象是什么?)。百分比不加总为100%,因为一次对话可能包含多个主题。在独立人工编码的验证子集中,总体LLM-人类百分比一致性为78.4%。有序0-3强度评分的加权Cohen's κ为0.64(95%自助CI 0.58-0.70)。当将评分简化为存在与不存在时,总体宏观F1为0.76,共同显示出与人工编码的中等到良好的一致性。
图4:对话中主要主题的分布
A 八个主要主题的对话量比例分布。B 学生反馈中主要主题的分布。
学生反馈
在第一队列(2023-2024)中,56名回答期末课程调查的学生中有39.3%(22名)报告在课程期间至少使用过一次AI助手,而有用性评分为2.8/5(标准差=1.4)。在第二队列(2024-25)中,87名完成调查的学生中有26.4%(23名)报告至少使用过NeuroBot TA一次,有用性评分为3.3/5(标准差=1.0)。两个队列的总体使用率为31.4%。
图4B显示了学生反馈评论中确定的八个主要主题及其频率。"帮助性可变"主题是最普遍的主题(68.4%,13条评论,示例:"我试图让机器人根据标有红星的幻灯片生成学习指南,但它做不到,但它可以给我关于评分分解的反馈。"),其次是"补充学习辅助"主题(47.4%,9条评论,示例:"在准备考试时能够快速询问AI如果出现疑问非常有用。"),以及"范围有限"主题(36.8%,7条评论,示例:"不太有帮助。我使用其他AI工具帮助创建比较/汇总表格,这很有帮助,但Neurobot TA无法回答很多问题,不太有帮助")。较少见的主题包括"便利性和整合"(26.3%,5条评论,示例:"在大量幻灯片中寻找特定问题时,总结信息相当好")、"信任和可靠性"(26.3%,5条评论,示例:"我还不信任AI提供学习材料,特别是在尝试过使用Chat GPT处理研究文章之后。我知道NeuroBot TA只从课程材料中提取,这很好。")以及提示敏感性(10.5%,2条评论,示例:"NeuroBot通常会对相对简单的问题给出非常长的答案。不过我不怪机器人,我可能使用了低效的提示,而且我仍然是习惯于搜索网络获取信息而不是使用聊天机器人的人。")
讨论
本研究调查了在连续两个学术队列中实施基于RAG的AI教学助手在医学教育中的情况,展示了针对课程背景和学生需求的可扩展、始终可用的AI支持。研究结果确定了在医学教育项目中部署基于RAG的AI教学助手的机会和挑战。
参与学生的数据显示医学生如何将NeuroBot TA整合到他们的自我调节学习过程中。学生表现出战略性、情境依赖性的使用模式,而非持续参与。考试前时期使用量激增329%以及大量非工作时间使用(下午5点后)表明,学生主要将系统作为即时学习资源,用于经常超出教师可用时间的强化学习会话中。平均3.6轮的对话长度表明有针对性的查询,而非延长的辅导会话。这种模式表明,医学生在自主学习期间将聊天机器人用作有针对性的参考工具,提出具体问题以澄清概念,而不是寻求延长的辅导或全面指导。
基于RAG的设计在通过增加信任来增强感知有用性方面显示出混合结果。积极指标包括学生对来源引用的赞赏(26.3%的反馈评论提到了信任和可靠性主题),一名学生指出知道"NeuroBot TA只从课程材料中提取"增加了信心。以课程为中心的查询的主导地位(66%神经解剖学,54%临床疾病)表明学生信任系统用于特定于课程的内容。然而,适中的有用性评分(两个队列分别为2.8/5和3.3/5)以及"范围有限"的挫败主题(36.8%的评论)表明,虽然将响应限制在课程材料内容中可能提高了准确性和信任度,但也同时通过限制响应广度降低了工具的感知效用,从而在响应可靠性与全面性之间产生了张力。
对话界面和24/7可用性确实改善了感知易用性,这从使用模式和反馈中可以看出。一些用户重视"便利性和整合"(26.3%的反馈),评论强调在考试准备期间能够快速获取答案。显示非工作时间使用和周中参与峰值的时间分布表明用户发现系统在需要时可访问。然而,一些学生指出在提示工程方面存在挑战(10.5%提到提示敏感性),这表明虽然界面可访问,但最佳利用可能需要学生仍在发展的AI技能。
这些发现集体部分支持我们的基于TAM的假设:当感知效益最为明显时(考试前时期),学生采用了NeuroBot TA,但由于系统可靠性限制与学生对全面支持期望之间的张力,总体采用率保持在中等水平(31.4%)。
聊天记录的内容分析证实,学生主要使用NeuroBot TA来强化核心课程知识。绝大多数查询集中在课程的基础内容上,神经解剖学和神经生理学概念是单一最大主题,出现在约66%的对话中,临床神经系统疾病出现在约54%中。学生还经常询问学习资源或课程后勤的澄清(出现在约28-31%的聊天中,例如考试信息或"高价值"复习提示)。其他学术主题如神经通路、传导束解剖和药理学有中等代表性,而更复杂的临床病例讨论或神经影像解释则相对较少。这种分布表明AI助手主要用于基于事实的已授材料澄清和复习,而不是用于开放式临床推理练习。这也可能反映了其知识库的限制,因为NeuroBot TA被有意限制在教师策划的课程材料中,这确保了答案与课程保持一致,但固有地限制了它能回答的问题范围。因此,内容模式说明了一种权衡,即机器人擅长处理已涵盖主题的问题,但学生可能认识到超出所提供内容或需要广泛综合的问题超出了其范围。
学生对NeuroBot TA的反馈既突显了AI支持的前景,也指出了改进的机会。定性评论显示,虽然许多人将机器人视为方便的补充资源,但其性能帮助程度不一。反馈中最普遍的主题是"帮助性可变",学生指出AI可以很好地回答某些问题(例如提供快速解释或评分澄清),但在其他任务上失败(例如生成全面的学习指南)。同样,近一半评论的学生将NeuroBot视为"补充学习辅助",重视在自学期间(例如准备考试时)获得即时答案的能力。另一方面,许多用户对其"范围有限"感到沮丧,约37%的评论指出机器人无法解决许多问题,特别是那些需要上传课程幻灯片以外信息的问题。这种限制有时导致学生转向其他AI工具或资源进行比较。其他反馈主题强调了实际考虑。例如,一些人赞扬了24/7聊天格式在学习平台中的便利性和整合性,指出这节省了搜索幻灯片的时间。然而,信任和可靠性成为关注点(26%的评论),部分学生表示不愿意完全信任未经验证的任何AI生成答案。令人鼓舞的是,学生承认通过RAG将机器人限制在官方课程材料中提高了他们的信任度。最后,一些用户提到答案质量取决于问题的提出方式,机器人有时会对简单问题给出过于冗长的答案。这表明学生仍在学习如何最佳地与LLM聊天机器人互动,这是用户和技术共同发展的预期挑战。
第二队列的使用率显著下降,可能反映了快速发展的GenAI格局。当在2023年秋季与第一队列一起部署时,NeuroBot TA代表了在ChatGPT首次发布后不到10个月的新技术。内部调查显示第一队列学生先前的AI经验有限,使Neurobot TA系统显得新颖独特。相比之下,2024年秋季的第二队列进入了一个高等教育中AI采用更为广泛的时期。在此期间,医学生对通用AI平台的使用急剧增加,高达89%报告经常使用。虽然本研究设计不允许我们得出明确推论,但商业替代模型的日益可用性及其在医学知识基准测试中表现出的改进性能可能使学生更频繁地使用这些系统。NeuroBot TA中观察到的使用模式似乎反映了对快速、可访问支持的需求,学生倾向于在强化学习期间(特别是周中和考试前)将助手用作即时辅导,此时概念的即时澄清最为珍贵。
对话量在考试前时期大幅增加的发现表明,评估事件如何驱动包括AI聊天机器人在内的自主学习资源的使用。这种行为表明,学生主要将系统视为可选的复习工具,而不是持续的学习伙伴,并表明在学习实践中进行了战略性但有限的整合。部署聊天机器人的课程是临床前课程结束时第二年的最后一个器官系统课程。此时,学生已经找到了他们偏好的学习方法和工具,因此不太可能在学习方式上进行重大转变或冒险采用新的、未经测试的学习工具。这可能影响了适中的采用率,尽管当时社会对生成式AI的炒作很高。未来,在医学生尚未巩固其学习方法的医学院课程早期实施基于RAG的AI辅导系统可能会导致更高的采用率,并应包括与AI教学助手有效互动的最佳提示技术。
通过聊天机器人交互,学生学习优先级呈现出清晰的层次结构,核心生物医学内容占据对话频率的主导地位,其次是临床疾病,这一发现与临床前课程的内容和重点相符。学生还询问了大量关于课程组织和考试的问题,突显了基于RAG的LLM在回答特定于个别课程的问题方面的效用,这些问题不属于原始LLM训练数据的一部分。为此,学生主要将AI助手用于澄清课程内容和复习概念,将其视为课程相关内容的按需辅导。
总体而言,学生表现出中等程度的意愿与课程受限的AI工具互动,而那些确实互动的学生重视其对验证信息的即时和全天候访问。这种可用性补充了医学生当前的学习方式,因为他们经常在非常规时间学习,已经使用题库和在线工具等数字资源,并重视自定进度的学习。NeuroBot TA提供了一个额外的工具,可以自然地融入这些多样化模式,因为它可以在他们已经使用的相同设备上随时随地访问。此外,NeuroBot TA基于检索的设计提供了高度针对性的按需解释,符合学生的个别学习目标(例如,考试前的课程特定澄清)。总体而言,基于LLM的RAG聊天机器人所提供的个性化原则与新兴的"精准医学教育"框架一致,该框架主张根据每个学习者的特定需求和背景量身定制教育干预。
我们的发现也与TAM预测一致,并展示了感知有用性和易用性如何塑造NeuroBot TA的采用。考试前时期使用量的增加反映了TAM的原则,即当效益最为明显时,感知有用性会驱动采用。以神经解剖学为重点的对话和对来源引用的积极回应表明,课程一致性和可验证性增强了感知有用性。大量的非工作时间使用表明学生发现系统在最方便的时候可访问,满足了TAM的易用性维度。最后,对知识范围限制的挫折突显了TAM的期望对齐原则。该原则预测,当系统能力与学生期望不匹配时,学生满意度会下降,强调了在教育AI实施中清楚传达系统能力和边界的重要性。
值得注意的是,NeuroBot TA有意将其知识库限制在一定范围内,当它拒绝处理超出知识库范围的查询时,导致了学生的挫折。这与全能商业聊天机器人直接对比,后者通常提供听起来合理但可能不准确的答案。学生评论帮助说明了这一点,并解释了在不断发展的GenAI格局中对受限回答空间的挫折。例如,第一队列的一名学生指出,"聊天机器人很有趣可以玩,但如果我有问题,我倾向于直接打开Google,因为它方便,这是我一生中一直在做的事情",这突显了学生对生成式AI聊天机器人的不熟悉以及对既定知识获取策略的偏好。相比之下,第二队列的一名学生表示,"我使用其他AI工具帮助创建比较/汇总表格,这非常有帮助,但Neurobot ta无法回答很多问题。"一年后,第二队列的学生已经将GenAI技术融入他们的学习实践,但重视不受限制的答案,即使事实错误的可能性可能更高。
从教育角度看,教育者可以通过明确指导生成式AI的使用和误用,并向学生提供如何负责任地导航这些新的、无处不在的学习工具的知识来解决这个问题。从技术角度看,未来的工作可能集中在开发能够生成符合学生学习习惯的灵活学习方案的基于RAG的系统(例如,自动生成特定于讲座的表格或抽认卡),并向学生展示如何最有效地发起具有特定目标的对话。
由于只有部分学生使用NeuroBot TA,并且只有报告使用的学生的调查回复,我们的发现并不代表整个医学生群体。关于学生偏好和战略采用的陈述应在考虑这一自选样本的情况下进行解释。此外,每次对话分析无法区分使用模式是反映典型行为还是由少数"超级用户"驱动的,因为我们没有跟踪个人用户参与度。这限制了直接推广到平均学生体验的能力。尽管理论和实证工作表明RAG受限响应减少了幻觉并提高了相关性,但本研究并未系统评估响应准确性。虽然课程主任的定期非正式审查未发现需要干预的关键问题,但我们无法量化准确性改进或明确确认RAG约束消除了所有幻觉。最后,内容分析主要依赖GPT-4o进行主题编码,仅对15%的对话进行了人工验证,用于主题一致性而非全面准确性评估。这种方法虽然高效,但可能遗漏了LLM无法识别的错误。最后,该工具仅在一所医学院校部署,限制了研究在具有不同课程、教学方法和学生人口统计的多样化机构环境中的普遍性。
基于RAG的LLM聊天机器人有望作为某些医学生在自主学习环境中的辅助学习工具。然而,需要深思熟虑地部署它们,以便有意义地吸引学生并促进他们的学习。我们建议教育者在医学院课程早期引入新技术,最好是在第一门课程中,此时学生正在尝试适合他们的不同学习技术。考虑更广泛实施的教育者应首先关注提交到向量数据库的精心策划的内容,以提高响应相关性。应包括包含有关课程资源、评估和有效学习策略的有用信息的特定文档,以允许机器人回答该领域的问题,因为我们发现学生经常询问这些问题。机器人响应还应通过突出显示检索到的文本来源并直接链接到原始文档和引用位置,使学生能够更深入地了解材料。此外,教育者需要决定是将机器人限制为仅基于课程材料回答问题(冒着学生沮丧的风险),还是允许日益复杂的模型回答超出直接课程内容的问题。教育者还需要清楚地沟通系统能力和限制,以帮助学生在课程中有效地选择和利用这些工具。最后,医学项目应确保学生获得GenAI的基础知识,包括提示工程,以有效地选择和使用适合的AI学习工具,无论这些工具是由学校提供还是通过商业来源获得。
可以采用几种方法来解决本研究中确定的响应准确性和全面性之间的紧张关系,同时遵循长期学习的最佳教学实践。例如,混合系统可以将源自特定于课程的RAG数据库的响应标记为高度可靠,同时为需要外部知识的回答加上准确性警告,这将允许学生评估信息的可信度。除了RAG之外,知识图谱架构可以通过正式的本体约束来实现更复杂的跨主题综合,同时保持准确性,这些约束明确地映射医学概念之间的关系。此外,结合苏格拉底式辅导方法,其中AI通过有针对性的问题引导学生解决问题,而不是直接给出答案,可以将系统从被动回答服务转变为积极的学习伙伴,促进更深入的理解和长期记忆。此类系统还可以根据上下文调整其方法,在时间敏感的考试准备期间提供直接答案,而在常规学习期间采用苏格拉底式对话以培养批判性思维技能。
方法
本研究在达特茅斯学院盖泽尔医学院的第二年器官系统课程(专注于神经科学与神经病学)的两个连续队列(第一队列:n = 92,第二队列:n = 98)中进行,该课程持续14周。第一队列的课程从2023年10月运行到2024年1月,第二队列从2024年10月运行到2025年1月。该课程涵盖了基础神经解剖学、神经生理学和临床神经病学主题。教学格式是讲座、主动学习会话、案例讨论和实验室会话的混合。该课程的位置是在基础科学临床前阶段结束时,紧接在专门的USMLE Step 1学习阶段之前。所有课程材料都通过学习管理系统(LMS)提供给学生,包括讲座幻灯片、指定的教科书阅读材料、课前准备材料、详细的课程大纲、课程和会话学习目标以及所有讲座的视频记录。
NeuroBot TA系统
NeuroBot TA是使用支持RAG的商业AI平台(getcody.ai)开发的,该平台使用最新可用的OpenAI GPT模型(第一队列使用GPT-4,第二队列使用GPT-4o)。我们组装了一个全面的知识库,包含145份英语文档,包括通过课程学习管理系统提供给学生的所有文档,如讲座幻灯片、教科书章节摘录、课前材料、教师讲义和课程大纲。为了创建符合RAG的数据库,文档被分割成较小的文本"块"(约200-300个单词),然后转换为向量嵌入(表示LLM的原生空间)并存储在向量数据库中以进行后续检索。这使得可以进行基于向量的相似性搜索,如Google搜索所执行的,优先考虑语义相似性。当学生在聊天界面中提出问题时,NeuroBot TA的后端会从课程材料的向量空间中检索与查询在语义上最相关的文本块。检索到的文本连同源标识符被附加到提供给LLM的提示中。Neurobot TA的系统消息被设置为指示LLM作为有帮助的教学助手,并使用检索到的课程内容作为上下文来回答问题,引用信息来源(有关基于RAG的方法的视觉表示,请参见图1B)。重要的是,NeuroBot TA被限制为仅回答基于其策划知识库的问题。它也没有访问开放互联网、工具或任何超出策划课程文档的数据。这是为了确保准确性和相关性,并防止聊天机器人生成任何不当内容。因此,该系统实际上是对AI的课程内容开卷考试。数据库中材料范围之外的问题会引发指示信息不可用的响应。
在初始部署前,使用教师和几位志愿者学生(不属于研究队列)对平台进行了试点测试,以验证问题的适当处理,这导致了提示调整以获得更精细的答案。例如,我们调整了助手的语气,使其友好且鼓励性,并确保一致的源引用以增强信任并帮助学生找到参考材料以进行进一步阅读。
部署和学生访问
对于两个队列,NeuroBot TA在课程定向会话中作为可选学习辅助工具向学生介绍,并进行了现场演示,展示如何访问机器人和提问。在整个课程中,学生可以通过LMS和聊天界面的链接24/7访问NeuroBot TA。虽然没有进行实时监控,但课程主任(T.T.)可以访问匿名聊天记录,并定期审查以监控答案质量,计划在发现任何关键不准确时进一步纠正知识库或调整提示。在任何一次部署中都不需要重大干预。
使用数据收集和参与分析
我们使用混合方法评估TA机器人的影响和学生态度,收集定量使用数据和定性反馈。分析在Python 3.6中执行。这项质量改进项目获得了达特茅斯学院IRB的豁免。所有数据收集都是匿名的,参与是自愿的,学生被告知可能会分析汇总的使用模式以用于教育改进目的。参与期末课程调查是自愿的,对成绩没有影响。收集了两个学年(2023-2024和2024-2025)的聊天对话日志,用于描述性参与指标分析(例如,对话计数和消息量)。时间分析使用适当的配对t检验和方差分析比较考试前和常规时期的使用情况,以识别学生的24/7交互模式。在每门课程结束时,进行了一项匿名标准化课程评估调查,其中包括关于NeuroBot TA的具体问题。我们询问学生是否在课程期间使用过机器人,以及"NeuroBot TA是本课程的有用资源"这一陈述,两者均在5点李克特量表上评分。此外,一个开放式文本框邀请对AI平台的体验发表任何评论。
内容分析
我们对发送给机器人的学生消息和学生反馈评论进行了系统的内容分析。内容分析通过几个阶段完成,结合了GPT-4o LLM处理和人工循环验证,改编自Braun & Clarke的框架。首先,对话经过预处理,将学生消息与TA机器人响应分离开来。排除学生输入少于50个字符的对话,以确保有足够的材料进行有意义的语义内容分析。初始主题通过随机抽样100次对话/20条反馈评论并使用GPT-4o生成候选主题来识别,这些主题由人类专家审查其连贯性和相关性。然后使用第二个样本(n = 50/n = 15)进一步完善主题,再次对细化过程进行人工验证,以确保数据的准确表示。通过共现分析验证结果,以确定主题的独特性,最终得到8个消息主题和6个反馈主题。所有有效对话都经过系统编码,GPT-4o使用标准化量表(0 = 不存在,1 = 稍微存在,2 = 中度存在,3 = 强烈存在)对每个对话进行主题存在评分。
通过人工审查对话子集(15%)验证了计算编码。这种人机混合方法遵循LLM辅助内容分析工作流程,已实现与人类编码者的中等到实质性一致性。使用加权序数Cohen's k与95%自助CI分析了人机一致性,并在存在/不存在简化的情况下,总体宏观F1。
【全文结束】


