背景
低收入和中等收入国家(LMIC)的医学教育面临内容创建、基础设施和网络连接的关键瓶颈,这导致非洲到2030年预计将短缺610万名卫生工作者。利用AI技术的进步,特别是大型语言模型(LLM)和文档分析服务,为自动化和扩展学习材料生成提供了途径。
目标
本研究评估了Juvenotes,这是一种实时AI驱动的管道,可将学术文档转化为结构化的考试题库,并针对肯尼亚低资源环境进行了用户体验优化。
方法
Juvenotes整合了Azure Document Intelligence进行光学字符识别(OCR),以及Azure AI Foundry(OpenAI o3-mini)生成问答对,采用微服务架构部署在Azure虚拟机上。Vue/TypeScript前端和AdonisJS后端处理用户交互,而基于Python的AI引擎则协调文档处理、LLM提示生成及数据库插入。该系统包括移动端优先设计、带宽敏感界面、机构标记以及离线功能。在七个月的时间里,该平台在五所肯尼亚机构进行了试点,评估指标包括每日活跃用户数、内容处理时间和用户满意度调查。
结果
Juvenotes的部署将内容策划时间从几天缩短到几分钟,并实时生成高质量的题库。每日活跃用户数增加了40%,90%的受访学生报告称相比传统方法学习体验有所改善。主要挑战包括间歇性连接、电力中断和偶尔的AI生成错误,这凸显了离线同步、人工审核和本地课程微调模型的必要性。
结论
Juvenotes表明,结合情境感知的用户体验优化,AI驱动的自动化可以显著提高低资源医学教育环境中获取优质学习材料的机会。未来的工作应着重于扩展离线功能、整合严格的评估框架,并争取长期的机构支持以维持影响并帮助解决非洲卫生工作者短缺问题。
引言
非洲低收入和中等收入国家的医学教育面临严重的卫生工作者短缺问题。大多数非洲国家尚未实现与健康和优质教育相关的可持续发展目标(SDGs)。目前,医学教育基础设施不足,缺乏医学教育者和学习设施。世界卫生组织(WHO)预测,到2030年非洲将短缺约610万名卫生工作者。尽管在线学习被宣称为增强非洲医学教育的革命性力量,但LMIC的主要障碍在于高质量学习内容的手动创建、基础设施限制和连接问题。非洲大部分地区仍面临互联网连接差、移动数据成本高和电力缺乏的问题。根据世界银行集团的数据,只有36%的非洲人能够访问宽带互联网,这通常导致小规模的电子学习试点项目无法超越试点阶段。
相关工作
使用LLM进行自动问题生成(AQG)正在广泛获得关注。Zhu等人评估了八个LLM在基于医疗记录生成考试风格题目上的表现,指出其在问题形成方面表现出优势,但在答案准确性和领域特异性方面存在弱点。Yao等人引入了一个框架(MCQG-SRefine),结合自我批评和修正循环来提升多选题(MCQ)质量,特别是在美国医师执照考试(USMLE)题目上。先前的研究如Med-PaLM 2在医学问题数据集中达到了医生级别的表现。
非洲医学教育中的在线学习往往局限于孤立的试点项目。Barteit等人指出,这些干预措施由于缺乏技术支持、制度支持和用户支持而表现不佳。Makerere大学在COVID-19期间的研究确定了互联网连接差和高昂的互联网费用是在线学习的障碍。医学教育合作伙伴计划(MEPI)表明,要建立可持续的在线学习系统,需要机构支持、教师参与、技术支持、基础设施和用户参与。利比里亚健康与生命科学学院(COHLS)项目进一步强调了本地技术能力、政策框架以及应对电力和带宽中断的韧性需求。我们的架构通过整合强大的后端服务、促进机构标记和离线功能,符合这些原则。
方法
系统架构
Juvenotes采用容器化的微服务架构,确保组件的便携性、弹性和独立扩展性。系统由两个主要服务组成:
- Web服务:作为用户界面,使用Vue/TypeScript前端和AdonisJS后端构建。它管理用户界面、用户会话、机构隶属关系并路由API调用,同时实施数据库模式和业务逻辑,例如将生成的问题映射到特定课程和概念。
- AI引擎:一个基于Python的后端服务,提供WebSocket API。其主要功能是协调对Azure云服务(OCR和LLM)的调用以进行文档分析,并格式化结果。
这两个服务都被打包为Docker容器,并部署在Azure的Ubuntu虚拟机上,Coolify自动化构建和编排。集成到架构中的服务包括MeiliSearch和Algolia用于搜索索引,Cloudinary用于媒体托管,PostHog用于用户分析,Mailgun用于电子邮件通知,以及M-Pesa用于移动支付。所有服务间的通信均通过Azure内部网络进行加密保护。
数据流与内容生成
Juvenotes的核心功能是将学术文档自动转换为结构化题库。数据流通过一系列步骤进行协调:
- 文档上传:用户通过Juvenotes Web界面上传教育文档,例如过去的考试试卷PDF文件。
- WebSocket传输:上传的文档通过持久的WebSocket连接发送到AI引擎后端进行实时处理。
- OCR处理:收到文档后,AI引擎利用Azure Document Intelligence执行OCR,提取结构化文本,包括段落、表格和布局信息。
- 问答生成:提取的文本随后输入Azure AI Foundry(OpenAI o3-mini模型,版本2025-01-31)。这个LLM从内容中识别出考试风格的问答对(例如,多项选择题、简答题),并生成高质量的答案,为平台的数据库模式格式化输出。
- 结果集成:生成的问答项被解析并插入PostgreSQL数据库,在相关表中创建条目,例如questions、mcq_choices、saq_parts和past_papers。
- 用户互动与反馈:一旦进入数据库,新问题立即通过Web UI对学生可用。学生的响应和反馈(例如,正确/错误、评分)被记录在参与表中用于分析和持续改进。
Python后端协调这些步骤,提交API调用给OCR和LLM服务,接收响应并将其转换为SQL插入语句。原始文档和中间输出(如OCR JSON)也存储在Azure Blob存储中以供持久性和审计。
用户体验优化
认识到非洲独特的基础设施挑战,例如有限的宽带和不可靠的互联网,Juvenotes进行了以下适应性设计:
- 针对低成本设备和不同屏幕尺寸的移动端优先响应式设计。
- 带宽优化,即使在网络缓慢或不稳定的情况下也能提供快速、轻量级的体验。
- 带有进度指示器的无缝上传,显示实时OCR/AI处理日志。
- 本地化和机构标记,以便按学校和课程代码过滤问题;支持AI提示中的本地上下文(例如,肯尼亚指南)。
试点用户报告称,这些移动端友好设计和响应式反馈功能显著提高了满意度。
部署与运营
- CI/CD:开发在主干分支上进行,合并到web分支触发Coolify重新构建和重新部署Docker容器。此管道确保一致且版本化的发布。
- 网络:所有服务都在Azure虚拟机内的Coolify管理的私有网络中运行。内部DNS/服务发现允许安全的容器通信。
- 数据库:PostgreSQL存储用户数据、内容和分析。模式支持关系数据模型(详见附录)。
- 可扩展性:微服务架构允许独立扩展特定部分(例如,OCR/LLM服务)。Coolify管理编排以实现弹性和弹性。
数据库模式亮点
PostgreSQL模式将平台数据组织成逻辑域:
- 用户管理:users、roles和mappings用于身份验证和授权。
- 教育内容:mcq_choices、concepts、courses、past_papers、questions、saq_parts。每个问题链接到过去的一份试卷、课程和概念;MCQ表格存储答案选项。
- 参与跟踪:user_mcq_responses、user_saq_responses、user_study_sessions、analytics和user_study_times。
- 反馈与进展:question_feedbacks(学生评分/评论)、user_concept_progress(主题掌握)。
- 机构集成:institutions、institution_courses将用户/内容映射到学院/项目。
这些标准化表能够快速按主题或试卷查找问题,并将用户表现与学习目标联系起来。设计强调灵活性(例如,多概念标记)和性能(索引搜索、统计缓存)。
AI/ML管道
Azure Document Intelligence Studio对上传的文档执行OCR,提取文本、键值对、表格和结构。Read OCR模型处理扫描的考试试卷,生成段落、行和单词的JSON输出,以及表格。对于特殊格式,可以训练自定义模型以提高准确性。然后将原始文本/结构转发到NLP阶段。
对于NLP和问题生成,使用Azure AI Foundry(带有OpenAI o3-mini,版本2025-01-31)。OCR文本被输入该模型,通过提示识别考试风格的问题并生成答案。模型为数据库模式格式化输出(问题、选项、正确答案、解释)。
Python后端提交OCR/LLM API调用,接收响应并将它们转换为SQL插入语句。处理结果和元数据(置信度、时间戳)存储以供审计和分析。每个生成的问题/源试卷和模型的置信度/用户反馈都被记录。原始文档和中间输出(例如,OCR JSON)保存在Azure Blob/Object存储中。一旦进入数据库,问题立即对学生可用。
试点项目与评估
Juvenotes在肯尼亚的五所机构进行了为期七个月的试点:内罗毕大学、莫伊大学、肯雅塔大学、埃格顿大学和KMTC。医学学生和教职员工都参与其中,上传过去的试卷并使用生成的题库。
评估包括使用分析和用户调查。LMIC中的电子学习干预措施面临方法学挑战,通常依赖主观衡量和定制框架,限制了可比性和有效性。大多数先前的研究是小规模试点,使用总结性评估和问卷调查;知识测试也很常见。尽管大多数报告称效果良好,但质量评级显示出较低的科学严谨性,尤其是在可比性/有效性方面。
对于Juvenotes,试点数据显示:
- 增加的参与度:每日活跃用户增加了40%。
- 更快的策划:内容处理时间从几天缩短到几分钟。
- 高满意度:90%的学生报告称更高的满意度;即时访问问题和即时反馈受到重视。
挑战包括持续的连接性、偶尔的AI问题错误以及需要持续的教师审查和更正。这些突显了人工监督和强大离线设计的重要性。
伦理、社会、本地背景
Juvenotes以伦理和情境意识为基础构建。数据隐私是优先事项;所有数据在传输和静止时都经过加密,符合肯尼亚和国际标准。AI服务仅出于学术必要使用个人数据。
该平台对合作机构免费,针对低成本设备优化,并满足无障碍需求(大字体、高对比度、语言支持)。学生反馈被记录以微调提示和纠正错误;教师可以在重新发布前标记不适当的内容(人工介入循环)。这最大限度地减少了AI偏见和误导信息,并促进了平等访问。
讨论
Juvenotes突出了AI驱动平台在解决非洲低资源环境中教育缺陷方面的变革能力。其自动化管道将学术文档转换为题库,增加了访问和参与度。然而,基础设施和评估挑战仍然存在,表明需要持续改进和系统方法。
该平台旨在通过Azure OCR和LLM自动化内容创建,解决手动创作瓶颈,从而应对WHO预测的610万卫生工作者短缺。在肯尼亚试点中,每日活跃用户增加了40%,内容处理时间从几天缩短到几分钟,90%的学生报告称更高满意度。这些结果与提高用户体验能提升满意度和参与度的研究结果一致,尽管测得的知识增长尚未在统计上优于传统方法。
设计改进解决了LMIC结构性挑战。宽带接入率为36%,因此移动端响应式设计、带宽优化和实时上传反馈至关重要。容器化的微服务架构部署在Azure上,提供了可扩展性和弹性,解决了电子学习项目的“试点病”问题。
尽管取得了成功,但持续的挑战包括农村地区的连接性和不可靠的电力。偶尔的AI问题错误突显了LLM“幻觉”问题,尤其是在未针对本地上下文进行微调时。人工介入审查仍然是必不可少的。
可持续性需要长期的机构投资、人力资源和正式的课程整合。试点是短期的,依赖主观指标,缺乏严格、长期的评估。这与评论中提到的依赖试点、自我报告结果和有限使用控制、纵向研究和Kirkpatrick模型的情况相符。
为了增强Juvenotes和类似系统:用本地课程和教育者主导的工作流程微调模型将提高内容质量。赋权本地内容创作者并启用翻译可以增加相关性。技术改进——离线访问、间歇同步、更深入的机构嵌入——将有助于超越试点状态。严格的评估框架(前后测试、准实验、Kirkpatrick第三/第四层次)将更好地衡量影响。
结论
Juvenotes展示了AI在资源有限环境中民主化医学教育的潜力,通过快速生成练习内容和提高可访问性。要实现这一潜力,未来的努力必须结合技术创新与人工监督、本地情境化、系统整合和评估方法的严谨性。只有通过这种多方面的方法,AI驱动的电子学习才能有效加强卫生系统并推进全球健康教育目标。
(全文结束)


