加利福尼亚大学旧金山分校的科学家们正在测试生成式AI能否在复杂医疗数据集的处理上达到人类专家同等水平。这项研究进一步拓展了人工智能在医学领域的应用优势。
研究结果表明,在某些情况下,AI的表现匹配甚至超越了耗时数月构建预测模型的人类团队。通过基于精准提示生成可用分析代码,AI系统大幅缩短了健康数据处理时间。这些发现预示着AI将帮助科学家更快地从数据中获取新发现。
AI与人类的较量
为直接比较性能,研究人员为不同团队分配了相同任务。部分团队完全依赖人类专业知识,而其他团队则使用科学家与AI工具的协作模式。研究测试了多种AI工具。
挑战内容是利用1000多名孕妇的数据预测早产风险。
AI系统在数分钟内生成了可运行的计算机代码——这通常需要经验丰富的程序员花费数小时甚至数天时间。
这一优势源于AI根据简短但高度特定的提示编写分析代码的能力。并非所有系统都表现良好。在测试的8个AI聊天机器人中,仅4个生成了可用代码。但成功者无需大量专家团队指导即可完成任务。
研究意义
加速数据分析可能改进早产诊断工具——早产是新生儿死亡的首要原因,也是儿童长期运动和认知障碍的主要诱因。在美国,每天约有1000名婴儿早产。
研究人员尚未完全理解早产原因。为探究潜在风险因素,西罗塔团队整合了约1200名孕妇的微生物组数据,这些孕妇的妊娠结局在九项独立研究中被追踪记录。
高级AI应用
开发能够分析庞大复杂数据集(如全美孕妇的完整妊娠记录)的AI颇具挑战。为此,研究人员借助名为DREAM(逆向工程评估与方法对话)的全球众包竞赛。
其中一项DREAM妊娠挑战专门聚焦阴道微生物组数据。全球100多支团队参与,开发了旨在识别早产关联模式的机器学习模型。多数团队在三个月竞赛期内完成工作。但整合发现并发表成果却耗时近两年。
为验证生成式AI能否缩短该周期,研究人员指令八个AI系统独立使用DREAM挑战的相同数据集生成算法,全程无需人工编码。
AI聊天机器人接收精心设计的自然语言指令。类似于ChatGPT,这些系统通过详细提示引导,以与原始DREAM参与者相当的方式分析健康数据。
AI系统分析阴道微生物组数据以识别早产迹象,并检测血液或胎盘样本以估算孕龄。妊娠日期判定几乎总是估算值,却决定了孕妇在妊娠进程中的护理类型。当估算不准确时,分娩准备将更加困难。
研究人员随后使用DREAM数据集运行AI生成的代码。8个工具中仅4个产出匹配人类团队性能的模型,但在某些情况下AI模型表现更优。整个生成式AI工作——从启动到论文提交——仅耗时六个月。
人类监督仍不可或缺
科学家强调AI仍需严格监督。这些系统可能产生误导性结果,人类专业知识至关重要。然而,通过快速处理海量健康数据,生成式AI或可使研究人员减少代码调试时间,更多投入到结果解读和提出有意义的科学问题上。
该研究发表于《Cell Reports Medicine》期刊,题为《聚焦生殖健康的生物医学研究中预测建模的大型语言模型基准测试》。
蒂姆·桑德尔博士是《数字期刊》科学新闻特约编辑。他专注于科学、技术、环境、商业和健康领域的新闻报道。同时作为执业微生物学家、作者,他对历史、政治和时事也抱有浓厚兴趣。
【全文结束】

