随着生成式人工智能(AI)在广泛的临床领域,包括专业诊断中的应用不断推进,研究人员开始尝试科学测试这些工具(如AI聊天机器人)的有效性。
在《美国医学会杂志(JAMA)》新创刊的《JAMA + AI》中,一个研究团队发表了一项关于AI聊天机器人在文本聊天机器人与多模态聊天机器人(同时使用文本和图像)输出准确性及有效性的研究。该文章《多模态人工智能聊天机器人在临床肿瘤学案例中的表现评估》于10月23日发表在《JAMA网络开放》上,由多伦多玛格丽特公主癌症中心和多伦多大学的一大批研究人员撰写。该研究由David Chen(BMSc)领导,参与成员包括Ryan S. Huang(MSc)、Jane Jomy(MSc)、Philip Wong(医学博士,MSc)、Michael Yan(医学博士,公共卫生硕士)、Jennifer Croke(医学博士,医学教育硕士)、Daniel Tong(医学博士)、Andrew Hope(医学博士)、Lawson Eng和Srinivas Raman(医学博士,MASc)。
研究人员在文章摘要中表示,他们的目的是“评估提示工程(零样本链式思维)的有效性,并比较多模态和单模态AI聊天机器人生成关于临床肿瘤学案例的医学准确响应的能力”。文章作者写道:“本研究评估了10个聊天机器人,包括3个多模态和7个单模态聊天机器人。在多项选择题评估中,表现最好的聊天机器人是聊天机器人10(79题中答对57题,占72.15%),其次是多模态聊天机器人2(79题中答对56题,占70.89%)和聊天机器人5(79题中答对54题,占68.35%)。在自由文本评估中,表现最好的聊天机器人是聊天机器人5、聊天机器人7和多模态聊天机器人2(79题中答对30题,占37.97%),其次是聊天机器人10(79题中答对29题,占36.71%)和聊天机器人8及多模态聊天机器人3(79题中答对25题,占31.65%)。当测试涉及多张图像的病例时,多模态聊天机器人的准确性下降,而单张图像的问题则表现较好。10个聊天机器人中有9个,包括所有3个多模态聊天机器人,在自由文本响应方面的准确性低于多项选择题响应。”
这究竟意味着什么?“在这项针对聊天机器人在临床肿瘤学案例中准确性的横断面研究中”,作者写道,“多模态聊天机器人的准确性并不始终高于单模态聊天机器人。这些结果表明,需要进一步研究以优化多模态聊天机器人,使其更好地利用图像信息,提高肿瘤学领域的医学准确性和可靠性。”确实,他们写道:“在这项针对聊天机器人准确性的横断面研究中,我们观察到,当基于对临床肿瘤学案例问题的准确性进行评估时,多模态聊天机器人与单模态聊天机器人相当,而在涉及多张图像的病例测试中表现较差。与多项选择题响应相比,聊天机器人在自由文本响应方面的准确性普遍较低。需要进一步研究以改进提示工程方法,提高多模态聊天机器人在肿瘤学环境中的准确性,并评估AI聊天机器人作为临床肿瘤学工作流程中有用决策支持工具的实用性。”
(全文结束)


