据《JAMA Network Open》上发表的一项研究,多模态人工智能(AI)聊天机器人在评估癌症病例方面并不比单模态聊天机器人更准确。研究人员假设,多模态聊天机器人能够处理复杂的医疗图像和基于文本的信息,因此在回答有关癌症病例的问题时会优于仅处理文本的单模态聊天机器人。
研究人员评估了10个聊天机器人对79个癌症病例问题的回答准确性,其中包括提供的图像。这3个多模态聊天机器人分别是ChatGPT-4 Vision、Claude-3 Sonnet Vision和Gemini Vision。7个单模态聊天机器人分别是ChatGPT-3.5、ChatGPT-4、Claude-2.1、Claude-3 Sonnet、Gemini、Llama2和Mistral Large。
对于选择题,最准确的聊天机器人是Mistral Large,正确回答了72.15%的问题。Claude-3 Sonnet Vision紧随其后,正确率为70.89%,ChatGPT-4的正确率为68.35%。大多数不准确的回答是简单的错误(89.0%),但在某些情况下,聊天机器人拒绝回答,有的没有给出理由(7.14%),有的给出了理由(3.87%)。
总体而言,聊天机器人在回答诊断选择题时的准确性显著高于回答临床管理选择题时的准确性。然而,在自由文本回答中,诊断和管理问题的准确性没有显著差异。提供最准确自由文本回答的聊天机器人是ChatGPT-4、Claude-3 Sonnet和Claude-3 Sonnet Vision(三者正确率均为37.97%)。其次是Mistral Large(36.71%)、Gemini(31.65%)和Gemini Vision(31.65%)。大多数不准确的自由文本回答是错误的(90.0%),但聊天机器人偶尔也会因有理由(8.19%)或无理由(1.86%)而拒绝回答。
“在这项针对临床肿瘤学病例的聊天机器人准确性的横断面研究中,多模态聊天机器人的准确性并不始终优于单模态聊天机器人,”研究人员总结道。“这些结果表明,需要进一步研究以优化多模态聊天机器人,使其更好地利用图像信息,提高肿瘤学特定的医学准确性和可靠性。”
该研究部分得到了加拿大放射肿瘤学协会加拿大放射肿瘤学基金会Pamela Catton暑期学生奖学金和Robert L. Tundermann及Christine E. Couturier慈善基金的支持。一位研究作者披露了利益冲突。详情请参阅原始参考文献。
参考资料:
Chen D, Huang RS, Jomy J, et al. Performance of multimodal artificial intelligence chatbots evaluated on clinical oncology cases. JAMA Netw Open. Published online October 23, 2024. doi:10.1001/jamanetworkopen.2024.37711
(全文结束)


