研究人员表示,需要更多的研究来优化多模态聊天机器人,提高其在肿瘤学领域的医疗准确性和可靠性。提供最准确自由文本响应的聊天机器人是ChatGPT-4、Claude-3 Sonnet和Claude-3 Sonnet Vision。
根据发表在《JAMA Network Open》上的研究,多模态人工智能(AI)聊天机器人在评估癌症病例方面的准确性并不比单模态聊天机器人高。由于多模态AI聊天机器人可以处理复杂的医学图像和基于文本的信息,研究人员假设这些聊天机器人在回答关于癌症病例的问题时会优于仅处理文本的单模态聊天机器人。
研究人员评估了10个聊天机器人对79个癌症病例问题的医疗准确性,其中提供了图像。这3个多模态聊天机器人分别是ChatGPT-4 Vision、Claude-3 Sonnet Vision和Gemini Vision。7个单模态聊天机器人分别是ChatGPT-3.5、ChatGPT-4、Claude-2.1、Claude-3 Sonnet、Gemini、Llama2和Mistral Large。
对于选择题,最准确的聊天机器人是Mistral Large,正确回答了72.15%的问题。Claude-3 Sonnet Vision紧随其后,正确回答了70.89%的问题,ChatGPT-4则正确回答了68.35%的问题。大多数不准确的选择题回答都是错误的(89.0%)。然而,在某些情况下,聊天机器人拒绝回答而没有给出理由(7.14%),或给出了理由(3.87%)。
总体而言,聊天机器人在回答诊断选择题时比回答临床管理选择题时更准确。但在自由文本回答中,诊断和管理问题的准确性没有显著差异。提供最准确自由文本回答的聊天机器人是ChatGPT-4、Claude-3 Sonnet和Claude-3 Sonnet Vision(均正确回答了37.97%的问题)。其次是Mistral Large(36.71%)、Gemini(31.65%)和Gemini Vision(31.65%)。大多数不准确的自由文本回答都是错误的(90.0%),但聊天机器人偶尔也会因有理由(8.19%)或无理由(1.86%)而拒绝回答。
在这项横断面研究中,研究人员测试了聊天机器人在临床肿瘤学病例中的准确性,发现多模态聊天机器人并不比单模态聊天机器人更一致地准确。这些结果表明,需要进一步的研究来优化多模态聊天机器人,使其更好地利用图像信息,提高肿瘤学特定的医疗准确性和可靠性。
这项研究部分得到了加拿大放射肿瘤学会、加拿大放射肿瘤基金会Pamela Catton暑期奖学金以及Robert L. Tundermann和Christine E. Couturier慈善基金的支持。一位研究作者披露了利益冲突。请参阅原始参考文献以获取完整的披露信息。
参考资料:
Chen D, Huang RS, Jomy J, et al. Performance of multimodal artificial intelligence chatbots evaluated on clinical oncology cases. JAMA Netw Open. Published online October 23, 2024. doi:10.1001/jamanetworkopen.2024.37711
(全文结束)


