想象一下,一个人工智能(AI)模型可以像人脑一样观看和理解动态图像。现在,斯克里普斯研究所的科学家们已经将这一设想变为现实,他们创建了MovieNet:一种创新的AI,可以像我们的大脑解释现实生活中的场景一样处理视频。
这种脑启发式的AI模型在2024年11月19日发表于《美国国家科学院院刊》的一项研究中进行了详细描述。MovieNet可以通过模拟神经元(即脑细胞)如何实时感知世界来感知移动场景。传统的AI擅长识别静态图像,但MovieNet引入了一种方法,使机器学习模型能够识别复杂且不断变化的场景——这一突破可能改变从医疗诊断到自动驾驶等领域的现状,这些领域需要辨别细微的时间变化。
MovieNet不仅比传统AI更准确,而且更加环保。斯克里普斯研究所多里斯神经科学中心的主任兼汉恩神经科学教授Hollis Cline博士表示:“大脑不仅仅看到静止的画面;它创造了一个持续的视觉叙事。静态图像识别已经取得了很大进展,但大脑处理流动场景的能力——就像看电影一样——需要更复杂的模式识别。通过研究神经元如何捕捉这些序列,我们能够将类似的原则应用于AI。”
为了创建MovieNet,Cline和第一作者Masaki Hiramoto(斯克里普斯研究所的工作人员科学家)研究了大脑如何将现实世界的场景作为短序列处理,类似于电影片段。具体来说,研究人员研究了蝌蚪神经元对视觉刺激的反应。“蝌蚪有一个非常出色的视觉系统,我们知道它们可以高效地检测和响应移动的刺激,”Hiramoto解释道。
他和Cline确定了对电影特征(如亮度变化和图像旋转)作出反应并能识别移动和变化物体的神经元。这些神经元位于大脑的视觉处理区域——视顶盖,它们将移动图像的不同部分组合成一个连贯的序列。这个过程类似于透镜拼图:单独的每一块可能没有意义,但放在一起就形成了一个完整的运动图像。不同的神经元处理现实生活中的移动图像的各种“拼图块”,然后大脑将其整合成一个连续的场景。
研究人员还发现,蝌蚪的视顶盖神经元能够区分视觉刺激的微妙变化,捕捉大约100到600毫秒的动态片段,而不是静止的画面。这些神经元对光和阴影的模式高度敏感,每个神经元对视觉场的特定部分的反应有助于构建一个详细的场景地图,形成一个“电影片段”。
Cline和Hiramoto训练MovieNet模仿这种脑样处理方式,将视频片段编码为一系列小的、可识别的视觉提示。这使得AI模型能够区分动态场景之间的细微差异。为了测试MovieNet,研究人员向其展示了在不同条件下游泳的蝌蚪的视频片段。MovieNet不仅在区分正常和异常游泳行为方面达到了82.3%的准确性,而且比训练有素的人类观察者高出约18个百分点。它甚至超过了现有的AI模型,如Google的GoogLeNet——尽管经过了广泛的训练和处理资源,GoogLeNet的准确率仅为72%。
“这是真正潜力的体现,”Cline指出。团队确定,MovieNet不仅在理解变化场景方面优于当前的AI模型,而且使用的数据和处理时间更少。MovieNet简化数据而不牺牲准确性的能力使其与传统AI区分开来。通过将视觉信息分解为基本序列,MovieNet有效地压缩了数据,就像一个保留关键细节的压缩文件。
除了高精度,MovieNet还是一个环保的AI模型。传统AI处理需要大量能源,留下沉重的环境足迹。MovieNet的减少数据需求提供了一种更绿色的替代方案,节省能源的同时保持高性能。“通过模仿大脑,我们设法使我们的AI需求大大降低,为不仅强大而且可持续的模型铺平了道路,”Cline说。“这种效率也为在传统方法成本高昂的领域扩大AI规模打开了大门。”
此外,MovieNet有可能重塑医学。随着技术的发展,它可以成为识别早期条件下的细微变化的宝贵工具,例如检测不规则的心律或发现帕金森病等神经退行性疾病的最初迹象。例如,与帕金森病相关的微小运动变化通常难以被人眼察觉,但可以被AI早期标记,为临床医生提供宝贵的干预时间。
此外,当蝌蚪暴露于化学物质时,MovieNet能够感知蝌蚪游泳模式的变化,这可能导致更精确的药物筛选技术,因为科学家可以研究动态的细胞反应,而不仅仅是静态的快照。“目前的方法错过了关键的变化,因为它们只能分析间隔捕获的图像,”Hiramoto说。“随着时间的推移观察细胞意味着MovieNet可以在药物测试期间跟踪最细微的变化。”
展望未来,Cline和Hiramoto计划继续改进MovieNet适应不同环境的能力,增强其多功能性和潜在应用。“从生物学中汲取灵感将继续是推进AI的一个富有成果的领域,”Cline说。“通过设计像生物体一样思考的模型,我们可以实现传统方法无法达到的效率水平。”
来源:斯克里普斯研究所
期刊参考:Hiramoto, M., & Cline, H. T. (2024). Identification of movie encoding neurons enables movie recognition AI. Proceedings of the National Academy of Sciences. doi.org/10.1073/pnas.2412260121.
(全文结束)


