蛋白质(包括抗体、血红蛋白和胰岛素)驱动着生命几乎所有关键环节。蛋白质研究的突破正带来疫苗、抗逆作物、生物能源等创新技术。然而,科学家对蛋白质的认知大多仅来自极小样本量,这阻碍了对多数蛋白质工作机制的全面理解及其潜力的充分释放。
佐治亚理工学院罗玉南(Yunan Luo)教授认为,人工智能(AI)可填补这一知识鸿沟——美国国家科学基金会(NSF)对此表示认同。罗教授近日荣获NSF职业早期发展(CAREER)奖。他指出:"生物学的诸多领域都依赖于对蛋白质功能的认知,但数十年研究集中于少数被充分研究的蛋白质。这种科学关注度的失衡导致我们对生物图景的认知扭曲,并悄然影响着数据和算法。"
"我们团队的目标是构建机器学习(ML)模型,通过为大量未被充分研究的蛋白质生成可靠的功能预测,主动弥合这一差距。"罗教授在提案中将这种"马太效应"定义为"注释不平等"。该问题严重阻碍疾病预后、药物发现等关键生物医学领域的进展,因为科学家已对少数热门蛋白质了解过度,创新空间有限。
注释不平等的连锁反应还削弱了AI研究蛋白质的有效性。AI方法依赖现有实验数据,而偏向热门蛋白质的数据集偏差会被模型继承并固化,导致计算机难以研究未被充分探索的蛋白质。"蛋白质注释不平等造成的效果类似于一座图书馆:95%的读者只翻阅最热门的5%书籍,其余藏书积满灰尘,"罗教授比喻道,"这导致当前文献和数据库中存在蛋白质知识鸿沟,扭曲了我们对蛋白质功能的认知。"
NSF将提供逾77万美元资助,支持罗教授在未来五年主攻蛋白质注释不平等难题。他将利用该基金构建规模化、准确且无偏见的蛋白质功能预测框架,项目目标包括:揭示注释不平等对蛋白质功能预测系统的影响;开发适配生物数据(常具噪声、不完整和不平衡特性)的机器学习技术;整合数据与模型形成可扩展框架,加速未被充分研究蛋白质的发现进程。
除技术框架外,罗教授还将利用NSF资助推进教育与科普项目,培养新一代研究人员攻克计算生物学挑战。他开设的本硕课程聚焦计算生物学与机器学习,CAREER项目成果将直接转化为教学素材。提案中他还推动与佐治亚理工学院科学数学计算教育中心(CEISMC)合作,使当地高中师生能接触其数据和模型,通过真实工具实践深化生物与数据科学学习。
"我对此深表感谢,"作为计算科学与工程学院(CSE)助理教授的罗玉南表示,"若非学生与合作者的辛勤奠基,此成就无法实现。"他特别致谢CSE系主任帕克(Haesun Park)教授的推荐支持,并称赞研究机器学习与计算生物科学的普拉卡什(B. Aditya Prakash)、张秀伟(Xiuwei Zhang)和张超(Chao Zhang)三位教授的指导——该领域正是CSE五大核心研究方向之一。罗教授视此为对佐治亚理工同仁支持的回馈,期望通过社区参与延续科学薪火。
【全文结束】


