科学101 | 机器学习Pipeline全文库挖掘抗菌肽

2023-11-26

如何有效控制细菌耐药性的产生,促进抗生素药物合理使用?
作为应对耐药细菌感染的潜在手段,抗菌肽的研发需求十分广阔。
然而,具有序列多样性的多肽分子构成了一个近乎无限的潜在治疗药物候选库,使得抗菌多肽全文库高效筛选工作难点重重,即使是最先进的实验技术也仅实现了在80万序列文库中的筛选。
如何建立一种高效而准确的方法来实现完整短肽库中抗菌肽的高效识别?

关于作者

黄俊杰博士   浙江大学国际联合学院(海宁国际校区)功能高分子国际研究中心博士后

长期从事机器学习加速材料研发及高通量实验加速材料研发,以第一/共一作者在Nat. Biomed. Eng., ACS Applied Materials & Interfaces等期刊发表论文7篇,授权国家发明专利3项。2022年获杭州青山湖材料基因工程青年科学家奖、浙江大学国际校区年度学术成果奖。参与国家重点研发计划1项。

学者设计了由经验判断、分类、排序和回归任务组成的全新机器学习流程(Sequential Model Ensemble Pipeline, SMEP),实现了在六肽-九肽全多肽序列文库(5000亿样本,27天)中挖掘强效抗菌肽。其中,3条代表性抗菌六肽对多种临床分离耐药菌表现出高杀菌活性,且具备脱靶毒性低、不易诱导耐药性的特点,并在小鼠细菌性肺炎模型中表现出了良好的治疗效果。(Nat. Biomed. Eng. 2023, 7, 797)

01 SMEP概述

通过结合经验判断、分类模型、排序模型、回归模型、增量学习模型修正以及湿实验验证等步骤,探索建立了一种基于SMEP的抗菌肽快速识别方法(图1)。该研究以六肽为模型肽进行识别,具体来讲,是从具有6400万条多肽的六肽全库中识别抗菌肽。

在识别工作实施前,分类模型、排序模型及回归模型将依托文献数据进行训练。

在识别工作中,首先,借助经验判断(正电性;两亲性),生成符合条件的393万多肽子库。其次,利用分类模型对393万肽库中的多肽进行分类,得到56万模型用于预测显示抗菌活性的多肽。再次,使用排序模型对这些多肽的抗菌活性进行预排序,并挑选前500条肽作为最终抗菌肽备选库。最后,使用回归模型对500条肽进行MIC预测(Minimum Inhibitory Concentration, MIC, 最小抑制浓度),并挑选MIC预测值最低的10条肽(CRRI抗菌肽)进行湿实验验证。

图1 SMEP概述

02 各任务模型选择与消融研究

从数据库中获取7660个数据用于训练并测试分类、排序、回归模型。根据各模型的测试指标,分别确认使用XGBoost、XGBoost、LSTM执行分类、排序、回归任务。该实验合成并测试了67个随机抗菌肽,并使用实验MIC值修正LSTM回归模型,以消除数据噪声。执行SMEP后,获得前10多肽,测试其MIC,确认10条肽均具备抗菌性(图2a)。消融实验显示,删除SMEP中的任何模块都会严重影响该流程的预测能力(图2b,c),从而证明了SMEP设计的合理性。

图2 消融研究

03 SMEP泛化与抗菌肽体外测试

在未对SMEP进行任何修改的前提下,对七肽、八肽、九肽抗菌肽进行识别。图3a表明SMEP具有极高的运算效率,仅需19天即可完成对九肽全文库、共5120亿样本的抗菌肽识别。六肽-九肽测试结果表明,SMEP识别出54条多肽(共55条)具有抗菌性,其识别成功率高达98.2%。进一步测试了最具应用潜力的抗菌六肽的生物性能,表1、图4分别证明了抗菌六肽对包括临床分离耐药菌在内的各类多药耐药菌具有抗菌活性、极低的脱靶细胞与血液毒性和不易诱导细菌耐药性。

图3 SMEP泛化七肽、八肽、九肽抗菌肽

图4 抗菌六肽体外测试

表1 抗菌肽对各种细菌的MIC测试(黄色区域为临床分离多药耐药菌)

04 抗菌肽体内治疗测试

在测试抗菌肽治疗短时间大量细菌感染急性肺炎的能力实验中,采用中性粒细胞缺乏症小鼠建立细菌急性感染模型,再用雾化给药的方式进行治疗(图5a)。经抗菌肽治疗后(CRRI3、4、7组),小鼠肺部细菌减少99.8%(图5b),且肺部损伤得到明显改善(图5c)。在测试抗菌肽应对更难治疗的小鼠慢性肺炎的能力实验中,结果显示,经抗菌肽治疗后小鼠肺部细菌减少了98.1%,且肺部损伤也得到明显改善,从而证明了抗菌肽具有优异的体内治疗效果。

图5 抗菌六肽体内治疗效果

作者说

该项工作体现了生物医学工程、计算机科学领域的深度交叉,也是我个人在该领域的首次尝试。在项目的实施过程中也不可避免地遇到各种问题:

首先就是领域差异问题,计算机领域的研究者缺乏生物医学工程科研经验,而我自身则缺乏计算机领域相关知识,这也导致研究工作初期存在巨大的沟通障碍。幸而,研究双方展现了科研工作者坚韧不拔的品质,各自学习对方领域知识,直至双方都能准确理解各方思路。当然,除沟通外,这类开创性工作也不可避免地更容易陷入泥潭,甚至需要打破重来。在一年重复失败,且深感简单调整无法实现科研目标的情况下,我们团队破釜沉舟,打破原有设计思路,彻底重新设计模型架构,终于获得了理想的结果。

追求创新需要勇气,去走一条前人未走过的路。这势必是一条艰苦卓绝的路,但或许也正是一条直达顶峰的路。

学术成果奖

国际校区于每年年底评选出本年度最值得表彰的学术成果,2022年度共评选出10项研究成果,该研究成果为获选成果之一。

 

(图文:黄俊杰;编辑整理:任悦,李真鸣;图文编辑:李亦楠;责任编辑:薛倩;审核;吴锋滨)