文献分享:Optimization of therapeutic antibodies by predicting antigen specificity from antibody seq...

    大家好,这次分享的是瑞士苏黎世联邦理工大学系统与免疫学实验室Sai T.Reddy课题组去年发表在Nature Biomedical Engineering上的一篇优化治疗抗体的文章,标题是通过深度学习从抗体序列预测抗原特异性来优化治疗抗体。

标题及作者介绍

    18年文章介绍了利用cas9基于哺乳动物进行抗体高通量改造的方法

Cas9建库方法参考18年文章

    这篇文章结合cas9和深度学习开发了一种抗体药物高通量优化筛选的流程,fig1可以当成整个文章的流程介绍。a图是产生深度学习训练数据的过程,他基于过去开发的方法,用cas9介导的同源定向突变生成了点突变文库,经过荧光激活细胞分选筛选文库后进行深度测序,使用深度突变扫描(通过高通量测序最终确定突变对蛋白质功能的影响,这种技术使能一次性产生数以万计的变异体,然后使所有的变体相互竞争从而确定他们的相对适应性价值,制造蛋白质最合适、最活跃的细胞会更加丰富,制造不活跃版本的细胞则消失)评估突变在不同位置上对蛋白质功能的影响,并引导构建组合突变文库,经过表达分选后最终得到了HER2结合和非结合的突变体,深度测序后得到突变体CDRH3序列作为深度神经网络训练和测试的数据集,接着想通过得到的模型准确预测未知抗体变体的抗原特异性(通用的?可能不是),从而产生数百万个预测结合抗体,接着对结合抗体用计算机工具预测黏度、可溶性、免疫原性等因素进行筛选优化,最终得到优化的稳定表达的单克隆抗体药物。


Fig. 1 | Implementing deep learning to predict antibody target specificity

    Fig2开始是具体的过程,对突变全局景观基于序列的分析,抗体的CDRH3序列(可变重链互补决定区)是决定其抗原特异性的关键因素,作者利用CRISPR-Cas9介导的同源突变(Homology-Directed Mutagenesis, HDM)技术,对表达曲妥珠单抗突变体(无法与HER2结合)的杂交瘤细胞( 由于靶向肿瘤细胞表面抗原HER2的曲妥珠单抗赫赛汀是科学界众所周着且结构已在开发获取数据库中公开,使用曲妥珠单抗),针对CDRH3序列设计了含有简并密码子NNK的gRNA单突变文库,每个模板与原突变体序列相比仅有一个密码子不同,经过突变、荧光激活细胞分选(FACS),Ab+是抗体表达,Ag+是抗原特异性(先表达再特异性为后分类)对表达IgG的细胞进行深度测序,b为相应热图(15选10个原因?6哥不变,一个是结合残基)

    在三轮富集后计算CDRH3各个位点氨基酸富集率,并合理设计gRNA组合突变文库,通过HDM整合到曲妥珠单抗变体中,在二轮富集后荧光激活分选抗原结合非结合细胞,深度测序后分别确定了11300个结合和27539个非结合。

    fig2e显示的是结合的序列和非结合的序列在每个位置的AA使用频率较为相似,无法通过可观察的方式去识别结合序列,因为抗原结合是高维度,更为复杂的,所以才想到着手开发和训练能够预测抗体对靶抗原HER2特异性的基于序列的机器学习深度学习模型。


Fig. 2 | Sequence-based analysis of the mutational landscap

fig3深度学习模型准确预测抗原特异性。

    首先是b图前半段,10个AA序列通过独热编码转换为输入矩阵被计算机识别,矩阵每一列代表一个特定的残基,每一行对应在序列中的位置顺序,10AA即为10X19的矩阵,每行对应残基位置为1其他为0,将序列这样编码输入后进行多个模型尝试,在a图中尝试了多种机器学习模型,通过精确率(预测正的有多少对的)、准确率所有预测中预测正确的比例、召回率实际正样本中预测为正的概率、F1分数、MCC(马修相关系数,二分类评分)评估模型性能,因为卷积神经网络更能适应高维度高数据量的数据,适合蛋白质工程,且性能也较优,于是专注进一步优化CNN,并用于后续筛选,b图为最终架构和参数

    c图为对CNN模型的评估,这些曲线是在训练的条件下,设置不同划分阈值下CNN准确分类测试数据的评估,右边100000随机选择的序列的预测概率p


Fig. 3 | Deep-learning models accurately predict antigen specificity

    之后是对CNN模型预测的抗原特异性抗体的验证,作者基于计算机预测生成了7.2X10^7个可能的序列变体,用训练好的模型预测序列变体的结合能力,将p阈值设置为0.7增加可信度,为了检验模型的预测成功率,随机选择了p>0.75,30个预测为抗原特异性的抗体和p<0.1的12个预测为非特异性的CDRH3序列,为了进一步验证识别能力,还设置了条件,和原始CDRH3序列的最小LD距离必须为5,并且在两类抗体训练集中都有相似的序列,进行重组表达和实验验证,图4a为展示了30个变体,b为两类训练集中与随机序列序列相似的最近序列,c为使用生物层干涉仪(研究生物分子相互作用)确定30个变体序列的亲和力,Ka结合速率常数,kb解离速率常数,亲和力表现较好

    Fig4c是预测变体的序列空间分析,先对预测为结合和不结合的序列进行了序列相似性网络分析,聚类在LD<=2时进行,表明大部分变体没有可识别的结合或者非结合预测簇,图示两个密切相关的序列却有相反的分类,e图对密切相关的序列采取了能有效提取并可时候CNN建立的分类模式的可视化方法,可视化氨基酸的非线性组合


Fig. 4 | Neural-network-predicted sequences are experimentally validated to be antigen-specific


Fig. 4 | Neural-network-predicted sequences are experimentally validated to be antigen-specific

     Fig5是对抗体的进一步优化,通过计算抗体Fv电荷和FvCSP、CamSOl、NetMHCIIpan分别预测抗体的黏度、可溶性、免疫原性信息,筛选高于曲妥珠单抗的抗体序列,又因为实验验证的训练集中只有9个符合条件,就将筛过的数据选取了大于9个的。


Fig. 5 | In silico screening of the predicted binders identifies candidate sequences for further validation.

    Fig6作者基于上述因素提出了可开发性分数,选取可开发性分数前一百序列构建文库分选鉴定后最终鉴定了55个突变体,选取亲和力最高的10个突变体,检测其可表达性,热稳定性以及潜在免疫原性,最终认为1号突变体在热稳定性方面优于曲妥珠单抗,且免疫原性更弱。

Fig. 6 | Experimental characterization of selected sequences reveals optimal candidates

你可能感兴趣的:(文献分享:Optimization of therapeutic antibodies by predicting antigen specificity from antibody seq...)