论文笔记《TAG-DTA:Binding-region-guidedstrategytopredictdrug-target affinity using transformers》

TAG-DTA:结合区域引导策略,使用transformer预测药物-靶标亲和力

对目标特异性化合物选择性的适当评估在药物发现环境中至关重要,促进药物-靶标相互作用 (DTI) 的识别和潜在线索的发现。考虑到这一点,准确预测无偏药物-靶标结合亲和力 (DTA) 指标对于理解绑定过程至关重要。然而,大多数硅计算方法忽略了蛋白质组学、化学和药理学空间之间的相互依赖关系以及模型构建过程中的可解释性。此外,这些方法尚未在学习过程中积极包含与绑定口袋相关的信息,这对于 DTA 预测性能和模型可解释性至关重要。在这项研究中,我们提出了一种基于端到端绑定区域引导的基于 Transformer 的架构,该架构同时预测 1D 绑定口袋和 DTI 对的结合亲和力,其中一维绑定口袋的预测指导并调节 DTA 的预测。

该架构使用一维原始顺序和结构数据分别表示蛋白质和化合物,并结合多个 Transformer-Encoder 块来捕获和学习蛋白质组学、化学和药理学上下文。预测的 1D 绑定口袋调节用于学习药理学空间的 Transformer-Encoder 的注意力机制,以便对绑定相关位置之间的相互依赖关系进行建模。结果表明,与最先进的基准(包括蛋白质组学和化学表示空间的未知子集)相比,所提出的架构 TAG-DTA 在 DTA 预测中实现了最佳性能。此外,一维结合口袋预测提高了药理学空间聚合表示的判别力和稳健性,提高了 DTA 预测性能。总体而言,本研究验证了基于端到端 Transformer 的架构在药物发现的背景下的适用性,并且结合计算不同但上下文相关的任务对于 DTI 领域的新发现至关重要。此外,它表明 TAG-DTA 由于注意块的性质和一维结合口袋的预测,能够提供越来越多的 DTI 和预测理解。
什么是1D口袋:
"1D binding pocket"是一个用于描述蛋白质与配体相互作用的概念。在蛋白质中,"binding pocket"或"结合口袋"是指一些特定的氨基酸残基形成的小口袋,这些口袋可以与小有机配体结合,形成特定的化学特异性和亲和力¹。这些口袋通常由少数几个残基形成,而其余的蛋白质结构则作为框架,提供正确的结合残基定向¹。

"1D"可能是指这个口袋在一维蛋白质序列中的表示。在一些研究中,科学家们开发了算法和工具,如DeepDrug3D¹和TAG-DTA²,来预测和分类蛋白质中的1D结合口袋。这些工具可以帮助我们理解小分子如何与蛋白质交互,以及这些交互如何影响蛋白质的功能。

总的来说,"1D binding pocket"是一个描述蛋白质与配体相互作用的方式,它考虑了蛋白质一维序列中的信息,以及这些信息如何影响蛋白质的结构和功能。这是一个在计算生物学和药物设计中非常重要的概念。¹²

Source: Conversation with Bing, 08/04/2024
(1) DeepDrug3D: Classification of ligand-binding pockets in proteins … - PLOS. https://journals.plos.org/ploscompbiol/article?id=10.1371%2Fjournal.pcbi.1006718.
(2) GitHub - larngroup/TAG-DTA: TAG-DTA: Binding Region-Guided Strategy to … https://github.com/larngroup/TAG-DTA.
什么叫做端到端
在计算机科学和信息技术领域,"端到端"的概念指的是一种通信方式,数据从发送方直接传输到接收方,而不需要中间环节对数据内容进行解析和处理1。例如,在网络通信中,"端到端"强调的是数据传输过程中的直接性和完整性1。

在深度学习和人工智能领域,"端到端"的概念表示模型可以直接利用输入数据而不需要其他处理1。例如,卷积神经网络(CNN)就是一个典型的端到端模型,它可以直接接收原始图像作为输入,然后输出识别结果,而无需进行特征提取等预处理步骤

“门控一维卷积神经网络”(Gated 1D CNN)
是一种深度学习模型,它结合了卷积神经网络(CNN)和门控机制¹。在这种网络中,一维卷积被应用于输入数据(例如时间序列数据),而门控机制则用于控制信息的流动¹。
在这种模型中,“门控”(Gated)是一种机制,它可以学习如何最好地利用输入信息。例如,它可以学习在何时忽略某些输入信息(通过将门的值设为接近0),以及何时允许某些信息通过(通过将门的值设为接近1)¹。
“一维卷积神经网络”(1D CNN)是一种特殊类型的神经网络,它使用一维卷积而不是传统的二维卷积。这使得它们特别适合处理具有时间或空间顺序的数据,例如音频信号、时间序列数据或一维化学结构²³⁴⁵。

Source: Conversation with Bing, 08/04/2024
(1) Gated Convolution Network Explained | Papers With Code. https://paperswithcode.com/method/gated-convolution-network.

ChEMBL和BindingDB
都是收集药物-靶点对生物活性数据的数据库,它们提供了关于药物分子与其靶标蛋白质相互作用的详细信息。

ChEMBL 是一个手工策划的数据库,收集具有类药属性的生物活性分子。它汇集了化学、生物活性和基因组数据,以帮助将基因组信息转化为有效的新药物。ChEMBL数据库涵盖多种生物活性数据类型和时间段,为药物发现平台提供支持¹。

BindingDB 是一个公开访问的数据库,主要收集药物靶标蛋白质和类药小分子之间相互作用亲和力的数据。BindingDB的数据来源包括文献报道数据、专利信息、PubChem BioAssays数据和ChEMBL记录数据。亲和力数据来自多种测量技术,包括酶抑制活性和酶动力学、等温滴定量热法(ITC)、核磁共振(NMR)以及放射性配体竞争测定法等,数据类型包括Ki、IC50、Kd、EC50等²³。

这些数据库对于药物设计和研究人员来说是非常宝贵的资源,因为它们提供了大量的数据,可以用来预测新药物的效果,或者寻找现有药物的新用途。

Source: Conversation with Bing, 21/04/2024
(1) ChEMBL Database. https://www.ebi.ac.uk/chembl/.
(2) Binding Database Home. https://www.bindingdb.org/bind/index.jsp.
(3) 药物设计人员都在使用的权威免费药物-靶点相互作用数据库推荐 - 知乎. https://zhuanlan.zhihu.com/p/552997366.
(4) ChEMBL靶点及化合物的生物活性数据 | 药研导航. https://drugx.cn/sites/chembl%E9%9D%B6%E7%82%B9/.
(5) 靶点与生物活性数据库ChEMBL-广东药科大学图书馆. https://library.gdpu.edu.cn/info/1008/10332.htm.
(6) undefined. https://chrome.google.com/webstore/search/bdbfind.
(7) undefined. https://addons.mozilla.org/addon/bdbfind.
(8) undefined. https://www.ebi.ac.uk/chembl/详细描述ChEMBL数据库是欧洲生物信息研究所.

你可能感兴趣的:(深度学习,论文阅读,python,深度学习)