随着高通量质谱技术的高速发展,研究人员可以从蛋白质组学中挖掘到更深更为可靠的数据信息。在蛋白质组学中,翻译后修饰组学是尤其重要的研究方向,磷酸化(Phosphorylation)修饰作为涉及蛋白质范围最广泛,修饰位点数量最多的修饰类型,成为了研究人员关注的对象。众所周知,磷酸化修饰通过影响蛋白质的活性、蛋白质-蛋白质相互作用及蛋白质细胞内定位等方式调节蛋白质的功能。随着组学技术的发展及精准医学概念的提出,蛋白质的磷酸化异常与疾病的发生发展密切相关,包括癌症、神经退行性疾病以及心血管疾病等等,为疾病的诊断和靶标的发现提供了潜在有价值的生物学空间。过去十多年间,人体中鉴定到的蛋白质磷酸化修饰位点的数目超过50条。然而由于生物功能实验的复杂性,目前具有功能注释信息的磷酸化位点不到一万条,对磷酸化位点的功能研究成为翻译后修饰位点研究中的“瓶颈”问题。
针对以上问题,金沙集团186cc朱斐、金沙集团186cc系统生物学研究中心梁中洁课题组和中国科学院上海药物研究所罗成课题组,于2023年9月1日,在Cell Reports上发表了题为“Deciphering the functional landscape of phosphosites with deep neural network”的研究成果。该研究从现有的具有功能注释信息的磷酸化位点数据出发,提出一种集成的深度神经网络模型FuncPhos-SEQ对人类蛋白质组水平上的磷酸化位点进行功能预测打分,该模型使用卷积神经网络通道提取磷酸化位点基序的序列信息,使用网络嵌入和深度神经网络通道提取蛋白质—蛋白质相互作用(PPI)网络信息,将这些特征联合输入到异构特征网络中对磷酸化位点的功能进行打分预测。并构建了FuncPhos-SEQ的在线服务器http://funcptm.jysw.suda.edu.cn/seq。通过结合体外和细胞生化实验发现NADK-S48/50磷酸化可激活其酶活性。此外,还发现了ERK1/2作为NADK-S48/50磷酸化的主要激酶。
通过检索PSP、EPSD、iPTMnet以及PTMD数据库收集了人类具有功能磷酸化位点的3335个蛋白质及135063个磷酸化位点。其中,带有功能注释的磷酸化位点有9769个。根据PSP数据库的注释,功能磷酸化位点的作用包括蛋白质分子功能的调控、参与生物过程以及大分子间互作。通过多序列比对分析发现功能性磷酸化位点具有较高的保守性及一定的共演化特征;同时,具有功能性磷酸化位点的蛋白质在蛋白质—蛋白质互作(PPI)网络中具有较高的连接度、介数等网络拓扑参数,表明PPI网络拓扑在磷酸化位点发挥功能中不可忽视的作用。基于功能性磷酸化位点的特征统计,研究团队提出了一种基于蛋白质序列和PPI信息的人类蛋白质组水平的磷酸化位点功能预测的深度学习框架FuncPhos-SEQ。
该模型由两个特征编码子网络(SeqNet和SPNet)和一个特征组合子网络(CoNet)组成。通过测试不同的序列特征和模型组合,在SeqNet中采用One_Hot、PSSM编码及保守性特征来构建磷酸化位点所处基序的特征图谱。使用CNN框架来自动提取二维矩阵的序列特征信息,在One_Hot通道增加最大池化层减小来自上层隐藏层的计算复杂度;在PSSM通道增加位置嵌入和自注意力机制,添加残基的绝对或相对位置信息来进一步捕捉蛋白质序列中残基之间的长距离依赖关系和全局信息。在SPNet中通过SDNE网络嵌入方法对PPI网络进行编码学习蛋白质之间的非线性关系,并通过DNN框架优化PPI网络特征, 为磷酸化位点功能提供蛋白质层面的上下文信息;最后在CoNet中使用FNN对输入的特征进行非线性变换,在网络最后一层使用Sigmoid激活函数用于预测磷酸化位点具有功能的概率。对于不平衡问题,对阴性数据集随机下采样11次,并在具有不同阳性与阴性数据比率的测试集上进行预测。结果表明FuncPhos-SEQ在不同的测试集上均能对磷酸化位点的功能(包括调控活性、调控互作及非特异功能)均能获得较好的预测效果。
NADP+/NADPH(辅酶Ⅱ)参与磷酸戊糖代谢过程,为大分子生物合成和清除过量ROS提供还原力,支持细胞生长和存活,对快速增殖的癌细胞尤为重要。在人类细胞中,NADK是NADP+/NADPH合成的关键限速酶。磷酸化修饰作为一种可逆及快速调节蛋白质活性的方式,已被报道参与调节NADK活性。AKT等激酶可以通过磷酸化NADK起到激活NADK酶活的作用,且NADK-S44/46的磷酸化可以部分激活NADK活性,而NADK-S44/46/48三磷酸化可以进一步增强NADK活性,但S48位的磷酸化酶仍未被发现。
使用FuncPhos-SEQ对NADK上的磷酸化位点进行打分,其N端loop区的S15、S44、S46、S48、S50、T62、S64和S103上的磷酸化位点作为功能位点排名较高。为了验证这几个位点的功能,研究人员首先在293T细胞中过表达NADK,通过质谱鉴定发现S48/50磷酸化修饰最强。进而将S48/50突变为D,发现突变体的酶活较WT增强。为了确定哪些激酶负责NADK-S48/50的磷酸化,在293T细胞中过表达Flag-NADK蛋白,并使用Co-IP结合质谱分析来鉴定潜在的NADK相互作用蛋白,结合文献报道,发现MAPK家族的ERK1/2可能是磷酸化NADK的激酶。借助Co-IP和Pull-down技术进一步确证了NADK和ERK的相互作用。最后经过体外酶活验证,ERK2通过磷酸化NADK-S48/50激活NADK的酶活,进一步调控细胞内NADPH含量。
综上,研究团队构建的FuncPhos-SEQ模型只需要原始蛋白质序列作为输入,能够对人类蛋白质组层面的磷酸化位点进行功能预测。模型具有较高的计算效率,构建的在线服务方便生物学家访问。以NADK为例,使用FuncPhos-SEQ预测了NADK的功能磷酸化位点,并通过实验验证ERK1/2为磷酸化NADK-S48/50的激酶。Ras尤其是KRAS的突变是肿瘤中发生最广泛的激活型致癌突变,而MEK-ERK1/2和PI3K/AKT信号通路是KRAS下游最重要的两条信号通路。研究结果发现,NADK-44/46/48/50磷酸化比NADK-44/46或NADK48/50磷酸化更有效地增强了NADK活性,这表明AKT和ERK1/2激酶可以共同激活NADK活性。该研究丰富了我们对KRas调控NADK活性方式的认识,为靶向Kras信号通路提供了更多可能性。
金沙集团186cc朱斐副教授、中科院上海药物研究所罗成研究员为该论文的共同通讯作者,金沙集团186cc硕士生张广玉、金沙集团186cc梁中洁副研究员等为该论文的共同第一作者。该研究获得国家重点研发计划、国家自然科学基金、杭州高等研究院研究基金等项目的资助。