研究蛋白质共有四个视角:
1. 蛋白质家族(域和基序);
2. 蛋白质的物理性质;
3. 蛋白质定位;
4. 蛋白质功能。
要考虑的第一个视角是蛋白质家族,在这方面将会定义家族、域及基序这样的术语。接下来我们将考虑蛋白质的物理性质,以及如何评估它们。这些特性包含分子重量、等电点及转译后修饰。
接下来考虑蛋白质的方式与基因本体论联盟提供的概念框架,在过去的几年时间里2000亿个DNA堿基对被测序,包含了数千个生物体的完整基因组。生物信息学领域的主要挑战是识别蛋白质编码的基因,而另一个重大挑战是为这些基因进行注释,即对它们的本质和功能进行说明。基因本体论联盟提供了一个灵活可控的词汇表描述蛋白质的三个方面:细胞组成、生物学过程及分子功能。
让我们以考虑几种类型的蛋白质开始讨论蛋白质域。在最简单的情况下,一个蛋白质(或基因)与可用数据库中的任何序列都不匹配,这种情况随着被测序的基因组数量越来越多逐渐减少,然而发现大量预测的蛋白质没有可识别的同源物依然很常见。即使没有已知的同系物,蛋白质仍可能具有跨膜域、磷酸化潜在位置和某些预测的二级结构等特征。这些特征或许能够给蛋白质的功能或结构提供某些线索。
对于具有同源序列或旁系同源的蛋白质,在至少两种蛋白质(或DNA序列)之间有明显相同的氨基酸相同的区域。这些共享重大结构特征或序列特征的蛋白质区域有各种各样的名字:签名,域,模块,模块化元素,折叠,基序,模式或复制。这些术语有各种各样的定义,但都指向一个理念,即都与多重蛋白质共享的氨基酸序列密切相关。这些区域可以根据蛋白质结构或功能来考虑。下面我会主要采用InterPro联盟提供的定义,InterPro是一个综合的文献资源集,包含了一组有关蛋白质家族、域或功能位置的数据库。
信号是一个表示蛋白质种类的广义术语,如域、家族或修正。当单独考虑单个蛋白质序列时,只能从其功能或结构中推断出有限数量的信息。然而,当你匹配相关序列时,一个共有序列可能被识别。有两种主要类型的信号,每一种都有自己的方法。
域是采取特定三维结构的蛋白质区域,其也被称为模块。“折叠”被广泛使用在三维结构语境下,同时,共享同一个域的一组蛋白质被称为一个家族。许多蛋白质域基于域的亚细胞定位或域的结构被更进一步地分类。目前有许多蛋白质家族数据库,如Pfam和SMART。
基序是短且保守的蛋白质区域,其通常由蛋白质家族特有的氨基酸组成。被定义的基序的尺寸通常有10到20个连续的氨基酸残基,尽管它可以更小或更大。一些简单而常见的基序,如形成跨膜域或一致磷酸位点的氨基酸序列,当在一组蛋白质中发现时并不意味着同源性。在其他情况下,一个小型基序或许为蛋白质家族提供典型信号。
在许多情况下,共享同一个域的两个蛋白质也共享常见的功能。例如,类免疫球蛋白结构域(InterPro注册号IPR007110,有1000多个成员)是由人类基因组编码的最常见的结构域,许多具有这一结构域的蛋白质在细胞外信号传导中发挥作用。再举另一个例子,在人类中有数百种小型鸟苷三磷酸(GTP)结合蛋白(InterPro注册号IPR005225),许多被认为是通过GTP结合与水解的循环调解细胞内转运小泡的对接与融合。另外,其他相关的低分子量GTP结合蛋白在细胞周期控制和细胞支架组织中发挥作用。这个超家族被组织成相关的亚家族,并且被假定具有相同的功能。
现在将注意力集中在单个结构域上,蛋白质有许多种方式可以共享这个结构域。完整的蛋白质或许包含一个结构域,如脂质运转蛋白结构域或球蛋白结构域。除此之外,许多其他的小型球状蛋白质也包含单个结构域。
一个结构域形成一个蛋白质的子集更为常见,两个蛋白质的比较通常表明结构域占据每个蛋白质的不同区域。一组六个蛋白质包含一个域,其赋予每个蛋白质结合甲基化DNA的能力。这些蛋白质中的其中一个,MeCP2,是一个结合不同基因调控区域的转录抑制子。MECP2基因突变会引起rett综合征,这是一种影响女孩的神经障碍,是引起女性智力迟钝最常见的原因之一。我们可以对MECP2蛋白序列进行同源搜索以说明蛋白质结构域的概念。BLAST的搜索结果显示MeCP2的一部分与其他5种MBD蛋白质相匹配。另外,对MeCP2/MBD家族的研究表明这些蛋白质大小不一,仅仅是MBD结构域是相同的。
一个家族的定义是什么?如果一组蛋白质只有一个共同的结构域,那么它们是同源的吗?MBD结构域明显同源(出自于一个共同的祖先),将这组蛋白质定义为一个家族,但是在MBD结构域外部的区域没有共享有重要意义的氨基酸特性。一个家族是一组进化相关的蛋白质,其共享一个或多个同源区域。
第三个关于蛋白质包含单个结构域的设想是结构域可能被重复多次。在现代人种中两种最常见的蛋白质结构域是免疫球蛋白结构域和纤连蛋白重复序列。这两种结构域在具有细胞外结构域的一组蛋白质中呈现不同的数量。尤其要注意的是,这些以及其他细胞外结构域在人类和多细胞线虫类秀丽隐杆线虫中相当丰富,但在单细胞真核生物酿酒酵母中却异常缺乏。对由不同基因组编码的蛋白质家族进行比较有助于了解每个生物体呈现的生物学过程。
到目前为止,我们主要关注单一结构域主题。多域蛋白质提供了一种常见、更复杂的情况,HIV-1 gag-pol就是这种蛋白质的示例。gag-pol基因编码单条大型多肽,这条多肽裂开为具有多个明显生化活动的独立蛋白质,包含一个天冬酰胺蛋白酶、一个逆转录酶及一个整合酶。要注意的是其他的多域蛋白质,如免疫球蛋白结构域蛋白质在成熟的多肽中保持不同的结构域,而不是把它们分割成不同的蛋白质。
为了检测gag-pol的序列,我们首先进入NCBI的Entrez Gene。这一条目显示蛋白质的注册号为NP_057849(对应于一个含有1435个氨基酸残基的蛋白质),并且显示出gag-pol至少编码六个成熟蛋白质,每一个都有RefSeq标识符。当我们使用序列检索系统(SRS)进入HIV-1和gag-pol的搜索页面时,可以发现75个条目。将这些结果限制到1435长度的序列,发现只有8个匹配的结果。通过检查很难发现哪个是原型(强调了定义引用序列的类RefSeq项目的好处),选择第一个匹配结果(蛋白质序列数据库注册号O93215)。蛋白质序列数据库包含许多有关数据库的链接,如InterPro、Pfam、PROSITE、ProDom和结构数据库。沿着ProDom链接,可以找到与HIV-1 pol共享至少一个结构域的一系列蛋白质。ProDom的结果是与HIV-1 pol共享区域的数百种蛋白质的图形概述。
在结构域内,可能会有少量一贯的特有氨基酸残基,它们被称为基序。在酶的活性部位稳定发现的氨基酸就是一种基序。在HIV-1 pol的天冬酰胺蛋白酶结构域,天冬酰胺残基对蛋白酶水解反应至关重要。PROSITE是蛋白质基序词典,跟随来自ExPASy的链接或是直接搜索位置,可以发现天冬酰胺蛋白酶条目。基序由12个氨基酸残基组成的串确定:[LIVMFGAC]-[LIVMTADN]-[LIVFSA]-D-[ST]-G-[STAV]-[STAPDENQ]-x-[LIVMFSTNC]-x-[LIVMFGTA],这种格式与PHI-BLAST格式相同。基序可能在结构域内部,也可能在结构域外部。
基序是典型的蛋白质结构域子集,在几乎所有的脂质运载蛋白中都能发现的较短基序是GXW。PROSITE(文档PDOC00187)中定义的一致性模式合并了微淘GXW的几个额外的氨基酸,基序为:[DENG]-x-[DENQGSTARK]-x(0,2)-[DENQARK]-[LIVFY]-{CP}-G-{C}-W-[FYWLRH]-x-[LIVMTA]。GXW序列以G-{C}-W的形式呈现,其中的波形括号表明除了半胱氨酸之外的其他任何氨基酸都可以在这个位置被接受。有些基序特别短、非常常见,如丝氨酸或苏氨酸周围的序列是许多激活酶的底物。这些基序并不特定于特别的蛋白质家族,它们在多蛋白质中的出现并不反应同源性。在PROSITE中搜索激活酶(kinase)可以找到三十多个条目,包含了激活酶和激活酶底物特征。其中一个条目是蛋白激酶C(PKC)的一致磷酸化位点。这一简单基序在蛋白质中出现成千上万次。
PROSITE数据库中关于正则表达式一个重要的方面是它们是定性的而不是定量的。当模式适应复杂性定义,如在给定位置有几个不同的氨基酸残基,当蛋白质序列与模式相比较时错误匹配不被容忍。与严格的模式相比,许多数据库如Pfam、ProDom和SMART使用轮廓图。轮廓图与模式类似,由多重序列配对形成,但使用特定位置的得分矩阵。它们也比使用模式跨越更大的蛋白质序列。