摘要

动机:已经进行了大量的衰老微阵列研究,但鉴于基因表达随年龄变化的嘈杂性质,阐明衰老的转录特征及其与生理、生化和病理变化的关系仍然是一个关键问题。

结果:我们使用小鼠、大鼠和人类的27个数据集对年龄相关基因表达谱进行了荟萃分析。我们的研究结果揭示了衰老的几个常见特征,包括56个基因始终随着年龄的增长而过度表达,其中最重要的是无足的, 17个基因随着年龄的增长而低表达。我们描述了与这些特征相关的生物学过程,发现与年龄相关的基因表达变化最显著的是炎症和免疫反应基因以及与溶酶体相关的基因的过表达。胶原蛋白基因和与能量代谢相关的基因,特别是线粒体基因,以及与凋亡、细胞周期和细胞衰老生物标志物相关的基因表达的改变也被观察到。通过采用一种强调敏感性的新方法,我们的工作进一步揭示了许多基因、过程和功能中先前未知的随年龄变化的转录变化。我们认为这些分子特征反映了退行性过程的组合,但也反映了衰老过程的转录反应。总的来说,我们的研究结果有助于理解转录变化与衰老过程的关系,并可作为未来研究的目标。

可用性:http://genomics.senescence.info/uarrays/signatures.html

联系人:jp@senescence.info

补充信息:补充数据可于生物信息学网上。

1介绍

基因表达的变化与许多生物过程、细胞反应和疾病状态有关。微阵列的可用性使得以高通量方式研究基因表达并收集关于生物学和疾病的见解成为可能。近年来,人们对微阵列进行了大量的研究。为了编译和组织生成的大量数据集,资源如基因表达Omnibus (GEO) (Barrettet al。2007)已成立。来自多个实验的微阵列数据的可用性开辟了新的研究机会。通过消除单个平台的特性和提高信噪比,比较不同平台和物种的特征可能会揭示保守的分子特征,否则在单一数据集中会很模糊(Moreauet al。2003;Ramasamyet al。2008).事实上,整合多种微阵列研究的基因表达谱的元分析对于识别癌症的保守遗传特征特别有用(Rhodeset al。2004).

衰老是一个重要的生物过程,也是许多疾病的危险因素。为了对衰老过程有新的认识,并识别潜在的重要基因和生物标志物,通过比较年轻和年老的组织,在包括人类在内的几个物种中进行了许多微阵列研究(Edwardset al。2007;艾达et al。2003)或通过比较整个生命周期的样本(Luet al。2004;罗德威尔et al。2004).为了收集和存储衰老中的大量基因表达数据,最近组装了一个名为基因衰老Nexus (GAN)的基因表达衰老研究数据库(Panet al。2007).然而,衰老基因表达的研究一直是典型的嘈杂,通常很少有基因被发现随年龄的不同而表达差异,其中更少的基因被发现重叠在不同的组织(Weindruchet al。2002)和物种(McElweeet al。2007).因此,阐明衰老的转录特征及其与生理、生化和病理变化之间的关系仍然是一个关键问题。

考虑到迄今为止在不同组织和生物中进行的衰老基因表达研究的数量,有可能采用组合方法来识别正常衰老过程的共同分子特征。由于衰老的潜在分子机制仍然是一个有争议的话题,然而,仅仅是转录程序的存在驱动衰老是一个有争议的问题,独立的转录程序是否可以在不同的组织中驱动衰老是未知的。先前的结果表明,在特定组织中随年龄差异表达的大多数基因并不是在该组织中特异性表达的基因(Rodwellet al。2004),这表明只有一小部分转录反应是组织特异性的,因此衰老的分子特征可能重叠在不同的组织中。然而,衰老的分子特征可以有不同的解释,而不是作为一个积极的衰老程序。例如,它们可能代表补偿机制(de Magalhaes和Toussaint,2004).

在这项工作中,我们的目标是识别衰老的常见分子特征。我们将这些特征定义为分子随年龄变化的显著特征,它们可能与表征衰老的生理衰退有关,并在其中发挥生物学作用。我们从GAN和GEO中获取了27项公开的小鼠、大鼠和人类研究数据,并对年龄相关基因表达谱进行了荟萃分析。存在许多方法用于微阵列数据的统计和功能注释(Hong和Breitling,2008;Ramasamyet al。2008;尼姆,2002;Verducciet al。2006).在此,我们开发了一种简单的方法来比较不同平台和物种之间的年龄相关基因表达数据,以应对年龄相关基因表达谱的噪声性质,强调敏感性。我们的研究结果揭示了衰老的几个特征,最显著的是炎症/免疫反应基因的激活和线粒体基因的低表达。我们在已知的生理和生化年龄相关变化的背景下解释我们的签名。我们的研究结果进一步揭示了许多以前未知的基因、过程和功能随年龄变化的转录变化,可以作为未来研究的目标,并有助于更好地描绘转录变化如何与不同水平的衰老过程相关。

2方法

2.1数据选择与处理

微阵列数据主要从GAN 2.0版本下载(http://gan.usc.edu/)(锅et al。2007),提供老化基因表达数据资料库,并从GEO (http://www.ncbi.nlm.nih.gov/geo/)(巴雷特et al。2007).该基因表达数据已经通过背景减去(Panet al。2007).下载了所有报告与哺乳动物年龄相关的表达谱的实验,包括比较年轻和年老样本的研究,以及报告两个以上年龄组基因表达谱的研究。绝大多数数据集由来自Affymetrix微阵列的单通道强度数据组成。一项研究使用斑点cDNA微阵列(Idaet al。2003),但也包括在内,因为原始报告中比较的年轻和年老标本的信号强度是可用的。

只分析了来自健康、成年、未处理标本的年龄相关数据,并排除了来自特定疾病、治疗和突变体的数据。例如,在热量限制研究中,我们只从年轻和年老的对照组中获取数据,而不是从热量限制动物中获取数据。对年轻或老样本(但包括使用相同微阵列检查的混合样本)进行的少于三个样本的实验被排除在外。由于衰老基因表达谱可以在成年早期检测到(Luet al。2004;McCarrollet al。2004),所有超过两个成年时间点的数据集都被包括在内,即使最年长的动物是中年人。从一组以高度偏倚方式选择的基因中获得数据的研究(例如,仅以特定途径相关的基因为特征的定制数组)被排除。虽然我们不能对每个实验的质量进行全面评估,但元分析本质上是一种消除低质量数据的技术。

总的来说,研究人员分析了12个小鼠实验,11个大鼠实验和4个人类实验(补充表S1),包括从400多个样本中抽取的近500万个基因表达测量值。如所述(潘et al。2007),不同平台的基因由它们的UniGene id连接。在GEO中,基因注释来自Entrez gene和UniGene数据库,使用序列标识符(Barrettet al。2007).如果给定探针超过30%的测量包含空值或缺失值,则该探针将被排除。否则,空值将被探针的平均值(行平均法)取代,并对针对同一基因的探针进行平均。

2.2检测年龄相关表达谱基因

为了避免比较使用不同平台和实验系统获得的微阵列数据的问题(例如样本的数量和类型),我们放弃了效应量,而是采用了一种元分析方法,比较从每个数据集获得的统计测量,这是最初用于研究癌症的价值计数程序的一种变体(Rhodeset al。20022004).该方法的流程图如下所示补充图S1

对于每个数据集,我们首先测试了给定基因的表达与年龄相关的假设。数据进行log2转换,我们使用以下公式对每个基因进行线性回归:
公式
(1)
在哪里Y ij是基因的信号强度吗j在示例、年龄样品的年龄是来自哪个样品,ɛij是误差项。系数β0和β1都是用最小二乘估计的。

差异表达的统计学意义用双尾估计F-test,以确定曲线的斜率是否不同于零,这在这里将表明表达信号与年龄之间的关联。a基因P-值低于0.05被认为与年龄有关。使用这个0.05的临界值,我们在每个实验中获得了0.91%到9.84%之间的假定过表达和过表达基因,平均每个实验中有4.52%的基因过表达,4.62%的基因过表达。诚然,这是一个相对宽松的临界值,考虑到大多数实验研究了数千个基因,强调的是敏感性而不是特异性。事实上,13793个基因通过了我们的F至少测试一次,这大约代表了所有测试基因的一半。然而,如下所述,我们在确定组合配置文件的统计显著性时谨慎地修正了多个假设检验,以尽量减少假阳性。使用R语言进行计算(R开发核心团队,2008).

在可能的情况下,我们将我们的结果与最初发表的数据集进行了比较,以验证尽管我们放宽了阈值,但结果之间存在相当大的重叠。在人类肾脏数据集的情况下,我们注意到我们的结果与作者(Rodwellet al。2004),特别是在肾髓质中获得的结果,因此我们决定只使用肾皮质的数据。在这个数据集的原始报告中,随着年龄的增长,皮层比髓质有更多的基因差异表达(Rodwellet al。2004),所以尽管采用了这种方法,我们的结果仍然在很大程度上代表了该数据集最初报告的结果。

2.3识别衰老的常见特征

为了识别在衰老过程中持续低表达或过表达的基因,我们试图在我们的多个数据集中找到与年龄相关信号数量最多的基因。为了计算观察到相同或高于过表达或过表达基因出现数量的概率,我们采用了累积二项分布:
公式
(2)
即概率P基因随着年龄的增长而过表达的概率为0.0452,而随着年龄的增长而过表达的概率为0.0462(如上所述),则(k)为假定基因过表达或过表达的实验次数,(n)是测量该基因表达的实验次数。

如果可用,我们使用HomoloGene (Wheeleret al。2008),以获得啮齿动物基因的人类同源体。除极少数例外情况外,我们的结果使用人类同源体的Entrez基因ID和相应的HUGO基因命名委员会(HGNC)符号显示。

费雪卡方反方法被用来作为与价值计数方法的比较。简单地说,对于每个基因,我们计算了对数的和P值在k分别研究过表达和表达不足,并将检验统计量与χ进行比较2- 2k自由度分布,如所述(Hong和Breitling,2008;Ramasamyet al。2008).

为了识别顶级基因中存在的丰富功能基团,我们使用了注释、可视化和综合发现数据库(DAVID) (Denniset al。2003).因为这个分析关注的是丰富的功能类别,而不是单个基因,我们使用了一个更自由的截止阈值来选择顶级基因,详情如下。使用默认选项运行DAVID。

我们使用了基因本体(GO)注释,它描述了基因产品在细胞环境中的行为(Ashburner)et al。2000),以进一步找出因老化而显著改变的通路、过程及功能。为了确定GO类别往往与基因随年龄的过表达或过表达相关,我们使用等式(2),但发生的次数(k)和试验次数(n),不是指单个基因,而是指与该类别相关的所有基因。换句话说,对于存在的8293个GO类别中的每一个类别,我们计算了与该类别相关的每个基因过表达或过表达的次数,然后使用累积二项分布确定统计学显著性。我们使用每个物种的GO注释,然后使用使用的三个物种的结果组合所有GO类别的结果。我们的算法是用Perl语言实现的。

为了使用一组尽可能多样化的配置文件,我们试图从不同的组织获得数据集。在少数情况下,来自同一组织和物种的两个或两个以上的实验是可用的,如果实验产生了收敛的结果,我们只把它们算作一个,如果它们产生了不同的结果(即一个给定的基因在一个实验中随着年龄的增长而低表达,而在另一个实验中过表达),我们就把它们丢弃。在一个关于人类肌肉数据集的例子中,我们合并了来自两个独立实验的结果,因为这些实验是由同一组使用相同的方法和平台进行的(Welleet al。20032004).

2.4假发现率模拟

为了估计单个基因和GO类别的假阳性数量,我们使用随机排列和上面描述的完全相同的程序进行了1000次模拟。换句话说,对于每个数据集,对应于每个表达谱的基因标识符使用Fisher-Yates shuffle算法随机排列,但基因总数、基因名称和表达谱保持不变。这使我们能够偶然地估计出,在我们期望找到的给定阈值之上有多少基因和GO类别。基于我们的模拟,我们计算了错误发现率(FDR) (),定义为预期假阳性的数量超过显著结果的数量(Storey和Tibshirani,2003),查询每个基因及GO类别。我们将显著性阈值设为<0.1,虽然承认是任意的(Storey和Tibshirani,2003)已被用于类似的研究(Rhodeset al。2004).我们的全部结果可于补充材料在我们的网站上(http://genomics.senescence.info/uarrays/signatures.html),如其他人士希望以不同标准进行分析。为<0.1,我们设置了截止值P价值在P过表达基因<0.0007,P低表达基因<0.0002,PGO类别在过表达基因中过度表达,且<0.006P<0.003为GO类在低表达基因中过度表达。对于使用DAVID的FDR分析,我们将阈值放宽为<0.5,这导致了截止P价值的P过表达基因<0.02P<0.009为低表达基因。模拟是使用Perl语言进行的。

2.5数据集间年龄相关基因表达信号比较

微阵列数据来自不同的研究,在不同的条件下。为了尽量减少个体实验在比较基因表达谱时的偏差和特质,我们将log2信号归一化为每个物种的常见年轻和老年年龄:人类分别为25岁和75岁,小鼠为3个月和25个月,大鼠为5个月和30个月。尽管人类和啮齿动物的寿命存在这些差异,但有理由认为,人类和啮齿动物的衰老过程至少有一些共同的机制,只是时间节奏不同,并导致共同的分子特征。从回归系数中,我们使用上述的归一化年龄计算表达式信号old/young的log2比。使用这些值的元签名使用TreeView (Eisenet al。1998).

3的结果

3.1识别随年龄差异表达的基因

归一化微阵列数据,以及来自Affymetrix微阵列的大型单通道强度数据,主要从GAN下载,但也从GEO下载。数据选择后(见第二节),我们从小鼠、大鼠和人类中获得了27个不同的实验,包括从400多个个体样本中测量近500万个基因表达。人们可以想象只有人类的数据集的优势,因为生物之间的衰老可能存在差异,这是一个有很大争议的领域(麦卡罗尔et al。2004;而言et al。2007;锥盘et al。2007),但考虑到在老年人中进行的少量微阵列研究,以及在元比较中的可能优势,我们选择将分析扩展到灵长类动物和啮齿动物。

在微阵列实验中,有几种元分析方法用于检测差异表达基因(Hong和Breitling,2008;男人et al。2003;Ramasamyet al。2008).为了避免比较在相当不同的条件下获得的微阵列数据的困难,我们比较了从单个数据集中获得的差异表达的统计参数,而不是比较平台之间的基因表达信号,这是以前在癌症荟萃分析中使用的价值计数方法(Rhodeset al。20022004).因为随着年龄的增长,基因表达的变化往往比特定疾病更微妙(潘et al。2007)时,我们采用了相对宽松的阈值P<0.05来检验每个实验中每个基因的表达是否与年龄相关(见第二节).之后,为了识别基因一致地随年龄差异表达,我们使用二项分布来测试一个给定基因随年龄低表达或过表达的次数是否高于偶然的预期P-基于FDR分析的值来选择具有FDR的基因()低于0.1(见第二节).我们的元分析方法的流程图如下补充图S1

总的来说,我们在研究中确定了56个基因与年龄一致过表达,使用的截止点为P< 0.0007。在每个实验中,基因被随机分配到基因表达信号的模拟表明,FDR低于10%的情况下,有五个显著基因有望被偶然发现。因此,我们确定的基因代表了与衰老显著相关的表达谱相同的基因的交集(图1A)最低的基因P价值是无足的或载脂蛋白D,先前与神经退行性疾病有关(Kalmanet al。2000).此外,随着年龄的增长,大量基因过度表达在炎症中发挥作用,如CTSSFCGR2BIGJC3C1QA而且C1QB。其他随着年龄增长而持续过表达的基因包括溶菌酶(LYZ), clusterin (俱乐部)、微粒体谷胱甘肽s转移酶1 (MGST1)、谷胱甘肽s转移酶A1 (GSTA1)、S100钙结合蛋白A4 (S100A4)及A6 (S100A6)和膜联蛋白A3 (ANXA3)及A5 (ANXA5).

图1所示。

顶部基因的元签名随着年龄的增长呈现一致的差异表达。(一个)随着年龄的增长,基因一直过度表达。图中选取了15个数据集。红色表示基因随着年龄的增长而过度表达,其强度与年龄/年龄的表达信号成正比第二节).黑色到灰色表示随着年龄增长基因表达不足。(B)图中选择了14个数据集。红色表示基因随着年龄的增长而表达不足,其强度与年轻/年老的表达信号成正比,以调整共同年龄(见第二节).黑色到灰色表示基因随着年龄的增长而过度表达。对于A和B,白色表示未被研究或不显著,基因从显著到不显著排序。

图1所示。

顶部基因的元签名随着年龄的增长呈现一致的差异表达。(一个)随着年龄的增长,基因一直过度表达。图中选取了15个数据集。红色表示基因随着年龄的增长而过度表达,其强度与年龄/年龄的表达信号成正比第二节).黑色到灰色表示随着年龄增长基因表达不足。(B)图中选择了14个数据集。红色表示基因随着年龄的增长而表达不足,其强度与年轻/年老的表达信号成正比,以调整共同年龄(见第二节).黑色到灰色表示基因随着年龄的增长而过度表达。对于A和B,白色表示未被研究或不显著,基因从显著到不显著排序。

我们发现只有17个基因随着年龄的增长而持续低表达P< 0.0002(从我们的模拟来看,平均1.5是偶然的)。这些结果显示在图1B,包括四个编码线粒体蛋白质的基因(ATP5G3NDUFB11UQCRQ而且UQCRFS1)和三种胶原蛋白基因(COL3A1COL1A1而且COL4A5).最上面的基因是转铁蛋白受体TFRC

有趣的是,从我们的元签名中,9个基因过表达和4个基因过表达已被实验验证,主要是通过qRT-PCR直接测量mRNA水平(补充表S2),这表明我们的方法可以检测到生物学上有意义的结果。

为了进一步评估我们方法的威力,我们将结果与Fisher卡方反方法得到的结果进行了比较。在最显著的基因中,重叠是相当大的,使用我们的方法的10个最显著基因中有8个使用Fisher卡方反方法也具有统计显著性。虽然我们使用这种方法获得了大量的显著基因(112对73),但这主要是由于单个实验中少量样本在检验统计量上有偏权(补充表S5和S6).

3.2顶端基因功能注释聚类

为了确定与基因表达随年龄变化相关的生物过程,我们首先使用DAVID中的功能注释工具评估了随年龄差异表达的顶级基因,DAVID是一套可通过网络访问的工具,允许研究人员推断大量基因列表背后的生物学意义(Denniset al。2003).因为我们关注的是丰富的功能类别,而不是单个基因,所以我们采用了更自由的标准来选择用于功能聚类的基因,而不是使用50%的FDR(即。< 0.5)。在随年龄过表达的236个基因中(118个可能是偶然的),最上面的群集与免疫反应有关。同样值得注意的是与溶酶体和细胞凋亡相关的聚类(表1).

表1。

显著差异表达基因的顶级功能注释簇

集群 丰富。分数 不。annot。 不。的基因
过表达基因(n= 236< 0.5)
免疫反应,补体激活 6.88 41 86
溶酶体 6.48 7 16
血浆,细胞外区域 5.41 5 37
信号,糖蛋白 4.55 6 80
细胞凋亡的负调控 2.75 16 53
低表达基因(n= 141< 0.5)
线粒体 5.49 52 70
氧化磷酸化 3.57 79 82
细胞质 3.19 5 108
羟赖氨酸,羟化,胶原蛋白 2.83 43 47
集群 丰富。分数 不。annot。 不。的基因
过表达基因(n= 236< 0.5)
免疫反应,补体激活 6.88 41 86
溶酶体 6.48 7 16
血浆,细胞外区域 5.41 5 37
信号,糖蛋白 4.55 6 80
细胞凋亡的负调控 2.75 16 53
低表达基因(n= 141< 0.5)
线粒体 5.49 52 70
氧化磷酸化 3.57 79 82
细胞质 3.19 5 108
羟赖氨酸,羟化,胶原蛋白 2.83 43 47

显示来自DAVID的富集分数高于2.5的集群。集群标题是根据集群中最广泛的顶部注释来选择的。

表1。

显著差异表达基因的顶级功能注释簇

集群 丰富。分数 不。annot。 不。的基因
过表达基因(n= 236< 0.5)
免疫反应,补体激活 6.88 41 86
溶酶体 6.48 7 16
血浆,细胞外区域 5.41 5 37
信号,糖蛋白 4.55 6 80
细胞凋亡的负调控 2.75 16 53
低表达基因(n= 141< 0.5)
线粒体 5.49 52 70
氧化磷酸化 3.57 79 82
细胞质 3.19 5 108
羟赖氨酸,羟化,胶原蛋白 2.83 43 47
集群 丰富。分数 不。annot。 不。的基因
过表达基因(n= 236< 0.5)
免疫反应,补体激活 6.88 41 86
溶酶体 6.48 7 16
血浆,细胞外区域 5.41 5 37
信号,糖蛋白 4.55 6 80
细胞凋亡的负调控 2.75 16 53
低表达基因(n= 141< 0.5)
线粒体 5.49 52 70
氧化磷酸化 3.57 79 82
细胞质 3.19 5 108
羟赖氨酸,羟化,胶原蛋白 2.83 43 47

显示来自DAVID的富集分数高于2.5的集群。集群标题是根据集群中最广泛的顶部注释来选择的。

对于141个随着年龄增长而低表达的基因(69个是偶然预测的),顶部的群集主要与线粒体和氧化磷酸化以及胶原蛋白(表1).

3.3 GO类在年龄相关转录谱中比例过高

为了进一步识别和描述与基因表达随年龄变化相关的生物过程和功能,我们确定了GO类别在随年龄过表达或过表达的基因中过度代表。在我们的元分析中,我们没有识别信号最强的基因中富集的类别(这在微阵列研究中很常见,我们使用DAVID),而是计算了与给定GO类别相关的所有实验中所有基因的出现次数,并使用二项分布确定了获得相同或更高数量的假定低表达或过表达基因出现的概率(参见第二节).在fdr调整后的截止日期(P< 0.006<0.1),我们发现175个GO类别的基因随着年龄的增长而过表达,而17岁可能是偶然的。排名前几的类别主要与从排名前几的基因中获得的功能注释簇相一致,例如与免疫反应相关的类别,如补体激活(GO:0006958和GO:0006956)和抗原处理(GO:0019886和GO:0002504),溶酶体(GO:0005764),以及凋亡(GO:0006915)和抗凋亡(GO:0006916)。

GO分析的结果不仅加强了DAVID分析的结果,而且使我们能够将许多其他潜在的有趣的功能和过程与老化联系起来。过度表达基因的GO类别包括吞噬作用(GO:0050766和GO:0006911)、溶菌酶(GO:0003796)、铜离子解毒(GO:0010273)、镉离子结合(GO:0046870)、转录抑制因子活性(GO:0016564)和转录负调控(GO:0045892)、tau蛋白结合(GO:0048156)、胰岛素样生长因子结合(GO:0005520)、类视黄酮结合(GO:0005501)和谷胱甘肽(GO:0004364和GO:0006749)。虽然解释这些结果并不简单,因为其中许多可能代表了对衰老的适应,但其他结果可能在衰老过程中发挥一些机制作用,下面将讨论它们对进一步研究的潜在效用。

我们发现84种GO基因在年龄的截止点上富集了低表达基因P<0.003(8个可能是偶然的)。同样,顶级类别与通过DAVID鉴定的功能注释簇基本一致,涉及线粒体(GO:0005759, GO:0005743, GO:0005739等),电子传递链(GO:0006120, GO:0005747, GO:0005746等)和NADH脱氢酶活性(GO:0008137和GO:0003954)。还有其他与能量代谢相关的类别,如三羧酸循环(GO:0006099)、糖酵解(GO:0006096)、有氧呼吸(GO:0009060),甚至更广泛的代谢过程(GO:0008152)。最后,一些类别与胶原蛋白有关(GO:0005586, GO:0032964和GO:0005581)。

4讨论

癌症和衰老微阵列研究之间的一个主要区别是,在癌症中,许多基因倾向于差异表达,挑战是识别最重要的基因,很少有基因倾向于随着年龄的增长而差异表达,挑战是识别重要的基因。为了解决这个问题,我们修改了以前成功用于研究癌症的元分析算法(Rhodeset al。20022004).我们的方法是一个两步过程,首先评估-使用一个放松的阈值来强调敏感性-基因是否与单个数据集中的年龄相关,然后使用二项分布从聚合数据集中构建元配置文件,并基于FDR模拟设置截止阈值。

通过整合几项研究中的基因表达谱,我们能够识别出随着年龄增长而倾向于持续过度或过低表达的基因,这是哺乳动物衰老的元特征。这些基因与使用Fisher逆卡方方法获得的基因重叠,尽管有些是新颖的,但其他的已经通过直接方法验证,这表明我们的方法足以处理衰老基因表达谱的特性,例如数据集的高异质性。

尽管基因表达变化可能会跟随或驱动衰老过程,但这些差异表达的基因可以作为进一步研究的基础,例如,用于推导可靠的衰老生物标志物。此外,我们能够将生物过程和功能与这个元签名联系起来。我们发现,随着衰老而上调的一个主要途径是免疫/炎症反应,这与已知的衰老生理学反应是一致的。众所周知,炎症水平随着年龄的增长而增加,炎症过程与各种与年龄相关的疾病有关(Bruunsgaardet al。2001).此外,考虑到免疫系统的全系统性质,炎症和/或免疫反应随年龄的变化会对不同组织产生影响是合理的,这些影响可以被检测为衰老的共同分子特征。

有趣的是,我们还发现了多种组织中涉及细胞内在机制的途径在衰老过程中不断改变的证据。然而,如上所述,解释老化微阵列实验并不是一件简单的任务(Clarkeet al。2008).现有的表达数据无法解析出复杂样本中不同细胞类型的年龄相关反应,其中一些细胞类型可能正在死亡,而另一些细胞可能正在生长,而另一些细胞则只是处于静止状态。此外,随着年龄的增长而表达差异的基因可能表明了对衰老的转录反应,而不是导致退化的潜在机制或转录程序(de Magalhaes和Toussaint,2004).例如,无足的似乎在防止氧化应激中发挥作用,事实上,过度表达人类无足的在苍蝇中延长寿命(缪法et al。2008).因此,我们假设上调无足的衰老可能不是一种与衰老的生理衰退特征相关的有害机制,而是对衰老过程的一种反应。许多其他基因随着年龄的增长而过度表达,比如MGST1已知它可以保护细胞免受氧化应激(Siritantikornet al。2007),也可能属于这一类。

我们的研究结果表明,与溶酶体相关的基因,如组织蛋白酶(CTSSCTSH而且CTSZ)和溶酶体膜。溶酶体可降解许多大分子,包括蛋白质,这些细胞器中的生化变化已被描述为老化(Cuervo和Dice,2000).一种假设是,与溶酶体功能相关的基因的过表达,以及与吞噬作用相关的基因的过表达,是细胞对年龄增长时异常蛋白质积累的一种反应。在这种情况下,适应性衰老基因表达的变化可以帮助确定其他水平的变化。我们还发现抗凋亡基因和细胞周期调节因子如颗粒蛋白(入库单)和膜联蛋白。有可能这些基因中的一些并不是由于它们在细胞凋亡中的作用而上调,而是作为其他功能的一部分。例如,clusterin (俱乐部)是一种细胞外伴侣,可以减少蛋白质错误折叠和聚集的影响(Kumitaet al。2007).

有趣的是,我们发现了先前在衰老细胞中发现的基因过表达的证据,如纤维连接蛋白(FN1) (Kumazakiet al。1991)及p21 (CDKN1A),但两者均略高于我们的临界值(分别为= 0.11和= 0.21)。p21蛋白随着年龄的增长而上调之前已通过肌肉中的western blot证实(Edwardset al。2007),可能与衰老或生长停滞细胞比例的增加有关,这是一个广泛的其他研究和兴趣领域(de Magalhaes和Faragher,2008).增加的水平俱乐部也与细胞衰老有关,并被证明可以保护细胞免受细胞毒性的伤害(Dumontet al。2002),无足的衰老成纤维细胞的表达也增加(Provostet al。1991).这些结果表明,衰老生物标志物检测在体外可能是哺乳动物衰老过程中的重要生物标志物在活的有机体内。考虑到炎症过程可诱导衰老,衰老细胞可分泌炎性细胞因子(Kuilmanet al。2008),这些细胞生物标志物很可能与系统性因素相关和/或起作用,强调了衰老综合模型的必要性(de Magalhaes和Faragher,2008).

随着年龄增长而低表达的基因可能更容易解释,因为我们发现,不仅低表达的基因比高表达的基因少,而且大多数属于能量代谢类别,不太可能代表对衰老的转录反应。值得注意的是,我们发现线粒体基因表达不足,包括与电子传递链相关的基因,这与已知的生化和生理观察结果一致,这些观察结果表明线粒体功能随着年龄的增长而下降(Ameset al。1995).特别是,随着年龄增长的呼吸衰竭已经在高能量消耗组织,如大脑(纳瓦罗et al。2002肌肉(痛打et al。1989),这些数据构成了我们相当一部分的数据集。细胞外基质和胶原蛋白也随着年龄的增长而低表达,主要是由于不同形态的胶原蛋白表达不足。虽然略高于我们的临界值(=0.18),弹性蛋白(民族解放军)随着年龄的增长而低表达。与年龄相关的胶原蛋白和弹性蛋白变化,如胶原蛋白沉积减少,是皮肤等老化组织的典型变化(Uitto,1986).我们的研究结果表明,这些可能代表了常见的与年龄相关的生化变化。

我们使用DAVID对顶级基因的功能注释分析和使用价值计数方法对GO类别的功能注释分析相互加强,从而证明了后者采用的新元分析方法的功能和准确性。此外,对氧化石墨烯类别的分析揭示了许多其他潜在的生物学过程,将衰老过程中的分子变化与生理变化联系起来,包括(据我们所知)以前在基因表达研究中与衰老无关的过程。简而言之,我们发现了凝血上调的证据(GO:0007596),这与报道的老年人高凝血一致(Mariet al。1995).因为凝血能力从小就增加(安德鲁et al。1992),另一种可能的解释是基因表达随年龄而变化,与整个成年期持续的发育机制有关(de Magalhaes和Church,2005).另一方面,我们发现了转录抑制因子活性上调(GO:0016564)和转录负调控(GO:0045892)的证据,这表明转录活性随着年龄的增长而降低。这与之前的结果一致,这些结果表明RNA和蛋白质合成会随着年龄的增长而减少。由于总RNA和蛋白质含量似乎不会随着年龄的增长而减少,一种假设是RNA和蛋白质的周转随着年龄的增长而减少,这可能是与年龄相关的异常蛋白质积累的一个因素(Van Remmenet al。1995).此外,我们还发现了解毒途径的上调,如异种分解代谢过程(GO:0042178)和铜离子解毒(GO:0010273),这可能再次表明了对衰老过程的转录反应。

我们确定的与衰老显著相关的GO类别的广度为未来的研究开辟了道路,例如,通过更仔细地分析这些过程的变化是否与其他与年龄相关的变化和病理相似,甚至通过模型系统中的基因操纵实验来测试这些过程是否可能导致衰老。虽然我们不可能讨论所有我们发现的随着衰老表达差异的重要功能类别,但许多可能值得进一步关注,以了解衰老过程中的转录变化,我们的完整结果如下所示补充表S7和S8在我们的网站上(http://genomics.senescence.info/uarrays/signatures.html).

最近,小鼠衰老项目的基因表达图谱(AGEMAP)报道了16个小鼠组织中8932个基因随年龄的表达谱(Zahnet al。2007).我们选择不将这个大型数据集包括在我们的元分析中,因为这样我们的工作将严重偏向AGEMAP结果。尽管如此,有趣的是,在AGEMAP和我们的研究中发现的与线粒体电子传递链相关的基因存在相当大的重叠,而在AGEMAP中发现细胞周期和免疫反应/炎症基因过度表达(Zahnet al。2007).这些相似性值得注意,因为它们强调了衰老研究的元分析的质量和效用,以及如何使用具有成本效益的计算方法获得有意义的衰老全局特征。

5的结论

虽然其他研究比较了来自不同物种和长寿突变体和条件(例如热量限制)的年龄相关微阵列数据集(McCarrollet al。2004;而言et al。2007;Swindell,2008),我们的工作首次以系统的方式对老化进行全面的元分析,以识别老化的保守特征。通过整合多个基因表达谱并采用一种强调敏感性的新方法,我们能够以前所未有的能力识别在转录水平上因衰老而改变的基因和过程,我们的工作揭示了衰老过程中以前未知的转录变化,特别是数量惊人的GO类别。这些基因和功能可以作为未来研究的目标,帮助定义衰老的生物标记物,通过实验测试它们的机制作用,并通过增加我们对衰老过程中转录调节的理解,帮助发展新兴的计算系统衰老生物学学科(Kriete,2006).事实上,我们认为这些衰老的分子特征不仅反映了退化过程的混合,而且还反映了健康细胞适应退化时对衰老的转录反应。随着衰老转录组的特征不断得到更好的表征,元分析和综合方法将越来越有助于理解衰老过程。

确认

作者要感谢John Aach对本文先前草稿的宝贵意见,Xianghong Jasmine Zhou和Chun-Chi Liu在GAN方面的协助,Graham Rockwell在R语言方面的协助和对先前草稿的有用意见,以及Jorge Ivan Velez在R语言方面的帮助。

资金国家卫生研究院国家人类基因组研究所基因组科学卓越中心(归G.M.C.);Fundação Luso-Americana(致J.C.)。

利益冲突:未声明。

参考文献

埃姆斯
BN
等。
衰老过程中的线粒体衰退
Biochim。Biophys。学报
1995
,卷。
1271
(pg。
165
-
170
安德鲁
等。
儿童时期止血系统的成熟
1992
,卷。
80
(pg。
1998
-
2005
ashburn
等。
基因本体论:生物学统一的工具。基因本体联盟
Nat,麝猫。
2000
,卷。
25
(pg。
25
-
29
巴雷特
T
等。
NCBI GEO:挖掘数以千万计的表达式配置文件-数据库和工具更新
核酸测定。
2007
,卷。
35
(pg。
D760
-
D765
Bruunsgaard
H
等。
衰老和促炎细胞因子
咕咕叫。当今。内科杂志。
2001
,卷。
8
(pg。
131
-
136
克拉克
R
等。
高维数据空间的性质:对探索基因和蛋白质表达数据的影响
Nat. Rev. Cancer
2008
,卷。
8
(pg。
37
-
49
Cuervo博士
骰子
摩根富林明
当溶酶体变老时
Exp Gerontol。
2000
,卷。
35
(pg。
119
-
131
de Magalhaes
摩根大通
教堂
通用汽车
基因组优化生殖:衰老是发育过程的结果
生理学(贝塞斯达)
2005
,卷。
20.
(pg。
252
-
259
de Magalhaes
摩根大通
Faragher
RG
细胞分裂和哺乳动物衰老:从基因调节寿命的综合生物学见解
Bioessays
2008
,卷。
30.
(pg。
567
-
578
de Magalhaes
摩根大通
杜桑
O
生物信息学如何帮助逆转人类衰老
老化决议案
2004
,卷。
3.
(pg。
125
-
141
丹尼斯
GJr
等。
DAVID:用于注释、可视化和集成发现的数据库
基因组医学杂志。
2003
,卷。
4
pg。
P3
杜蒙特
P
等。
人成纤维细胞过表达载脂蛋白J可预防乙醇和叔丁基过氧化氢诱导的细胞毒性和过早衰老
细胞应激伴侣
2002
,卷。
7
(pg。
23
-
35
爱德华兹
毫克
等。
衰老的基因表达谱揭示了p53介导的转录程序的激活
BMC基因组学
2007
,卷。
8
pg。
80
艾森
MB
等。
全基因组表达模式的聚类分析和显示
国家科学院学报美国
1998
,卷。
95
(pg。
14863
-
14868
在香港
F
R
微阵列实验中检测差异表达基因的元分析方法比较
生物信息学
2008
,卷。
24
(pg。
374
-
382
艾达
H
等。
小鼠RPE/脉络膜转录谱的年龄相关变化
杂志。基因组学
2003
,卷。
15
(pg。
258
-
262
卡尔曼
J
等。
载脂蛋白D在衰老的大脑和阿尔茨海默氏症中的作用
神经。Res。
2000
,卷。
22
(pg。
330
-
336
Kriete
一个
衰老的生物标志物:组合模型还是系统模型?
科学。知识环境老化。
2006
,卷。
2006
pg。
pe1
Kuilman
T
等。
由白细胞介素依赖的炎症网络介导的癌基因诱导衰老
细胞
2008
,卷。
133
(pg。
1019
-
1031
Kumazaki
T
等。
纤维连接蛋白在体外细胞衰老过程中表达增加:与细胞面积增加的相关性
Exp. Cell Res。
1991
,卷。
195
(pg。
13
-
19
Kumita
等。
细胞外伴侣clusterin通过与前纤原纤维相互作用,有效抑制人溶菌酶淀粉样蛋白的形成
J. Mol.生物学。
2007
,卷。
369
(pg。
157
-
167
T
等。
衰老人类大脑中的基因调控和DNA损伤
自然
2004
,卷。
429
(pg。
883
-
891
毛伊岛
D
等。
百岁老人的高凝血:成功衰老的悖论
1995
,卷。
85
(pg。
3144
-
3149
McCarroll
SA
等。
比较跨物种的基因组表达模式,确定衰老过程中共享的转录谱
Nat,麝猫。
2004
,卷。
36
(pg。
197
-
204
而言
JJ
等。
调节长寿保证机制的进化守恒
基因组医学杂志。
2007
,卷。
8
pg。
R132
男人
Y
等。
微阵列数据的比较和元分析:从工作台上到计算机桌前
趋势麝猫。
2003
,卷。
19
(pg。
570
-
577
Muffat
J
等。
人类ApoD是一种载脂蛋白,在神经退行性疾病中上调,可以延长果蝇的寿命,增强果蝇的抗应激能力
国家科学院学报美国
2008
,卷。
105
(pg。
7088
-
7093
纳瓦罗
一个
等。
衰老小鼠的行为功能障碍、脑氧化应激和线粒体电子转移受损
点。j .杂志。Regul。中国。广告样稿,杂志。
2002
,卷。
282
(pg。
R985
-
R992
F
等。
基因老化Nexus:一个用于衰老微阵列数据的网络数据库和数据挖掘平台
核酸测定。
2007
,卷。
35
(pg。
D756
-
D759
教务长
公关
等。
载脂蛋白D转录在非增殖的静止和衰老的成纤维细胞培养中特别发生
2月。
1991
,卷。
290
(pg。
139
-
141
R开发核心团队(2008年)R:统计计算的语言和环境。R统计计算基金会,维也纳,奥地利。
Ramasamy
一个
等。
进行基因表达微阵列数据集元分析的关键问题
科学硕士。
2008
,卷。
5
pg。
e184
罗兹
博士
等。
微阵列的元分析:基因表达谱的相互研究验证揭示了前列腺癌的通路失调
癌症Res。
2002
,卷。
62
(pg。
4427
-
4433
罗兹
博士
等。
癌症微阵列数据的大规模荟萃分析确定了肿瘤转化和进展的常见转录谱
国家科学院学报美国
2004
,卷。
101
(pg。
9309
-
9314
罗德威尔
通用电气
等。
人类肾脏衰老的转录谱
公共科学图书馆杂志。
2004
,卷。
2
pg。
e427
Siritantikorn
一个
等。
微粒体谷胱甘肽转移酶1对细胞氧化应激的保护作用
物化学。Biophys。Commun >,
2007
,卷。
355
(pg。
592
-
596
尼姆
DK
从模式到途径:基因表达数据分析步入时代
Nat,麝猫。
2002
,卷。
32
(pg。
502
-
508
增刊。
JD
Tibshirani
R
全基因组研究的统计学意义
国家科学院学报美国
2003
,卷。
One hundred.
(pg。
9440
-
9445
Swindell
或者说是
对微阵列数据的比较分析确定了小鼠组织对热量限制的共同反应
动力机械。老化的开发。
2008
,卷。
129
(pg。
138
-
153
打败
等。
骨骼肌线粒体呼吸链功能下降:衰老可能因素
《柳叶刀》
1989
,卷。
1
(pg。
637
-
639
Uitto
J
老化真皮的结缔组织生物化学。与年龄相关的胶原蛋白和弹性蛋白的改变
北京医学。中国。
1986
,卷。
4
(pg。
433
-
446
范Remmen
H
等。
Masoro
EJ
基因表达与蛋白质降解
生理学手册。重要的,全面的生理学知识和概念的介绍,第11节:衰老。
1995
伦敦
牛津大学出版社
(pg。
171
-
234
Verducci
JS
等。
基因表达的微阵列分析:数据挖掘和统计处理中的考虑
杂志。基因组学
2006
,卷。
25
(pg。
355
-
363
Weindruch
R
等。
用DNA微阵列研究衰老的基因表达谱
动力机械。老化的开发。
2002
,卷。
123
(pg。
177
-
193
之声
年代
等。
人类肌肉衰老的基因表达谱
杂志。基因组学
2003
,卷。
14
(pg。
149
-
159
之声
年代
等。
20-29岁和65-71岁女性骨骼肌基因表达谱
Exp Gerontol。
2004
,卷。
39
(pg。
369
-
377
惠勒
戴斯。莱纳姆:
等。
国家生物技术信息中心的数据库资源
核酸测定。
2008
,卷。
36
(pg。
D13
-
D21
锥盘
JM
等。
AGEMAP:小鼠衰老基因表达数据库
公共科学图书馆麝猫。
2007
,卷。
3.
pg。
e201

作者指出

__现地址:英国利物浦大学生物科学学院,皇冠街生物科学大楼,利物浦L69 7ZB。

副主编:David Rocke

补充数据