性质。2012年9月6日,489 (7414):57 - 74。doi: 10.1038 / nature11247。
一个完整的百科全书的DNA元素在人类基因组。
邓纳姆我,Kundaje一,奥尔德雷德SF,柯林斯PJ,戴维斯CA,多伊尔˚F,爱泼斯坦CB,Frietze小号,哈罗Ĵ,考尔[R,玛卡Ĵ,拉茹瓦BR,Landt SG,李汉堡王,泡利F,罗森布鲁姆KR,萨博P,一个萨菲,亚尔一,Shoresh的ñ,西蒙JM,宋大号,Trinklein ND,阿特舒勒RC,伯尼E,布朗JB,程ç,Djebali小号,董X,邓纳姆我,恩斯特J,菲里TS,格斯坦米,Giardine乙,格雷文中号,Hardison RC,哈里斯RS,埃雷罗J,霍夫曼毫米,艾耶年代,凯利斯米,玛卡Ĵ,Kheradpour P,Kundaje一,Lassmann T,李青,林X,Marinov GK,默克尔,Mortazavi一,帕克SC,雷迪TE,RozowskyĴ,施莱辛格˚F,瑟曼RE,王建,沃德LD,惠特菲尔德TW,怀尔德SP,吴w ^,熙HS,业KY,壮族J,帕任MJ,Lowdon射频,狄龙LA,亚当斯LB,凯利CJ,张健,Wexler小,绿色ED,好PJ,法因戈尔德EA,伯恩斯坦BE,伯尼E,克劳福德通用电气,德克J,Elnitski L,萨利PJ,格斯坦米,吉丁斯MC,Gingeras TR,绿色ED,Guigó[R,Hardison RC,哈伯德TJ,凯利斯米,肯特W,Lieb JD,马格里斯呃,迈尔斯RM,斯奈德米,Stamatoyannopoulos JA,特南鲍姆SA,翁Z,白色KP,山地B,玛卡Ĵ,于Y,罗贝尔Ĵ,风险BA,Gunawardena惠普,柯伊伯HC,麦尔连续波,谢大号,陈X,吉丁斯MC,伯恩斯坦BE,爱泼斯坦CB,Shoresh的ñ,恩斯特J,Kheradpour P,米克尔森TS,Gillespie年代,戈伦一,内存啊,张X,王丽,石头R,柯尼MJ,达勒姆T,苦中号,张庭Ť,沃德LD,阿特舒勒RC,伊顿毫升,凯利斯米,Djebali小号,戴维斯CA,默克尔,Dobin一,Lassmann T,Mortazavi一,坦泽一,拉加德J,林w ^,施莱辛格˚F,雪C,Marinov GK,玛卡Ĵ,威廉姆斯BA,扎列斯基ç,RozowskyĴ,罗德米,Kokocinski F,阿卜杜勒 - 哈米德·RF,AliotoŤ,Antoshechkin我,贝尔MT,Batut P,钟我,贝尔K,Chakrabortty小号,陈X,一家J,Curado J,DerrienŤ,DrenkowĴ,杜E,杜J,Duttagupta R,Fastuca米,费耶什 - 托特ķ,费雷拉P,Foissac年代,Fullwood乔丹,高辉,冈萨雷斯d,戈登,Gunawardena惠普,豪沃尔德ç,Jha年代,约翰逊R,Kapranov P,王乙,Kingswood C,李国,罗OJ,公园è,Preall JB,Presaud K,Ribeca P,风险BA,Robyr d,阮X,Sammeth中号,桑德KS,谢弗大号,见LH,一个流星,Skancke J,铃木AM,高桥H,Tilgner H,鳟鱼d,沃尔特斯N,王辉,罗贝尔Ĵ,于Y,林崎ÿ,哈罗Ĵ,格斯坦米,哈伯德TJ,Reymond一,Antonarakis SE,Hannon GJ,吉丁斯MC,阮Y,山地B,Carninci P,Guigó[R,Gingeras TR,罗森布鲁姆KR,斯隆CA,据悉ķ,Malladi VS,黄MC,理发师的全科医生,克莱恩女士,Dreszer TR,Heitner SG,Karolchik d,肯特W,VM柯卡普,梅耶LR,长JC,Maddren米,雷尼BJ,菲里TS,宋大号,Grasfeder LL,Giresi PG,李汉堡王,Battenhouse一,谢菲尔德数控,西蒙JM,阵雨KA,一个萨菲,伦敦d,Bhinge AA,Shestakç,Schaner MR,金SK,张ZZ,Mieczkowski PA,Mieczkowska乔,刘ž,McDaniell RM,倪ÿ,拉希德NU,金MJ,亚达小号,张志,王涛,冬季d,基夫d,伯尼E,艾耶VR,Lieb JD,克劳福德通用电气,李国,桑德KS,郑呒,王平,罗OJ,一个流星,Fullwood乔丹,阮X,阮Y,迈尔斯RM,泡利F,威廉姆斯BA,格茨J,Marinov GK,雷迪TE,VielmetterĴ,鹧鸪è,鳟鱼d,华莱柯,加斯珀ç,邦萨尔一,Pepke小号,耆那教的P,Amrhein ^ h,保龄球KM,安纳亚中号,十字MK,王乙,Muratet马,Antoshechkin我,Newberry公里,麦丘ķ,奈史密斯AS,Fisher-Aylor KI,蒲赛B,迪沙佛克,帕克SL,巴拉苏布兰马尼安小号,戴维斯NS,草地SK,埃格尔斯顿Ť,冈特·ç,纽贝里Ĵ,利维SE,湾DM,Mortazavi一,黄WH,山地B,打击MJ,Visel一,Pennachio LA,Elnitski L,马格里斯呃,帕克SC,Petrykowska嗯,一个阿贝佐夫,Aken B,巴雷尔d,巴森g ^,浆果,比格内尔一,Boychenko V,Bussotti g ^,一家J,戴维森C,DerrienŤ,的Despacio雷耶斯g ^,Diekhans中号,Ezkurdia我,法兰克一,吉尔伯特Ĵ,冈萨雷斯JM,格里菲思è,哈特 - [R,亨德里克斯达,豪沃尔德ç,亨特Ť,Jungreis我,凯米,库拉纳è,Kokocinski F,冷Ĵ,林MF,Loveland J,鲁ž,Manthravadi D,马里奥蒂中号,玛吉J,慕克吉g ^,Notredameç,裴乙,罗德里格斯JM,桑德斯G,Sboner一,塞尔年代,食俗ç,雪C,管家C,坦泽一,Tapanariè,特雷斯ML,货车压印垫板乔丹,沃尔特斯N,Washietl小号,Wilming L,Zadissa一,张志,布伦特米,Haussler D,凯利斯米,瓦伦西亚,格斯坦米,Reymond一,Guigó[R,哈罗Ĵ,哈伯德TJ,Landt SG,Frietze小号,一个阿贝佐夫,Addlemanñ,亚历山大RP,奥尔巴赫RK,巴拉苏布兰马尼安小号,赌博K,巴德瓦杰ñ,博伊尔美联社,曹基于“增大化现实”技术,Cayting P,Charos一,程ÿ,程ç,伊士曼ç,奥伊斯基g ^,弗莱明JD,Grubert F,Habegger大号,哈里哈兰中号,Harmanci一,艾扬格小号,金VX,Karczewski KJ,Kasowski中号,Lacroute P,林^ h,拉马尔 - 文森特ñ,冷Ĵ,连Ĵ,林达尔 - 艾伦中号,最小值R,Miotto乙,汉H,Moqtaderi Z,μXJ,O 'Geen H,欧阳ž,Patacsil d,裴乙,Raha D,拉米雷斯L,里德乙,RozowskyĴ,Sboner一,史米,食俗ç,SliferŤ,威特H,吴大号,徐某某,严KK,杨X,业KY,张志,Struhl K,韦斯曼SM,格斯坦米,萨利PJ,斯奈德米,特南鲍姆SA,Penalva瞧,多伊尔˚F,Karmakar小号,Landt SG,Bhanvadia RR,乔杜里一,Domanus中号,马L,莫兰Ĵ,Patacsil d,SliferŤ,Victorsen一,杨X,斯奈德米,奥尔Ť,Centanin大号,Eichenlaub米,Gruhl F,Heermann小号,Hoeckendorf B,井上D,凯尔纳Ť,Kirchmaier小号,穆勒ç,莱因哈特[R,Schertel大号,施耐德年代,辛恩[R,维特布罗特乙,维特布罗特Ĵ,翁Z,惠特菲尔德TW,王建,柯林斯PJ,奥尔德雷德SF,Trinklein ND,鹧鸪EC,迈尔斯RM,德克J,耆那教摹,拉茹瓦BR,亚尔一,Balasundaram G,贝茨DL,拜伦 - [R,坎菲尔德TK,Diegel乔丹,邓恩D,Ebersol AK,弗鲁姆Ť,加尔格ķ,依据E,汉森 - [R,船夫大号,豪根è,亨伯特R,耆那教摹,约翰逊正义与发展党,约翰逊EM,Kutyavin电视,拉茹瓦BR,韭葱,Lotakis d,Maurano MT,Neph SJ,内里阵线,阮艾德,曲^ h,雷诺AP,罗奇V,Rynesè,萨博P,桑切斯ME,)及RS,亚尔一,谢弗AO,Stergachis AB,托马斯年代,瑟曼RE,Vernot B,VierstraĴ,疯人年代,王辉,韦弗MA,燕Y,张铭,A钥JM,本德米,MO授予Dorschner,Groudine米,MacCoss乔丹,允许P,Stamatoyannopoulos G,考尔[R,德克J,Stamatoyannopoulos JA,邓纳姆我,比尔K,Brazma一,Flicek P,埃雷罗J,约翰逊N,基夫d,Lukk米,勒斯科姆NM,Sobral D,Vaquerizas JM,怀尔德SP,Batzoglou小号,Sidow一,Hussami N,Kyriazopoulou-Panagiotopoulou小号,利瓦,他马,Kundaje一,Hardison RC,米勒w ^,Giardine乙,哈里斯RS,吴w ^,比克尔PJ,Banfai B,博利NP,布朗JB,黄慧,李青,李JJ,诺布尔WS,比尔米斯JA,Buske OJ,霍夫曼毫米,萨胡AD,Kharchenko光伏,公园PJ,贝克维,泰勒Ĵ,翁Z,艾耶年代,董X,格雷文中号,林X,王建,熙HS,壮族J,格斯坦米,亚历山大RP,巴拉苏布兰马尼安小号,程ç,Harmanci一,Lochovsky大号,最小值R,μXJ,RozowskyĴ,严KK,业KY,伯尼E。
抽象
人类基因组为生命蓝图编码,但其近30亿个碱基中的绝大多数的功能仍是未知的。DNA元件百科全书(ENCODE)项目已经系统地绘制了转录区域、转录因子关联、染色质结构和组蛋白修饰。这些数据使我们能够为80%的基因组分配生化功能,特别是在经过充分研究的蛋白质编码区域之外。许多已发现的候选调控元件在物理上相互关联,并与表达的基因相关联,为基因调控机制提供了新的见解。新发现的元素还显示了与人类疾病相关的序列变异的统计一致性,从而可以指导对这种变异的解释。总的来说,该项目为我们的基因和基因组的组织和调控提供了新的见解,并为生物医学研究提供了丰富的功能注释资源。
图1
选择对哺乳动物和人类群体编码功能性元素的影响
图A显示了泛哺乳动物约束(平均得分GERP的水平; 24种哺乳动物,x轴)相比,分集,在人群中阴性选择(意味着ENCODE数据集期望杂,颠倒的刻度,y轴)的量度。每个点是平均值对于单个数据集。右上边角拥有最强的进化限制和最低的多样性。编码(C),UTR(U),基因组(G),基因间(IG)和内含子(IN)的平均值被示出为实心方块。在每种情况下,垂直和水平十字线示出了用于中性期望用于分别哺乳动物保护与人类种群多样性代表水平。面板A显示了分布在所有的非外显子ENCODE元件从起始位置跟大于2.5kb的。内虚线框表示该图的部分已被放大为周边外板,虽然在图外的刻度提供放大的确切区域和尺寸。对于DHS位点(B)和RNA元件(d)的传播被示出在左侧的曲线图。RNA元素是长新颖内含子(深绿色)或长基因间(浅绿色)的RNA。在由TF(橙色点)结合的区域或在灰度的对应未结合基序的匹配水平横毛发被颜色编码,以在面板D.面板C显示了相关的数据集TF基序实例的蔓延或者,与结合和未结合的连接点 with an arrow in each case showing that bound sites are generally more constrained and less diverse. Panel E shows the derived allele frequency spectrum for primate specific elements with variations outside ENCODE elements in black and variations covered by ENCODE elements in red. The increase in low frequency alleles compared to background is indicative of negative selection occurring in the set of variants annotated by the ENCODE data. Panel F shows aggregation of mammalian constraint scores over the glucocorticoid receptor (GR) TF motif in bound sites, showing the expected correlation with the information content of bases in the motif.
A组和B组分别显示了组蛋白修饰或TFs与K562中通过笼标记密度测量的TSSs RNA产量之间的相关模型。在每种情况下,散点图显示相关模型(x轴)与观测值(y轴)的输出。柱状图显示了在初始分类阶段(上柱状图)或定量回归阶段(下柱状图)中最重要的组蛋白修饰(A)或TFs (B),数值越大表明模型中变量的重要性越高。其他细胞系和RNA检测类型的进一步分析报告在其他地方,。
面板A显示了围绕CTCF结合位点的H3K27me3修改信号(涉及染色质结构的多官能蛋白)的群集聚合的结果。前三个最左边的图显示了所有站点(顶部),然后拆分成高低信号分量的组蛋白修饰的信号行为。高信号分量然后被进一步分解成在右边六个不同的形状类(参见参考文献详情)。形状分解过程是链感知的。Panel B总结了DNase1、核小体和组蛋白修饰信号的形状不对称性,它绘制了所有TF结合位点上每个信号的不对称性比率。本研究中检测到的所有组蛋白修饰在TF结合位点上都表现出明显的不对称模式。
图A示出了使用在整个基因组中的GSC统计在K562细胞中的TF对显著共同关联。颜色强度表示的关联的程度()通过橙色至红色(黄色最强(最弱)),而颜色的深浅表示配合到GSC模型(白色表示统计模型不合适)。大多数TFs与其他TFs之间存在非随机关联,这些关联依赖于基因组上下文,这意味着一旦基因组被分成启动子的近端和远端区域,总体上的协同关联水平会降低,但会发现更具体的关系。面板B说明了三类行为。第一列是一组关联,其强度与启动子和远端区域的位置无关;第二列是一组TFs,其在启动子近端区域的关联更强。这两个例子都来自于K562细胞的数据,并分别通过标记框A和B在全基因组关联矩阵(panel A)上突出显示。第三列显示了一组TFs,它们在远端区域(H1 hESC细胞系)显示出更强的关联性。
图A示出了在密集视图两个分割的方法(ChromHMM和的Segway),合并的分割的示例性区域展开,以显示在各GM12878状态下,GENCODE基因注释的压缩视图的下方。请注意,在这个级别变焦和基因组浏览器的分辨率,一些段出现重叠,但他们不这样做。分割类,根据该计划命名和着色。下方的分段被示出的每个被用作所述分割输入数据,所述归一化的信号。从DNA酶1-SEQ和FAIRE测定开放的染色质的信号以蓝色显示,从组蛋白修饰芯片起在红色和TF芯片起信号聚合酶II和CTCF在绿色信号。在底部的淡紫色芯片起控制信号(“输入控制”)也被包括作为输入到分割。面板B显示了选择的TF(左)和在表示为TF或RNA元件和分割的每一种组合的观测/预期比率组合分割状态(x轴)使用热图规模RNA(右)的元素的关联示出在keybesides每个热图。面板C显示了细胞系之间的状态,示出了在特定的基因组中位置处的6个细胞系中的状态的发生分布的可变性 - 从唯一的一个细胞系以在所有六个细胞系五个州(CTCF,E无处不在,T,TSS,和R)。 Panel D shows the distribution of the level of methylation at individual sites from RRBS analysis in GM12878 across the different states, showing the expecting hypomethylation at TSSs and hypermethylation of genes bodies (T state) and repressed (R) regions.
随机取样E状态段(见)从K562分割克隆为鼠标和鱼为主转基因增强子测定。面板A显示了用构建hs2065获得的代表性的LacZ染色的转基因小鼠E11.5胚胎(EN167,CHR 10:46,052,882-46,055,670,GRCH37)。从独立的转基因整合事件造成9出9胚胎中观察到血管中的高度重复性的染色。面板B显示了从一个构建体与基础HSP70启动基于大范围核酸酶转染获得的代表性绿色荧光蛋白报告转基因黑点青鳉鱼。在循环有核血细胞和内皮细胞壁重现的转基因表达被认为在该构建体的81选自100转基因测试。
的自组织映射(图A),其结果(图B和C)的分析的训练被示出。最初,我们随意摆放的基因组区段来自chromHMM分割到环形地图表面,虽然SOM不使用chromHMM状态分配(图A)。然后我们培养使用12个不同的芯片起和DNase的SEQ测定的信号中的六个细胞类型的地图进行分析。在SOM中的每一个单元在这里由一个六边形单元表示在环形图的平面的二维视图。弯曲的箭头表示横穿二维视图引线的边缘回相对的边缘。将得到的地图可以是覆盖有任何类ENCODE或其他数据的该高分辨率分割中查看该数据的分布情况。在图A中所使用的热图的颜色日志示出横跨未经训练和训练有素的图(左和右,分别地)的基因组碱基的分布10值。图B显示的TSS的从任一初始随机组织的平面表示GENCODE注释的CAGE实验分布使用热(左)或最终训练SOM(右)映射根据伴随尺度着色。面板B的下半部分扩展不同分布在SOM对于所有的TSS表示(左)或在起始位置跟两个示例的细胞系中特异表达,H1的hESC(中心)和HepG2(右)。面板C显示了基因本体论(GO)在相同的受过训练SOM的相同的表示项的关联。我们分配是一个基因组区段的20 kb的内在SOM单元到单元的基因,然后校正多重检验后相关这个组基因与使用超几何分布GO术语。该地图被显著关联到GO术语单位现在为绿色,随着颜色反映与任何免疫反应的GO术语显著相关基因的越来越多的强度(左)或序列特异性TF活动(中心)。在每一种情况下,特定的SOM单位显示这些条款的关联。右侧面板上示出的所有相关联的显著GO术语的相同的SOM,现在由每单位SOM GO术语计数着色的分布。用于序列特异性TF活性,两个示例性的基因组区域在面板C的底来自相邻SOM单位萃取。这些是围绕DBX1区域(从SOM单元26,31,左图)和IRX6(SOM单元27,30,右图)的基因,分别与每个所述第1层和2小区的其的H3K27me3芯片起沿着信号 types. For DBX1, representative of a set of primarily neuronal TFs associated with unit 26,31, there is a repressive H3K27me3 signal in both H1 hESC and HUVEC cells; for IRX6, representative of a set of body patterning TFs associated with SOM unit 27,30, the repressive mark is restricted largely to the embryonic stem cell.
面板A显示从GM12878细胞代表等位基因特异性信息周围的NACC2基因的第一外显子选择的测定法(基因组区CHR9:138,950,000- 138995000,GRCH37)。转录信号被示出为绿色,并且所述三个部分示出了用于三个数据集(POLR2A,H3K79me2和的H3K27me3芯片起)等位基因的特定数据。在每种情况下,紫色信号是所有序列的处理后的信号用于测定读取,而蓝色和红色信号显示序列分别读取专门分配到基因组的父系或母系拷贝。该组从dbSNP的常见SNPs,包括用于提供分配分阶段,杂合SNP的,在面板的底部示出。NACC2有POLR2A和转录相关标志H3K79me2在统计学上显著父亲的偏差,并先后为镇压标记的H3K27me3一个显著产妇偏差。面板B显示了两两单基因(下面的对角线)内的或跨越整个基因组个体ChromHMM段对选定的DNA酶SEQ和组蛋白修饰和TF芯片起测定内等位基因特异性信号的相关性。相关性的程度,根据通过反相关(蓝色)从正相关(红色)表示的热图规模着色。
A组显示了单个基因组(NA12878)中变异的频率(常见或罕见(即在1000个基因组计划的试点1个欧洲小组中,179个个体的低覆盖测序中不存在变异),并通过ENCODE注释,包括蛋白质编码基因和非编码元件(GENCODE注解为编码蛋白质的基因,假,以及其他非编码RNA,以及从芯片起数据集TF结合位点,但不包括宽注解,例如组蛋白修改,分割,和RNA-SEQ)。注释状态由预测功能效果进一步细分,是用于蛋白质编码区的非同义和错义突变和变体重叠结合的TF基序的非编码元件注释。变体有相当比例的注释为具有预测的非编码类的作用效果。面板B显示了几个相对很少发生,其中对准于个体的基因组序列(父系和母系面板)示出了从参考基因组中的不同的读出中的一个。在这种情况下,单倍型特异性父亲CTCF峰被识别。面板C显示了从全基因组黑素瘤样本中发生的DHSS独特到不同的细胞系的体细胞变体的相对水平。彩色栏显示被显著富集或体细胞突变supressed情况。ENCODE细胞类型的详细信息可以http://encodeproject.org/ENCODE/cellTypes.html找到。
作为红柱相比,各种控制SNP套在蓝色面板A显示了在NHGRI GWAS SNP目录铅的SNP(2011年6月)与DHSS(左)或TF结合位点(右)的重叠。控制SNP集合是:Illumina的2.5M芯片作为一种广泛使用的GWAS SNP分型面板的一个例子的SNP上;从1000个基因组的SNP工程;SNPS从24种个人的基因组中提取(见个人基因组变异的轨道在http://main.genome-browser.bx.psu.edu全部显示为蓝色条。此外另一控制利用从基因分型的SNP面板1000个randomisations,匹配与每个NHGRI目录SNP在1.5倍四分位范围等位基因频率和距离最近的TSS(浅蓝色与边界条的SNP,和任何异常值以外示出为界)。对于DHSS和TF两者结合区,重叠的具有GWAS-牵连的SNP的比例较大时相比,任何的控制集合中。面板B显示了聚集体的表型的所选TF结合位点中选择的细胞系中的重叠(左矩阵)或DHSS(右矩阵),用表型和细胞系/因子之间的重叠的计数。在绿色正方形值传递的经验p值阈值<= 0.01(基于随机选择,GWAS匹配SNP和这些后生特征之间的重叠的相同的分析),并具有至少为3周的重叠计数。表型-TF关联的总数量的p值<0.001。图C示出了具有克罗恩氏病和其它炎性疾病相关联的若干个SNP驻留在染色体5上一个大的基因沙漠,一些后生特征沿着暗示的功能。的SNP(rs11742570)强烈相关克罗恩病重叠在HUVEC细胞中确定的GATA2 TF结合信号。这个区域也是在HUVEC和T辅助Th1和Th2细胞DNA酶I过敏。