摘要
比较毒理学基因组学数据库(CTD;http://ctdbase.org/)提供化学物质和基因产物之间相互作用的信息,以及它们与疾病的关系。核心CTD内容(化学-基因、化学-疾病和基因-疾病相互作用,从文献中手动策划)彼此集成,并与选择的外部数据集集成,以生成扩展的网络和预测新的关联。今天,核心CTD包括超过3050万个毒性基因组连接,涉及化学物质/药物、基因/蛋白质、疾病、分类群、基因本体(GO)注释、途径和基因相互作用模块。在这次更新中,我们报告了自2015年以来核心数据内容增加了33%,描述了我们的新暴露模块(将暴露科学信息与核心毒理学基因组数据协调起来),并介绍了一个新的氧化石墨烯疾病推断数据集(确定看似不相关的病理的共同分子基础)。这些进展将现实世界中的化学暴露与分子途径集中起来并置于背景中,以帮助科学家提出可测试的假设,以努力了解受环境影响的疾病的病因和机制。
介绍
比较毒理学基因组学数据库(CTD;http://ctdbase.org)是毒理学基因组信息的公共资源,由同行评议的科学文献手工整理,提供有关环境化学物质与基因产物的相互作用及其对人类疾病影响的关键信息(1- - - - - -4).CTD由专业生物馆长策划,他们利用受控词汇、本体和结构化符号来编码描述化学-基因、化学-疾病和基因-疾病关系的核心相互作用的三元组(5),然后在内部集成,以生成推断的化学-基因疾病网络。这些数据进一步与外部数据集相关联,以在不同类型的信息之间建立新颖的、统计上排名的推论(6- - - - - -7).此外,作为我们与科学界持续积极接触的一部分,CTD在推进生物医学信息的文本挖掘方法方面发挥着重要作用,作为BioCreative联盟(8- - - - - -12),促进环境健康科学界制定语义标准(13),以符合生物共享资讯资源(14),并已成为注册会员(https://biosharing.org/biodbcore-000173) (15).
在此,我们提供两年一次的数据库更新,最值得注意的是强调我们新发布的暴露科学模块,该模块将化学暴露数据协调并整合到CTD更广泛的生物框架中(16).暴露科学在评估实验毒性数据、开展风险评估和为公共卫生政策提供信息方面发挥着重要作用(17).集中人体暴露信息对于评估“暴露量”至关重要,“暴露量”定义为个人自出生以来暴露量的累积测量(18).此外,暴露体通过记录和测量环境成分来补充基因组研究,环境成分与基因相互作用以确定一个人的表型(18).CTD的新暴露科学模块为研究人员提供了一个集中资源,用于将真实环境化学测量结果与实验室衍生的毒性基因组数据联系起来。这一新功能,以及本文描述的其他更新,进一步扩大了CTD在环境健康研究中的效用。
新功能
增加科学界的数据内容、传播和使用
2016年7月,核心CTD由超过160万人工策划的相互作用(包括1 379 105种化学物质-基因,202 085种化学物质-疾病和33 583种基因-疾病直接相互作用)组成,涉及14 672种化学物质,42 761种基因和6401种疾病,这些疾病来自对564个物种进行研究的117 866篇同行评审的科学文章(表2)1).自上次更新以来,化学-基因-疾病相互作用增加了33% (4).CTD还集成了手动筛选的数据,以生成预测推断(6,7);例如,如果化学物质A与基因B相互作用,且独立的基因B与疾病C相关,则推断化学物质A与疾病C相关(通过基因B)。内部整合核心数据产生了1970多万条基因-疾病关系推断和180万条化学物质-疾病关系推断,其统计排名为(7).最后,与来自GO (19), kegg (20.)、反应组(21)及生物网格(22)会产生额外的推断关系(表1).总共有超过3050万个毒理基因组连接可免费用于分析和假设发展。
更新CTD核心内容(2016年7月)
源. | 数据类型. | 计数. |
---|---|---|
人工管理 | 科学论文 | 117 866 |
人工管理 | 化学物质 | 672年14 |
人工管理 | 基因 | 42 761 |
人工管理 | 疾病 | 6401 |
人工管理 | 分类单元 | 561 |
人工管理 | Chemical-gene交互 | 1 379 105 |
人工管理 | 基因-疾病的相互作用 | 33 583 |
人工管理 | Chemical-disease交互 | 202 085 |
数据集成 | 基因-疾病的推论 | 19 720 041 |
数据集成 | Chemical-disease推论 | 1 858286 |
数据集成 | Chemical-GO推论 | 4 529 027 |
数据集成 | 化学途径的推论 | 307 728 |
数据集成 | Disease-pathway推论 | 59岁863 |
数据集成 | 疾病是推论 | 795 845 |
进口 | Gene-GO注释 | 1 201 527 |
进口 | 基因的路径注释 | 63 863 |
进口 | 基因基因相互作用 | 376 472 |
总计 | 30 527 425 |
源. | 数据类型. | 计数. |
---|---|---|
人工管理 | 科学论文 | 117 866 |
人工管理 | 化学物质 | 672年14 |
人工管理 | 基因 | 42 761 |
人工管理 | 疾病 | 6401 |
人工管理 | 分类单元 | 561 |
人工管理 | Chemical-gene交互 | 1 379 105 |
人工管理 | 基因-疾病的相互作用 | 33 583 |
人工管理 | Chemical-disease交互 | 202 085 |
数据集成 | 基因-疾病的推论 | 19 720 041 |
数据集成 | Chemical-disease推论 | 1 858286 |
数据集成 | Chemical-GO推论 | 4 529 027 |
数据集成 | 化学途径的推论 | 307 728 |
数据集成 | Disease-pathway推论 | 59岁863 |
数据集成 | 疾病是推论 | 795 845 |
进口 | Gene-GO注释 | 1 201 527 |
进口 | 基因的路径注释 | 63 863 |
进口 | 基因基因相互作用 | 376 472 |
总计 | 30 527 425 |
源. | 数据类型. | 计数. |
---|---|---|
人工管理 | 科学论文 | 117 866 |
人工管理 | 化学物质 | 672年14 |
人工管理 | 基因 | 42 761 |
人工管理 | 疾病 | 6401 |
人工管理 | 分类单元 | 561 |
人工管理 | Chemical-gene交互 | 1 379 105 |
人工管理 | 基因-疾病的相互作用 | 33 583 |
人工管理 | Chemical-disease交互 | 202 085 |
数据集成 | 基因-疾病的推论 | 19 720 041 |
数据集成 | Chemical-disease推论 | 1 858286 |
数据集成 | Chemical-GO推论 | 4 529 027 |
数据集成 | 化学途径的推论 | 307 728 |
数据集成 | Disease-pathway推论 | 59岁863 |
数据集成 | 疾病是推论 | 795 845 |
进口 | Gene-GO注释 | 1 201 527 |
进口 | 基因的路径注释 | 63 863 |
进口 | 基因基因相互作用 | 376 472 |
总计 | 30 527 425 |
源. | 数据类型. | 计数. |
---|---|---|
人工管理 | 科学论文 | 117 866 |
人工管理 | 化学物质 | 672年14 |
人工管理 | 基因 | 42 761 |
人工管理 | 疾病 | 6401 |
人工管理 | 分类单元 | 561 |
人工管理 | Chemical-gene交互 | 1 379 105 |
人工管理 | 基因-疾病的相互作用 | 33 583 |
人工管理 | Chemical-disease交互 | 202 085 |
数据集成 | 基因-疾病的推论 | 19 720 041 |
数据集成 | Chemical-disease推论 | 1 858286 |
数据集成 | Chemical-GO推论 | 4 529 027 |
数据集成 | 化学途径的推论 | 307 728 |
数据集成 | Disease-pathway推论 | 59岁863 |
数据集成 | 疾病是推论 | 795 845 |
进口 | Gene-GO注释 | 1 201 527 |
进口 | 基因的路径注释 | 63 863 |
进口 | 基因基因相互作用 | 376 472 |
总计 | 30 527 425 |
除了我们自己的公共web应用程序(PWA)之外,CTD研究和策划的内容还以许多重要的方式进一步传播到科学界。首先,至少有72个外部资源现在包括并显示CTD信息作为其自己数据库的一部分,比我们上次报告的50个来源增加了44% (http://ctdbase.org/about/publications/#use).其次,我们与辉瑞科学家合作开发了ToxEvaluator,这是一种专有工具,它将CTD化学-基因-疾病关系与其他不同的(公共和私人)数据集集成到一个单一的基于网络的平台中,以帮助辉瑞科学家产生与毒性相关的机制假设(23).最后,CTD继续致力于为科学界先锋和推进生物医学文本挖掘研究,与国家生物技术信息中心(NCBI)合作,组织生物创意社区挑战,重点是开发识别和提取特定疾病和化学成分的工具(11).为此,我们帮助从1500篇PubMed文章(12);本语料库免费提供(可点击下载:http://sourceforge.net/projects/bioc/files/CDR_Data.zip/download),以及由25个参与团队开发的许多相关文本挖掘工具。
新的CTD曝光科学模块
最值得注意的是,自从我们上次更新以来,CTD已经发布了一个新的曝光模块(16).该组件是为了响应社区对一个集中数据库的需求而开发的,该数据库可以管理和协调环境化学品(例如空气污染物、农药、重金属、多氯联苯、在其他事物之外)和人体生物标记物。
与曝光科学界合作,CTD开发了一种新颖的手动策展范式(16),使用公开本体作为基础(24).在这个模块中,CTD生物馆长将超过35个数据字段注释为四个主要类别,这些类别共同形成了一个风险声明.一个陈述是关于如何接触压力与人类互动风险受体在一次曝光事件导致…接触的结果(图1).这种管理范式的一个整体特征是,我们在管理核心CTD的化学-基因-疾病相互作用时使用许多相同的受控词汇表(5,16).因此,被描述为暴露应激源或事件生物标志物的化学物质用CTD的化学词汇进行注释;同样,蛋白质生物标志物(如血清蛋白、细胞因子、白细胞介素)使用CTD的基因词汇表进行编码;暴露结果被注释为CTD的MEDIC疾病词汇表(25)或GO生物过程(GO- bp)术语用于表型,我们之前将其定义为“非疾病术语生物事件”(26).这种管理策略提供了三个重要的优势。首先,它允许不同实验室几十年来在不同期刊上发表的不同文章的异构暴露信息标准化并集中到一个单一的存储库中,促进独特研究之间的联系。其次,它将暴露科学数据纳入更广泛的CTD框架,允许暴露数据利用CTD策划的知识,也允许核心CTD帮助为暴露分析提供信息。最后,使用受控词汇表将复杂的、相互依赖的暴露事件转换为模块化数据,允许从各种角度(如地理位置和受体类型)对暴露信息进行排序、过滤和查看。
手动整理的暴露数据显示在CTD PWA的两个新选项卡上:“暴露研究”(提供每篇暴露文章的摘要)和“暴露细节”(提供详细的生物标志物测量),位于所有相关的化学、基因、疾病、GO和参考文献页面。此外,调查人员可以使用CTD的新暴露研究查询页面(http://ctdbase.org/query.go?type=expStudies)以快速检索在研究(研究文章)级别聚合的信息(图2),使用化学压力源(如“空气污染物”)、所研究的人体受体类型(如“研究对象”)和地理位置(如“美国”)的参数。结果页面中返回的选定术语(化学品、基因、疾病、GO和参考文献)超链接到CTD中相应的页面(图2 b),允许用户无缝地浏览其他相关信息。
暴露生物标记物的真实测量结果可在“暴露研究”页面的“详细信息”链接下找到,也可查看在托托在感兴趣的化学品的“暴露细节”数据选项卡上(图3.).后一种方法汇总CTD中相关文章的数据,为用户提供已发表文献中暴露测量和结果的全景视图。此外,“曝光详情”查询页面也可用(http://ctdbase.org/query.go?type=expDetails)以检索高粒度公开语句级别的记录。
2016年7月,CTD从1250篇暴露科学文章中收录了803种化学物质、153种生物标志物基因、301种疾病和181种表型(GO-BP术语)的70600多份人工筛选的暴露声明(图2摄氏度).曝光数据也免费提供给用户下载文件(http://ctdbase.org/downloads/#exposureevents).
go -疾病推论的新可用性
在过去十年(4), CTD成功地在不同类型的数据之间建立了新颖的连接,将不同的信息通过一个公共中间体(1,6,7).例如,如果基因A被GO注释器注释为GO生物过程术语B,并且基因A也独立与C疾病相关(通过CTD生物标记器),那么GO术语B可以被推断为C疾病(通过基因A)(图)4).这些go疾病推断有助于用户发现看似无关的疾病之间共有的常见分子、生物和细胞事件(图2)4 b).这个新数据集的可用性(27)可以在许多方面加以利用,包括发现潜在的共病(特别是在暴露科学中),通过重新定位药物或确定可能的副作用来可能的新治疗方案。CTD的go -疾病基因推断网络文件可免费获得(http://ctdbase.org/downloads/#godiseasegenes),并在2016年7月包括了超过15700个GO术语和4200种疾病之间的超过79.5万个推论。
疾病映射和链接
自2006年以来,CTD一直维护和使用MEDIC作为疾病信息管理的实用词汇(25).MEDIC是通过合并来自OMIM资源(28),设有两个医学学科标题疾病等级(29)以产生广泛的、可导航的词汇。虽然最初打算只是一个占位符,直到出现更复杂的疾病资源,但MEDIC已被证明是非常成功的,方便和适应性强,并已被许多系统(30.- - - - - -34).2015年,CTD开始分析和比较MEDIC中使用的疾病术语和层次结构与新建立的疾病本体(DO) (35),以协调MEDIC与这些新资源。一个单一的、强大的、社区接受的疾病词汇表对于同步大量不同的生物数据库是有价值的。为此,CTD正在与DO的工作人员协调,以寻找medc可以帮助通知DO的方法,反之亦然。作为第一步,CTD现在提供了3258个MEDIC疾病术语与DO中2943个等效术语之间的直接网络链接,这些链接基于两个词汇表之间共享的通用MeSH接入标识号。最终,MEDIC和DO之间的双向交叉链接将为整个科学界实现更大的互操作性和数据共享。
未来的发展方向
自2004年以来,CTD已从一个初具规模的数据库发展成为一个广泛的公共资源,拥有超过3050万个毒理学基因组关系(表2)1).我们将继续扩展我们的核心和曝光管理模块,每个月都会增加新的数据内容(http://ctdbase.org/about/dataStatus.go).
此外,我们计划加强和开发新的可视化和分析工具,以帮助用户更好地探索我们策划的暴露科学数据。两个目标包括允许用户选择在web页面上显示哪些数据字段,以及丰富查询页面以允许对返回的数据进行更大的规范和过滤。我们还计划利用基于网络的地图,从地理角度查看暴露化学品、事件和结果。目前在CTD中,我们有109个国家和美国所有50个州的暴露数据。
同时,我们打算发布一个新的表型模块,它将包括我们的化学物质调节生物、细胞和生理事件的手工管理,以及解剖学描述符。这一特征将有助于关联和识别先于疾病临床表现的化学诱导表型。我们之前发布了这个数据集的初始存储,使用MeSH术语作为我们的表型描述(26);然而,从那时起,我们已经将这些术语映射到更通用的GO-BP控制词汇表,以反映更大的粒度和更广泛的生物学概念。
最后,我们计划设计计算程序,通过将化学-基因启动事件、化学-表型和基因- go关键事件、化学-疾病事件和人群暴露水平结果联系起来,系统地连接CTD策划内容的频谱。这种计算预测的不良结局途径(cpAOP)最近已被描述为脂肪性肝病使用大鼠数据(36).我们希望通过利用CTD数据来系统地扩展这一努力,以生成将化学物质与疾病结果联系起来的cpAOPs。
总结
我们将CTD含量提高了33%,达到3050万毒理基因组关系。
我们介绍了我们的暴露科学模块,包含超过800种化学物质、150种基因、300种疾病和180种表型的70600份暴露声明。
我们描述了我们的go疾病推断数据集,将看似不相关的疾病之间的功能、生物学和细胞事件连接起来。
我们通过提供从MEDIC疾病词汇到DO术语的链接,增强了社区数据库的互操作性。
引用并链接到CTD
如需引用CTD数据,请参见:http://ctdbase.org/about/publications/#citing.如阁下有意建立连结至CTD数据,请通知我们(http://ctdbase.org/help/contact.go),并遵照以下指示:http://ctdbase.org/help/linking.jsp.
资金
国家环境卫生科学研究所[R01 ES014065, R01 ES019604, R01 ES023788];国家普通医学科学研究所国家卫生研究院机构发展奖[P20 GM103423, P20 GM104318至B.L.K];开放获取收费资助:国家环188滚球软件境卫生科学研究所[R01 ES014065, R01 ES019604, R01 ES023788]。
利益冲突声明.没有宣布。
参考文献
作者指出
免责声明:内容仅为作者的责任,并不一定代表美国国立卫生研究院的官方观点。
评论