条文本

下载PDF

研究和指导更新
肺癌基因表达分析(LGEA):一个综合门户网站在肺癌发展全面的基因表达数据分析
  1. Yina杜1,
  2. 约瑟夫一而1,
  3. Anusha曾经1,
  4. 安妮·K Perl1,
  5. 詹姆斯P桥梁1,
  6. 拉维年代Misra4,
  7. 格洛丽亚年代Pryhuber4,
  8. 托马斯J马里安尼4,
  9. Soumyaroop巴塔查里亚4,
  10. Minzhe郭1,
  11. 年代史蒂文·波特2,
  12. 菲利普Dexheimer3,
  13. 布鲁斯Aronow3,
  14. 艾伦·H Jobe1,
  15. 杰弗里·一个Whitsett1,
  16. 燕许1,3
  1. 1围产期新生儿学研究所和部分,围产期和肺生物学,辛辛那提儿童医院医疗中心,俄亥俄州辛辛那提美国
  2. 2发育生物学分工,辛辛那提儿童医院医疗中心,俄亥俄州辛辛那提美国
  3. 3生物医学信息学分工,辛辛那提儿童医院医疗中心,俄亥俄州辛辛那提美国
  4. 4儿科,罗彻斯特大学,罗彻斯特,纽约美国
  1. 对应到燕许博士的围产期研究所和部分新生儿学,围产期和肺生物学,辛辛那提儿童医院医学中心,辛辛那提,哦,45229年,美国;Yan.Xu在}{cchmc.org

文摘

‘LungGENS’,我们之前开发的web工具映射单细胞基因表达在发展中肺癌、肺研究社会的好评。继续“LungMAP”财团的支持下,我们扩展的范围LungGENS数据库适应转录组数据来自人类和小鼠的肺组织和细胞肺发展的不同阶段。肺癌基因表达分析(LGEA)门户网站是一个扩展的版本LungGENS有用的分析,显示和解释基因表达模式从单一细胞,细胞群排序和全肺组织。LGEA门户网站是免费的http://research.cchmc.org/pbge/lunggens/mainportal.html

  • 气道上皮细胞
  • 表面活性剂的蛋白质
  • 系统性疾病和肺
  • TTF-1

这是一个开放的分布式条188滚球软件依照创作共用署名非商业性(4.0 CC通过数控)许可证,允许别人分发,混音,适应,建立这个工作非商业化,和其派生作品在不同的条款进行许可,提供了最初的工作是正确地引用和非商业使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/

来自Altmetric.com的统计

请求的权限

如果你想重用任何或所有本文的请使用下面的链接,这将带你到版权税计算中心的RightsLink服务。你将能够获得快速的价格和即时允许重用内容在许多不同的方式。

介绍

我们之前开发的“LungGENS”,1映射的web工具单细胞基因表达在发展中肺。LungGENS访问了大约45机构在过去一年中在30个国家。LungGENS web工具的初始阶段是基于单细胞RNA序列(scRNA-seq)数据从正常胎鼠肺,与我们的新开发的分析管道“SINCERA”。2继续“LungMAP”财团的支持下,转录组数据来源于各种技术平台、物种和肺部发育阶段变得可用。集成和这些数据集的可视化与用户友好的web接口将授权调查访问和解释扩展数据库中包含的数据,以便更好的了解肺发展和疾病。适应异构数据结构和类型,我们开发了肺癌基因表达分析(LGEA)门户网站,一个扩展版的LungGENS,寻求识别肺癌细胞和基因表达的动态变化影响肺形成和功能使用RNA-seq从单个细胞,纯化细胞群和整个组织。

方法

的网页和JavaScript函数LGEA门户网站设计和开发使用HTML / CSS / JavaScript jQuery和Java在Eclipse中(http://www.eclipse.org/),一个Java IDE。Apache Tomcat (http://tomcat.apache.org/)是用作web服务器。JSON (JavaScript对象表示法)格式采用作为这些编程语言的可互换数据结构编码LGEA查询结果,使下游数据处理和交换容易和语言。当一个基因符号或细胞类型选择,客户端发起了一个HTTP请求到LGEA web服务器。Java servlet在web服务器处理请求时,从数据库中检索数据使用SQL脚本和准备检索JSON格式的数据。最后,处理HTTP响应返回给客户端包含查询数据显示页面。

Oracle数据库11 g (https://www.oracle.com/database/index.html)是用作LGEA门户网站的核心组件来提高数据存储和高效的数据库管理。LGEA门户网站的关系数据库设计符合设计结构在前面LungGENS关系数据库使用基因符号和它们相关的细胞类型为关系数据表中的主键。

LGEA门户网站的交互和可视化支持Highcharts (http://www.highcharts.com/),一个交互式图表库。Highcharts兼容现代移动和桌面浏览器(如Safari浏览器,Firefox和Chrome)。除了使用交互式的热图,柱状图,条形图和档案图来显示从单个细胞的基因表达数据,我们实现了新的图形和统计报告包括主成分分析(PCA)、散点图、箱线图和维恩图解LGEA网页设计。

结果

肺发展是一个高度管制和协调过程典型stage-specific包括分支形态发生结构和功能的变化,血管生成,成囊,alveologenesis cytodifferentiation。3在老鼠中,形成和成熟的肺的气体交换地区大约始于胚胎15 (E15)和结束在产后每天30 (PN30)。除了老鼠肺部E16.5单细胞RNA-seq数据之前发表在LungGENS LGEA数据库已经扩展到包括单细胞,排序从整个肺组织细胞和发育时间进程数据从E16.5 PN28和成人。数据库同步与正在进行的研究的研究中心LungMAP财团。LGEA门户网站提供了三个主要类型的使用扩展的数据库分析:(1)使用“LungGENS”单细胞转录组分析(2)使用“LungSortedCells”和肺细胞群排序分析(3)肺发育时间课程分析使用“LungDTC”中所描绘的一样图1一个。

图1

(A)的主页肺癌基因表达分析(LGEA)门户网站提供对数据的访问和查询结果。两个综合分析工具(B)基因在一眼,“SigComparison”(C) LGEA所示。LungSortedCells和LungDTC查询功能(D和E)所示。

LungGENS

LungGENS的最初版本是托管使用scRNA-seq数据获得从胎鼠肺E16.5(148细胞)。当前版本的LungGENS数据库包含额外的细胞从E16.5测序和E18.5小鼠肺、使用Fluidigm C1微流体技术处理。“基因查询”和“细胞类型查询的检索数据从数据库扩大提供为每个肺细胞类型特异性基因表达模式和相关的基因签名,表面标记和转录因子的细胞类型。“基因列表查询”已经扩大到所有数据集LGEA门户网站。用户可以输入一个基因列表符号和检索预测细胞共同表达他们感兴趣的基因列表。

LungSortedCells

LungSortedCells数据库包括fluorescence-activated细胞排序(流式细胞仪)排序为内皮细胞数量丰富,间叶细胞,免疫细胞和上皮细胞从人类肺(由人体组织处理核心(HTC) LungMAP财团支持的罗切斯特大学)在第一天和20个月;排序2型细胞小鼠肺泡PN7 PN28,排序鼠标间叶细胞,免疫和上皮细胞在PN7 PN28,Pdgfra表达成纤维细胞在E16.5 E18.5, PN7 PN28(由CCHMC”处理鼠标LungMAP财团支持的中心)。“基因查询”允许用户输入一个基因感兴趣的象征。查询输出使用条形图来显示其表达水平在所有细胞类型和纯色的热图概述查询表达式的水平的基因表达在LGEA数据库中所有的数据集(图1D)。“细胞类型查询”标识一个特定细胞类型的基因签名列表,显示使用一个交互式的热图和提供可下载的数据表的查询。基因转录因子、细胞表面标记和签名确认从scRNA-seq分析也列在表格形式交叉引用(图1D)。基因符号数据表设计成一个弹出查询面板中,让用户重定向查询基因LGEA数据库中的任何数据集(图1D)。签名基因识别使用以下标准:(1)基因的表达细胞B与全基因组的表达水平> 0.6分位数分布;(2)基因表达在细胞B至少5倍高于平均水平的表达基因在所有其他细胞类型;(3)基因是最高度表达的细胞B细胞表达至少1.5倍高于类型下一个最高水平的基因表达和(4)基因在细胞的变异系数B生物复制< 0.5。

LungDTC

我们收集发育时间进程(DTC)数据集从全鼠标肺核糖核酸微阵列实验从三个鼠标(E15.5 PN30)菌株,3,4整个鼠标肺RNA-seq E16.5, E18.5, PN1, PN3, PN7 PN14和PN28(由“CCHMC”鼠标处理中心)和整个恒河猕猴肺RNA-seq (GA100, 130年和150年)。我们提出结合PCA、散点图、折线图和可下载的差异表达基因表显示动态基因表达模式重要发展时期(图1E)。用户可以比较不同品系小鼠的表达数据和不同的技术平台包括RNA微阵列和RNA-seq。动态配置模式显示在图表和下载基因表(图1E),用户可以在该界面中探索单个基因的表现概要文件和重定向套ToppGene分享相似的表达模式的基因(https://toppgene.cchmc.org/enrichment.jsp)基因集富集分析。

LGEA工具

为了便于比较和整合分析,我们开发了新的工具,包括“基因一瞥”(图1B)和签名比较(“SigComparison”) (图1C)。“基因一瞥”允许用户输入任何感兴趣的基因和显示给定基因表达信息在发育时期和条件在LGEA数据库(图1B)。“SigComparison”比较签名LGEA内两个实验条件之间的基因数据库,显示结果使用维恩图和计算重叠的数据集的相关性。另外,用户可以输入和比较他们的基因列表与特定细胞类型的基因签名确认LGEA数据库或比较两个基因列表独立于LGEA数据库(图1C)。除了为LungMAP开发分析工具,LGEA提供URL链接> 60常用的内部和外部资源。例如,通过单击选项卡上的“肺图像”LGEA主页,用户将被重定向到肺图像网络收集(https://research.cchmc.org/lungimage/)主持Whitsett博士的实验室。肺图片库包含> 2000免疫荧光共焦显微镜图像从出生后小鼠胚胎(E16.5和E18.5)和(PN1、PN3 PN7, PN10, PN14和PN28)肺、蛋白质标记代表主要的肺细胞类型。画廊还包含> 1000产后人类肺的图像从4个月到4岁。每个蛋白质标记之间的联系和可用的单细胞RNA-seq LungGENS提供的数据。

局限性和未来的发展方向

LGEA的第一阶段的目标是为肺癌研究社区开发用户友好的工具快速和容易的转录组数据访问。一些地区仍需要进一步发展以改善功能,更好地满足不同层次的数据分析。下面描述的一些局限性。(1)目前,LGEA仅覆盖从正常的老鼠和人类肺转录组数据。其他组学数据类型包括蛋白质组学、代谢组学和lipidomic和数据相关肺部疾病还没有包括在内。我们正在积极努力扩大LGEA数据库包括单细胞数据从特发性肺纤维化、囊性纤维化和其他慢性肺部疾病。(2)当前版本的LGEA单细胞包含数据处理使用Fluidigm C1微流体技术,限制细胞的数量被俘虏,反过来影响统计分析的力量。目前,RNA产生数据从成千上万的个人使用的Drop-seq肺细胞。5我们正在积极努力的复杂数据挖掘分析管道促进Drop-seq RNA-sequencing数据。LungGENS将扩大到包括单细胞RNA-seq数据从这个新的平台。从越来越多的单个细胞转录组数据将增加统计力量用于程控基因识别、描述和签名启用罕见的小说或细胞类型的识别。(3)当前LGEA web查询数据上执行一个基因/细胞或基因列表包含< 500个基因。(4),当前版本LGEA查询只接受官方基因符号注释的人类和小鼠基因组。因为网上有许多基因ID转换工具;包括Biomart (http://central.biomart.org/),大卫(http://david.abcc.ncifcrf.gov/)和生物数据库网络(http://biodbnet.abcc.ncifcrf.gov/db/db2db.php),我们建议用户把不同类型的官方基因符号id LGEA之前的应用程序。(5)当前版本的LGEA不提供定制应用程序编程接口(API)的编程数据访问。然而,目前,部分LGEA函数可以直接访问使用的编程语言,如R、Python或Java,通过使用适当的网络(HTTP)客户端api自查询结果以JSON格式编码。

结论

新LGEA门户网站是为了实现新特性和分析方法提供一个扩展的数据库启用快速分析(1)scRNA-seq使用“LungGENS”(2)肺细胞群排序使用“LungSortedCells”和(3)肺发育时间进程数据使用“LungDTC”。LGEA提供有用的图形化界面与新的互动选项使用越来越全面的RNA表达数据集。新的LGEA门户网站数据库将自然延伸到新生成的数据从正常和不正常肺组织和细胞的其他物种,发育时间和实验协议。LGEA将广泛适用于肺癌研究和免费的http://research.cchmc.org/pbge/lunggens/mainportal.html和LungMAP研究协会网站(http://www.lungmap.net/)支持的国家心脏、肺和血液研究所(NHLBI)。

确认

作者感谢莎拉博士林(项目负责人)和LungMAP研究联盟的所有成员。作者承认技术来自Mehari Endale鼠标Pdgfra +细胞制备、苏珊·温特博士协调猴子组织和细胞。Charleen Slaunwhite和特里Wightman罗切斯特大学的流式细胞仪的核心;约翰•阿什顿本·史密斯,米歇尔Zanche,凯利Schooping迈尔斯和杰森罗切斯特大学的基因组学研究的核心,为他们的贡献研究设计,细胞RNA序列排序和HTC。

引用

脚注

  • 推特跟随燕许@YanXu_Cincy

  • 贡献者YX和码的构思和设计web应用程序。码开发数据库和web应用程序。木菠萝,正义与发展党,JPB和下巴设计和鼠标单细胞和排序进行细胞RNA-seq实验。设计和实施AHJ和下巴恒河猕猴RNA-seq实验。RSM、GSP TJM和某人设计和人类细胞RNA-seq排序进行实验。SSP,下巴,PD和英航的构思和表现单细胞实验,帮助生成和解释肺单细胞数据。毫克,码和YX导致数据分析和解释。码,下巴和YX导致了写作的手稿。所有作者的手稿已阅读并提供输入。

  • 资金NHLBI U01 HL122642 (LungMAP)。

  • 相互竞争的利益没有宣布。

  • 出处和同行评议不是委托;外部同行评议。

  • 数据共享声明LGEA门户网站和LungGENS是免费为非商业用途http://research.cchmc.org/pbge/lunggens/mainportal.html与其他组学数据和数据将被整合和肺部图像数据在“呼吸”数据库,并显示在LungMAP网站(http://www.lungmap.net/)。