- PDF
- 拆分视图
-
摘要
非生物实验误差或“批量效应”跨越的微阵列实验多批次通常观察到的,往往呈现数据,从这些批次相结合的任务艰巨。微阵列数据集相结合的能力,有利于研究人员,以增加统计力量,以检测生物现象从研究其中后勤考虑限制样本大小或在需要阵列的顺序的杂交研究,在一般情况下,是不恰当的数据集,而无需调整为批次效应相结合。方法已被提出,以从数据滤波器批次的影响,但这些都是常复杂,需要大批量(
<米ath xmlns="http://www.w3.org/1998/Math/MathML"> > 25 )来实现。由于大多数微阵列研究是使用更小的样本量进行的,现有的方法是不够的。我们提出了参数和非参数贝叶斯经验框架来调整批量效应的数据,这些数据对小样本的异常值具有很强的鲁棒性,对大样本的效果与现有方法相当。我们用两个实例数据集说明了我们的方法,并说明我们的方法是合理的,易于应用,在实践中是有用的。我们的方法的软件可在以下网站免费下载: http://biosun1.harvard.edu/complab/batch/ 。 1 I
NTRODUCTION 随着基因表达微阵列的广泛应用,生物学家能够有效地提取假设,并在实验室环境中进行实验验证。例如,微阵列实验可以比较病变或处理过的组织(处理)的基因表达谱与正常组织(对照)的基因表达谱,以确定哪些基因与疾病或治疗的存在相关,从而更好地了解疾病/基因关系。然而,实际的考虑限制了一次可以扩增和杂交的样品的数量,并且复制的样品可能相隔几天或几个月产生,引入了系统的“批量效应”或非生物差异,使得不同批次的样品不能直接进行比较。从最早的微阵列实验(
着陆器,1999 ),并且当测定完成时,或甚至大气臭氧水平可以通过许多因素,包括使用的批扩增试剂的,一天中的时间而引起( 票价 和其他人 ,2003 )。批次效果也不可避免当新样本或重复递增地添加到现有的阵列数据集或在多个研究的荟萃分析池微阵列在不同的实验室,数组类型,或平台上的数据( 罗兹 和其他人 ,2004年 )。一些研究人员提出了调整批量效应的方法( 贝尼托 和其他人 ,2004年 ; 改变,更改 和其他人 ,2000 ),但这些方法需要很多样本( <米ath xmlns="http://www.w3.org/1998/Math/MathML"> > 25 ),以获得最佳性能,并可从数据中去除真实的生物变异。在本文中,我们提出了一种经验贝叶斯(EB)方法,该方法对于批量较小的数据的批量效应具有鲁棒性。 1.1具有批处理效果的微阵列数据
数据组1导致从寡核苷酸芯片旨在揭示是否哺乳动物细胞暴露于一氧化氮(NO)的mRNA稳定化对人肺(Affymetrix公司HG-U133A)实验成纤维细胞(IMR-90)。暴露于NO 1个小时对照样品和样品然后转录抑制7.5小时。微阵列数据收集基线(0小时,只是之前转录抑制),并且在实验(7.5小时后)的用于控制和NO处理组的两端。据推测,将NO诱导或抑制某些基因的表达,而且也将稳定许多基因的mRNA,防止它们7.5小时之后被降解。每次处理的组合的一个样品进行杂交,从而产生四个阵列。重复该实验在三个不同的时间或在三批(总共12个样品)。在该数据组中的批次使用相同的细胞来源相同的实验,并使用相同的设备在相同的实验室中通过相同的研究人员进行的。
图1(a) 包含数据集1的热点图,使用标准的分层聚类算法,并使用dChip软件( 李和王,2003年 )。这张热图显示了研究人员试图合并多批微阵列数据时通常看到的特征。所有四个样品在第二批聚集在一起,表明该聚类算法确认批次变化为最重要来源的变化在这个数据集。我们给另一个示例数据集与批处理效果,在本文数据集2表示,在网上 补充材料 可以在 生物统计学 线上。 在微阵列1.2 EB应用
EB方法已经应用于微阵列数据分析的各种设置中(
陈 和其他人 ,1997年 ; ·埃夫隆 和其他人 ,2001年 ; 牛顿 和其他人 ,2001年 ; Tusher 和其他人 ,2001年 ; Kendziorski 和其他人 ,2003 ; 史密斯,2004 ; Lonnstedt 和其他人 ,2005年 ; 平底锅,2005 ; Gottardo 和其他人 ,2006年 )。EB方法在微阵列问题中非常有吸引力,因为它能够在样本容量小的情况下稳健地处理高维数据。EB方法的设计主要是为了跨基因和实验条件“借用信息”,希望这些借用的信息能够带来更好的估计或更稳定的推论。在上述的论文中,EB方法通常被设计为稳定比率非常高或非常低的基因的表达率,通过缩小所有其他基因的变异来稳定基因变异,可能保护它们的推论不受数据中人为因素的影响。本文将电子束方法扩展到微阵列数据中批量效应的调整问题。 2 E
调整批量效果的方法 2.1微阵列数据标准化
由于噪声和人为的影响,微阵列数据经常受到高变异性的影响,这通常归因于芯片、样品、标签等方面的差异。为了纠正这些由非生物条件引起的偏差,研究人员开发了“标准化”方法来调整这些影响的数据(
Schadt 和其他人 ,2001年 ; 曾雅妮 和其他人 ,2001年 ; 杨 和其他人 ,2002年 ; Irizarry 和其他人 ,2003 )。然而,结合数据的批(含有大批与批变异特别批次)时归一化程序不调整数据批次的影响,因此,归一化是不够的用于调整批次效应和其它程序必须被应用。 2.2其他批次效果调整方法
在文献中已经提出了一些调整批量效应数据的方法。
改变,更改 和其他人 (2000年) 提出了一种方法,用于调整通过调整基于奇异值分解(SVD)批次效果数据“通过过滤掉被推断为代表噪声或实验假象那些特征基因(和eigenarrays)的数据。” 尼尔森 和其他人 (2002) 成功地将SVD批处理效果调整应用到微阵列元分析中。 贝尼托 和其他人 (2004) 使用距离加权歧视(DWD)纠正系统的偏见在微阵列批次通过两个批次之间的分离超平面,并调整数据投影到不同批次DWD平面,找到一批的意思,然后减去DWD平面乘以这个意思。 还有谁试图实现SVD和DWD批量调整方法所面临的困难,研究人员。这些方法是相当复杂的,通常需要许多样品(
<米ath xmlns="http://www.w3.org/1998/Math/MathML"> > 25 )每批次实施。对于SVD调整,在SVD的本征矢量是正交的所有彼此,因此该方法是高度依赖于第一几个特征向量,这使得寻找批次效应向量并不总是很清楚,如果它甚至在所有存在的适当选择。此外,SVD方法的因素出在给定的方向上的所有变化,这可能不是完全由于批次效应。在DWD方法只能在一个时间被施加到两批。举一个例子, 贝尼托 和其他人 (2004) 使用逐步的方法,第一调节两个最相似的批次,然后比较上日(调整)的两个第三位。逐步的方法产生在他们的三批次的情况下合理的结果,但是这可能会打破在情况下,有更多的批次或批次时,不非常相似。 2.3基于模型的位置/规模调整
位置和比例(L / S)的调整可以被定义为一个宽家族的调整,其中一个假定型号为位置(平均值)和/或规模的批次内的数据的(方差),然后调整批次满足假定型号规格。因此,L / S批调整假定批次影响可以通过标准化装置进行建模并跨批差异。这些调整的范围可以从简单的基因明智的均值和方差标准化到复杂的线性或跨越基因非线性调整。
一种直接的L/S批量调整方法是对每个基因的每个批次的方差分别进行均值中心和标准化。这种方法目前已在数码晶片软件(李和王,2003年 ),并指定为“使用标准分隔器”(见 图1(b) )。在更复杂的情况下,如不平衡设计或掺入数值协变量时,必须使用更一般的L / S的框架。例如,让 代表用于基因表达值 g 样品 j 从批处理 我 。定义一个假设的L/S模型 (2.1)哪里是整体的基因表达, X 为样本条件的设计矩阵, 回归系数的向量是否对应 X 。误差项, ,可以假设遵循为零,方差为预期值正态分布 。的 和 代表批次的可加和可乘批次效应 我 基因 g , 分别。批次调整后的数据, ,由下式给出 (2.2)哪里是参数的估计吗 , , , 基于模型。 3 EB
调整方法的批处理内即可生效 的SVD,DWD,和L的最重要的缺点/ S的方法是,大批量所需要的实现,因为这样的方法是不稳健的小样本量的异常值。在本节中,我们建议稳健调整批次,小样本的方法。此方法结合了系统的批量偏差共同跨越基因进行调整,假设导致批次效应现象往往会影响以类似的方式的许多基因(即增加的表达,更高变异等)。具体来说,我们通过在每批“汇集信息”跨基因估计,代表批次效应的L / S模型参数“缩水”批处理效果参数估计朝向批次效应估计值的总平均(横跨基因)。然后,这些EB估计被用来调整批次效应的数据,对每个基因的批次效应提供更健壮的调整。该方法在下面三个步骤进行说明。
3.1参数调整收缩
我们假设所有基因和样本的数据都已归一化,表达值已被估计。我们还过滤掉80%以上样本中被称为“缺失”的基因,以消除噪音。假设数据包含米 批次包含 批次内的样品 我 对于 ,基因 。我们假设在指定的型号 (2.1) ,即 ,通常均值为零,方差分布 。 步骤1:标准化数据
表达值的幅度可以跨基因由于mRNA表达水平和探针灵敏度不同。和---关联(2.1) ,这意味着 ,
本文导航
W.埃文·约翰逊,
使用经验贝叶斯方法在微阵列表达数据调整批次效应<我class="icon-availability_free" title="Free">
W.埃文·约翰逊
美国马萨诸塞州波士顿市达纳-法伯癌症研究所生物统计和计算生物学系,美国马萨诸塞州波士顿市哈佛大学公共卫生学院生物统计系cli@hsph.harvard.edu
李成
美国马萨诸塞州波士顿市达纳-法伯癌症研究所生物统计和计算生物学系,美国马萨诸塞州波士顿市哈佛大学公共卫生学院生物统计系cli@hsph.harvard.edu