跳到主要内容
广告
浏览主题
?

点击PLOS分类法找到你所在领域的文章。

有关公共科学图书馆学科领域的更多信息,请单击在这里

  • 加载指标

欧拉:使用椭圆绘制面积比例3维恩图

摘要

有三条曲线的维恩图被广泛应用于各种医学和科学学科,以可视化数据集之间的关系并方便数据分析。重叠曲线形成的区域的面积往往与所描述的集合关系或任何其他相关定量数据的基数成正比。手动绘制这些图表是困难的,目前的自动绘图方法并不总是能生成适当的图表。大多数方法将数据集描述为圆形,因为由于它们的平滑和规律性,它们在感知上作为完全不同的对象弹出。但是,对于大多数3-set数据,圆不能画出准确的图,因此生成的图往往有误导性的区域区域。其他方法使用多边形来绘制精确的图表。然而,多边形是非光滑和不对称的,因此曲线不容易区分,图表也很难理解。椭圆比圆更灵活,同样光滑,但目前的自动绘图方法都没有使用椭圆。我们提出欧拉作为第一个方法和软件,使用椭圆自动绘制精确的面积-比例维恩图3集数据。我们描述了欧拉所采用的绘图方法并讨论了欧拉算法的有效性评价以及用于绘制随机3组数据的椭圆。我们比较欧拉以及目前可用的各种其他方法,我们讨论了它们生成的图表在准确性和对真实世界数据的易于理解方面的差异。

简介

定期生成和分析数据。例如,研究基因组之间的关系是为了了解生物过程,改善医疗保健,找到治疗疾病的方法,解决农业问题。为了帮助分析,经常使用维恩图。每个数据集由一条封闭曲线表示,每个数据集关系由曲线之间的一个空间关系表示。曲线和它们的空间关系通常都很容易看到,因为封闭的曲线被预先处理,并作为完全不同的物体弹出[1]特别是当曲线平滑且有良好的延续性时[2]。由于公共区域的感知分组原则,闭合曲线也有助于集合分析[3]和闭包[4]

一个维恩图n曲线被称为曲线n-维恩图及其区域描述了所有的2n曲线的不同组合重叠。维恩图也可以area-proportional,使得图中每个区域的面积与所描述的集合关系对应的定量数据成正比[5]。尺寸是预先处理的[6]而且由于它的弹出效果很容易被注意到[7]。因此,维恩图可以很容易地描述数据集关系以及它们的基数或其他相关的定量数据。这种图的小倍数还可以促进对不同属性的数据集集合的分析(例如,描绘不同国家重叠疾病症状的维恩图)[8][9][10]).

因此,面积比例3-维恩图已被用于,例如:比较抗癌药物治疗后差异调节基因的细胞类型[11]图1一个);总结重度疟疾的预后指标[12]图1 b);分析三个不同研究中蛋清蛋白质组的异同[13]图1 c)和基因文库之间[14]图1 d);研究雄性野蟋蟀不同组织类型的转录组变异[15]图1 e);总结了三个不同研究中影响DNA损伤的基因[16]图1 f).这样的图表也被用于各种其他学科,如:神经科学[17];生物科学[18];微生物学[19];植物学[20];生态[21];公共卫生[22];博物馆的保护[23];犯罪学[24];信息搜索和过滤[25]。还提供了专门侧重于生成面积比例维恩图以量化所研究数据集之间关系的科学工作(例如,[26]- - - - - -[28]).

缩略图
图1所示。文献中用圆(A-C)和多边形(D-F)绘制的面积比例3-维恩图的例子。

(A)比较抗癌药物治疗后差异调控基因的细胞类型[11]。画这张图的方法没有被注意到。这张图是图3 b[11],以前在CC BY许可下发布。(B)总结重度疟疾的预后指标[12]。画这张图的方法没有被注意到。这张图是图3[12](N值和括号中的百分比被删除),以前在CC BY许可下发布。(C)在三个不同的研究中分析鸡蛋清蛋白质组之间的异同[13]。用维恩图绘图仪绘制[http://omics.pnl.gov/software/VennDiagramPlotter.php].这张图是图2一个[13],以前在CC BY许可下发布。(D)分析基因库之间的重叠[14]。使用DrawVenn绘制[5]。这张图是图4 b[14]CC BY授权,由John Wiley and Sons授权,2009年原创版权。(E)研究雄性野蟋蟀不同组织类型的转录组变异,即睾丸、副腺和身体其他部分[15]。使用凸Venn-3绘制[51]。这张图是图1(左)[15]CC BY授权,内森·贝利授权,2013年原创版权。(F)总结三个不同研究中发现的影响top1诱导DNA损伤的基因[16]。使用DrawEuler绘制[55]。这张图是图3一[16](添加了数字标签,表示根据文章,图中的每个区域应该表示的定量数据),以前在CC BY许可下发布。

https://doi.org/10.1371/journal.pone.0101717.g001

一项非正式研究在世界上被引用最多的期刊(如《自然》)中确定了各种面积-比例维恩图。[29]。几乎所有这些图表都有两条或三条曲线,并用圆绘制。大多数有三个圈的都是误导性的,并且描述所需的数据不恰当,比如图1 a - c。例如:图1一个,值为45的区域比值为53和54的区域大;在图1 b,值为25的区域比值为36的区域大;在图1 c,值为3的区域比值为4的区域要小得多。在某些情况下,生成的图表不能描述曲线之间所有需要的重叠,如第4.3节和第4.4节所示。

这种面积-比例维恩图不能用特定的曲线形状来分析绘制,因此需要数值方法或启发式[30]。圆可以画出与任何两组数据成比例的区域面积的维恩图[5],但不是三个[30]由于它们的自由度有限(即一个中心和一个半径)。多边形可以为任何三组数据绘制精确的面积比例维恩图[30],但如图所示图1 d-f,它们的非光滑和非对称曲线不容易区分,妨碍理解[31][32]。尽管存在这些问题,但目前的绘图方法使用的不是圆形就是多边形。

椭圆比圆有更多的自由度(即一个中心,两个半轴,一个旋转角度),同样光滑。因此,用椭圆绘制的图表相对于所需的定量数据更可能准确,而且由于其曲线可区分,因此易于理解。这在图2在哪里图表准确地描述了由各自图表的数字标签所指示的数量图1。的图表图2使用我们新颖的绘图方法和软件,欧拉这是第一个使用省略号的。

缩略图
图2。用椭圆和欧拉绘制精确的面积比例3-维恩图的数据图1

这些图表中的每一个都描述了由相应图表区域中的数字标签所指示的集和定量数据图1。这些图是用欧拉画出来的,但标签已手动添加。

https://doi.org/10.1371/journal.pone.0101717.g002

椭圆的好处早在2004年就被注意到了(在第一篇关于面积-比例维恩图的论文中)[5]后来[29][30]),但由于计算重叠椭圆区域的面积和调整椭圆的各种性质的困难,椭圆从未被采用[5]。因此,欧拉是第一个解决这个众所周知的难题的。它也很新颖,因为它既不是以前任何画法的延伸也不是改编。欧拉的目前应用广泛而多样。欧拉生成的图表曾出现在许多不同学科的期刊文章中(例如,[33]- - - - - -[35]).《纽约时报》的一篇科学文章(http://www.nytimes.com/interactive/2013/04/16/science/disease-overlap-in-elderly.html)引用欧拉,西北太平洋国家实验室在其维恩图绘制软件网页(http://omics.pnl.gov/software/VennDiagramPlotter.php).这项工作也是第一次评估椭圆在为所需的集关系和相关定量数据绘制精确图表方面的有效性。讨论了欧拉的可用性第3.5节。

我们的贡献包括:(1)一种自动绘制精确椭圆图的优化方法,该方法由(1a)一种新的成本函数来指导优化过程(第3.2节),(1b)一种生成合理起始的方法(第3.3节),以及(1c)一种调整椭圆属性以寻找良好解决方案的机制(第3.4节)组成;(2)评价(2a)欧拉的有效性在绘制精确的图时,已知存在一个给定的3组数据(第4.1节),(2b)欧拉的有效性对随机3组数据绘制精确图时可能不存在用椭圆绘制的精确图,并将这些图与欧拉变体生成的图进行比较限制椭圆为圆(第4.2节),(2c)欧拉的有效性和venneuler[29](最新提出的基于圆的方法)为3集数据生成精确的维恩图(章节4.3),以及(2d)欧拉生成图的质量以及使用圆圈或多边形描绘真实世界医疗数据的各种其他绘制方法(第4.4节)。

本文中提到的所有实验都是在Intel Core i7-3770 CPU @3.4GHz, 8GB RAM, 64位Microsoft Windows 7 Professional SP1和Java Platform 1.7.0_10上运行的。

当前自动绘图方法和软件

2.1.为圆形

第一个使用圆的自动绘图方法是为具有两个圆的面积-比例维恩图开发的[5]和三个[36](称为3圈维恩)曲线。这些随后被用于医学和卫生保健等领域(例如,图3- d[37]图3c3)。后来又发展出了其他各种方法。其中一些方法和使用它们绘制的图表示例包括:BioVenn[38](例如,图3c5,[39]);维恩图绘图仪[http://omics.pnl.gov/software/VennDiagramPlotter.php)(例如,图1 c图3c2,[13]);PatternLab中的蛋白质组学模块[40](例如,图3c4,[41]);R包装,易受伤害[https://r-forge.r-project.org/projects/venerable)(例如,图3c6,[42])和venneuler[29](例如,图3c7、[43]);GeneSpring [http://www.strandgenomics.com/GeneSpring)(例如,[44]);维恩图表[https://developers.google.com/chart/image/docs/gallery/venn_charts)(例如,图3c8);Stata的PVENN [http://ideas.repec.org/c/boc/bocode/s457368.html)(例如,图3往上平移);SAS宏[45](例如,[27]);Matlab的VENN [http://www.mathworks.com/matlabcentral/fileexchange/22282-venn]和vennX [http://www.mathworks.com/matlabcentral/fileexchange/6116-proportional-venn-diagrams];网页应用程序[http://bioinforx.com/lims/cloud-based-free-research-tools-for-scientific-data-management-and-analysis/bxtoolbox)(例如,[46]).除了维恩图,所有这些方法都是用两个或三个圆绘制面积成比例的维恩图,大多数是最初设计的三个曲线的方法的简单变体[36]。各种方法(例如,BioVenn,蛋白质组学的PatternLab)是专门为生物数据设计的。

缩略图
图3。用不同的绘图方法为一篇期刊文章中的相同医学数据生成的图表。

所有的图表都是用来描述ω= {一个= 0.25,B= 0.01,C= 0.11,AB= 0.10,交流= 0.29,公元前= 0.03,美国广播公司= 0.15},表示一篇期刊文章中的医学调查结果[37]也包括图Dω。为ω以圆为基础的方法的图记为C,以多边形为基础的方法的图记为P,唯一有椭圆的图记为欧拉,为e。绿色表示用diagError≤10−6。红色表示区域不准确或缺失的图表。D是重绘的图5(底部)[37],以前在CC BY许可下发布。

https://doi.org/10.1371/journal.pone.0101717.g003

最新提出的venneuler方法与大多数其他方法不同,因为它使用统计模型来拟合所需的定量数据的面积比例图。该模型由一个归一化损失函数组成压力(定义为残差平方和除以总平方和)和最小化函数的机制。与3 Circle Venn相比[36]和一个方法VennMaster[47][48]venneuler在绘制凸正多边形图形时,无论是精度还是生成时间都是最有效的。然而,由于圆的限制,venneuler对大多数定量数据仍然产生不准确和误导性的图表。

使用两个圆可以为任何定量数据绘制精确的面积比例2-维恩图一个而且b。这是完全受约束的一个而且b有半径r一个而且rb分别和距离dab之间的中心一个而且b时,只存在一个重叠区域区域。当一个圆c,将2-维恩图的重叠区域分割为两个,并引入新的区域。所以一个3-维恩图是由三个2-维恩图组成的(即,2-Vennab2-Venn交流2-Venn公元前).中数值标签所表示的定量数据的面积比例3-维恩图图4一可以通过首先在?中绘制精确的2-维恩图来构造图4 b(区域中的数值表示其当前的面积),其中两个圆的副本c都是保证抽到的吗2-Venn交流而且2-Venn公元前是准确的。然后,旋转左边的副本c围绕中心逆时针旋转一个和正确的拷贝c顺时针绕中心旋转b。只有一个圆c是必需的,因此,两份c必须旋转,直到它们完全重叠(图4 c).此时,3-维恩图中的重叠区域将自动形成(图4 d).然而,所产生的区域范围(图4 e中的数字标签不太可能与所需的相同(即图4一),然而,任何改变都不能提高一个区域的准确性而不影响其他区域的准确性。

缩略图
图4。一种用圆构造面积比例3-维恩图的方法。

(A)每个区域的定量值表示所需的区域面积,需要绘制面积比例3-维恩图。(B)构造的第一步,即绘制三个精确的2-维恩图。(C)构造的第二步,即将相同的圆副本标记c旋转后它们完全重叠,只有一个圆被标记c是可见的。(D)只有三个圆可见的情况,这样就得到了3-维恩图的区域。(E)构造图D中区域的实际面积,在大多数情况下,当这些图用圆圈绘制时,与a中所需的值不对应。图中每个区域的数字标签表示区域的实际面积。

https://doi.org/10.1371/journal.pone.0101717.g004

2.2.Polygon-based

第一个提出的方法是VennMaster[47][48],使用凸正多边形。这些多边形在形状上与圆相似,因此生成的图通常是不准确的(例如,图3p1,[49]).其他方法使用:三角形,如venvulnerable [https://r-forge.r-project.org/projects/venerable)(例如,图3p2);矩形(例如,[50]);正交直线曲线,如DrawVenn[5](例如,图1 d图3p3,[14])及易受伤害[https://r-forge.r-project.org/projects/venerable)(例如,图3p4);4边和5边凸多边形,如凸维恩-3[51](例如,图1 e图3p5,[15]);平行四边形[52];正交polyominoes[53];凸和非凸的组合,平滑和直线的曲线,如venture[54]和在venvulnerable [https://r-forge.r-project.org/projects/venerable];在DrawEuler中,弯曲的多边形[55](例如,图1 f图3p6,[16])及风扇图[56]。有人提出了一种为任意数量的曲线绘制多边形图的方法,但尚未实现[57]。最近的一种方法,Euler3,被设计成只在不能使用圆的情况下使用多边形[58]

欧拉方法及软件

我们的绘图方法是欧拉基于简单的爬坡优化技术,在相对较快的时间内绘制带有椭圆的面积-比例图,并保持用户的注意力。利用基于积分的解析方法,精确地瞬时计算出三个相交椭圆区域的面积。[59]-第5.4节)。

所提供的数据中的每个量(需要为其绘制图表)首先按(One hundred./数据中最小的量),因此对不同但成比例的定量数据生成相同的图表。对应于区域的缩放量就是待生成图中该区域所需的面积。随后,开始寻找满足我们的图优度度量(第3.1节)的解决方案,从而生成与缩放的定量数据成正比的区域面积的图。成本函数将优化过程导向一个好的解决方案(第3.2节),其中,从所需区域面积的合理图(第3.3节)开始,椭圆的性质根据修改图的成本进行调整(第3.4节)。该软件可在线免费使用(第3.5节)。

3.1.图表优度测量

为了验证面积-比例图的区域面积是否准确且与所需的定量数据成正比,欧拉使用以下方法:

如果

  • ω是一组需要画出图表的量,
  • d是否生成面积比例图ω
  • R是描述图表曲线内部所需区域集的标签集,
  • ωr数量分配了吗rR应该用的面积来表示rd,
  • 一个r的面积。rRd

(1)而错误在d定义为(2)d是一个很好,关于ω的精确图表,因为它的区域面积准确地和在的数量成正比ω,当且仅当(3)

在欧拉ε= 10−6,当在其他方法的实现中定义一个值为0时,该值与其他方法的值一致(例如venneuler[29]).的价值regionError而且diagError总是在[0,1]中。

而不是用绝对面积,欧拉的度量考虑了每个区域面积占总图面积的比例。一个区域的不准确可能会使图中其他精确的区域或曲线看起来是错误的,因为区域和曲线可能会比较它们要估计的面积。这可以通过考虑区域的面积相对于图的总面积来避免。类似欧拉所使用的度量以前的绘图方法考虑过吗[36]

3.2.成本函数

为了获得关于所需定量数据的良好、准确的图表(如第3.1节所定义),我们的优化算法最小化了一个成本函数,该函数考虑了图表的准确性以及可能导致局部最小值的路径。在一个非正式的实验中,我们观察到大多数当前方法的代价函数,比如venneuler的方法压力[29]以及Chow和Rodgers的“理想主义”功能[36],通常会将优化驱动到局部最小值,因为图的整体误差会降低,但代价是将一个区域减小到接近不存在且其实际与所需面积比接近于零的程度。在这种情况下,不能进行进一步的更改,否则图将不再描述所需的所有区域。根据我们的观察,我们设计了以下新的成本函数:

如果

  • ω是一组需要绘制图表的量,
  • ω”是按比例的量的集合吗ω(如前面“欧拉”节所述获得APE方法及软件’),表示所需良好图中的所需区域区域ω
  • d是一个面积比例图的探索ω在优化过程中,
  • R是描述图表曲线内部所需区域集的标签集,
  • ω”r这个区域就是rR应该有所需的好图,和
  • 一个r的面积。rRd

然后是成本d定义为(4)

因此,图的成本是该图中所有区域成本的平均值。由于这项工作的重点是3-维恩图,所以可以使用总和。然而,我们使用了均值,所以这个函数可以用于其他未来的算法,用于具有任意数量曲线和重叠的图表。

一个图是为需要缩放的区域生成的ω”),因此,只考虑各区域的绝对面积就足够了。以前的技术(如VennMaster)也采用了类似的方法[47][48]。如果在我们的优度度量中考虑相对区域面积,搜索可能会受到限制,特别是在优化的初始阶段,当一个好的但非细化的解决方案是足够的。

分母一个r)rR在我们的函数中,防止优化路径减少图的整体误差,代价是减少区域的实际与所需面积比,导致局部最小值。在我们的函数中,实际面积与所需面积之比非常小的区域将会有非常大的代价,从而阻止优化选择这样的路径。

虽然我们的成本函数方程(4)是无量纲的,但它仍然是足够的,因为在为该数据生成图表之前,所提供的定量数据是按比例缩放的。然而,我们仍然在考虑如何制作方程(4)无量纲。分母一个r)rR可以平方吗(5)或者分子可以是所需面积和实际面积的绝对差面积的平方(6)

然而,这两个无量纲函数的效果将与我们的无量纲代价函数不同,因为区域的代价将比中要小得多方程(4)当实际区域面积大于1且远大于in时方程(4)当实际区域面积小于1时。这意味着较大的错误将不容易识别,实际区域面积将比意图识别实际面积与所需面积之比非常小的区域对成本的影响更大。一个地区的成本方程(6)与中的相同方程(5)除了它不是平方。因此,如果一个区域的大误差导致较小的成本方程(5)而不是方程(4),然后在方程(6)的成本将更小,从而更难识别不合适的路径。所以,我们期望方程(5),方程(6)不如…有效方程(4),以及方程(6)表现不如方程(5).

为欧拉选择最有效的代价函数,我们对以下成本函数进行了实验比较:F1, venneuler压力,使用venneuler 1.1-0版本的源代码,但与ω”r),一个r),以填写所需面积及地区的实际面积rRF2,这是周和罗杰斯“理想主义”功能的第一个组成部分,它与我们的思想有关regionErrorF3,各区域相对误差平方和;F4,各区域相对误差的最大值;F5,各区域相对误差之和;F6,我们的无量纲代价函数方程(4);F7,我们的无量纲代价函数方程(5);F8,我们的无量纲代价函数方程(6).

第3.4节中优化算法的代价函数被F1-F8中的一个替换,并用于为两个库生成图(重新运行选项被禁用),每个库包含10,000个随机的3-set数据项:L1已知存在精确的带椭圆的3-维恩图的定量数据;L2对于这些定量数据,尚不清楚是否能画出精确的带椭圆的3-维恩图。这个评估的细节和结果可以在Micallef的博士论文中找到[59](第五章及附录A)。

该评价和实验比较表明,我们的无量纲代价函数F6在以下方面最有效:

  • 为已知存在好的图表的定量数据生成好的图表;
  • 收敛到具有低值的图diagError即使不能根据给定的数据画出好的图表;
  • 识别和避免导致优化到局部最小值的路径,当图的整体误差减小时,代价是将区域的面积减小到接近不存在且其实际与所需区域面积比接近于零;
  • 用最少的时间和最少的迭代来生成图表,特别是对于已知存在良好图表的数据;
  • 生成大部分图表(97.3%,N= 20000),确保用户的思路被保持,并生成几乎所有的图(99.6%,N= 20000)的时间(10秒),以确保保持用户的注意力。

与其他成本函数相比,F6在生成良好图表方面的有效性diagError在不好的图中,对于L1数据生成的图,生成时间和迭代次数非常明显,而对于L2数据生成的图则不太明显。L1的结果可能比L2的结果更重要,因为L1中所有10,000个数据项都存在一个带省略号的精确图。有3组数据不能用凸曲线画出精确的图表[30](以及省略号),这些数据中有多少是在L2中是未知的。该评估还表明,所有的代价函数(F1-F5),除了我们设计的那些(F6-F8),经常将优化引向局部最小值,因为一个区域的实际与所需面积比减少到接近于零的值。因此,成本函数应该重加权那些面积相对于所需面积非常小的区域,如F6-F8所做的那样。然而,正如预期的那样,我们的无量纲代价函数F7和F8不如我们的无量纲代价函数F6有效。

根据这一评估结果,欧拉使用代价函数F6,如方程(4).

3.3.起始图

优化过程必须从解决方案开始。这通常是一个任意的或不变的解。欧拉考虑了两种类型的起始图。任意起始图是由三个椭圆组成的维恩图,这些椭圆的属性被随机赋值。不变的起始图是一个具有三倍旋转对称的维恩图,由三个大小相等的圆和大小相似的区域组成,除了只有一条曲线上的那些区域是其他曲线的三倍左右。正如预期的那样,这两种类型的开始图在生成时间和图质量方面都导致了糟糕的结果,因为这样的开始图没有考虑到好的解决方案必须满足的数据,而且更有可能将优化引向局部最小值[60][61]。我们需要欧拉因此任意的起始图是特别不合适的,因为每次优化运行时都会为相同的数据生成不同的图(例如,VennMaster[47][48]).

一个适用于所需定量数据的合理起始图更有效,因为它减少了收敛时间和达到局部最小值的可能性。例如venneuler就使用这种开始图[29]。欧拉所使用和生成的起始图是使用三个具有相等半轴的椭圆绘制的,因此椭圆被描绘为圆。将0、π/3和2π/3的旋转角度分配给三个各自的椭圆,以确保在优化时考虑可能的旋转角度的整个空间。为椭圆指定一个合适的中心是困难的,但重要的是,这决定了区域面积的准确性。两个最大的椭圆,e1而且e2,在图中选择一个面积成比例的2-维恩图,准确地描绘了对应的数据e1而且e2它们的重叠部分是用Chow和Ruskey的平分法画出来的[5]。这增加了总体起始图接近所需的可能性,因为可以用圆圈为任何具有两组数据绘制精确的面积比例维恩图[5]和2-维恩图e1而且e2覆盖了开始关系图的很大一部分。

在优化过程中对椭圆的更改会影响恰好在三个椭圆中的区域面积。因此,一个能最小化该区域误差的起始图似乎很有帮助。为了实现这一点,中心为第三个椭圆e3.是在沿直线的区间内应用等分法得到的吗l,如图5l是角的平分线,ψ,两行之间,T1而且T2,分别是切线e1而且e21的上交点e1而且e2).沿的间隔l是(ul),u一个点在另一个点上面吗ll,如图中褪色的蓝色圆圈所示图5的中心。e3.必须在u而且l(但不等于ul)e3.相交于e1而且e2两次,形成3-维恩图曲线内部的七个区域。如褪色的蓝色圆圈所示图5,该区间的端点以及不在该区间内的任何值将生成一个非维恩图的图。

缩略图
图5。起始图生成器沿等分线对间隔进行等分以定位第三个椭圆。

椭圆的中心e3.点在直线上吗l平分角ψ在两个切线之间T1而且T2。等分法应用于由褪色的蓝色圆圈指示的区间内l。得到的中心应使所需区域面积与实际区域面积在三个椭圆内的差异最小。

https://doi.org/10.1371/journal.pone.0101717.g005

在为10,000个随机的3组数据项生成的初始图中,已知存在精确的带椭圆的维恩图,其中63%具有diagError≤0.05(即5%)。的价值diagError总是在[0,1]中,因此,该结果表明生成的起始图相对接近所需的解决方案。此外,生成图表的时间比瞬时响应的0.1秒限制少了10倍[62][63]10,000个图表的平均时间为8毫秒。

3.4.优化算法

我们简单的爬坡算法从一个合理的起始图开始,系统地调整它的椭圆的性质以最小化我们的代价函数,直到相对于给定的定量数据获得一个好的图。虽然是简单的局部搜索,但很少遇到局部极小值,如果遇到,我们的算法能够处理这种情况,并且在已知给定数据存在精确的用椭圆绘制的面积比例3-维恩图时获得很好的解(如4.1节所示)。

我们的优化算法的特点是由以下三个参数决定如何在每次迭代,每个椭圆e修改以搜索其他可能的解决方案:

  • 的一个或两个中心坐标所对应的像素数e被修改为探索八个新的中心e-这些在图6,即黑色椭圆和黑色点所在的位置e它的中心在任何变化之前,灰色的点是八个新的中心e
  • pαβ的一个或两个半轴的缩放百分比e被修改为探索八个新的半轴e-这些在图6 b,其中黑色纯椭圆为e之前的任何变化和虚线的彩色椭圆e有八个新的半轴;
  • ,旋转角度的弧度数e被修改为探索两个新的旋转角度为e-这些在图6 c,其中黑色纯椭圆为e之前的任何变化和虚线的彩色椭圆e有了两个新的旋转角度。
缩略图
图6。在优化搜索过程中修改椭圆属性的不同方式。

在优化算法的每一次迭代中,对每个椭圆的(A)中心、(B)半轴和(C)旋转角分别进行参数修改pαβ而且寻找其他解决方案。(A)灰色点表示当椭圆中心的一个或两个坐标(纯黑色)增加或减少时获得的新中心。(B)标签+ pαβ意味着这个半轴增加了pαβ百分比,而-pαβ意味着这个半轴减少了pαβ百分比。虚线椭圆表示当(上,左)只增加或减少半长轴时,椭圆(纯黑色)是如何改变的pαβ;(上,右)只有半小调增加或减少pαβ;(下,左)半轴都增加或减少pαβ;(右下)一个半轴增加,另一个半轴减少pαβ。(C)虚线椭圆表示当椭圆的旋转角度增加或减少时,椭圆(纯黑色)是如何改变的

https://doi.org/10.1371/journal.pone.0101717.g006

可以接受导致图表成本降低的更改。一开始,= 10像素,pαβ= 5%和= 2π/ 3。这些值是在对不同的3-set数据进行图表生成后选择的pαβ而且值。如果在迭代结束时,椭圆的属性没有改变,相应参数的值将线性减少(减半)。这意味着主要的变化只发生在搜索空间的一开始,当探索一个好的但未细化的解决方案时。作为价值观pαβ而且进一步减少,探索对图的微小更改,以便将图细化到所需的良好解决方案。这种冷却计划类似于模拟退火的全局优化方法,降低了收敛到局部最小值的可能性和收敛到良好解所需的时间。我们将参数减半,因为我们观察到更快的冷却速率限制了图的细化,而较慢的冷却速率在计算上是昂贵的。这是给定一组量的图生成过程的算法,ω

算法欧拉ω

输入ω是一个由七个量组成的集合,每个量对应于3-维恩图曲线内部的一个区域

输出:用椭圆画的面积比例3-维恩图ω以及图表是否准确

1:d←关于的合理起始图ω

2:如果d是一个好的图表吗ω通过方程(3然后

3:返回d准确的

4:如果

5:ω”的缩放量集←ω

6:←10像素,pαβ←5%,←2π/ 3

7:

8:每一个椭圆ed

9:中心←由。获得的八个中心e

10:每一个c中心

11:如果的成本d通过方程(4)当的中心减小时edc然后

12:改变中心edc

13:如果

14:结束了

15:semiaxes←得到的八个半轴pαβe

16:每一个年代semiaxes

17:如果的成本d通过方程(4的半轴为ed年代然后

18:改变的半轴ed年代

19:如果

20:结束了

21:旋转←由所得到的两个旋转角度e

22:每一个r旋转

23:如果的成本d通过方程(4)的旋转角度减小edr然后

24:改变的旋转角度edr

25:如果

26日:结束了

27:结束了

28日:如果没有椭圆d它的中心改变了吗然后

29:分2

30:如果

31日:如果没有椭圆d它的半轴变了吗然后

32:分pαβ2

33:如果

34:如果没有椭圆d它的旋转角度改变了吗然后

35:分2

36:如果

37:如果εpαβε而且ε,在那里ε= 10−6然后

38:返回d不准确的

39:其他的

40岁:如果d是一个好的图表吗ω通过方程(3然后

41:返回d准确的

42:如果

43:如果

44:循环

当遇到局部最小值时,将到达第38步。要处理这种情况,欧拉有一个重新运行选项,当启用时,它重新运行优化使用起始值pαβ而且这比之前使用的要大20%。欧拉然后在找到一个好的图表时终止,或者当重新运行10次而还没有找到一个好的图表时终止。在后一种情况下,是最低的图diagError从11个生成的图中返回。当我们观察到可以从这种增加和扩展搜索空间的探索中受益的情况时,我们选择在不同参数值的信息实验之后将参数值增加20%。

3.5.可用性和如何使用

软件可执行文件和Java源代码在GNU通用公共许可证第3版下免费提供www.eulerdiagrams.org/eulerAPE。欧拉的最新版本应该从网页下载,并通过点击下载的jar文件打开。使用欧拉需要三个步骤

  1. 输入由图表区域描述的数量——这些数量应该手动输入,随机生成或从文件中加载;
  2. 选择偏好-包括:是否应该保存图表,图表应该如何显示(例如,标签,颜色,椭圆或圆),是否查看搜索过程;
  3. 生成通过点击“RUN”按钮来查看图表。

进一步的细节,例如如何从文件中加载所需的定量数据或如何保存图表,可以在euler上找到的网页。最新版本v3.0.0已经在Windows和Mac OS X上进行了全面测试,是独立于地区的,支持命令行执行(关于euler的详细信息的网页),并导出PNG和SVG格式以及文本格式的图表,其中详细说明了图中椭圆的属性。

欧拉有效性和椭圆

为了评估椭圆在给定数据下绘制精确面积-比例3-维恩图的有效性,我们首先评估了欧拉的有效性在为可绘制的3-set数据绘制良好图表时,即已知存在良好图表的数据(第4.1节)。能够处理这样的数据意味着欧拉能否避免和处理局部最小值和if欧拉在我们的第二次评估(第4.2节)中,无法为任何随机数据绘制准确、良好的图表,那么很有可能对该数据不存在用省略号绘制的良好图表。通过这种方式,我们能够识别3组数据的特征,这些特征可以用椭圆绘制(章节4.2)。在我们的第二次评估中,我们还使用欧拉的变体为相同的随机数据生成了图表将椭圆限制为圆,以确定在这些情况下是否可以用圆绘制准确的图表(第4.2节)。然后,我们将这些结果与最新的基于圆的方法venneuler生成的图表进行比较[29],对于相同的随机数据(章节4.3)。最后,我们比较了欧拉生成的图形的准确性和曲线美观性以及在医疗应用领域中使用圆形或多边形绘制真实世界数据的各种其他绘制方法(第4.4节)。

欧拉图的误差并采用其他制图方法进行测量diagError方程(2),其值为[0,1]。好的图是那些满足我们的图的良性度量的图方程(3),因此是描述所有必需区域的图表diagError≤10−6。在我们的实验中,还记录了迭代的次数和生成图表所花费的时间。

该评估集中在3-set数据,将大于零的量关联到3-Venn图曲线内部的七个区域中的每个区域。区域面积为图总面积的百分之零的图仍然可以用欧拉绘制,但未来还需要进一步的评估。

在本节中,L1而且L2引用两个库,每个库有10,000组大于0的7个数。L1中集合的数是对三个重叠椭圆的属性赋随机值后生成的3-维恩图的区域面积。L2中的一个集合的数是从区间[1,10000]的均匀分布中随机获得的。这两个库中的数据与第3.2节中评价不同成本函数时使用的数据不同。

4.1.对于可绘制数据

用欧拉生成椭圆图L1中10000个可绘制的数据项。启用优化算法的rerun选项(章节3.4),以验证euler是否如果在第一次运行中达到局部最小值,仍然可以画出很好的图。

在第一次运行时,为10,000个数据项中的9939个生成了良好的图表(即99.4%)。尽管为剩下的61个数据项(即0.6%)生成了一个不太好的图表,但是diagError这些图表的中位数相对较低(中位数1.06×10−4,表示2.38×10−3,最小值1.02×10−6,最大3.09×10−2), 54个(88.5%)diagError≤0.01。在重新运行优化算法后,为所有这61个数据项生成了良好的图表。对于大多数人(38/61,即62.3%),在第一次重新运行后生成了一个良好的图表(图7;重播次数,中位数为1,平均值为2.1)。因此,以99%的置信度,这些结果表明,对于99.2%至99.6%的可绘制的3组数据,欧拉在第一次运行时绘制良好的图表,对于99.9%至100.0%的同类型3集数据,欧拉在1到10次重播后绘制良好的图表。

缩略图
图7。为L1中的61个数据项生成一个好的图而重新运行的次数。

欧拉所需的重运行次数(1-10)为L1中的61个数据项生成一个良好的图,在第一次运行时为这些数据项生成了一个不良好的图。

https://doi.org/10.1371/journal.pone.0101717.g007

当重新运行优化算法时,需要更多的时间和总迭代次数才能生成良好的图(图8).即便如此,生成10000个好的图表的总体中位数和平均时间分别为0.4秒和2.5秒,总体中位数和平均迭代次数分别为32次和273次。此外,10,000个数据项中的97.7%在1秒内生成了一个良好的图表(第一次运行生成的9939个良好图表和重新运行生成的61个良好图表中分别有98.1%和34.4%),并且对于10,000个数据项中的99.7%在10秒内生成了一个良好的图表(第一次运行生成的9939个良好图表和重新运行生成的61个良好图表中分别有99.9%和62.3%)。因此,在99%的置信度下,这些结果表明,对于97.4%至98.0%的可绘制的3组数据,欧拉在1秒内画出一个好的图,并且对于99.6%到99.8%的同类型3集数据,欧拉在10秒内画出一个好的图表。这些结果非常重要,因为1秒的响应时间可以确保用户的思路不被打断,10秒的响应时间可以确保用户的注意力被保留[62][63]

缩略图
图8。为L1中的数据生成良好图表所需的迭代时间和总次数。

日志10时间(秒)),日志10总迭代次数)在第一次运行时,为L1中10,000个数据项中的9939个生成良好的图表(标记为“运行1’)以及L1中10000个数据项中的61个,在1到最多10次的任何一次重播期间(标记为'重播”)。

https://doi.org/10.1371/journal.pone.0101717.g008

图9而且图9 b说明()从(2)为L1中的数据项生成的起始图,该数据项等于(3)随机生成的图表。这些例子说明,只要可能欧拉绘制圆形曲线(例如,椭圆的半轴)一个b而且c图9分别相差6.0%,5.4%和8%)。在其他情况下,需要拉长的椭圆来准确地绘制所需的区域区域(例如,在图9 b,仅位于其中一条曲线上的区域所需面积比其他区域大),但曲线仍然高度对称,并且在形状上与区域可区分,从而便于理解图表[32]。此外,图表中的曲线通常是均匀分布的,从而增加了曲线易于区分的可能性。

缩略图
图9。第一次运行L1中的数据后生成的良好图表示例。

(A)及(B)说明()使用(2)为L1({中的数据项生成的起始图一个= 2273,b= 24458,c= 44454,ab= 7116,交流= 740,公元前= 18807,美国广播公司= 12092}的A和{一个= 17033,b= 6248,c= 16230,ab= 615,交流= 289,公元前= 840,美国广播公司= 922}对于B),它等于(的区域面积的集合3)随机生成的3-维恩图。

https://doi.org/10.1371/journal.pone.0101717.g009

在第一次运行期间生成的大多数不太好的图都有一个低值diagError只需要进一步细化。图10在第一次运行时是否生成了这样一个图的示例diagError= 6.51×10−4图102L1中的数据重新运行一次后生成的好图是从图中得到的吗图103。区域面积公元前总图面积的0.003%是不是欧拉仍然能够准确地计算区域面积并生成良好的图表。图10 b2是一个好的图的例子,它是在第一次重新运行L1中的数据后生成的,这些数据是从图中获得的图10 b3。如图10 b,在第一次运行时,优化被困在局部最小值为椭圆b接近椭圆的边缘c(地区c它似乎由两个区域组成)。通过重新运行优化算法,探索了不同的路径图10 b2是生成的。

缩略图
图10。在第一次重新运行L1中的数据后生成的良好图表示例。

(A) ()一个非常低的不太好的图表diagError(6.51×10−4)在第一次运行时生成的(2)在第一次重新运行数据时生成的良好图({一个= 10018,b= 27132,c= 39737,ab= 9567,交流= 11454,公元前= 3,美国广播公司= 668}),由(3)一个随机的图表。好的图表2生成时间为1.2秒,迭代次数为86次(包括第一次运行和一次重新运行)。(B) ()一个低值的不好的图表diagError(8.38×10−3)在第一次运行时生成的(2)在第一次重新运行数据时生成的良好图({一个= 53804,b= 39550,c= 1256,ab= 15606,交流= 15,公元前= 29904,美国广播公司= 3597}),从(3)一个随机的图表。好的图表2生成时间为2.9秒,迭代367次(包括第一次运行和一次重新运行)。

https://doi.org/10.1371/journal.pone.0101717.g010

评价结果表明了欧拉算法的有效性为可绘制的数据绘制良好的图表。如果欧拉不能为7个大于0的量的集合画出好的3-维恩图,每个量对应图中的一个区域,那么很可能不存在用椭圆画出的好的3-维恩图。

4.2.对于随机数据

由于欧拉可以为可绘制的数据生成良好的图表(章节4.1),我们使用欧拉以评估椭圆在绘制精确的面积比例3-维恩图的任何随机3集数据与值大于零的有效性。L2中10,000个数据项的图表是使用欧拉生成的。L2中的数据是由随机值组成的,因此,对于该数据是否存在用省略号绘制的精确图(即数据是否可绘制)是未知的。优化算法的重新运行选项(第3.4节)被启用,以确保为所有可绘制的数据绘制良好的图表。最好是带有圆圈的图表,这是最有效的[32],所以我们也评估了是否可以使用欧拉的变体来绘制一个准确的、好的图表它将L2中10000个数据项中的任意一个椭圆限制为圆。

第一次运行后,L2中10,000个数据项中的8607个(即86.1%)-8372生成了良好的椭圆图(即8607的97.3%),在一次到最多10次重新运行后生成了235个(即8607的2.7%)。235个好的图中有一半以上(56.2%)是在第一次重新运行时生成的,只有一个图是在10次重新运行后生成的diagError在第一次运行期间,为这些数据项生成的不好的图的比例相对较低(diagError[1.51×10−6, 3.28×10−2]中位数1.89×10−3并表示3.77×10−3).

对于L2中10,000个数据项,没有一个用圆圈绘制的图是好的diagError这些图比用省略号绘制的不太好的图(中位数,平均值:6.28×10)−2, 6.73×10−2圈;1.65×10−2, 2.11×10−2椭圆)。在99%的置信度下,这些结果表明,对于85.2%至86.9%的随机3集数据,可以绘制出良好的图表(使用欧拉),对于0.0% - 0.1%的随机3集数据,可以绘制出良好的图表(使用欧拉)。有3组数据,用凸曲线不能准确地绘制面积比例3-维恩图[30]因此,为L2中10,000个随机数据项中的大部分绘制好的椭圆图,表明使用像圆一样规则和光滑的曲线,但像椭圆一样更一般和有更多自由度的曲线具有巨大潜力。

使用椭圆生成好的图表所需的时间和迭代次数与我们在第4.1节中的评估相似(此评估:中位数0.4秒和35次迭代,意味着1.9秒和201次迭代,N= 8607)。带有椭圆的不太好的图需要更多的时间和迭代,因为优化算法最多需要重新运行10次(中位数,4.0秒,586次迭代;平均值为25.9秒,4417次迭代)。同样,用圆绘制的图表需要更多的时间和迭代(中位数,3.2秒,500次迭代;意味着3.4秒,529次迭代),因为没有一个是好的。

1万张椭圆图中,大部分在1秒内生成(84.1%-8405/8607好,0/1393不好),几乎所有椭圆图都在10秒内生成(96.9%-8569/8607好,1119/1393不好)。因此,与第4.1节相似,这些结果以99%的置信度表明,对于83.1%至85.0%的随机3集数据,欧拉在1秒内画出带有椭圆的图,并且对于96.4%到97.3%的同类型3集数据,欧拉在10秒内画出带有椭圆的图。在10000个带圆的图中,没有一个是在1秒内生成的,但99.6%(9959/10,000)是在10秒内生成的。

该评估还显示,可以用椭圆绘制面积比例3-维恩图的数据,通常只有一条曲线上的区域面积比只有两条曲线上的区域面积大,而且只有三条曲线上的区域面积通常与只有一条曲线上的区域面积相似。

4.3.与圆、静脉针的比较

使用欧拉的一种变体,我们在第4.2节中的评估表明,有3组数据可以用圆圈画出好的图的可能性很小。为了验证这一发现,我们使用了最新的基于圆的方法venneuler 1.1-0版本,为L2中的10,000个数据项生成带有圆的图。该方法是第一个采用统计方法的方法,与欧拉方法不同以各种方式。例如,venneuler使用数值近似方法来计算区域面积,并使用近似梯度的最陡下降方法来最小化其损失函数压力。然后将venneuer图的准确性与欧拉图的准确性进行了比较在4.2节中使用圆和椭圆。

对欧拉,一个好的图是一个3维恩图diagError≤10−6方程(3)).对于venneuer来说,一个好的图表是一个压力≤10−6。从而比较欧拉生成的图的准确性venneuer,我们计算:压力对于欧拉生成的图使用venneuler的1.1-0版源代码,不过欧拉区域面积的解析计算方法;diagError对于venneuer使用欧拉生成的图表的源代码,但venneuler的数值近似计算区域面积。

venneuer为L2中的10,000个数据项生成的图都没有压力≤10−6diagError≤10−6。因此,根据venneuler和euler,没有一个图是好的的图表误差测量。此外,生成的图表中只有64.5%(即6453/10,000)描绘了所有所需的区域。另外35.5%(即3547/10,000)缺少一个或多个所需的区域。

图11和10 b是由缺少区域的venneuler生成的图表的例子。这两张图的值都相对较低压力(5.69×10−4和3.17×10−3分别),接近于一个好的图(即,压力≤10−6).然而,图11缺失的区域美国广播公司(尽管它需要的面积比区域的面积大ab而且交流与地域相似公元前),图11 b缺失的区域交流(尽管它所要求的面积与region的面积相似b).这样的图比区域面积不准确的图更容易误导人,因为除了显示不正确的数量外,并没有描绘所有所需的集合关系。相比之下,diagError对于这些图表不是那么低(1.16×10−2和2.07×10−2分别)。venneuler的一些图表也有可能妨碍图表理解的美学特征[64]。例如,图11 b只代表两个区域吗b。这些问题在欧拉中并不明显的图2而且3图11由于优化过程中的图优度度量等检查不允许生成这样的图。当venneuler生成一个包含所有所需区域的图时,由于圆的自由度有限,区域面积是不准确的,因此图往往会产生误导。图11 c是此类图的一个示例。根据该图表生成的数据,区域一个要比区域大2.1倍ab面积是区域面积的1.7倍交流。然而,地区一个比两个区域都小ab而且交流。的压力的值较低(压力= 4.27×10−3diagError= 2.30×10−2),但大于的图11而且图10 b,尽管后者缺少区域,因此更具有误导性。

缩略图
图11。由venneuer和euler生成的图表示例(圆和椭圆)的数据在L2。

用()生成的图表示例)圆,(2)欧拉圆,及(3)欧拉椭圆对于L2中的随机3集数据。(A)为数据生成的图表{一个= 3491,b= 3409,c= 3503,ab= 120,交流= 114,公元前= 132,美国广播公司= 126}。一个是缺失区域美国广播公司并已压力= 5.69×10−4而且diagError= 1.16×10−2。一个2和一个3拥有所需的区域,每个数据集关系对应一个区域。一个2压力= 8.36×10−3而且diagError= 2.63×10−2。一个3压力= 3.96×10−12而且diagError= 6.55×10−7。(B)为数据生成的图表{一个= 45910,b= 3261,c= 45467,ab= 58845,交流= 3028,公元前= 16406,美国广播公司= 18496}。B是缺失区域交流并已压力= 3.17×10−3而且diagError= 2.07×10−2。B中有两个区域只描述b。B2和B3拥有所需的区域,每个数据集关系对应一个区域。B2压力= 2.13×10−2而且diagError= 4.36×10−2。B3压力= 3.43×10−12而且diagError= 6.85×10−7。(C)为数据生成的图表{一个= 3664,b= 46743,c= 59811,ab= 1742,交流= 2099,公元前= 17210,美国广播公司= 24504}。CC2和C3拥有所需的区域,每个数据集关系对应一个区域。C压力= 4.27×10−3而且diagError= 2.30×10−2。C2压力= 8.31×10−3而且diagError= 2.44×10−2。C3压力= 1.13×10−12而且diagError= 4.03×10−7

https://doi.org/10.1371/journal.pone.0101717.g011

欧拉图用圆圈表示(2图11)有不准确和误导性的区域区域,如venneuer,但都描绘了所需的区域。欧拉的全部的椭圆图(3图11)所要求的区域,以及压力≤10−6而且diagError≤10−6venneuler和euler都认为是好的的误差测量。

图12(压力),图12 b(diagError)时,venneuler的大多数图表都有一个较低的值压力而且diagError而不是欧拉图与圆(一个较低的压力对于8675/ 10000张图;一个较低的diagError对于6234/10,000个图表),但更大压力而且diagError而不是欧拉的图表与椭圆(一个更大的压力对于9730/10,000图;一个更大的diagError对于9660/10,000图)。

缩略图
图12。 压力而且diagError在所有由venneuler和euler生成的图表中(圆和椭圆)。

(一)压力和(B)diagError在所有由venneuer和euler生成的圆图中用欧拉法求椭圆对于L2中的10,000个3-set数据。venneuer用圆生成的10000张图压力[3.77×10−5, 6.14×10−1]中位数3.04×10−2并表示6.41×10−2,diagError[1.56×10−3, 2.46×10−1]中位数4.56×10−2并表示5.73×10−2。欧拉用圆生成的10000张图压力[1.91×10−10, 7.79×10−1]中位数7.00×10−2并表示1.13×10−1,diagError[3.30×10−6, 3.31×10−1]中位数6.28×10−2并表示6.73×10−2。欧拉用椭圆生成的10000张图压力[3.98×10−14, 2.24×10−1]中位数7.59×10−12并表示1.17×10−10,diagError[6.00×10−8, 1.39×10−1]中位数8.00×10−7并表示2.94×10−3

https://doi.org/10.1371/journal.pone.0101717.g012

文纽勒图与欧拉图的区别由于圆在为大多数数据生成精确图表方面的局限性,因此带有椭圆的图表是预期的[30]。venneuler的图表没有一个被认为是好的压力而且diagError,而是欧拉生成的10000个图中的8529和8607与椭圆被认为是好的分别压力而且diagError(好的图表的百分比之间的差异压力而且diagError对欧拉使用R's pro。禁用耶茨连续性校正的测试χ2(1) = 2.48,p= 0.12)。

venneuler和欧拉的区别他的圆图就不那么令人期待了。对非正态分布和重复测量数据进行Friedman秩和检验,发现绘制方法对统计结果有显著影响压力χ2(1) = 5402.3,p< 2.2×10−16),diagErrorχ2(1) = 609.1,p< 2.2×10−16).使用Wilcoxon检验和Bonferroni校正的事后检验显示venneuler和euler之间有显著差异效果大小很大压力W= 1763624,Z=−80.50,p< 2.2×10−16r= 0.57)和中等效应大小diagErrorW= 14730686,Z=−35.58,p <2.2×10−16r= 0.25)。根据这些测量方法,文纽勒图比欧拉图更准确。然而,欧拉的所有的图描绘了所需的区域,35.5%的venneuler图有缺失区域,但83.5%的这些图有低应力(压力<10−2).所以,欧拉的图表可能比venneuler的图表更有帮助,因为所有必需的集合关系都被描绘出来了。在欧拉画的10000张图中对于圆,0(即0%)有diagError≤10−6(第4.3节),但有28个(即0.3%)压力≤10−6(这些百分比之间的差异在统计上是显著的-使用R的pro。禁用耶茨连续性校正的测试χ2(1) = 28.04,p= 1.19×10−7).因此,以99%的信心,这些压力结果表明,良好的图表与压力≤10−6欧拉能对0.2% ~ 0.5%的随机3集数据用圆生成吗以及venneuer对0.0%至0.1%的同类型数据。的diagError这些图表被认为是好的压力还是相对低而接近的diagError≤10−6

该评估还表明,如果只有一条曲线中的区域所需面积是只有两条曲线中的区域所需面积的两倍左右,并且恰好三条曲线中的区域所需面积大于或等于只有一条曲线中的区域所需面积,那么极有可能存在一个用圆绘制的接近准确的面积比例3-维恩图。

就生成每张图所花费的时间而言,venneuer比euler更快。venneuler生成时间的中位数和平均值分别为0.6秒,最小为0.4秒,最大为1.0秒。欧拉的中值和均值生成椭圆的时间分别为0.4秒和5.3秒,圆圈为3.2秒和3.4秒。这可能是由于venneuer和euler之间的各种不同(例如,计算区域面积的方法;优化运行和在最多200次迭代后终止的方式)。尽管如此,欧拉生成比venneuer更准确的图表,并且在确保用户注意力保持的时间内(第4.2节)。

4.4.圆和多边形的比较,以及各种画法

面积比例3-维恩图在各种学科中被广泛使用,以促进数据分析,但由于当前绘制方法所使用的曲线形状的局限性,这些图往往更容易误导而不是帮助。我们进一步研究了从BMC医学杂志文章中获得的真实世界的医疗数据[37]。这些数据的图表是使用大多数当前的绘图方法生成的(Section '当前自动绘图方法和软件”)。然后对这些图进行分析,并与欧拉生成的图进行比较使用椭圆。

本文讨论了一项基于网络的调查结果,该调查评估了美国家庭和内科培训生是否了解慢性肾脏疾病(CKD)的并发症、筛查方法和治疗。该调查数据是由集组成的一个B而且C:声称继发性甲状旁腺功能亢进是CKD并发症的学员(集合一个);CKD 3期筛选的受训者B);当甲状旁腺激素(PTH)达到70 ng/ml(设定)时,开始治疗或将患者转到专家的学员C).集合关系和相关的定量数据可以总结为ω= {一个= 0.25,B= 0.01,C= 0.11,AB= 0.10,交流= 0.29,公元前= 0.03,美国广播公司= 0.15}。提高认识,目前的学员需要进一步的技能和指导方针,及时识别和管理CKD患者,一个面积比例维恩图ω图3-D)被包含在文章中。

关于ω使用八种基于圆的绘图方法(来自第2.1节中列出和引用的方法)生成,即:C1, Stata的PVENN;C2,维恩图绘图仪;C3, 3圈维恩;C4, PatternLab中的蛋白质组学模块;C5BioVenn;C6,易受伤害的圆圈;C7venneuler;C8,谷歌维恩图表。其他关于ω使用六种基于多边形的绘图方法(来自第2.2节中列出和引用的方法)生成,即:P1VennMaster,带有规则的圆形多边形;P2,易受伤害的三角形,与三角形;P3, DrawVenn,矩形多边形;P4,易受伤害的正方形,带有矩形多边形;P5,凸维恩-3,具有4面和5面凸多边形;P6, DrawEuler,不规则,非凸多边形。所有的图表都在图3生成的图表E,欧拉椭圆。每个图表的设计(例如,标签、图例、颜色、轮廓、背景)与绘图方法生成的设计完全相同。由于图中没有标签和图例,因此只在C2, P3和P6添加了曲线标签。欧拉数字标签的图表是手动添加的,以说明文章中的图表如果用省略号画出来会是什么样子。

diagError被设计为仅计算那些描述所有所需集合关系的图的误差,因为缺少区域的图比具有不准确区域面积的图更容易误导人,因此不应该完全接受。因此,图3显示了diagError只有那些曲线内部有七个区域的图才符合数据的要求。对于其他图表,缺失的区域被标记出来。计算diagError使用方程(2),用欧拉法计算图的区域面积用圆绘制的,采用通用几何分析方法;用多边形绘制的,采用标准几何公式。

图3,我们注意到,所有用圆绘制的图,包括D(文章中的图)的区域面积都不准确,具有误导性。例如,地区B(1%ω)比区域大得多公元前(3%ω),地区C(11%ω)大于区域AB(10%ω),美国广播公司(15%ω),及地区一个(25%ω)在大多数图中大于区域交流(29%ω).类似的问题在C7中也很明显,C7是用最新的venneuer方法生成的图。C3,由第一个基于圆的画法生成3圆维恩,也有区域美国广播公司(15%ω)在面积上与地区相似交流(29%ω).D也是如此,D是用C3的方法生成的。然而,C8作为区域是最容易误导和不准确的公元前是缺失和区域B而且AB(分别为1%和10%)ω)比区域大得多C交流而且美国广播公司(分别为11%,29%和15%)ω).关于diagError,最准确的是C4和C7 (diagError= 0.03),其次是C2, C5, C6 (diagError= 0.04)和C1 (diagError= 0.05),最后是C3,因此D (diagError= 0.14)。由于圆的规律性和良好的延续性,曲线往往易于区分和识别。在少数情况下(例如C3和D),很难理解区域位于哪条曲线上。然而,这通常取决于设计,例如,不同的不相关的颜色用于位于同一曲线的区域(例如,C2, C3, C6)。

相比之下,大多数带有多边形的图表都是精确的diagError≤10−6,如P3, P5, P6,或有区域区域比那些有圆圈的图更容易误导,如P2, P4。后者是正确的,例如,与ω、地区B总是最小的和区域交流总是最大的。唯一缺少区域(区域C而且公元前)为非确定性方法VennMaster生成的P1。由于曲线被描绘为规则的、圆形的多边形,VennMaster与其他使用圆形的游戏具有相同的局限性。虽然多边形图比圆形图更准确,但曲线并不光滑。所以这些曲线不容易识别[65]并且不太可能以离散和完整的物体出现[2]。曲线识别尤其困难,例如:曲线在弯曲点相遇,如P5和P6;曲线部分并发,分别为P2、P3、P4;曲线非凸,如P6。这些特征阻碍了图表的理解[32][64],使这些图表准确但不可用。因此,更倾向于用圆形代替多边形的不太精确的图表。

使用椭圆,图E的区域面积与图中的数量精确且直接成比例ωdiagError≤10−6).它也很容易理解,因为曲线是规则的,像圆一样有很好的延续性。所以椭圆比圆形和多边形更有效。这也与部分中的其他真实世界数据进行了验证。简介”,即图2举例说明了欧拉生成的精确、易于理解的图表用省略号代替各自用圆圈画出的误导性图表图1 a - c以及用多边形画出的难以理解的图图1 d-f。作为唯一使用椭圆的方法,椭圆的有效性可能是欧拉的主要原因在各个领域中使用,以及为什么它的图表出现在各种期刊文章中(在“简介”)。欧拉所采用的设计图也不同于其他画法,如欧拉使用基于异构通道的方法[2]不同的特征类型(即轮廓、颜色、纹理)被并行感知处理。通过这种方式,没有曲线设计在重叠处感知融合,并且曲线和区域很容易被识别。

另一个面积比例3-维恩图用于相同的数据集,但用于贫血的管理,而不是继发性甲状旁腺功能亢进(所以集合C是基于血红蛋白水平而不是甲状旁腺激素)被纳入文章,如图13。如前所述,图132(副本图3-D)由于区域区域的不准确而具有误导性。图13可能更容易误导,因为除了在区域区域(例如,区域B3%大于区域交流为4%;地区一个36%大于区域AB41%),根据数据(即{一个= 0.36,B= 0.03,C= 0.00,AB= 0.41,交流= 0.04,公元前= 0.00,美国广播公司= 0.11}),区域C而且公元前不应该被描绘。目前欧拉即使在区域非常小且几乎看不见的情况下也能绘制高度精确的3-维恩图。所以,图13 b,由欧拉生成关于{一个= 0.36,B= 0.03,C= 0.00001,AB= 0.41,交流= 0.04,公元前= 0.00001,美国广播公司= 0.11},可以用来代替图13。看着图13 b而且2,我们可以很容易地注意到,尽管大多数参与者声称贫血和继发性甲状旁腺功能亢进是CKD的并发症(集一个),及时筛选(集B)更常见的是()贫血比(2继发性甲状旁腺功能亢进,同时开始治疗或转介到专家(集C)当诊断是基于()血红蛋白水平较(2)甲状旁腺激素水平。因此,图13 b会更有效吗图13提高学员对管理CKD的进一步指导方针的认识。

缩略图
图13。医学杂志文章中的图形和用欧拉重新创建的图形

(A)医学杂志文章中用圆圈画的带有两个维恩图的图[37]。这是重画的图5[37],以前在CC BY许可下发布。(B)如果用欧拉法用椭圆画这些图,它看起来会是什么样子。欧拉标签的图表是手动添加的。

https://doi.org/10.1371/journal.pone.0101717.g013

结论

我们描述了欧拉这是第一个利用椭圆自动绘制面积比例3-维恩图的方法。以前的方法使用圆形或多边形。圆是光滑的,并生成易于理解的图表,但由于它们不能为大多数3集数据绘制准确的图表,因此受到限制。多边形是灵活的,可以生成精确的图表,但是它们的非光滑曲线产生了难以理解的图表。

我们的评价表明,使用椭圆和欧拉,对于绝大多数随机3集数据(86%,N= 10000),远远超过了圆形比多边形更受欢迎的可能性。因此,当不能用圆精确地绘制图表时,应该考虑像圆一样光滑但更一般的像椭圆一样的曲线。这一发现开启了一个更广泛的研究问题,即具有不同自由度的曲线,如圆、椭圆、椭圆,n椭圆,定期n-gon和不规则的n-gons可以从最具体的到更一般的逐步考虑,直到找到为所需区域面积生成精确图表的曲线类型[30]

我们的评估结果还表明,利用椭圆绘制具有更多曲线的面积比例图具有很大的潜力。然而,首先需要进一步评估椭圆和欧拉等方法的有效性在处理要求图中各个区域的面积为零的3集数据时。在此基础上,确定不同类型的定量3-set数据的特征,用椭圆绘制的面积比例图能否准确地描绘,并将确定是否可以为给定数据准确绘制图表的分析方法形式化。

除了曲线的形状,图表的设计特征(例如,颜色,标签策略)也可以促进或阻碍对图表和所描述数据的理解。应该研究这些特征的影响和增加相互作用的可能好处。还应该确定其他有助于具有不同能力(例如空间和计算能力)的用户理解的特征。

可以进行一些研究来理解:这些图表是如何被感知和认知地处理的;如何感知区域;区域和曲线的形状对面积判断的影响;哪些方面的差异是不明显的;是否像地图学中对地图符号所提出的感知尺度测量[66],但遭到塔夫特的强烈批评[67],有助于或阻碍这些图中的面积判断。这些研究的结果将有助于识别那些区域面积误差是人类无法检测到的图表。通过这种方式,用椭圆为所需数据绘制的不准确图表可以被认为是准确的,适合人类使用和感知,因此,它可以用椭圆绘制,而不是其他更复杂的曲线,具有不太理想的特征,如不规则和锯齿状的多边形。还应进行一项研究,确定区域中的数字标签是否可以掩盖区域区域中的错误,从而允许使用平滑曲线。

在这些研究之后,审美标准、度量标准和认知测量以及感知和设计指南应该被形式化和优先化,以定义一个有效的、供人类使用的、促进理解和推理的良好图表。欧拉的一种变体然后应该设计以优化这些措施,这样就会生成一个区域面积精度和美观之间的最佳折衷图。理想情况下,这样的图表应该具有所有重要的美学特征,并且其区域面积的不准确性不应该被人类用户注意到。这对于无法绘制具有特定美学特征的精确图表的数据尤为重要。通过这种折衷,可以生成具有平滑曲线的不准确图表,其错误是人类无法检测到的。

评估允许用户选择他们认为重要并且希望优化的图表方面的有效性可能也很有趣。这些方面可能包括美学特征,例如某些曲线的形状或区域的准确性。

致谢

我们感谢Leland Wilkinson教授(伊利诺伊大学芝加哥分校)为我们提供venneuler的源代码[29]。我们感谢Angela Morelli(英国中央圣马丁艺术与设计学院平面与信息设计师)对图表设计的反馈。

作者的贡献

构思设计实验:LM PR。执行实验:LM。数据分析:LM PR。贡献试剂/材料/分析工具:LM。撰写论文:LM PR。

参考文献

  1. 1.张志刚,张志刚(1985)搜索不对称:可分离特征前注意加工的诊断。实验心理学杂志:一般114:285-310。
  2. 2.Ware C(2012)信息可视化:设计感知,第三版。沃尔瑟姆,马萨诸塞州,美国:摩根考夫曼。
  3. 3.Palmer SE(1992)共同区域:知觉分组的新原则。认知心理学24:436-447。
  4. 4.Koffka K(1935)格式塔心理学原理。美国纽约:哈考特·布莱斯。
  5. 5.周世华,刘志伟(2004),绘制面积-比例维恩图和欧拉图。第11届图形绘制国际研讨会论文集(GD 2003),计算机科学讲座笔记2912:466-477。
  6. 6.Treisman A(1985)视觉前注意加工。计算机视觉,图形学,图像处理31:156-177。
  7. 7.李志强,李志强(1980)注意力的特征整合理论。认知心理学12:97-136。
  8. 8.Lâm HT, Tuòng NV, Ekerljung L, Rönmark E, Lundbäck B(2011)越南北部过敏性鼻炎:根据一项大规模人口调查,城市生活风险增加。临床和转化性过敏1:1 - 8。
  9. 9.Mathioni SM, Beló A, Rizzo CJ, Dean RA, Donofrio NM(2011)水稻稻瘟病真菌在入侵植物感染和体外胁迫中的转录组分析。BMC基因组学12:49。
  10. 10.李海燕,李海燕,史勇,等。(2012)p53基因表达与全基因组染色质占位的关系。细胞死亡与分化19:1992-2002。
  11. 11.张志刚,李志刚,李志刚,等。(2008)染料木素诱导胚胎癌和原发癌细胞有丝分裂停止和自我更新退出的分子基础。BMC医学基因组学1:49。
  12. 12.张志刚,张志刚,张志刚,等。(2005年)加蓬儿童严重恶性疟疾:临床和实验室特征。疟疾杂志4..
  13. 13.Mann K, Mann M(2011)使用LTQ Orbitrap Velos对鸡蛋蛋白组进行深入分析。蛋白质组学9:7。
  14. 14.胡文杰,李文杰,李文杰,等。(2009)PCR扩增子大小对克隆文库微生物多样性和群落结构的影响。环境微生物学11:1292-1302。
  15. 15.陈志伟,陈志伟,陈志伟,等。(2013)海洋蟋蟀的组织特异性转录组学。G3:基因,基因组,遗传学3:225-230。
  16. 16.Reid RJD, González-Barrera S, Sunjevaric I, Alvaro D, Ciccone S,等(2011)选择性倍体消融,一种高通量质粒转移方案,识别出影响拓扑异构酶I诱导的DNA损伤的新基因。基因组研究21:477-486。
  17. 17.Wang YY, Chang RB, Liman ER (2010) TRPA1是对CO2伤害感受反应的一个组成部分。神经科学杂志30:12958-12963。
  18. 18.Klees RF, Salasznyk RM, Vandenberg S, Bennett K, Plopper GE(2007)人间充质干细胞中Laminin-5激活细胞外基质生成和成骨基因聚焦。基质生物学26:106-114。
  19. 19.Bielecki P, Komor U, Bielecka A, Müsken M, puchaucka J,等。(2013)铜绿假单胞菌体外转录分析揭示了一组重要的基因对慢性感染宿主位点的适应。环境微生物学15:570-587。
  20. 20.马晓霞,冯斌,马红(2012)拟南芥花药转录组的ams依赖性和独立性调控及其与其他基因影响的比较。BMC植物生物学12:23。
  21. 21.廖玲,徐学文,蒋学文,王春生,张德生等。(2011)太平洋富钴壳沉积区深海沉积物微生物多样性。FEMS微生物学生态学78:565-585。
  22. 22.Zielinski J, Bednarek M, Górecka D, Viegi G, Hurd SS,等。(2006)提高COPD意识。欧洲呼吸杂志27:833-852。
  23. 23.McNamara C, Konkol NR, Ross BP, Mitchell R(2011)岩石细菌定植在全球和局部尺度的表征。史密森学会对博物馆保护的贡献2:29-36。
  24. 24.法雷尔G,索萨W(2001)重复受害和热点:重叠及其对犯罪控制和问题导向警务的影响。犯罪预防研究12:221-240。
  25. 25.Dang T, Anand A, Wilkinson L (2012) FmFinder:搜索和过滤你最喜欢的歌曲。视觉计算的进展,计算机科学讲座笔记7431:348-358。
  26. 26.Cibella F, Cuttitta G, La G, Stefania, Melis MR,等(2011)意大利青少年过敏性呼吸道疾病的比例维恩图和决定因素。小儿过敏与免疫22:60-68。
  27. 27.张志刚,张志刚,张志刚,等。(2003)阻塞性肺疾病的比例维恩图*:两种近似方法。胸围124:474-481。
  28. 28.Viegi G, Matteelli G, Angino A, Scognamiglio A, Baldacci S,等(2004)意大利普通人群阻塞性肺疾病的比例维恩图。箱子126:1093-1101。
  29. 29.Wilkinson L(2012)精确和近似的面积比例圆形维恩和欧拉图。IEEE可视化与计算机图形学汇刊18:321-331。
  30. 30.周素生(2007),维恩与欧拉图的生成与绘制,博士论文,维多利亚大学计算机科学系,加拿大维多利亚州。
  31. 31.Benoy F, Rodgers P(2007)评估欧拉图的理解。第11届信息可视化国际会议论文集(IV): 771-780。
  32. 32.Blake A, Stapleton G, Rodgers P, Cheek L, Howse J(2014)形状对欧拉图感知的影响。第八届图形表示与推断(图)国际会议论文集。
  33. 33.袁杰,夏雷特,张伟,等。(2014)小鼠Mfrp rd6基因修饰位点的定量特征位点分析。实验眼研究118:30-35。
  34. 34.杨晓明,王晓明,王晓明(2013)农业河流沉积物对底栖无脊椎动物群落的影响。生态应用23:1036-1047。
  35. 35.gresevening MS, Becker KL, Smeekens SP, Jacobs CWM, Joosten LAB等(2013)烟曲霉诱导的IL-22不局限于特定的Th细胞亚群,并依赖于补体受体3。免疫学杂志190:5629-5639。
  36. 36.周斯华,Rodgers P(2005)用三个圆构造面积比例维恩和欧拉图。第二届欧拉图国际研讨会论文集。
  37. 37.Lenz O, Fornoni A(2006)美国家庭医学和内科实习生提供的慢性肾病护理:来自在线调查的结果。BMC医学4:30。
  38. 38.Hulsen T, De V, Jacob, Alkema W (2008) biovenn -一个使用面积比例维恩图比较和可视化生物列表的web应用程序。BMC Genomics 9: 488。
  39. 39.张晓明,张晓明,张晓明,等。(2011)植物多梳抑制复合体(Polycomb inhibitory complex 2)对胚向苗转变的调控作用。PLoS Genetics 7: e1002014。
  40. 40.Carvalho PC, Fischer JSG, Chen EI, Yates JR, Barbosa VC(2008)蛋白质组学的PatternLab:差分鸟枪蛋白质组学的工具。BMC生物信息学9:316。
  41. 41.陈晓明,陈晓明,陈晓明,等。(2011)小鼠脑微血管膜和基底膜的蛋白质组学研究。脑血流与代谢杂志31:2267-2281。
  42. 42.罗奇曼,李丽娟,吴晓明,等。(2011)HMGN基因多态性对细胞转录谱的影响。核酸研究39:4076-4087。
  43. 43.朱杰生,李志强,李志强,等。(2012)森林-苔原交错带扩展森林落叶剂对生态系统的影响。生态系统:1 - 15。
  44. 44.Széles L, Póliska S, Nagy G, Szatmari I, Szanto A,等(2010)研究资源:RXR及其允许性和非允许性伙伴在分化单核细胞来源的树突状细胞中调控基因的转录组分析。分子内分泌24:2218-2231。
  45. 45.石群LS (2009) SAS系自定义比例维恩图。第22届东北SAS用户组年会论文集(NESUG)。
  46. 46.姜艳,王晓明,王晓明,等。(2011)单菌转录组扩增技术的应用。基因组研究21:925-935。
  47. 47.Kestler HA, Müller A, Gress TM, Buchholz M(2005)广义维恩图:一种复杂遗传集关系可视化的新方法。生物信息学21:1592-1595。
  48. 48.Kestler HA, Müller A, Kraus JM, Buchholz M, Gress TM,等(2008)VennMaster:用于微阵列功能GO分析的面积-比例欧拉图。BMC生物信息学9:67。
  49. 49.罗丽娟,王晓明,王晓明,等。(2012)大豆水分亏缺差异表达基因的减法文库分析。遗传与分子生物学35:304-314。
  50. 50.Marshall RJ(2005)缩放矩形图可用于可视化临床和流行病学数据。临床流行病学杂志58:974-981。
  51. 51.Rodgers P, Flower J, Stapleton G, Howse J(2010)用凸多边形绘制面积-比例Venn-3图。第六届图形表示和推断国际会议论文集,计算机科学(人工智能课堂讲稿)6170 6170:54-68。
  52. 52.Wieland B, Wittwer M, Regula G, Wassenaar TM, Burnens AP,等(2005)空肠弯曲杆菌来源流行病学相关性的Phenon聚类分析方法。应用微生物学杂志100:316-324。
  53. 53.周文生,刘建民(2007)最小面积维恩图。数学杂志80:91-103。
  54. 54.王晓明,李志强,李志强,等。(2012)一种基于维恩图的多药理学数据集分析工具。PLoS ONE 7: e36911。
  55. 55.周s, Ruskey F(2005)绘制面积-比例欧拉图的一般解。电子笔记理论计算机科学134:3-18。
  56. 56.金波,李波,徐杰(2007)用排列矩阵和扇形图可视化集合一致性。与计算机交互19:630-643。
  57. 57.李志强,李志强,李志强(2011)一种绘制面积-比例欧拉图的一般方法。视觉语言与计算学报22:426-442。
  58. 58.Rodgers P, Howse J, Stapleton G, Flower J(2014)表示最多三个集合的绘制面积-比例欧拉图。IEEE可视化与计算机图形汇刊
  59. 59.Micallef L(2013),使用维恩和欧拉图可视化集关系和基数,博士论文,肯特大学计算学院,坎特伯雷,英国。可用:http://www.cs.kent.ac.uk/people/staff/lm357/PhDthesis.pdf
  60. 60.克拉克AK(1976)非度量多维尺度蒙特卡罗研究的再评价。心理测量学41:401 - 403。
  61. 61.Spence I, Young FW(1978)蒙特卡罗研究非度量尺度。心理测量学43:115-117。
  62. 62.Miller RB(1968)人机会话事务中的响应时间。1968年12月9-11日(AFIPS)秋季联合计算机会议记录,第一部分:267-277。
  63. 63.Card SK, Robertson GG, Mackinlay JD(1991)信息可视化工具,信息工作空间。第九届SIGCHI会议论文集关于计算系统中的人为因素(CHI): 181-186。
  64. 64.Rodgers P, Zhang L, Purchase H(2012)欧拉图中的井形性质:应该使用哪种?IEEE可视化与计算机图形学汇刊18:1089-1100。
  65. 65.Field DJ, Hayes A, Hess RF(1993)人类视觉系统的轮廓整合:局部“关联场”的证据。视觉研究33:173-193。
  66. 66.蒙特罗博士(2002)认知地图设计研究在二十世纪:理论和经验的方法。地图学与地理信息科学29:283-304。
  67. 67.Tufte ER(1983)定量信息的可视化显示,第1版。柴郡,康涅狄格州,美国:图形出版社。