探索性数据分析是指最初由 John Tukey 开发的一组技术,用于以使有趣的特征变得明显的方式显示数据。与通常从假设的数据模型开始的经典方法不同,EDA 技术用于鼓励数据建议可能合适的模型。

Statpoint Technologies 产品提供了许多 EDA 技术,这些技术分散在整个统计过程中。一些最重要的探索性数据分析方法包括:

程序Statgraphics Centurion 18/19Statgraphics
Sigma express
Statgraphics
stratus
Statgraphics
Web 服务
StatBeans
箱须图
茎叶展示
根图
抗时间序列平滑
散点图平滑
波兰语中位数    
气泡图  
抗性曲线拟合 
多变量控制图    
小提琴图     
风蔷薇     
钻石地块     
热图     
人口金字塔     
向日葵图     

箱须图

箱须图是基于 Tukey 的数据样本的 5 个数字摘要的图形显示。在他的原始图中,绘制了一个框,覆盖了样本的中心 50%。在中位数处绘制一条垂直线,从中心框绘制晶须到最小和最大的数据值。如果某些点离框很远,则这些“外部点”可能显示为单独的点符号。后来的分析人员添加了显示中位数的近似置信区间的缺口,并在样本均值处添加了符号。

框图 .png

更多: 箱须图.pdf, 多个盒须图.pdf

茎叶展示

茎叶显示获取每个数据值,并将其分为茎和叶。例如,左侧数据样本中第一个受试者的体温为 98.4 度。前两位数字(“98”)称为茎,绘制在左侧,而第三个数字(“4”)称为叶子。虽然类似于侧翻的直方图,但 Tukey 认为茎叶图比条形图更可取,因为可以从显示器中恢复数据值。

茎叶.png

更多: 一个变量分析.pdf

根图

根图与直方图类似,不同之处在于它绘制了在定量变量的不同范围内观察到的观测值数的平方根。它通常与拟合分布一起绘制。使用平方根的想法是平衡柱线和曲线之间偏差的方差,否则偏差会随着频率的增加而增加。有时,条形会从拟合分布中暂停,这样可以更轻松地与在 0 处绘制的水平线进行视觉比较,因为与曲线的视觉比较可能具有欺骗性。

根图.png

更多: 分布拟合(未经审查的数据).pdf

抗时间序列平滑

Tukey发明了许多非线性平滑器,用于平滑顺序时间序列数据,这些平滑器非常擅长忽略异常值,并且通常作为第一步应用,以在应用移动平均线之前减少潜在异常值的影响。其中包括 3RSS、3RSSH、5RSS、5RSSH 和 3RSR 平滑器。平滑器名称中的每个符号都表示应用于数据的操作。

平滑.png

更多:时间序列 – 平滑处理 .pdf

散点图平滑

X-Y 散点图可以使用以下几种方法之一进行平滑:运行均值、运行线、LOWESS(局部加权散点图平滑)和抗性 LOWESS。平滑器可用于建议可能适合描述两个变量之间关系的回归模型类型。

洛斯.png

更多: Graphics Options.pdf 

Median Polish

Polish中位数过程为双向表中包含的数据构建模型。该模型以公共值、行效应、列效应和残差表示每个单元格的内容。尽管使用的模型与使用双向方差分析估计的模型相似,但模型中的项是使用中位数而不是均值来估计的。这使得估计值更能抵抗可能存在的异常值。

polish_1.png

更多: 中位数Polish.pdf

气泡图

气泡图是一个 X-Y 散点图,通过更改点符号的大小和/或颜色来显示第三个(可能还有第四个变量)的值。它是在 2 维中绘制多变量数据的一种方法。

气泡.png

更多: 气泡图.pdf

抗性曲线拟合

Tukey提出了一种拟合直线和其他曲线的方法,该方法受可能存在的任何异常值的影响较小。称为 3 个中位数的方法,首先根据 X 的值将数据分成 3 组,然后在每组内计算中位数,并从 3 个中位数确定曲线。

电子媒体.png

更多:简单回归.pdf

多变量控制图

多变异图是一种图表,旨在显示多个变异源,使分析师能够轻松识别哪些因素是最重要的。这种探索性数据分析技术通常用于在执行正式统计分析之前显示来自设计实验的 EDA 数据。

多变量.png

更多: 多变异图表.pdf

小提琴图

小提琴图静态图使用箱须图和非参数密度估计器的组合来显示单个定量样本的数据。它对于可视化数据来源的总体的概率密度函数的形状非常有用。有一个单独的程序可用于为多个样品创建小提琴图。

小提琴情节-1.png
多小提琴.png

更多: 小提琴图统计.pdf, 多小提琴图统计 .pdf

风蔷薇

Wind Rose Statlet 在圆形图上显示数据,描绘了风速和风向等变量的频率分布。它可用于显示单个时间点的分布,也可以以动态方式显示随时间的变化。

风蔷薇-1.png

更多: 风玫瑰 Statlet.pdf

钻石图

钻石图过程为单个定量变量创建一个图,该图显示 n 个样本观测值以及总体均值的置信区间。为多个样品创建钻石图可以使用单独的程序。

钻石2.png

更多: 钻石图.pdf, 多钻石图.pdf

热图

热图过程显示定量变量在 2 个类别因子的所有组合中的分布。如果 2 个因子之一代表时间,则可以使用热图轻松查看变量的演变。渐变色标用于表示定量变量的值。

热图2-1.png

更多: 热图.pdf

人口金字塔

人口金字塔统计图旨在比较 2 组之间的人口计数(或类似值)的分布。它可用于显示单个时间点的分布,也可以以动态方式显示随时间的变化。在后一种情况下,提供了各种选项来平滑数据和处理缺失值。

金字塔-1.png

更多:人口金字塔.pdf

向日葵图

Sunflower Plot Statlet 用于在观测值数量较大时显示 X-Y 散点图。为了避免使用大量数据过度绘制点符号的问题,使用向日葵形状的字形来显示 X-Y 空间小区域中的观测值数。

向日葵-1.png

更多: 向日葵图.pdf

沪ICP备05040608号-14