数据挖掘与机器学习 - Statgraphics|数据分析解决方案

数据挖掘是指从数据中提取模式的过程。此类模式通常提供对可用于改进业务决策的关系的洞察。统计数据挖掘工具和技术可以根据其用于聚类、分类、关联和预测的用途进行粗略分组。

聚类

聚类是指数据挖掘工具和技术，通过这些工具和技术，根据测量到的特征将一组案例放入自然分组中。由于特征的数量通常很大，因此需要采用案例之间相似性的多变量度量。在寻找如何进行数据挖掘时，Statgraphics 提供了多种导出聚类的方法，包括最近邻法、最远邻法、质心法、中位数法、组平均法、Ward 法和 K 均值法。结果可以显示为树状图、隶属关系表或冰柱图。聚集图用于建议适当的簇数。

更多：聚类分析.pdf

分类

分类是数据挖掘工具和技术之一，通过它根据一组案例的特征将其分配到分类因素的级别。已知案例的训练集用于开发分类算法，然后可用于预测未知案例最有可能属于哪个类别。例如，根据先前申请人开发的算法，贷款申请人可能会根据其个人特征被分为风险类别。
Statgraphics 中的神经网络分类器使用基于非参数密度函数估计与贝叶斯先验相结合的方法。

更多：神经网络分类器.pdf

联合

关联度量用于识别彼此相关的变量。如果这些因素是定量的，则相关系数可用于此类统计数据挖掘工具和技术。如果因素是非定量的，则使用其他关联度量来考虑如何进行数据挖掘。具有非线性 Lowess 平滑器的矩阵图如下所示。
Statgraphics 包括 Pearson 乘积矩相关系数、Kenkall 和 Spearman 等级相关、偏相关、lambda、不确定性系数、Somer’s D、列联系数、eta、Cramer’s V、条件 gamma、Pearson’s R 和 Kendall’s tau 等统计数据。

更多：多变量分析.pdf、列联表.pdf

预测

预测是指开发统计模型，可以在给定其他变量值的情况下预测一个变量的值。数据挖掘工具和技术中经常使用各种类型的回归模型。当预测变量的数量很大时，选择一个好的模型可能很困难。在 Statgraphics 中，统计数据挖掘的回归模型选择过程拟合涉及一组预测变量的所有可能线性组合的模型，所有模型均使用 Mallows Cp 和调整后的 R 平方统计量等标准选择最佳模型。