数据挖掘的六个主要功能

虽然数据挖掘的历史很短，但自20世纪90年代以来发展迅速。另外，它是多学科综合的产物，目前没有完整的定义。人们对数据挖掘提出了多种定义，如:SAS研究所(1997):“在大量相关数据的基础上，探索数据并建立相关模型的高级方法”。Hand等人(2000):“数据挖掘是在大型数据库中发现有意义和有价值的信息的过程。”具体来说，数据挖掘，也称为数据库中的知识发现(KDD)，它是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的和潜在适用的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术，是数据库研究中极具应用价值的新领域。

数据挖掘的主要功能

数据挖掘综合了多种学科和技术，具有多种功能。目前主要功能如下:

1，数据汇总:数据分析继承的统计分析。数据汇总的目的是浓缩数据并给出其紧凑的描述。传统的统计方法如和值、平均值、方差值等都是有效的方法。此外，这些数值还可以用柱状图、饼状图等图形方法表示。广义来说，多维分析也可以属于这一类。

2.分类:目的是构造一个分类函数或分类模型(也常称为分类器)，可以将数据库中的数据项映射到给定的类别之一。为了构造分类器，需要训练样本数据集作为输入。训练集由一组数据库记录或元组组成，每个元组是一个由相关字段的值组成的特征向量(也称为属性或特征)，训练样本也有一个类别标签。具体样本的形式可以表示为:(v1，v2，…，VN；c)，其中vi表示字段值，c表示类别。

比如银行部门根据之前的数据把客户分成不同的类别，现在我们可以根据这些来区分申请贷款的新客户，从而采取相应的贷款方案。

3.集群:整个数据库被分成不同的组。其目的是使组间差异明显，而同一组间的数据尽可能相似。这种方法通常用于客户细分。我们在开始细分之前不知道如何把用户分成几类，所以可以通过聚类分析找出客户特征相似的群体，比如客户消费特征相似，或者年龄特征相似。在此基础上，我们可以针对不同的客户群体制定一些营销方案。

比如申请人分为高风险申请人、中风险申请人、低风险申请人。

4.相关性分析:就是找到数据库中数值的相关性。两种常用的技术是关联规则和序列模式。关联规则是发现同一事件中不同项目的相关性；序列模式类似于此，寻找事件之间的时间相关性，比如今天银行利率的调整，明天股市的变化。

5.预测:把握分析对象的发展规律，对未来趋势做出预测。比如:对未来经济发展的判断。

6.偏差检测:对分析对象的少数极端特例的描述，揭示内在原因。比如银行的654.38+0万笔交易，有500起诈骗。为了稳健经营，银行应该找出这500个案例的内在因素，降低未来经营的风险。

数据挖掘的上述功能并不是独立存在的，它们相互关联，在数据挖掘中发挥作用。