数据挖掘的六个主要功能
虽然数据挖掘的历史很短,但自20世纪90年代以来发展迅速。另外,它是多学科综合的产物,目前没有完整的定义。人们对数据挖掘提出了多种定义,如:SAS研究所(1997):“在大量相关数据的基础上,探索数据并建立相关模型的高级方法”。Hand等人(2000):“数据挖掘是在大型数据库中发现有意义和有价值的信息的过程。”具体来说,数据挖掘,也称为数据库中的知识发现(KDD),它是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的和潜在适用的信息或模式。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,是数据库研究中极具应用价值的新领域。
数据挖掘的主要功能
数据挖掘综合了多种学科和技术,具有多种功能。目前主要功能如下:
1,数据汇总:数据分析继承的统计分析。数据汇总的目的是浓缩数据并给出其紧凑的描述。传统的统计方法如和值、平均值、方差值等都是有效的方法。此外,这些数值还可以用柱状图、饼状图等图形方法表示。广义来说,多维分析也可以属于这一类。
2.分类:目的是构造一个分类函数或分类模型(也常称为分类器),可以将数据库中的数据项映射到给定的类别之一。为了构造分类器,需要训练样本数据集作为输入。训练集由一组数据库记录或元组组成,每个元组是一个由相关字段的值组成的特征向量(也称为属性或特征),训练样本也有一个类别标签。具体样本的形式可以表示为:(v1,v2,…,VN;c),其中vi表示字段值,c表示类别。
比如银行部门根据之前的数据把客户分成不同的类别,现在我们可以根据这些来区分申请贷款的新客户,从而采取相应的贷款方案。
3.集群:整个数据库被分成不同的组。其目的是使组间差异明显,而同一组间的数据尽可能相似。这种方法通常用于客户细分。我们在开始细分之前不知道如何把用户分成几类,所以可以通过聚类分析找出客户特征相似的群体,比如客户消费特征相似,或者年龄特征相似。在此基础上,我们可以针对不同的客户群体制定一些营销方案。
比如申请人分为高风险申请人、中风险申请人、低风险申请人。
4.相关性分析:就是找到数据库中数值的相关性。两种常用的技术是关联规则和序列模式。关联规则是发现同一事件中不同项目的相关性;序列模式类似于此,寻找事件之间的时间相关性,比如今天银行利率的调整,明天股市的变化。
5.预测:把握分析对象的发展规律,对未来趋势做出预测。比如:对未来经济发展的判断。
6.偏差检测:对分析对象的少数极端特例的描述,揭示内在原因。比如银行的654.38+0万笔交易,有500起诈骗。为了稳健经营,银行应该找出这500个案例的内在因素,降低未来经营的风险。
数据挖掘的上述功能并不是独立存在的,它们相互关联,在数据挖掘中发挥作用。