数据挖掘的起源和发展

什么是数据挖掘?

数据挖掘是从大量数据中获取有效、新颖、潜在有用且最终可理解的模式的非凡过程。数据挖掘的广义观点:数据挖掘是从数据库、数据仓库或其他信息库中存储的大量数据中“挖掘”出感兴趣的知识的过程。数据挖掘,也称为数据库中的知识发现(KDD),也被一些人视为数据库中知识发现过程的基本步骤。知识发现的过程由以下步骤组成:(1)数据清洗,(2)数据集成,(3)数据选择,(4)数据转换,(5)数据挖掘,(6)模式评估和(7)知识表示。数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。例如,通过使用数据库管理系统来查找单个记录,或者通过因特网上的搜索引擎来查找特定的网页,这是信息检索领域中的一项任务。虽然这些任务很重要,可能涉及复杂算法和数据结构的使用,但它们主要依靠传统的计算机科学和技术以及数据的明显特征来创建索引结构,从而有效地组织和检索信息。然而,数据挖掘技术也被用来增强信息检索系统的能力。

[编辑本段]数据挖掘的起源

需要是发明之母。近年来,数据挖掘引起了信息产业的极大关注。主要原因是有大量可以广泛应用的数据,迫切需要将这些数据转化为有用的信息和知识。所获得的信息和知识可广泛用于各种应用,包括商业管理、生产控制、市场分析、工程设计和科学探索。

数据挖掘使用了来自以下领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也很快接受了其他领域的想法,包括优化、进化计算、信息论、信号处理、可视化和信息检索。其他一些领域也起着重要的辅助作用。特别是,数据库系统需要提供有效的存储、索引和查询处理支持。源自高性能(并行)计算的技术在处理海量数据集时通常很重要。分布式技术还可以帮助处理海量数据,在数据不能一起处理的时候就更重要了。

【编辑本段】数据挖掘能做什么?

1)数据挖掘可以做以下六种不同的事情(分析方法):

分类(分类)

估计(估算)

预测(预测)

关联性分组或关联规则。

聚类(群集)

描述和可视化。

挖掘复杂的数据类型(文本、Web、图形和图像、视频、音频等。)

2)数据挖掘分类

以上六种数据挖掘分析方法可以分为两类:直接数据挖掘;间接数据挖掘

直接数据挖掘

目标是利用可用的数据建立一个模型,这个模型描述了剩余的数据和一个特定的变量(可以理解为数据库中表的属性,也就是列)。

间接数据挖掘

在目标中没有选择具体的变量,而是由模型来描述;而是在所有变量之间建立一种关系。

分类、估值、预测属于直接数据挖掘;后三种属于间接数据挖掘。

3)各种分析方法的简要介绍

分类(分类)

首先从数据中选取已经分类的训练集,在这个训练集上,利用数据挖掘分类技术建立分类模型,对未分类的数据进行分类。

示例:

a信用卡申请人被分为低、中、高风险。

B.将客户分配给预定义的客户群。

注意:类的数量是固定的和预定义的。

估计(估算)

估计类似于分类,只是分类描述的是离散变量的输出,而估计处理的是连续值的输出;分类的类别数是确定的,估值的金额是不确定的。

示例:

A.根据购买模式,估计一个家庭的孩子数量

B.根据购买模式,估算一个家庭的收入。

C.估计房地产的价值

一般来说,估值可以作为分类的前一步。给定一些输入数据,通过估计得到未知连续变量的值,然后根据预设的阈值,进行分类。比如家庭贷款业务,银行用估值给每个客户打分(0~1分)。然后根据门槛对贷款等级进行分类。

预测(预测)

通常预测是通过分类或估计来起作用的,即通过分类或估计得到一个模型,用来预测未知变量。从这个意义上来说,没有必要把预言分成一个单独的类别。预测的目的是预测未来的未知变量。这个预测是需要时间来验证的,也就是需要一定的时间才能知道预测的准确性。

关联性分组或关联规则。

决定一起会发生什么。

示例:

A.超市里的顾客往往一边买A一边买B,也就是A = & gtb(关联规则)

B.客户买了A之后,每隔一段时间就会买B(序列分析)。

聚类(群集)

聚合是对记录进行分组,并将相似的记录放入聚合中。聚集和分类的区别在于,聚集不依赖于预定义的类,也不需要训练集。

示例:

A.某些特定症状的聚集可能预示着某种特定的疾病。

B.租不同类型VCD的顾客聚集在一起,可能暗示着成员属于不同的亚文化群体。

聚集通常是数据挖掘的第一步。比如“什么样的促销是对客户最好的回应?”对于这类问题,可能最好先把整个客户集合起来,把客户分组到自己的集合中,然后再针对每个不同的集合回答问题。

描述和可视化(描述和可视化)

是数据挖掘结果的表示形式。

[编辑此段]数据挖掘中的关联规则

1.什么是关联规则?

在描述一些关于关联规则的细节之前,我们先来看一个有趣的故事:“尿布和啤酒”。

在一家超市,有一个有趣的现象:纸尿裤和啤酒一起卖。但是这个奇怪的举动增加了纸尿裤和啤酒的销量。这不是笑话,而是发生在美国沃尔玛连锁超市的真实案例,一直被商家津津乐道。沃尔玛拥有世界上最大的数据仓库系统。为了准确地了解顾客在其商店的购买习惯,沃尔玛对顾客的购物行为进行购物篮分析,并想知道顾客经常一起购买什么产品。沃尔玛的数据仓库集中了其门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:“用纸尿裤购买最多的产品是啤酒!”经过大量的实际调查分析,揭示了隐藏在“尿布和啤酒”背后的一个美国人的行为模式:在美国,一些年轻的父亲下班后经常去超市买婴儿尿布,其中30% ~ 40%的人还会给自己买一些啤酒。造成这种现象的原因是,美国的妻子经常会告诉丈夫下班后给孩子买纸尿裤,丈夫买完纸尿裤会带回自己喜欢的啤酒。

按照常规思维,纸尿裤和啤酒无关。如果不利用数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内部这种有价值的规律的。

数据关联是数据库中一种重要的发现知识。如果两个或多个变量的值之间存在某种规律性,则称之为相关性。相关性可分为简单相关性、时间序列相关性和因果相关性。关联分析的目的是找出数据库中隐藏的关联网络。有时候我们不知道数据库中数据的关联函数,即使知道也是不确定的,所以关联分析产生的规则是可信的。关联规则挖掘在大量数据中发现项目集之间有趣的关联或相关关系。阿格拉瓦尔等于1993。首先,提出了挖掘客户交易数据库中项目集之间的关联规则的问题。后来很多研究者对挖掘关联规则做了大量的研究。他们的工作包括对原有算法进行优化,比如引入随机抽样和并行思想,提高算法挖掘规则的效率;推广关联规则的应用。关联规则挖掘是数据挖掘中的一个重要课题,近年来被业界广泛研究。

2.关联规则的挖掘过程、分类及相关算法。

2.1关联规则挖掘流程

挖掘关联规则的过程主要包括两个阶段:第一阶段,必须从数据集中找到所有的高频项集,第二阶段,从这些高频项集中生成关联规则。

在关联规则挖掘的第一阶段,必须从原始数据集中找出所有的大项目集。高频是指某个项目组相对于所有记录的频率必须达到一定的水平。项目组出现的频率称为支持。以一个包含两个项目A和B的2-项集为例,通过公式(1)可以得到包含{A,B}的项目组的支持度。如果支持度大于或等于设定的最小支持度阈值,则{A,B}称为高频项目组。满足最小支持度的k-项集称为频繁k-项集,一般表示为大k或频繁k,算法还从大k的项目组中生成大k+1,直到再也找不到高频项目组。

关联规则挖掘的第二个阶段是生成关联规则。从高频项组生成关联规则就是利用上一步的高频k项组生成规则。在最小置信度的条件阈值下,如果一条规则得到的可信度满足最小置信度,则这条规则称为关联规则。例如,高频k项组{A,B}生成的规则AB的可靠度可以通过公式(2)得到。如果可靠度大于或等于最小可靠度,AB称为关联规则。

就Vuormaa的案例而言,利用关联规则挖掘技术对交易数据库中的记录进行挖掘,首先要设置最小支持度和最小信任度两个阈值,假设最小支持度min_support=5%,最小信任度min_confidence=70%。所以符合这个超市需求的关联规则必须同时满足以上两个条件。如果通过挖掘过程找到的关联规则“尿布,啤酒”满足以下条件,则“尿布,啤酒”的关联规则将被接受。支持(尿布,啤酒)可以用公式>:=5%,信心(尿布,啤酒)> =70%来描述。其中,支持(纸尿裤,啤酒) >:本应用示例中=5%的显著性是所有交易记录中至少有5%的交易记录显示同时购买了纸尿裤和啤酒。在这个应用示例中,置信度(尿布,啤酒)> =70%意味着包括尿布在内的所有交易记录中至少有70%会同时购买啤酒。因此,如果消费者将来购买尿布,超市将能够同时推荐该消费者购买啤酒。这种商品推荐行为基于“纸尿裤,啤酒”关联规则,因为超市过去的交易记录支持“大部分购买纸尿裤的交易都会同时购买啤酒”的消费行为。

从上面的介绍也可以看出,关联规则挖掘通常更适合于记录中的指标取离散值的情况。如果原始数据库中的索引值是连续数据,那么在挖掘关联规则之前要对数据进行适当的离散化(实际上某个区间的值对应某个值)。数据的离散化是数据挖掘前的重要环节,离散化过程是否合理将直接影响关联规则的挖掘结果。

2.2关联规则的分类

根据不同的情况,关联规则可以分类如下:

1.根据规则中处理变量的类别,关联规则可以分为布尔型和数值型。

布尔关联规则处理的值都是离散的、分类的,显示了这些变量之间的关系。数值型关联规则可以与多维关联规则或多层关联规则结合起来处理数值型字段并动态划分,也可以直接处理原始数据。当然,数值型关联规则也可以包含类别变量。例如:gender = " female " = & gt职业=“秘书”,这是一个布尔型关联规则;Gender = " female " = & gtAvg (income) =2300,涉及的收入是数值型,所以是数值型关联规则。

2.根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。

在单层关联规则中,所有变量都没有考虑到实际数据有许多不同的层次;在多层关联规则中,数据的多层性质得到了充分的考虑。例如:IBM desktop = & gt索尼打印机是对详细数据的单层关联规则;Desktop = & gt索尼打印机是较高层次和细节层次之间的多层关联规则。

3.根据规则所涉及的数据的维度,关联规则可以分为一维的和多维的。

在一维关联规则中,我们只涉及一个维度的数据,比如用户购买的物品;在多维关联规则中,要处理的数据会涉及多个维度。换句话说,一维关联规则处理单个属性中的一些关系;多维关联规则处理各种属性之间的某些关系。例如:啤酒= & gt纸尿裤,这个规则只涉及用户购买的物品;Gender = " female " = & gt职业=“秘书”,这个规则涉及两个领域的信息,是一个二维的关联规则。

2.3关联规则挖掘算法

1.Apriori算法:利用候选项集发现频繁项集。

Apriori算法是挖掘布尔关联规则频繁项集最有影响力的算法。其核心是一种基于两阶段频率集思想的递归算法。该关联规则在分类上属于单维、单层、布尔型关联规则。这里,所有支持度大于最小支持度的项集称为频繁项集,简称为频率集。

算法的基本思想是:首先找出所有的频率集,并且这些项集的频率至少与预定义的最小支持度相同。然后,从频率集生成强关联规则,这些规则必须满足最小支持度和最小可信度。然后利用步骤1找到的频率集生成期望规则,生成所有只包含集合项的规则,其中每个规则的右半部分只有一项,这里采用了中间规则的定义。一旦生成这些规则,只有那些大于用户给定的最小可信度的规则被留下。为了生成所有频率集,使用递归方法。

可能存在大量的候选集,可能需要反复扫描数据库,这是Apriori算法的两大缺点。

2.基于划分的算法

Savasere等人设计了一种基于划分的算法。该算法首先在逻辑上将数据库划分为若干个不相交的块,每次单独考虑一个块并为其生成所有的频率集,然后将生成的频率集合并生成所有可能的频率集,最后计算这些项目集的支持度。这里,选择每个块的大小,使得每个块可以放入主存储器中,并且在每个阶段只需要扫描一次。每个可能的频率集是至少一个块中的频率集,这一事实保证了算法的正确性。该算法可以是高度并行的,并且可以将每个块分配给一个处理器来生成频率集。在生成频率集的每个周期之后,处理器相互通信以生成全局候选k项集。通常这里的通信过程是算法执行时间的主要瓶颈;另一方面,每个独立处理器生成频率集的时间也是一个瓶颈。

3.FP-树频率集算法

针对Apriori算法的固有缺陷,J. Han等人提出了一种不生成候选挖掘频繁项集的方法:FP- tree频率集算法。采取分而治之的策略。在第一次扫描之后,数据库中的频率集被压缩到一个频繁模式树(FP-tree)中,而相关的信息仍然被保留。然后将FP-tree分成若干个条件基,每个条件基与一个长度为1的频率集相关,然后分别挖掘这些条件基。当原始数据量较大时,可以结合分区方法将FP-tree放入主存。实验表明,FP-growth对不同长度的规则有很好的适应性,其效率比Apriori算法有很大提高。

3.国内外该领域的应用

3.1国内外关联规则挖掘技术的应用

目前,关联规则挖掘技术已经广泛应用于西方金融企业,并能成功预测银行客户的需求。一旦获得这些信息,银行就可以改进他们的营销。现在,银行每天都在开发与客户沟通的新方式。各银行将客户可能感兴趣的本行产品信息捆绑在自己的ATM机上,供用户了解。如果数据库显示一个信用额度很高的客户更改了地址,那么很有可能这个客户最近买了一个更大的房子,因此有可能需要更高的信用额度,新的高端信用卡,或者住房改善贷款。这些产品可以通过信用卡账单邮寄给客户。当客户打电话咨询时,数据库可以有效地帮助电话销售代表。销售代表的电脑屏幕可以显示客户的特征,同时可以显示客户会对什么产品感兴趣。

同时,一些知名的电子商务网站也受益于强大的关联规则挖掘。这些电子购物网站利用关联规则中的规则进行挖掘,然后设置用户打算一起购买的捆绑包。也有一些购物网站利用它们设置相应的交叉销售,即购买某种产品的顾客会看到另一种相关产品的广告。

然而,目前在中国,“数据海量,信息匮乏”是商业银行在数据集中后普遍面临的尴尬。目前在金融行业实现的大部分数据库只能实现数据录入、查询、统计等底层功能,而无法在数据中找到各种有用的信息,比如分析这些数据,发现它们的数据模式和特征,进而发现某个客户、消费群体或组织的金融和商业利益,观察金融市场的变化趋势。可以说,国内对关联规则挖掘技术的研究和应用还不是很广泛和深入。

3.2近年来对关联规则挖掘技术的一些研究

由于许多应用问题往往比超市采购问题更复杂,大量的研究从不同的角度对关联规则进行了扩展,将更多的因素融入到关联规则挖掘方法中,从而丰富了关联规则的应用领域,拓宽了支持管理决策的范围。比如考虑属性之间的层次关系,时态关系,多表挖掘等等。近年来,对关联规则的研究主要集中在两个方面,即扩大经典关联规则能够解决问题的范围和提高经典关联规则挖掘算法的效率和兴趣。

我是百度。可以参考这个网站。

祝您好运