数据挖掘技术

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从技术角度来看,主要的数据挖掘方法包括:

(1)决策树方法:决策集用树形结构表示,这些决策集通过对数据集进行分类产生规则。世界上影响最大、最早的决策树方法是ID3方法,后来又发展了其他决策树方法。

(2)规则归纳方法:通过统计归纳,提取有价值的if-then规则。规则归纳技术在数据挖掘中应用广泛,其中关联规则挖掘的研究更加活跃和深入。

(3)神经网络方法:从结构上模拟生物神经网络,基于模型和学习规则,建立前馈网络、反馈网络和自组织网络三种神经网络模型。该方法可以通过训练学习非线性预测模型,可以完成分类、聚类、特征挖掘等各种数据挖掘任务。

(4)遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三种基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一个搜索问题,以充分发挥遗传算法的优化搜索能力。

(5)粗糙集方法:粗糙集理论是波兰数学家Pawlak在80年代初提出的一种新的处理模糊和不精确问题的数学工具。它特别适用于数据简化、数据相关性发现、数据意义发现、数据相似或差异发现、数据模式发现和近似数据分类等。近年来,它已成功地应用于数据挖掘和知识发现的研究领域。

(6)K2最近邻技术:该技术通过K条最近的历史记录的组合来识别新记录。这项技术可用于聚类和偏差分析等挖掘任务。

(7)可视化技术:将信息模式、数据关联或趋势以直观的图形化方式表现出来,决策者可以通过可视化技术交互式地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的分析更加清晰。