数据仓库的定义和特征

数据仓库的定义和特征

数据仓库定义

数据仓库之父比尔·恩门在1991出版的《构建数据仓库》一书中提出的定义被广泛接受:数据仓库是面向主题的、集成的、反映历史变化的、相对稳定的(非易失的)数据集,用于支持决策支持。

我们可以从两个层面来理解数据仓库的概念。首先,数据仓库用于支持决策和面向分析的数据处理,不同于企业现有的运营数据库。其次,数据仓库是多个异构数据源的有效集成。整合后按照主题重新组织,包含历史数据,存储在数据仓库中的数据一般不做修改。

二、数据仓库的特点

1,主题导向。操作数据库的数据组织面向事务处理任务,各个业务系统是分离的,而数据仓库中的数据是按照一定的主题域组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的关键方面。一个主题通常与多个操作信息系统相关。

2.综合的。面向事务的操作数据库通常与一些特定的应用相关,并且这些数据库相互独立,通常是异构的。数据仓库中的数据是在提取和清理原始分散的数据库数据的基础上,经过系统的加工、汇总和整理而得到的。必须消除源数据中的不一致性,以确保数据仓库中的信息是一致的,并且是关于整个企业的全局信息。

3.相对稳定。运行数据库中的数据通常是实时更新的,数据会根据需要及时更改。数据仓库中的数据主要用于企业决策分析,涉及的数据操作主要是数据查询。某个数据一旦进入数据仓库,一般会保存很长时间,即数据仓库中有大量的查询操作,但很少有修改和删除操作,通常只需要定期加载和刷新即可。

4.反映历史变迁。运营数据库主要关注的是某一段时间内的当前数据,而数据仓库中的数据通常包含历史信息,系统地记录了企业从过去某一点(如数据仓库应用的时间)到目前各个阶段的信息。通过这些信息,可以定量分析和预测企业的发展过程和未来趋势。

企业数据仓库的建设是基于现有的企业业务系统和大量业务数据的积累。数据仓库不是一个静态的概念。只有及时向需要信息的用户提供信息,以便他们做出决策来改善业务运营,信息才能发挥作用并发挥作用。对信息进行整理、汇总和重组,并及时提供给相应的管理决策者,是数据仓库的根本任务。所以从行业的角度来说,数据仓库建设是一个项目,也是一个过程。