毕主要掌握什么?
& gt& gtBI的原材料是海量数据;
& gt& gtBI的产品是从数据中加工出来的信息和知识;
& gt& gtBI将这些产品推送给企业决策者;
& gt& gt企业决策者利用毕厂的产品做出正确决策,促进企业发展;
这就是商业智能,也就是商业智能——将数据与决策者连接起来,将数据转化为价值。
BI应用分为信息应用和知识应用两大类,其特点如下表所示:
信息商务智能应用:
指的是数据查询、报表图表、多维分析、数据可视化等应用。,由原始数据处理而来。这些应用的共同特点是:将数据转化为决策者可以接受的信息,呈现给决策者。
例如,将银行交易数据处理成银行财务报表。
只负责提供信息,不会主动分析数据。
比如银行财务报表工具,没有能力深度分析客户流失与银行利率的关系,只能依靠决策者结合信息,通过人的思维获取知识。
知识商务智能应用:
指的是数据挖掘技术和工具,挖掘数据中隐藏的关系,将数据直接通过计算机处理成知识,呈现给决策者。
会主动发掘数据中的数据关联,发掘决策者大脑无法快速发掘的隐藏知识,并以可理解的形式呈现给决策者。
(3)双向数据查询的主要应用模式概述
数据查询是最简单的商业智能应用,属于MIS系统的遗产。虽然来自一个比较老的学校,但仍然是决策者获取信息最直接的途径。
如今的数据查询界面已经完全摆脱了传统的SQL命令行,大量的下拉菜单、输入框、列表框等元素,甚至鼠标拖拽界面,将后台苦力的SQL语句包装成了一个引人入胜的数据采集系统,但本质上依然没有留下数据查询的几个元素:
& gt& gt检查什么?
& gt& gt去哪里查?
& gt& gt过滤条件
& gt& gt显示方法
目前国外比较流行的数据查询应用已经完全释放了数据查询的灵活性。如右图所示,Cognos ReportNet的数据查询界面Query Studio允许用户通过纯粹的浏览器界面,通过拖拽鼠标来定义数据查询元素,并以报表、图表等多种方式显示数据。
(4)双向申报主要应用模式概述。
报表是国内最流行的BI应用之一,这与报表在我国国有企事业单位中的历史地位是分不开的。我国的报表以格式奇特、数据集中、规则古怪著称,让无数国外报表工具、BI工具捶胸顿足。
报告的两个要素是数据和格式。如果没有格式,报表应用几乎等同于数据查询应用。可以说报表就是将查询到的数据以指定的格式呈现出来。
报表应用包括报表展现和报表生成两个模块。报表展现是让决策者看到报表,并允许决策者通过条件定义选择报表数据,如选择报表年度、部门、机构等。报表制作面向报表开发人员,报表开发人员在格式定义、数据映射、丰富的计算方法等方面的灵活性都影响着BI报表应用的质量。
需要澄清的是,微软Excel不是BI报表工具,因为Excel没有连接数据源的能力,充其量是一个电子表格。但Excel强大的格式功能让报表制作者们俯首称臣,甚至后来几乎所有BI厂商都为微软Excel提供了插件。通过插件,Excel可以连接到BI的数据源,变成BI的报表工具,丑小鸭变成天鹅。
5)BI高级应用模式-在线分析处理(OLAP)概述
OLAP,即在线分析处理,是商业智能带来的一种全新的数据观察方法,是商业智能的核心技术之一。
我们知道,数据存储在数据库的数据表中。例如,商店的销售数据存储在如下所示的数据表中:
销售时间
销售地点
产品
销量
销售额
2004-11-1
北京
肥皂
10
342.00
2004-11-6
广州
橙色的
30
123.00
2004-12-3
北京
香蕉
20
12.00
2004-12-13
上海
橙色的
50
189.00
2005-1-8
北京
肥皂
10
342.00
2005-1-23
上海
牙刷
30
150.00
2005-2-4
广州
牙刷
20
100.00
决策者往往希望了解宏观信息,如分布、比例和趋势,如以下问题:
& gt& gt抛开时间因素,北京销量趋势如何?
& gt& gt哪种产品在2005年的销售额比2004年增长最大?
& gt& gt2004年各种产品销售比例分布?……
面对这种需求,必须用SQL语句进行大量的SUM运算,每次得出一道题的结果都需要SQL SUM。面对以上七条记录,我们很容易得到结果,但是当我们面对几百万甚至几十亿条记录,比如移动公司的通话数据,计算每一条SQL和都需要花费大量的时间。决策者往往在第一天提出分析要求,等到第二天才得到计算结果。这种分析方式是“离线分析”,效率非常低。
为了提高数据分析效率,OLAP科技彻底打破基于记录的数据浏览模式,将数据分为“维度”和“度量”:
& gt& gt维度是观察数据的角度,比如上例中的“销售时间”、“销售地点”、“产品”;
& gt& gt度量是具体考察的数量值,如上面例子中的“销售数量”和“销售金额”;
这样,我们可以将上面的平面图数据列表转换成具有三维的数据立方体:
探索数据的过程是确定这个立方体中的一个点,然后观察这个点的测量值:
当然,数据立方体并不局限于三维,这里用三维来说明问题,只是因为可以通过图形表达的极限是三维。
维度可以分层次,比如时间可以日复一日概括为月、年,产品可以概括为食品、日用品,地点可以概括为华北、华南。用户可以沿着维度的级别随意向下钻取和向上滚动:
这样就可以摆脱SQL SUM的速度限制,快速定位满足不同条件的明细数据,快速得到一定级别的汇总数据。OLAP技术为决策者提供了多角度、多层次、高效的数据探索方法。决策者的思维不再被固定的下拉菜单和查询条件所束缚,而是被决策者获取数据、任意组合分析角度和分析目标的思维所主导。这打破了传统的交互分析和高效率,使得OLAP成为BI系统的核心应用。
(*)第四喷:BI高级应用模式——数据可视化和数据挖掘
(6)BI应用模式概述——数据可视化
数据可视化的应用致力于以尽可能多的形式呈现信息,目的是通过图形的直观表达,使决策者快速获取信息中所包含的知识,如趋势、分布、密度等要素。值得一提的是,以MapInfo为代表的GIS软件厂商也在尝试结合BI应用。MapInfo最早提出位置智能的概念,依托地理信息系统,显示各个区域的属性值,如人口密度、工业产值、人均医院数等。这种可视化应用与BI数据可视化应用部分重叠,形成了有力的补充,有时在一个项目中可以相互匹配。
上图是Cognos Visualizer产品。这家伙以近乎煽情的丰富形式展示数据和信息,包括地图、饼状图、瀑布图等近50种显示图形,并提供二维和三维两种显示方式。所有的图形元素都是可移动的,比如用户可以在地图上点击某个省份,钻取该省城市的信息。这种交互性是BI和普通图片生成软件的一个显著区别。
(7)商业智能应用模式——数据挖掘概述
数据挖掘是最高级的BI应用,因为它可以替代人脑的某些功能。
数据挖掘是结构化数据中知识发现的一个特例。
数据挖掘的目的是通过计算机对大量数据进行分析,找出数据之间隐藏的规律和知识,并以用户可以理解的方式展现给用户。
数据挖掘的三个要素是:
& gt& gt技术和算法:目前,常用的数据挖掘技术包括-
自动聚类检测(自动聚类检测)
决策树
神经网络(神经网络)
& gt& gt数据:因为数据挖掘是在已知中挖掘未知的过程,
所以需要大量的数据积累作为数据源,数据积累
数量越大,数据挖掘工具的参考点就越多。
& gt& gt预测模型:即需要数据挖掘的业务逻辑从
计算机模拟,这是数据挖掘的主要任务。
与基于信息的BI应用相比,以数据挖掘为代表的基于知识的BI应用目前还不成熟,但从另一个角度看,数据挖掘还有很大的发展空间,是未来BI发展的重点方向。SAS、SPSS等知识型BI应用厂商的形象逐渐高大,悄然占据新的利润增长点。
上图中,著名的IBM智能挖矿机正在分析客户的消费行为。它可以对大量的客户数据进行分析,然后自动将客户分成几个群体(自动品类检测),并显示每个群体的消费特征,让决策者对不同客户的消费习惯制定促销方案或广告方案一目了然。
如果仅通过信息BI应用实现上述功能,决策者需要根据经验做大量的OLAP分析和数据查询,不一定能发现数据中的潜规则。比如上面的客户分类,对于一个有400万用户的银行来说,如果没有数据挖掘工具,人会累死的。
(8) BI基础-数据仓库技术(Data Warehouse)
在开始喷这个话题之前,我们先来看看数据仓库的官方定义:
数据仓库是面向主题的、集成的、非易失的、时变的数据集,用于支持管理决策。以上是数据仓库的官方定义。
“操作数据库”就像银行簿记系统的数据库。每一次商业操作(例如,如果你存了5元钱)都会立即记录在这个数据库中。长此以往,所有积累的数据都是零碎的。这种数据库称为“运营数据库”,面向业务运营。
“数据仓库”用于决策支持,面向分析数据处理,不同于操作型数据库。此外,数据仓库是多个异构数据源的有效集成。整合后按照主题重新组织,包含历史数据,存储在数据仓库中的数据一般不做修改。
运营数据库、数据仓库和数据库的关系,就像C:和D:和硬盘的关系一样。数据库是硬盘,操作数据库是C:。操作型数据库和数据仓库都存储在数据库中,只是表结构的设计模式和目的不同。
那么为什么要在运营数据库和BI之间加这么一层“数据仓库”呢?
一是因为运营数据库日夜忙碌,以快速响应业务为主要目标,没有精力服务BI端的数据需求,BI端的数据需求通常是汇总。xx的一个select sum(xx) group,会让操作数据库消耗大量资源,业务处理跟不上,那就麻烦大了。比如你存了5000元,十分钟后发现钱还没到,你怎么看?一定是银行的领导在看饼状图?
第二,在企业中有很多应用,对应很多运营数据库,如人力资源数据库、财务数据库、销售单据数据库、库存商品数据库等。为了提供数据的全景视图,BI必须集成这些分散的数据。例如,为了实现集成销售和库存信息的OLAP分析,BI工具必须能够有效地从两个数据库中获取数据。这时候最高效的方法就是先把数据整合到数据仓库,BI应用从数据仓库统一出来。
将分散的操作数据库中的数据集成到数据仓库中是一个大学问,催生了数据集成软件市场。这种集成并不是简单的将表堆在一起,而是提取各个操作数据库的维度,将公共维度设置为公共维度,然后将包含具体度量的数据库表按照主题统一成若干个大表(术语“事实表”),按照维度-度量模型建立数据仓库表结构,然后进行数据提取和转换。后续提取一般是在运营数据库负载比较小的时候(比如凌晨)增量提取新数据,这样数据仓库中的数据就会积累起来。
大多数BI应用不需要实时数据,比如决策者。他们只需要每周一看上周的周报。95%的BI应用程序不想现实,并允许从1小时到1月的数据滞后。这是决策支持系统的应用特点,这个滞后区间就是数据抽取工具的工作时间。当然,BI应用程序通常包含很少的实时数据需求。此时,只需要针对这些特殊需求,将BI查询软件直接连接到业务数据库即可,但必须限制负载,禁止复杂查询。
目前,所有数据库产品都提供了针对数据仓库的专门优化。例如,当安装MySQL的高版本时,安装序列将询问您是希望数据库实例面向事务还是决策支持。前者是运营数据库,后者是数据仓库(决策支持,请再加油)。对于这两种形式,数据库会提供有针对性的优化。
(9)双花边
那就是关于BI的相关知识了。写点花边作为结论。
BI的关键点:BI不能处理非结构化数据,只能处理数字信息。然而,在企业中,仍然存在大量的文本、流媒体、图片等非结构化数据,这些数据也蕴含着大量的价值,但面对这些数据,目前的BI工具却无能为力。IBM Intelligent Miner for Text比较靠谱,但是在处理中文方面好像很弱。
BI供应商和产品:
首先我们来认识一下国外的大腕!在数据仓库方面,有IBM DB2、Oracle、Sybase IQ、NCR Teradata等。BI应用包括Cognos、Business Objects、MicroStrategy、Hyperion、IBM等。数据挖掘包括IBM,SAS,SPSS等等。巨头微软也在BI领域插了一脚,推出了SQL Server分析服务器、报表服务等BI相关产品抢占山头!
我们往往只关注外国BI老板,而忽略了中国新兴的BI大军。目前国内比较知名的BI有奥维智动的Power-BI,商南的BlueQuery,润乾报告等。特别值得一提的是,奥维智动的Power-BI是标准化的BI,在国内有一定的市场份额。
中国商务智能市场的发展;
一段时间
商业智能在中国的应用
2002年以前
大量的BI软件都被当成可以从多个数据源提取数据的报表工作,满眼都是报表。
当初公司销售在推广产品时向用户介绍:“我们是BI领域最强的……”效果并不好;后来那些销售人员终于发现了窍门,上来就说:“我们什么报告都可以做!””然后命令不断传来。
2002-2003
一些明眼人终于发现了OLAP的价值。一些竞争压力大的企业为了提高竞争力,迫切需要挖掘历史数据的价值,快速发现OLAP的优势。这时候销售终于不用说“我们可以做任何报告”了。但是,国家机关和垄断企业仍然是报表,并认为毕是报表。
2004
随着越来越多成功的BI项目的实施,OLAP终于浮出水面,进而在国内形成了数据查询+报表展现+OLAP分析的合理BI应用架构。用户经常会提出一些数据可视化的需求。在一些竞争激烈、数据量大的企业中,出现了数据挖掘应用。
2005
信息提供已经不能满足许多企业的要求,特别是在竞争激烈和风险密集的行业,如银行、通信和证券。数据挖掘的需求大量涌现,BI应用最终形成了信息+知识的整体。
BI工具在中国遇到的问题;
*复杂的表格:中国拥有世界上最复杂的表格。中国的样品设计理念和西方不同。西方的报告倾向于只用一份报告来说明一个问题,而中国的报告倾向于将尽可能多的问题集中在一份报告中,这直接导致了中国报告的格式复杂,风格怪异。
*大数据:中国是世界上人口最多的国家。以中国移动公司为例。中国仅一个省的用户数量就相当于欧洲一个中等国家的人口,真是海量数据!国外的数据库、数据仓库、BI应用软件,都在中国经受着大数据量承载能力的考验。对于美国来说,一个客户分析应用可能两秒钟就能得到结果,但在中国,数据量这么大,不是两秒钟的事。
*数据回写:中国是世界上对BI系统要求最奇怪的国家。最初,BI系统是基于忠实再现源数据的原则,但这一原则在中国遇到了困难。很多领导提出了数据修改的要求。“报告上的数字不好看,肯定是能改的,有时候还需要调整,让上级领导看着!”一位领导说。目前能满足这一要求的BI产品只有微软和MicroStrategy两个。微软非常了解中国市场。