什么是大数据?
什么是大数据?
大数据是指在一定时间内,常规软件工具无法捕捉、管理和处理的数据集合。它是一种海量、高增长、多元化的信息资产,需要新的处理模式来拥有更强的决策力、洞察力和发现力以及流程优化能力。
大数据的历史和当前考虑
虽然术语?大数据?比较新,但是收集和存储大量信息进行最终分析已经很久了。这个概念在21世纪初获得了动力,当时行业分析师Doug Laney将当前大数据的主流定义表述为三个V:
体积1。该组织从各种来源收集数据,包括商业交易、社交媒体和来自传感器的信息或机器对机器数据。在过去,存储它会是一个问题?但新技术(如Hadoop)减轻了负担。
2.速度,数据以前所未有的速度流入,必须及时处理。RFID标签、传感器和智能电表推动了对近实时数据处理的需求。
3.各种格式的品种和数据?从传统数据库中的结构化数字数据到非结构化文本文档、电子邮件、视频、音频、股票报价数据和金融交易。
在SAS,我们考虑大数据的两个额外维度:
1.可变性,除了速度和数据类型的增加,数据流也可能与周期性峰值高度不一致。社交媒体有什么趋势吗?每日、季节性和事件触发的峰值数据负载可能难以管理。对于非结构化数据来说尤其如此。
2.复杂性,今天的数据来自多个来源,这使得跨系统链接、匹配、清理和转换数据变得很困难。但是,必须连接和关联关系、层次结构和多个数据链接,否则您的数据可能会很快失控。
为什么大数据很重要?
大数据的重要性不在于你有多少数据,而在于你用它做了多少事情。您可以从任何来源获得数据,并对其进行分析,以找到可以降低成本、减少时间、开发新产品和优化产品的答案,并做出明智的决策。当您将大数据与高性能分析相结合时,您可以完成与业务相关的任务,例如:
1.近乎实时地确定故障、问题和缺陷的根本原因;
2.根据客户的购买习惯,在销售点生成优惠券;
3.在几分钟内重新计算整个风险组合;
4.在欺诈影响到您的组织之前将其检测出来。