理解和阅读大数据

理解和阅读大数据

在写这篇文章之前,我发现身边很多IT人往往对这些热门的新技术、新趋势都很渴望,但是很难说透彻。如果你问他大数据跟你有什么关系?估计很少说一、二、三。究其原因,第一,每个人对新技术都有相同的原始欲望,至少知道聊天时不会像“乌龟”一样;第二,真正能参与到大数据在工作生活环境中实践的案例太少,没必要让大家花时间去了解为什么。

我希望有点不一样,所以我思考了如何理解大数据,包括查阅资料,看最新的专业书籍。但我不想把那些零散的数据或不同的理解简单有序地形成毫无价值的转述或评论。真心希望进入事物,探索本质。

如果你说大数据就是大数据,或者侃侃讲了四个V,你可能会深入讲一下BI或者预测的价值,或者以Google和Amazon为例。技术流可能会谈到Hadoop和云计算。对错,只是不能勾勒出对大数据的整体认识,更不要说是片面的,但至少是有点思辨和痒痒的。.....或许,“解构”是最好的方式。

大数据如何结构化?首先,我认为大数据只是互联网发展到现阶段的一种表征或特征。没有必要将其神话或保持敬畏。在以云计算为代表的技术创新的背景下,这些原本难以收集和使用的数据变得易于使用。通过各行各业的不断创新,大数据将逐渐为人类创造更多的价值。

其次,要想系统地理解大数据,就必须对其进行全面细致的分解。我将从三个层面开始:

第一个层次是理论,理论是认知的必由之路,是被广泛认同和传播的基线。我会从大数据的特征定义来理解行业对大数据的整体描述和定性;从大数据价值的讨论,深入剖析大数据的珍贵;从大数据的现在和未来理解大数据的发展趋势;本文从大数据隐私这一特殊而重要的视角来审视人与数据的长期博弈。

第二个层面是技术,技术是体现大数据价值的手段,是进步的基石。我将从云计算、分布式处理技术、存储技术、传感技术的发展来阐述大数据从采集、处理、存储到成果形成的全过程。

第三个层次是实践,实践是大数据的终极价值体现。我将从互联网大数据、政府大数据、企业大数据、个人大数据四个方面来描述大数据已经展现的美好场景和将要实现的蓝图。

?大数据相关理论?特征的定义最早提出大数据时代来自麦肯锡:“数据在今天已经渗透到每一个行业和商业功能领域,成为重要的生产要素。海量数据的挖掘和应用,预示着新一波生产力增长和消费者剩余的到来。”

业界(最早由IBM定义)将大数据的特征分为四个“V”(量、种类、价值、速度),或者说特征有四个层次:一是数据量巨大。大数据的计量起始单位至少是P(1000 t)、E (1亿t)或Z (1亿t);第二,数据类型多。比如网络日志、视频、照片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。这最后一点也与传统的数据挖掘技术有着本质的区别。

事实上,这些V并不能真正解释大数据的所有特征,下图有效地解释了大数据的一些相关特征。

老话说:三分技术,七分数据,得数据者得天下。不管是谁先说的,这句话的正确性都不需要证明。维克多·迈耶-勋伯格在《大数据时代》一书中举了各种各样的例子,都是为了说明一个道理:当大数据时代已经到来,我们应该用大数据思维去发掘大数据的潜在价值。作者在书中提到最多的是谷歌如何利用人们的搜索记录挖掘数据的价值进行二次利用,比如预测某地流感爆发的趋势;亚马逊如何利用用户购买和浏览的历史数据进行有针对性的购书推荐,从而有效提升销量;Farecast如何利用过去十年所有航空公司机票价格的折扣数据来预测用户购买机票是否合适?

那么,什么是大数据思维?维克多·迈耶-勋伯格认为1-需要所有数据样本而不是抽样;2-注重效率而不是准确性;3-关注相关性而不是因果关系。

阿里巴巴的王坚对大数据也有一些独到的看法,比如,

“今天的数据不大。真正有意思的是,这些数据已经在线了。这恰恰是互联网的特点。”

“非互联网时期产品的功能一定是它的价值。今天的互联网产品,数据一定是它的价值。”

“你绝不能考虑用数据来改善业务。这不是大数据。你一定做了以前做不到的事。”

尤其是最后一点,我非常赞同。大数据的真正价值在于创造,在于填补无数未实现的空白。

有人把数据比作有能量的煤矿。煤炭按性质分为焦煤、无烟煤、肥煤和瘦煤,而露天煤矿和深山煤矿的采掘成本是不同的。同样,大数据不是“大”,而是“有用”。价值含量和挖掘成本比数量更重要。

?价值讨论什么是大数据?在投资人眼里,有两个闪闪发光的词:资产。比如脸书上市的时候,评估机构评估的大部分有效资产都是其社交网站上的数据。

如果把大数据比作一个行业,那么这个行业盈利的关键就在于提高数据的“处理能力”,通过“处理”实现数据的“增值”。

Target超市以孕妇孕期可能购买的20多种商品为基础,以所有用户的购买记录为数据源。通过建立模型分析购买者的行为相关性,可以准确推断出孕妇的具体分娩时间,以便Target的销售部门在每个怀孕客户的不同阶段发送相应的产品优惠券。

塔吉特的例子就是一个典型的案例,印证了维克多·迈耶-勋伯格提到的一个很有启发性的观点:通过找到一个协会并对其进行监测,可以预测未来。Target通过监测买家购买商品的时间和种类,精准预测客户的怀孕情况,是数据二次利用的典型案例。如果采集司机手机的GPS数据,可以分析出目前哪些道路交通堵塞,可以及时发布道路交通提醒;通过收集汽车的GPS位置数据,我们可以分析城市中哪些区域的停车比较多,这也意味着这个区域的活跃人群比较多,这些分析数据适合卖给广告商。

不管大数据的核心价值是不是预测,基于大数据的决策模型已经给很多企业带来了利润和口碑。

从大数据的价值链分析,有三种模式:

1——手握大数据,却没有好好利用;典型的有金融机构、电信行业、政府机构等等。

2-没有数据,但知道如何帮助有数据的人使用数据;典型的IT咨询和服务企业,如埃森哲、IBM、甲骨文等。

3-既有数据,又有大数据思维;典型的有谷歌、亚马逊、万事达卡等。

未来大数据领域最有价值的是两件事:1——有大数据思维的人,能把大数据的潜在价值转化为实际利益的人;2-尚未被大数据触及的业务领域。这些是未勘探的油井和金矿,也就是所谓的蓝海。

作为零售业的巨头,沃尔玛的分析师会对每个阶段的销售记录进行综合分析。一旦他们偶然发现不相关但有价值的数据。在美国的飓风季节,超市里蛋挞和防飓风物品的销量大增,于是他们做出了一个明智的决定,那就是把蛋挞的销售位置搬到了飓风销售区旁边的区域。看似方便用户选择,没想到蛋挞。

还有一个有趣的例子。1948辽沈战役期间,林彪司令员每天都要例行的“每日军情报告”,值班参谋在电台上宣读下属各纵队、师、团的战况和被俘情况。那几乎是在重复同样无聊的数据:每个单位消灭了多少敌人,俘虏了多少人;缴获了多少枪支和车辆,有多少枪支和物资...一天,参谋像往常一样汇报当天的战况,林彪突然打断了他:“你听到刚才胡家窝棚战斗的俘虏了吗?”大家都无所适从,因为每天都有几十场战斗,不都是差不多的无聊数字吗?林彪扫视了一下四周,见无人回答,便接连问了三句:“为什么那里缴获的短枪和长枪的比例比其他战斗略高?”"为什么在那里俘获和摧毁的汽车和手推车的比率比其他战斗略高?"“为什么那里的官兵被俘阵亡比例比其他战役略高?”林彪司令员大步走到贴满军用地图的墙上,指着地图上的点说:“我猜,没有,我确定!敌人指挥所到了!”果然,部队很快活捉了敌军长廖耀湘,打赢了这场重要战役。

这些例子在各行各业都有真实的体现。发掘数据的价值,靠的是掌握数据的人,关键是人的数据思维。与其说大数据创造价值,不如说大数据思维引发新的价值增长。

以上是边肖为大家分享的关于理解和阅读大数据的相关文章。更多信息可以关注环球常春藤分享更多干货。