大数据的历史

一、大数据的陷阱构成李娜再次夺得大满贯,超越张德培的中国大满贯纪录,非举国体制下的奇迹创造了举国欢腾。

在总结李娜的成功因素时,我再次看到了大数据发挥了重要作用的言论。不过李娜这次夺冠最靠谱的解释是,李娜在卡洛斯的帮助下,心理战斗力有了很大提升。

在技术水平领先的前提下,李娜克服了整场比赛的节奏问题,她有一颗冠军的心。2012年9月6日,代表亚洲网球最高水平的中国李娜在美国迎战小威廉姆斯。

当时,IBM在综合了美网过去八年的所有比赛数据后,为球员们制定了“进军关键”的制胜策略。李娜获胜的关键包括三个指标:1。首轮得分率超过69%;2.4-9相持阶段得分利率要超过48%:3。发球30-30或40-40时得分率要超过67%。

结果李娜一败涂地。赛后IBM宣布李娜只完成了三个制胜策略中的一个,而小威廉姆斯完成了她三个制胜策略中的两个。

于是,很多人顺着IBM的思路问,李娜为什么不按照BM的策略打?事实上,当当事人的主观意愿不积极时,大数据对他们来说只是噪音。同样,数据也会因为主观意愿而具有欺骗性。

我们经常被误导,以为大数据的作用就是让历史提醒未来。其实并不是。

在网球这样的领域,历史数据甚至经常成为陷阱。有趣的是,在另一场女子网球比赛中,一名选手达到了IBM设定的三项指标中的两项,但她失败了。

获胜者只实现了一个目标。

二、大数据时代的发展过程是怎样的?大数据的发展过程可以按照时间点来划分。

大数据时代的具体发展过程如下:Hadoop项目诞生于2005年。Hadoop最初是雅虎用来解决网页搜索问题的项目,后来被Apache Software Foundation引入,因为效率高而成为开源应用。

Hadoop本身不是一个产品,而是由多个软件产品组成的生态系统,共同实现全面的功能和灵活的大数据分析。从技术上来说,Hadoop由两个关键服务组成:使用Hadoop分布式文件系统(HDFS)的可靠数据存储服务和使用MapReduce技术的高性能并行数据处理服务。

这两个服务的共同目标是提供一个基础,使结构化和复杂数据的快速可靠分析成为现实。2008年底,“大数据”得到了美国一些知名计算机科学研究者的认可。业界组织了计算社区联盟(Computing Community Consortium),并发布了颇具影响力的白皮书《大数据计算:在商业、科学和社会领域创造革命性突破》。

它让人们的思维不局限于数据处理机器,提出大数据真正重要的是新用途和新见解,而不是数据本身。这个机构可以说是最早提出大数据概念的机构。

2009年,印度* * *建立了用于身份识别管理的生物特征数据库,联合国全球脉搏项目已经研究了如何利用手机和社交网站的数据源来分析和预测从螺旋价格到疾病爆发等问题。同年,美国* * *通过推出://Data.gov网站进一步打开了数据之门,向公众提供各种* * *数据。

该网站上超过44,500个数据集被用于确保一些网站和智能手机应用程序可以跟踪从航班到产品召回到特定地区失业率的信息。这一行动激励了从肯尼亚到英国的人们纷纷发起类似的倡议。2009年,欧洲一些领先的研究图书馆和科学信息研究机构建立了伙伴关系,以提高在互联网上获取科学数据的便利性。

2010二月,肯尼斯?Cooker在《经济学人》上发表了14页的大数据报告《数据,无处不在的数据》。库克在报告中提到:“世界上存在着难以想象的数字信息量,并且正在以极快的速度增长。

从经济圈到科学圈,从* * *部门到艺术领域,很多方面都已经感受到了这种巨大信息量的影响。科学家和计算机工程师为这种现象创造了一个新词:“大数据”。

Cooker也因此成为最早看到大数据时代趋势的数据科学家之一。2011年2月,IBM的沃森超级计算机每秒可以扫描分析4TB(约2亿页)的数据,在美国著名问答电视节目《Jeopardy》中击败两名人类选手获得冠军。

后来,* * *认为这一刻是“大数据计算的胜利”。同年5月,麦肯锡& amp;Pany)肯西全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,大数据开始备受关注。这是第一次有专业机构对大数据进行全方位的介绍和展望。

报告指出,大数据已经渗透到当今每个行业和商业功能领域,成为重要的生产要素。人们对海量数据的挖掘和应用,预示着新一波生产力增长和消费者剩余的到来。

报告还提到,“大数据”源于数据生产和收集的能力和速度的巨大提高——随着越来越多的人、设备和传感器通过数字网络连接起来,数据的生成、传输、共享和访问能力也被彻底改变。20111在工信部发布的物联网“十二五”规划中,信息处理技术被作为四大重点技术创新工程之一提出,包括海量数据存储、数据挖掘和图像视频智能分析,这些都是大数据的重要组成部分。

2012 12在瑞士达沃斯举行的世界经济论坛上,大数据是主题之一。会上发布的《大数据,大影响》报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2065438+2002年3月,美国奥巴马* * *在白宫网站上发布了《大数据研究与发展倡议》,这标志着大数据已经成为时代的重要特征。

2012年3月22日,奥巴马* * *宣布在大数据领域投资2亿美元,这是大数据技术从商业行为上升为国家科技战略的分水岭。在第二天的电话会议中,* * *将数据定义为“未来的新石油”,大数据技术领域的竞争关乎国家安全和未来。他还表示,国家层面的竞争力会部分体现在一个国家所拥有的数据的规模、活跃度、解读和应用能力上;国家数字* * *反映的是对数据的占有和控制。

数字* * *将是继边防、海防、防空之后,又一个大国的发挥空间。2012年4月,美国软件公司Splunk于19年6月在纳斯达克成功上市,成为首家上市的大数据处理公司。

鉴于美国经济持续低迷,股市持续震荡的背景,Splunk首日出色的交易表现尤为可观,首日涨幅超过一倍。Splunk是一家领先的软件提供商,提供大数据监控和分析服务,成立于2003年。

Splunk的成功上市,促进了资本市场对大数据的关注,也促使IT厂商加速大数据布局。2012年7月,联合国在纽约发布了《大数据政府白皮书》,总结了各国如何利用大数据更好地服务和保护人民。

这份白皮书阐述了个人、公共部门和私营部门在数据生态系统中的角色、动机和需求:例如,通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并被隐藏起来。

三、大数据时代背景进入2012,大数据这个词被提及的越来越多。人们用它来描述和定义信息爆炸时代产生的海量数据,并命名相关的技术发展和创新。

上过* * *和华尔街日报的专栏封面,进过白宫官网的新闻,出现在国内一些互联网主题的讲座沙龙上,甚至被眼光独到的郭进证券、国泰君安、银河证券写进投资推荐报告。数据在迅速膨胀变大,决定了企业未来的发展。虽然很多企业可能没有意识到数据爆炸式增长带来的隐患,但是随着时间的推移,人们会越来越意识到数据对企业的重要性。

正如* * * 2065 438+2002年2月的一篇专栏文章所说,“大数据”时代已经到来。在商业、经济和其他领域,决策将基于数据和分析,而不是基于经验和直觉。哈佛大学社会学教授加里·金说:“这是一场革命。庞大的数据资源已经开启了所有领域的量化进程,所有领域都将开启这个进程,无论学术界、商界还是* * *。”

四、大数据时代意味着什么?大数据时代:最早由全球知名咨询公司麦肯锡提出。大数据在物理、生物、环境生态、军事、金融、通信等行业领域已经存在了一段时间,但却是因为近年来互联网和信息产业的发展才引起人们的关注。

大数据背景:2012大数据这个词被提及的越来越多。人们用它来描述和定义信息爆炸时代产生的海量数据,并命名相关的技术发展和创新。上过* * *和华尔街日报的专栏封面,进过白宫官网的新闻,出现在国内一些互联网主题的讲座沙龙上,甚至被眼光独到的郭进证券、国泰君安、银河证券写进投资推荐报告。

数据在迅速膨胀变大,决定了企业未来的发展。虽然很多企业可能没有意识到数据爆炸式增长带来的隐患,但是随着时间的推移,人们会越来越意识到数据对企业的重要性。正如* * * 2065 438+2002年2月的一篇专栏文章所说,“大数据”时代已经到来。在商业、经济和其他领域,决策将基于数据和分析,而不是基于经验和直觉。

哈佛大学社会学教授加里·金说:“这是一场革命。庞大的数据资源已经开启了所有领域的量化进程,所有领域都将开启这个进程,无论学术界、商界还是* * *。”扩大数据大数据影响当前社会。这是一个快速发展的社会,科技发达,信息流通。人们的交流越来越密切,生活越来越方便。大数据是这个高科技时代的产物。

随着云时代的到来,大数据受到越来越多的关注。大数据通常用来描述一个公司创建的大量非结构化和半结构化数据,下载到关系数据库进行分析会耗费太多的时间和金钱。

大数据分析往往与云计算联系在一起,因为大数据集的实时分析需要MapReduce这样的框架将工作分配给几十台、几百台甚至几千台计算机。当今社会,大数据的应用越来越显示出优势,占据越来越多的领域,如电子商务、O2O、物流配送等。利用大数据进行发展的各个领域,正在帮助企业不断开发新业务,创新运营模式。

借助大数据的概念,对消费者行为的判断、产品销量的预测、精准的营销范围、库存的补充等都得到了全面的提升和优化。“大数据”是指互联网行业的这样一种现象:互联网公司在日常运营中产生和积累的用户网络行为数据。

这些数据的规模如此巨大,无法用g或t来衡量,大数据到底有多大?一组名为《互联网上的一天》的数据告诉我们,一天之内,互联网产生的所有内容可以刻成654.38+6800万张DVD;发送的邮件多达2940亿封(相当于美国两年的纸质信件数量)。

200万社区帖子(相当于770年的《时代》杂志);手机销量37.8万部,高于全球每天出生婴儿数37.1,000...到2012年,数据量已经从TB(1024GB=1TB)跃升到PB (1024 TB = 1 PB)。根据国际数据公司(IDC)的研究结果,2008年全球数据量为0.49 zb,2009年为0.8 zb,2065年增加到1.2 zb,438+01,201年数字高达1.82ZB。

到2012年,人类生产的所有印刷品的数据量是200PB,人类历史上说的所有话的数据量是5EB左右。根据IBM的研究,整个人类文明获得的所有数据的90%都是在过去两年内产生的。

到2020年,全球产生的数据规模将达到现在的44倍。每天全球上传超过5亿张图片,每分钟分享20小时视频。

然而,即使是人们每天创造的所有信息——包括语音通话、电子邮件和消息在内的各种通信,以及上传的所有图片、视频和音乐——也无法与每天创造的关于人本身的数字信息相匹配。这一趋势将继续下去。

我们还处于所谓的“物联网”的初级阶段,随着技术的成熟,我们的设备、车辆和快速发展的“可穿戴”技术将能够相互连接和通信。科学和技术的进步使创造、获取和管理信息的成本降低到2005年的六分之一,自2005年以来,对硬件、软件、人才和服务的商业投资也增加了整整50%,达到4000亿美元。

大数据的本质大数据给我们带来了三个颠覆性的观念变化:所有的数据,而不是随机抽样;是大方向,不是精确指导;这是一种相关性,而不是因果关系。a .不是随机样本,而是所有数据:在大数据时代,我们可以分析更多的数据,有时甚至可以处理与某个特殊现象相关的所有数据,而不是依赖随机抽样(随机抽样,我们以前认为是理所当然的,但高性能数字技术让我们意识到这其实是一种人为的限制);b .不是准确性,而是杂合性:研究数据太多,我们不再热衷于追求准确性;之前要分析的数据很少,所以一定要尽可能准确的量化我们的记录。随着规模的扩大,对精准的执念会减弱;有了大数据,我们不再需要对一个现象刨根问底,只要掌握大致的发展方向就可以了。

适当忽略微观层面的准确性,会让我们在宏观层面有更好的洞察力;c .不是因果关系,而是相关性:我们不再热衷于寻找因果关系。寻找因果关系是人类由来已久的习惯。

5.为什么大数据如此重要?大数据是一种现代的云基础设施,它包含许多与他人连接和共享信息的方式。它促进了“物联网”的发展,比如通过社交网站将人们联系起来,通过分享朋友或网络找到人们互相认识的可能性。人工智能运行在大数据的背后,对大多数人来说是完全透明的。人们不知道背后有这样的技术。大数据是人们每天使用的智能手机的背后,然后人们通过它向移动互联网贡献信息,即使他们没有意识到这一点。

为什么大数据如此重要?

第一,大数据的处理和分析正在成为新一代信息技术集成应用的节点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形式,这些应用不断产生大数据。云计算为这些海量多样的大数据提供了存储和计算平台。通过对不同来源的数据进行管理、处理、分析和优化,将结果反馈给上述应用,从而创造巨大的经济和社会价值。

第二,大数据是信息产业持续快速增长的新引擎。大数据市场的新技术、新产品、新服务、新业态将不断涌现。在硬件和集成设备领域,大数据将对芯片和存储行业产生重要影响,也将催生集成数据存储和处理服务器、内存计算等市场。在软件和服务领域,大数据将导致快速数据处理和分析、数据挖掘技术和软件产品的发展。

第三,大数据的运用将成为提高核心竞争力的关键因素。各行各业的决策正在从“业务驱动”向“数据驱动”转变。

摘要

当大数据时代到来的时候,我们要用大数据的思维去挖掘大数据的潜在价值。大数据的意义不在于掌握庞大的数据信息,而在于对这些有意义的数据进行专业化处理。过去,我们所知道的数据是冰冷的,没有生命的,它被保存在一个冰冷的备份中,默默等待人们取出。我们对这些数据感到非常消极,在开始分析和应用这些数据之前,我们必须想清楚它们的用途。现在,随着数据时代的到来,人们试图点燃数据,让数据变热,赋予数据生命。所谓“活数据”,就是动态的数据,循环的数据,交互产生,相互作用。这是一个自然进化的数据。我们要用大数据的思维来考虑这些数据如何带来收益。大数据在未来的发展前景非常好,与大数据相关的职业,比如数据矿工、数据分析师等,肯定会有广阔的发展空间。

六、如何实现大型数据数据库的历史数据归档是这样的:

首先,你要明确你的插入是正常的业务需求吗?如果是,那么只能接受这样的数据插入。

其次,你说数据库存装不下,可以把你的数据库上限做大。这个可以在数据库中设置的属性有一个数据库文件属性maxsize。

终于有一个方法可以用了。如果你的历史数据不会对当前的业务产生很大的影响,可以考虑在归档的时候把不用的数据移入历史表或者另一个数据库。

平时注意数据库的维护,定期整理索引碎片。