BAT三巨头开始挖掘大数据
阿里云掌门人阿里巴巴CTO王坚博士曾经说过:云计算和大数据都是被误解的。
事实上,对于什么是大数据还没有共识。大数据并不是什么新鲜事。信息革命带来的不仅是更高效的信息生产、流通和消费,还有数据的爆炸式增长。“引爆点”到来后,人们发现,原来对数据的分散使用造成了巨大的浪费。在移动互联网的浪潮下,数据产生的速度前所未有。人类达成共识,开始系统挖掘数据。这是大数据的初心。在数据积累的同时,计算理论、实时数据采集和流通渠道、数据挖掘所需的软硬件环境都在不断成熟。
概念、模型、理论很重要,但在最具实践精神的互联网领域,行动才是最好的答案。国内互联网巨头BAT坐拥数据金矿,相继走上大数据掘金之路。
BAT是大矿主,但是矿的性质不一样。
数据就像一个有能量的煤矿。煤炭按性质分为焦煤、无烟煤、肥煤和瘦煤,而露天煤矿和深山煤矿的采掘成本是不同的。同样,大数据不是“大”,而是“有用”。价值含量和挖掘成本比数量更重要。
百度有两类大数据:以用户搜索为代表的需求数据;爬虫和阿拉丁获得的公共网络数据。
阿里巴巴有交易数据和信用数据。这两种数据更容易变现,更容易挖掘出商业价值。此外,阿里巴巴通过投资掌握了一些社交数据和移动数据。比如微博,高德。
腾讯有用户关系数据和基于它产生的社交数据。这些数据可以分析人们的生活和行为,挖掘出政治、社会、文化、商业、卫生等领域的信息,甚至可以预测未来。
下面,将对三家公司的情况逐一扫描分析。
一、百度:天生有数据,拥有挖掘技术,研究与实践相结合。
搜索巨头百度就是围绕数据诞生的。它抓取web数据,组织分析web内容,通过语义分析精准理解搜索需求,然后从海量数据中找到精准的结果,以及搜索引擎的精准关键词广告,本质上是一个数据获取、组织、分析、挖掘的过程。
除了网页,百度还通过阿拉丁计划吸收第三方数据,与食品药品监督管理局等部门合作,通过商业手段获取封闭数据。不过,百度虽然有核心技术和数据矿,但还没有发挥出最大潜力。百度指数、百度统计等产品都可以看作是数据挖掘的一些初级应用。与Google相比,百度在社交数据和实时数据的收集,以及从数据流到数据挖掘的转换方面都有很大的潜力,要做的事情还有很多。
2月底在北京出差的时候,写了一篇文章《搜索引擎的大数据时代》,发给虎嗅。创造了零回复的记录。尽管如此,我仍然没有打消对大数据时代搜索引擎深层次变化的思考。大数据时代搜索引擎面临的挑战是:更多黑暗的网络数据;更多基于网络但非结构化的数据;更多基于网络、结构化但封闭的数据。这些挑战使得数据远离传统的搜索引擎。但搜索引擎毕竟有技术沉淀,有大数据优势。
接下来,百度会给企业提供更多的数据和数据服务。前期,百度与宝洁、平安等公司合作,提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是典型的基于大数据的C2B模式。类似的还有网飞的美剧《纸牌屋》,里面的男主角凯文·史派西和导演大卫·芬奇都是挖掘网络数据后根据人气选出的。
百度也将利用大数据完成移动互联网的进化。核心技术是深度学习。基于大数据的机器学习将提高多媒体搜索和智能搜索的效果,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网革命性产品的出现。虽然百度已经出发了,但是在大数据上,它可以做的事情还有很多。
在数据收集方面,百度需要聚合更多高价值的交易、社交、实时数据。比如通过贴吧强化自己知道的社交技能,尽快将地图服务与O2O结合起来掌握交易数据,推广手机app、可穿戴设备等数据采集系统。
在数据处理技术方面,百度成立深度学习研究院,加强在人工智能领域的探索,在多媒体、中文自然语言处理等领域取得一定进展;云存储和云计算的基础设施建设也在逐步完善。然而,深度学习仍然是一个巨大的挑战。百度等探索者还有很多问题需要解决,比如无监督学习、立体图像识别等。
在数据变现方面,百度需要形成数据挖掘能力、数据内容聚合和提取等标准化的服务和产品,进而在大数据领域开拓企业和开发者的市场。它不仅仅是针对大型企业的个性化定制解决方案。
百度的优势体现在海量数据、十几年积累的用户行为数据、自然语言处理能力以及深度学习领域的前沿研究。在技术人才方面,百度是国内聚集大数据相关领域最顶尖人才的公司。据说百度前段时间花了5000万挖了十几个数据挖掘、自然语言处理、深度学习领域的大牛,包括一些学者教授。例如,脸书大学的科学家许巍。
在挖人方面,你愿意花足够的钱,但是你要努力。对于一个真正的大牛来说,钱只是一个因素。你能不能实现梦想,公司的资源能不能帮到你的研究,这很重要。在回国之前,许巍征求了其他从硅谷回来的工程师的意见,得到的答案是肯定的,这最终促使他做出了决定。
总的来说,百度有大数据和大数据挖掘的能力,正在积极准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用的技术输出。
第二,腾讯:数据是产品用的,自己生产,自己销售。
微创新的倡导者金错刀有一个关于腾讯的故事。1999腾讯成立不久,天使投资人刘晓松决定向其注资的一个主要原因是因为他发现“虽然当时他们公司还很小,但已经有了用户运营的概念,后台用户的每一个动作都有记录和分析。”然而,另一位投资者对该数据表示不满,因为马很小的时候就在公司里花钱。从此,腾讯产品的生产运营,腾讯游戏的崛起,都离不开对数据的重视。
腾讯有社交大数据,在企鹅帝国完成数据的制造、流通、消费、挖掘。腾讯大数据目前正在释放更多的价值来改进产品。根据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占比14.1%;网络广告收入占比6.3%。从广告收入占比可以看出,腾讯的大数据暂时还没有在精准营销领域释放出很多价值。GMAIL、Google+和社交巨头脸书,对应他们的产品线,通过广告赚得盆满钵满。
在我看来,腾讯的思路主要是完成产品,关注QZONE、微信、电商等产品的后端数据。例如,腾讯微博近期利用“大数据技术”,实现了好友自动分组、低质量信息自动过滤、高质量信息分类阅读等智能功能。显然是用数据改进产品的想法。那么腾讯要想深入大数据挖掘,缺什么呢?笔者认为只需要马花藤“按下启动键”就可以了。数据已经准备好了,只是模式问题,也就是在更深层次上找到能够带动大数据利用的需求或者产品,而不是利用大数据来改进自己的产品。腾讯还在观望,等别人尝试验证了一套模式或者产品之后,就可以“站在巨人的肩膀上了”。这是腾讯的典型思维。
在人才方面,腾讯很早就开始挖人。尤其是2010谷歌宣布退出中国后,谷歌图片搜索创始人朱慧灿、谷歌中国工程研究院副院长颜、谷歌中日韩搜索算法主要设计者、《潮之巅》、《数学之美》作者吴军等相继加盟腾讯。搜搜花了很多钱,但它被认为是一个无法承载腾讯信任的产品。最后这些大牛都走了。大部分又回到了谷歌。
腾讯在大数据领域也缺乏技术带头人。它也很少注意公共关系。科技大牛很少出来做报告,也不会像百度、阿里那样主动包装宣传科技大牛。它的技术虽然低调,但执行力很强。据腾讯的程序员朋友说,封闭开发,集体加班是常有的事。但是配套的大资金激励也能跟上。重金之下,必有勇者,必有腾讯,用制度保障技术输出。此外,腾讯在高校的合作也领先一步。2010与清华大学合作成立清华腾讯联合实验室。这样看来,腾讯的技术人才似乎也有短板。马花藤会不会按下开始键发现没有数据挖掘能力?不会,腾讯做不了数据挖掘,但还是可以挖大牛,甚至看论文来解决这个问题。数据挖掘已经成熟。数据挖掘实际上是数据库、统计学和机器学习的集成。在学术界已经发展了很多年。但是在自然语言识别和深度学习方面很难赶上百度。除非百度的数据和大牛们天翻地覆。
总的来说,腾讯目前的大数据策略是先把产品做全,把产品的后台数据打通,形成稳定的生态系统。在这个阶段,我们首先利用大数据挖掘来改进我们的产品。后期如果有成熟的产品有合适的模型,我们会在使用自己的社交和关系数据时进一步探索大数据。
三、阿里巴巴:坐拥黄金数据,努力做面向未来的数据集市。
阿里巴巴诞生于B2B,在蓬勃发展的外贸环境下,靠服务中小企业发家致富。在淘宝、支付宝等toC产品诞生之前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝、天猫三款产品,由于对海量用户大并发交易、海量货架数据管理、安全等方面的严格要求,阿里完成了进化,在电商技术上取得了不少成绩。有一段时间,阿里手里还是浪费了很多数据。这些数据仍然是“最有价值”的黄金数据。
数据挖掘无非是从原始数据中提取价值。阿里现有的数据产品,如数据魔方、量词统计、推荐系统、排行榜、时间反转等,都是比较简单的BI(商业智能),还没有到大数据的阶段。“大数据”浪潮来袭,阿里提出“数据、金融、平台”战略。比以往更加重视数据的收集、挖掘和共享。马云总是在“退休”之前提到“数据”。一位阿里朋友甚至开玩笑说,马云的英文名可以从Jack Ma改成Data Ma。阿里CEO陆兆禧曾担任CDO和首席数据官。为了用数据驱动阿里的电商帝国,阿里还成立了跨各大事业部的“数据委员会”。
阿里的各种投资案例也显示了他整合、利用和改善数据的野心:新浪微博的社交和媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据都是他数据和平台战略的一部分。数据战略正在首席人工智能官(CBO)车品爵的带领下逐步落地,王坚的云为其提供基础设施和基础技术支持。
就在马云退休后,王坚跟马云透露了一个笑话:阿里巴巴对数据的理解不会超过苏宁对电商的理解。估计马云也未必认同。马云对大数据有自己的理解和考虑。马云曾经说过他对大数据的想法。现在是从信息时代到数据时代。不同的是,信息时代更多的是精英玩的游戏。我比别人聪明,我能提取信息;数据时代,别人比我聪明,他们把数据开放给更聪明的人处理。数据是资产,分析是服务。
计算机发展的过程是从象牙塔到平民再到草根。大数据也是如此。刚开始,象牙塔阶段,少数精英公司可以玩;但在背后,只要有数据,就是有价值的。数据也有所有权,生产数据、流通数据、挖掘数据的人会得到相应的价值。阿里擅长的是“造市”,建立数据交易市场。届时,任何个人和企业都可以获取数据和挖掘服务,并进行交易。早期,阿里会逐渐把自己珍藏的电商和信用数据放在上面。有数据的人,拿起来卖,或者让别人分析,分析就是服务。没有数据的人,要么买,要么帮别人挖,做矿工。
阿里不是技术驱动的,而是商业驱动的。所以在技术层面,我们可以看到基于前面提到的阿里大数据思路,其技术重点主要在系统层面。阿里旗下拥有(Linux虚拟服务器)开源软件创始人张,以及Linux内核、文件系统、Daniel DBA等领域的大牛。从人才布局可以看出,阿里擅长的是技术领域,体现在对并发接入和电信级电商业务的得心应手的支持上。去年双十一期间,支持单日订单量过亿。铁道部齐齐色变。com 12306在日均40万的情况下已经失败。
总的来说,阿里更多的是在搭建数据流通、采集、共享的底层架构。我不擅长,而且我似乎也不专注于数据挖掘。相反,我将把我的“交易”业务扩展到数据。让世界上没有难做的“数据生意”。
综上
在移动互联网的浪潮下,现实世界正在加速数字化,每个人、每个物体、每个事件、每个时间节点都在向互联网映射。空间和时间的网络化使数字世界一步步逼近模拟现实世界。历史、现在和未来都将被映射到互联网上。挖掘大数据是对世界的二次发现和感知。BAT三巨头已经出发了。