所属分类: 云计算&大数据 整理: FengNet.Com 更新日期:2014/4/21 10:39:43 阅读次数:1066

当我们谈大数据的时候,谈什么?( 王长胜 )


当我们谈大数据的时候我们在谈什么?数据狂人能给阿里巴巴带来马云希望的数据革命吗?数据将带来开放的社会还是隐私的丧失?这,就是互联网时代的新1984:战争即和平,无知即力量,自由即奴役。
“在数据中,你能看到人性。”淘宝网大数据部门负责人车品觉说。
这位面带佛相的香港人,当过警察,在汇丰银行、微软、eBay做过产品经理,如今在中国最大的电子商务网站做千淘万漉虽辛苦、吹尽狂沙未必见金的数据分析工作,却语带禅机,动心忍性。
他举了一个例子。“一个苹果切成很多小块,每一块跟这个苹果是什么关系?不分也不离,DNA是一样的,这就是相依。做电商都要看购买转化率,这和公司主体架构不分也不离。企业的业务今天做得很好,肯定有一个不好,这是数据的相对性。”
有一次,车品觉做产品思路停滞,去问师父。师父只说了四个字,让他回去好好参悟。这四个字就是佛学般若理论中的“四重缘起”:业因、相依、相对、相碍。研究缘起,本质就知道了。
阿弥陀佛,搞电商需要如此玄虚吗?尤其是在全球都忽然炙手可热的大数据(Big Data)领域。难道这就是2009年阿里巴巴集团十周年,马云给总理写信说的“我们今天掌握的数据,对国家宏观经济、微观经济、对个人消费,特别对制造业是巨大无比的宝库”吗?这就是2012年9月,在第九届全国网商大会上,马云提出阿里巴巴的“三步战略”:平台、金融、数据,“希望用大量的数据为国家和小企业做出预报”吗?这些商业上的概念跟历史学家黄仁宇所谓的现代化社会需要“数目化管理”又有什么关系?
且让我们进入海量数据的世界一窥究竟。一切有为法,如梦幻泡影。
【一】
杭州,淘宝总部,墙上挂着十几个大屏幕,数字不断闪动,一片繁忙的交易景象。在大数据部门员工面前的电脑屏幕上,则布满了颜色各异的小方块。每个方块代表一种痛点——淘宝卖家在经营过程中遭遇的痛,不同的颜色代表疼痛的程度。“这有点像医院里监控病人的心电图。”车品觉说。只要心电图出现异动,淘宝就会马上发觉,并采取相对应的策略。
这个产品,取名为“无量神针”,后面有一行小字“倾听用户的痛”。车品觉带领团队开发了三个多月。他和淘宝客服部门合作,监听着大约几百万淘宝卖家的心跳,每天都要收集和分析大量从卖家反馈回来的信息。
淘宝在收集和整理信息方面处于互联网行业的领先地位,已经不再限于简单的监听了,甚至可以在卖家做出市场反应之前做出预测。听起来是不是有点像天桥下在地上铺一张八卦图看相算命的白胡子老头?不但可以说出你未来的凶兆,如果你愿意多花点钱,还可以帮你逢凶化吉。不同的是,淘宝大数据产品的一切论据都来源于真实而科学的监测数据,而不是掐指一算。
利用“无量神针”,淘宝的管理者可以辨别出萌芽状态的可疑行为。比如某段时间卖家被“恶拍”(买家拍下产品,等产品送货上门之后又以各种理由拒收)的风险急剧上升,通过大数据分析可以看出,这种情况往往有因在先,一定是某个环节出了问题,一份“异动报告”就交到淘宝总裁“张三丰”的办公桌上。当然,“无量探针”也可能做出另外的判断,认为“异动”只是一场虚惊,并给出合理的解释。
“大数据的意义就是通过数据互联产生的价值。”车品觉说。这款产品就是大数据团队把淘宝交易流程各个环节的数据整合互联,然后基于商业理解对信息进行分类储存和分析加工,并与决策行为连接起来所产生的效果。车品觉希望能帮助公司完成一项具有历史意义的动作——减少淘宝的客服量,提高淘宝的服务质量。
这只是车品觉带领团队开发的三款大数据产品中的一款。另外两款将分别针对并提供给买家(通过收集和分析淘宝买家的购物行为,为买家量身打造一款完善网购体验的产品)和淘宝各个类目“小二”(辅助淘宝员工的日常工作)使用。届时,这三款产品将形成一个封闭的三角形,把淘宝每天产生的数以万亿的数据锁在三角形中,互融互通。
为了开发大数据产品,淘宝管理层开了三天闭门会议,各种职能和级别的小二都有代表参加。听取完所有人的意见之后,车品觉给大数据开发团队定下了两个原则,第一,一定要“以用户为中心”思考问题。他特别举了一个例子:下午两点钟,招商银行有20个人在排队,如果银行管理者想看一下自己的服务质量,他也许会说把每个柜台排队的人数报上来,这种是以公司为中心的数据;如果他问用户平均要多少分钟才可以得到服务,也就是说,通过每个用户平均要等多少分钟(用户的痛)来计算银行的服务质量,这就是以用户为中心的数据。看似细微的变化,其实蕴含着产品的真谛。“无量神针就有一点这个味道。”
第二个原则,“这个东西一定要一目了然,不能太复杂”,最后呈现的结果成了一张彩色的地图,每个痛点直观醒目。车品觉是在2012年初从兄弟公司支付宝借调到淘宝网的。“在我没到淘宝之前,他们做了很多报告,但是CEO都不太看的,也不太知道看的是什么。如果公司在这个阶段,你还提出什么数据挖掘,没意义。”车品觉说,“所以现在我很怕中国企业又兴起了一种风气,一堆人说我们用数据来发现价值,但是连基本功都没练好。”

【二】
“能够玩数据,是我最大的乐趣。”现年46岁的车品觉,生于香港,在美国、英国、澳洲接受西方教育,曾先后在汇丰银行、香港电讯、微软、eBay等多家跨国公司任职。他二十多岁拜佛学师,喜欢读《道德经》,在数据上经常讲先天还是后天:先天是讲一个数据的本性,后天是数据的现象。
微软的MSN虽然快要消失了,但在2002年,如果一个新用户注册了MSN,微软会立刻判断出Ta的行为习惯。“微软的后台数据一直很厉害,它可以通过30%已知用户的数据去分析判断剩下70%的未知用户。”当时,车品觉在微软亚洲做MSN产品经理,“至今国内还没有看到哪个公司可以做到这个地步”。
在国内IT公司,做商业产品的和做技术的往往是两拨人,懂产品的不懂技术,懂技术的没有商业思维,这也是制约大数据发展的一个重要原因。2006年,车品觉记得在eBay时,每个产品部门都有自己的技术人员,负责帮助产品经理挖掘分析数据,而不用凡事求救于公司技术部门。“要么降低技术门槛,要么提高产品经理的数据能力,显然前者更靠谱。所以,我们把无量探针做得足够直观,让任何一个不懂技术的人都能看懂,都能运用。”
2010年,车品觉加入支付宝任商业智能官(BI),2012年年中加入淘宝,重新创建大数据部门,全面负责淘宝的数据仓库、存储、挖掘、分析以及应用等一系列大数据工作。按理说,今年是马云提出阿里巴巴“休养生息”的一年,大幅削减了员工招聘计划,但是,大数据部门却获得特权,尽量网罗人才。如今,车品觉兼管着支付宝和淘宝两个公司的大数据部门。阿里巴巴在大数据方面的战略规划中,由“七公”(花名)带领另一支大数据团队正在秘密筹建一条大数据“高速公路”,而车品觉则会扮演“赛车手”的角色。这两支队伍分工协作,由阿里巴巴集团首席数据管陆兆禧统领。
就在今年9月的网商大会上,马云公布了阿里集团未来新战略:平台、金融、数据。此前早些时候,阿里任命陆兆禧为首席数据官。陆堪称马云的一员福将,当年就是他带领几号人创建了支付宝,后来长期担任淘宝网总裁,2011年初,卫哲辞职事件之后他转任阿里巴巴B2B公司CEO。如今他又担起了数据未来的重任,可见马云对于大数据的看重绝非口头文章。其实,早在2005年,马云就曾经对一位外国朋友说过,阿里巴巴的交易数据都保存完整,早晚有一天会派上大用场。
大数据的典型应用场景是:百万级用户,千万级页面访问,亿级数据接口请求,TB/PB级后台数据处理吞吐。淘宝拥有全国最大的 Hadoop 分布式计算集群之一,日新增数据 50TB,有 40PB 海量数据存储。今年“双十一”,天猫和淘宝交易额191亿元,支付宝处理交易笔数1.058亿笔,峰值时期处理交易笔数9万笔/分钟,核心数据库集群处理了41亿个事务,执行285亿次SQL。
在“双十一”之前,淘宝大数据部门做了详细预测,基本上还是监控的作用。两周过后,他们会提炼一份数据报告,详细分析新增用户数、各级转化率、每个类目的比较等。但这些仍属于业务数据层面,真正大数据层面的,用数据解释未来,还要更长时间去研究。
车品觉仔细观察,“双十一”当天,淘宝网有2.15亿用户购物,而中国网购用户群一共只有3亿人,也就是说当天大部分人都上来了。“这些用户是从哪里来的呢?被突然唤醒的人是值得研究的,也许正是电商的一些机会点。”

【三】
大数据并非一个新词。被誉为“数据仓库之父”的Bill Inmon早在20世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在这一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB的数据,但是现在仅两天就创造出相同的数据量。
2012年初,瑞士达沃斯论坛,一份题为《大数据,大影响》(Big Data,Big Impact)的报告称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。根据麦肯锡的定义,大数据是指:互联网公司在日常运营中生成、累积的用户网络行为数据增长如此之快,规模如此庞大,以至于不能用常见的G或T来衡量,起始计量单位至少是P(1000 个T)、E(100万个T)或Z(10亿个T)。IDC把大数据的商业价值总结为四个方面:对顾客群体细分,针对性营销;模拟实境,发掘新需求;提高大数据成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率;进行产品、服务和商业模式的创新。
几十年来,要对付巨量数据,只有财富500强级别的大企业、中字头或国字头的央企以及政府机构才有足够的金钱和资源。沃尔玛会利用数据分析结果来调整库存和价格。联邦快递对递送路线的优化一直为人称道,航空公司和通信公司则利用大数据向客户提供体贴入微的服务。
最新的大数据应用:在Twitter上根据民众情绪买卖股票;根据求职网站的岗位数量推断就业率;根据网民搜索跟踪全球范围的流感等病疫传播……出版《大数据》一书的作者涂子沛说,大数据意味着从信息时代、知识时代向智能时代迈进,是下一个社会发展阶段的石油和金矿,应当精细化管理,人与人之间的合作、任务之间的对接会更准确,国家和社会的运行成本会降低。
但车品觉对国内大多数互联网公司的大数据应用持悲观看法:很多公司并没有真正意识到大数据的价值,也不知道如何利用开发。今年有各大公司的副总裁或数据部门负责人跑到杭州向车品觉请教,他们问的最多的问题是,大数据部门应该放在运营团队还是技术团队?“一听这个问题,我就知道他们走错路了,怎么做都没戏。”车品觉说,“大数据应该是CEO直接领导的战略级部门。”
在大数据应用开发层面,腾讯是国内少有的可以和阿里巴巴比肩的公司,它拥有7亿注册用户。今年早些时候,腾讯挖走了车品觉最得力的一个助手,希望在大数据战场上能一较高下。可惜的是,腾讯的数据都散落在各个事业群之间,难以整合开发利用,而且大多数数据只在营销环节,这与阿里对大数据的战略级定位还有距离,“2-3年的差距吧。”车品觉说。
同为中国互联网三巨头之一的百度,拥有中国最多用户的搜索行为数据,但百度却无从下嘴,因为绝大多数百度用户是没有注册信息的,都是过客,积累下来的用户行为数据无法精细化开发利用。同样“坐在金山上啃馒头”的还包括大众点评网,它拥有广泛且实用的用户评价体系和商户信息,但是,他们还在为大数据团队应该放在运营部还是技术部而发愁。
当然,即使是阿里,在挖掘用户网购数据上也走过一段弯路。“淘宝数据魔方”已经上线好几年了,卖家可以付费购买任何一个行业甚至竞争对手的交易数据。如今,阿里高层发现这是一种错误。“愿意拿数据的肯定是聪明的、先知先觉的卖家们,他们拿过去以后对整个淘宝生态体系不是帮助而是破坏,他们能够拿得更多吃得更多,每一个个体都能够长大,但是导致把市场资源分光。草就不长了,只长树,一把火过来全部烧光。”阿里巴巴集团副总裁、马云的业务助理李俊凌说。

【四】
就在互联网巨头们还在研究如何搞大数据的时候,一批创业公司出现了。他们利用价格低廉但性能强大的服务器分析一些新的数据门类,而且作为第三方公司,正在试图打通各企业之间的数据联系。
“我认为大数据的真正魅力是打通不同领域的数据,一个公司内部数据可以产生量变,但是如果打通一定是数量级的提升。”百分点CEO张韶峰说。这是一家利用大数据为客户做营销的第三方公司,客户大多集中在电子商务领域。以前客户会问他,“我们的用户在哪里?哪里有便宜的流量?”现在则问,“这个用户喜欢什么产品?Ta的朋友是谁?”这些复杂的问题也有了答案。
任何一个新型行业都会面临政策或道德风险,大数据也不例外。有一则趣闻:一名美国男子气势汹汹地闯入Target店铺,“你们竟然给我的女儿发婴儿尿片和童车优惠券,她才17岁啊!”店铺经理道歉。一个月后,该男子打电话道歉,她女儿的确怀孕了。大数据通过关联行为能预测用户需要什么。
一年前,车品觉还在支付宝任商业智能官的时候,开发过一个名为“黄金策”的产品。它可以在2秒钟之内对你的问题给出答案,比如,全国有多少人买了某款情趣内衣?哪个省份用户购买的内衣罩杯最大?买情趣内衣的同时有多少人又买了杜蕾斯?如果你还有兴趣,还可以知道有多少人买了早孕试纸?是否有商家给他们发放婴儿用品促销广告?……这还只是大数据应用中最简单的层面,但即便如此,很多用户已经感受到了威胁——隐私权被侵犯。
马云当年在写给总理的信里说,“我们将让整个社会去分享数据,让制造业掌握消费者的数据,让消费者知道制造业的数据,而且整个数据我们是彻底分享,而不是靠数据挣钱”。2010年3月,淘宝正式宣布将面向全球首度开放数据,有两条大原则:一,淘宝数据分层次开放;二,涉及消费者个人或者企业自身隐私的数据绝对保护。今年9月,马云说,希望阿里的数据给国家经济扮演一个气象预报台,“为每个小企业装上一个GPS,为每个船上装上一个雷达”。
但隐私问题将在大数据时代愈加复杂。“我们关注的是先保护会员、消费者的隐私,其次才是如何做到数据更开放。”麦包包营销副总裁青鸟说。这是一家从“淘品牌”成长起来的独立B2C网站。目前,它的数据只开放给了Google和百分点两家公司。他补充说,“我们知道数据融合在一起更有好处,但谁是数据的拥有者?这些数据需要一种什么样的机制来共享?如果这些没解决,对于拥有数据的任何一方,都是有问题的。”
除了所有权之争,大数据还有更邪恶的一面——创新的天敌。Jayson Chi在麦肯锡工作了七年,大约一半时间做大数据,另外一半时间做创新产品。他说,“大数据的目标是为了优化一些东西,做创新项目的时候,如果只看行为数据根本没办法了解用户行为的Why在哪里。用大数据创新,什么灵感都没有了。”
老福特和乔布斯都排斥市场调研,但创新天才太少。“凡是好产品都是今天不靠谱,明天靠谱。”车品觉说,“做产品的人一定要学会孤独,尤其在尖端一点的创新产品面前,大众的眼睛通常不是雪亮的。”无量神针是车品觉做产品这么多年最颠覆、最得意的作品。从2013年1月开始,淘宝的所有小二都可以个性化定制自己的无量探针,“倾听用户的痛”的彩色图谱缤纷闪烁。老子曰:“天之道,损有馀而补不足。人之道,损不足以奉有馀。孰能有馀以奉天下,唯有道者。”

--------------------------------------------------------------------------------

相关文章
《国家网络空间安全战略》全文 2017/2/10 19:07:39
史上最全的大数据分析和制作工具 2017/1/24 16:18:16
传统企业上云的三个正确姿势 2017/1/24 16:16:53
在信息安全世界里,唯一不变的就是改变 2017/1/24 16:16:06
干货 | 常见的大数据术语表(中英对照) 2017/1/24 16:15:22
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 2017/1/24 16:12:43
数据中心管理存在问题分析 2015/11/7 10:07:36
数据中心级交换机选型参考 2015/11/7 10:03:25
如何做好大型数据中心的运维? 2015/9/24 8:53:09
建立变更管理系统 消除数据中心混乱 2015/9/21 8:41:53
趣谈大数据【华为内部狂转的想象力惊人的好文】 2014/4/21 10:23:16
大数据云安全策略4大窍门 2014/4/18 10:21:16
大数据领域的顶级开源工具大集合 2014/4/18 10:18:42
数据中心安全防护之道 2013/4/27 10:39:16
将物理数据中心向云计算迁移的四大步骤 2012/3/19 9:42:19
网络流量控制对管理起到的作用 2009/11/28 14:34:26
mysql常见错误提示及解决方法 2008/4/28 18:53:00
怎样备份红帽企业版操作系统? 2007/5/15 7:59:22
交换机与配线架端口四种快速配对方法 2007/3/15 9:23:17
IP网限制p2p应用流量的qos策略 2006/12/4 12:55:03
IP网限制p2p应用流量的qos策略 2006/11/27 15:06:01
背板带宽 2006/8/30 16:31:18
关于pps和bps的概念 2006/8/10 13:36:48
以太网交换机性能比较对照指标详解 2006/7/4 19:46:33
小议TCP的MSS(最大分段)以及MTU 2006/6/9 21:06:48
网络安全讲座之七:IDS系统 2006/5/24 19:45:52
MPLS标记栈编码(RFC3032) 2006/3/30 21:54:27
Cisco交换机集群技术 2006/3/1 8:39:10
网络中的交换、复用和编码技术 2005/11/4 11:14:31
解析入侵检测系统的性能的辨别方法 2005/9/14 10:51:07
CCNA专业词汇全集 2004/8/10 7:50:25
CCNP课堂---交换(Switch)篇 2003/12/2 10:45:32
交换机类型(机架式,固定配置式带/不带扩展槽) 2003/11/19 10:45:55
基于Linux的集群系统(八) 2003/9/1 18:53:47
以太网交换机性能比较对照指标详解 2003/8/22 11:35:37
学习Linux网络编程(1) 2003/5/5 13:40:52
用iptales实现包过虑型防火墙 2003/1/15 16:55:53


感性空间
设计&运维
网络技术
休闲娱乐
NetFilter
linux&Unix
网络安全
程序空间
软件考试
RFC&ISO
规划&规范
虚拟&存储
Apple技巧
云计算&大数据



文章搜索



站内搜索