大数据分析,数据挖掘的基本思路,自古就有,有了计算机,网格计算,云计算等后,正在慢慢从量变到质变转化......
如果有一天你可以预测未来,你要做的第一件事情是什么?买彩票?第二件、第三件事情呢? 先卖个关子,我们后面再说这件事情。
大数据是个产业,广义上指的是在这个信息过载时代围绕着海量信息产生、传播、收集、处理、创造价值的整个产品链条;狭义上一般指大数据存储与处理、数据挖掘的相关产业。目前市场上利用大数据最多的一般在于分析和预测。
根据笔者10年来在这个行业的从业经验,大数据与前两年的云计算、再往前的网格计算、并行计算都是相同产业链上几个环节,它是作为概念被媒体和从业者炒作起来的。但不可否认的是,我们的社会正处于信息爆炸的时代,各行业的信息量都在几何级数增长,高效利用好这些数据确实能为工作和生活带来巨大变革。
观点1:数据本身不产生价值,如何分析和利用大数据对实际业务产生帮助才是关键
例如,它可以帮助控制美国占17.6%GDP的医疗支出,为医药行业带来超过3000亿美元的成本节省和收益(来自麦肯锡的报告)。
Netflix 制作《纸牌屋》的故事很多人都听过,说的是这家公司利用大数据分析了用户最喜欢的情节、最喜欢的演员组合、最喜欢的编剧等等,组合起来之后自己制作了一部电视剧最终取得巨大成功。
虽然听过故事的人很多,但几乎没有人注意到,这家公司是处于大数据应用链的顶端。与提供分析服务、提供大数据存储、提供数据清洗的基础产业中下游公司不同,Netflix除了自身产生数据且具备分析能力外,关键的是具备把分析结果转化为产品的能力,这才是产生高利润和竞争力的核心。
观点2:从事大数据的生意要重视投入与产出
大数据门槛很低,用一个Excel就可以起步,但随着研究的深入,想利用大数据分析进行获利,还是需要一定的预算和投入。
比如:需要专业的团队,如大数据分析师,10年前这个职位就存在,叫BI(商业智能),工作的内容就是分析大量的数据并通过建模等方式帮助制定战略或进行商业决策。
有了分析师就需要有配套的工程师配合,从海量的数据中挖掘出有价值的东西。
服务器:大数据另一个要消耗的资源就是服务器,从存储到计算再到带宽,都是需要不断的进行投入的。
所以商业公司进入这个行业前要考虑下是否有足够的预算,但同时上述的几点也孕育了不少新的机会,比如amazon就是全球最大的云计算基础设施厂商,splunk和前一段上市的Tableau都是对分析师提供数据处理服务的,相当于替代了一部分昂贵的工程师的工作。
观点3:大数据不是最近才有的,数据一直存在,分析数据的技术近几年有了革命性的突破
处理海量数据在技术界一直是个课题,几个革命性的技术在近10年相继出现,奠定了我们目前大数据的基础,其中包括虚拟化技术、Map-Reduce & Bigtable 、 NoSQL数据库、Deep Learning技术等。
虚拟化造就了今天的amazon云服务基础设施, map reduce造就了帮助我们进行高速云计算的hadoop开源软件,之前处理几天的数据现在几分钟就可以处理完。NoSQL数据库已经广泛应用在了拥有大量数据及高访问量的网站上,性能比传统数据库提升了许多。
观点4:许多人已经默默地通过大数据获利
商业公司通过长期研究,一旦发现了通过大数据获利的秘诀,多数情况下还是选择独乐乐而不是众乐乐。因为分析方法和数据源一旦公开,竞争对手必然会跟进,会导致了方法同质化最终体现在收益降低。
精准营销是个众所周知的领域,通过对每个人的信息进行分类建模,进行不同种类的营销。比如搜索引擎中,你长期搜索一些新的楼盘信息,搜索引擎会根据你的搜索历史判断你极有可能是潜在的买房者,美国target百货公司就曾因为根据用户的购物记录判断出一女孩怀孕并给其家里投送孕妇购物手册而名声大噪。在淘宝中搜索了旅行背包后,在新浪上都能看到相关旅游用品的广告。
但实际上大数据公司为了提高竞争优势,已经并不满足于这种有直接联系的数据,纷纷通过更多的途径收集数据。 根据笔者这些年的见闻,在保护行业机密的前提下在这里分享一些读者之前没听过的干货。
1、路由器。之前只是上网的小盒子,在数据采购市场是极为炙手可热的渠道。原因是近些年随着手机硬件的发展(路由器和手机等移动设备使用相似的芯片),尤其是处理器计算能力的几何式增长,小小的路由器里面已经可以运行很多程序,这些程序在用户上网时默默的分析着各种各样的数据,包括你常联系的好友信息,上网记录等。
2、网络运营商。运营商喜欢在用户浏览网页时插入一些广告,相信多数人都遇到过,和路由器的数据分析原理一样,运营商并不满足于千篇一律的固定展示广告,也在与时俱进,利用大数据进行精准的个性化广告营销。
3、基础软件。如浏览器、输入法。不仅是电脑还包括手机,你用输入法在各个软件里提交的查询请求,在浏览器里鼠标移到某个商品上却没有点击等等, 这些大数据都会被储存到了云上,供厂商进行分析。
4、金融公司。提到革命性的技术,就不得不提到金融行业。我们在文中前面提到过的大数据成本问题在金融行业就不是问题了,因为在这个行业新技术带来的收益的提升都远高于成本,故我们可以看到每一项新技术往往都会第一时间在金融业应用。大数据也不例外,其实在很多年前大数据的数据挖掘已经广泛应用到了金融领域。这里我们要把博彩行业也归为金融业。
直到今年美国才有零星应用的"商场人流量大数据监测系统"其实在许多年前就被应用到了澳门和美国拉斯维加斯的赌场,一家赌场安装有上千个摄像头,从顾客进门开始就通过面部识别技术开始追踪,结合每个人的交易情况进行数据挖掘,除了找出老千等不受欢迎的人外,还能挑选大客户,鼓励非理性的赌客加大赌注等方式获取更多利润。
股市是除了博彩行业外另一个大数据市场,几十年前的股市就是一个利用信息不对称获利的市场,如今大数据分析成为了新一代有效的工具。股票市场每时每刻都有海量的交易信息,大数据分析技术一直伴随着证券行业发展成长。
之前很多写大数据的文章都会提到印第安纳大学的研究人员研究发现通过分析twitter信息中人们的情绪可以准确预测股市的涨跌,但在google搜索利用twitter数据进行交易的对冲基金只能找到伦敦的DCM一家。原因正如上一段提到的,商业公司尤其是对冲基金都不会轻易暴露自己的运算逻辑,这个道理和《三体》中的“黑暗森林”逻辑是相同的。
但实际上,我们可以通过种种蛛丝马迹发现twitter信息已经广泛被市场中的对冲基金使用。比如只要好莱坞女星海瑟薇出现在头条,"股神"沃伦-巴菲特的公司的A股股价就会上涨。原因很简单,女星海瑟薇的名字是Anne Hathaway,巴菲特的公司叫伯克希尔-哈撒韦公司(Berkshire Hathaway),两者都包括Hathaway这个词,说明不少对冲基金都使用了实时分析twitter和新闻大数据的技术。
另外一个例子:一则假消息在twitter发布:白宫发生了两起爆炸事件,总统奥巴马(Barack Obama)在事件中受伤,导致股市、欧元等相关全线在第一时间下挫,道指2分钟下跌100多点,欧元也是强势下行,美国股市市值短暂蒸发约1,400亿美元。 一次偶然的黑客恶作剧,又导致许多使用twitter数据对冲基金被暴露出来。
再举个发生在身边的例子,大家知道到券商开户为什么要填写一张详细的表格吗?上面会要求你填写你的收入、投资经历等,因为在华尔街,有非常成熟的模型可以通过你填写的表格预测你未来的收益,同时分析大量的交易记录针对不同种类的用户进行相应的营销与服务,目标同样是提高利润。
金融领域另一块大的领域是信贷市场,国内最近也异常火热,包括阿里巴巴等公司早已进入。新的P2P产业除了在商业模式、效率、用户来源等与传统银行不同外,最关键因素之一就是大数据。通过大数据可以解决信贷产业最核心的坏账率问题。阿里巴巴通过其平台上用户的交易数据、好评率等完整的结构化数据可以非常容易的对用户进行信用评估,但其他平台没有阿里巴巴的数据优势,就需要更多的数据挖掘才能降低坏账率从而盈利,国外最大的P2P公司比如Lending Club是经过了6年不断完善才首次实现盈利,可见这个巨大的市场中我们面对的挑战之大。
作者:冯月