如何理解大数据范文

2022-06-23

第一篇：如何理解大数据范文

理解大数据

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。

大数据，首先你要能存的下大数据。

传统的文件系统是单机的，不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs /tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

存的下数据之后，你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦，比如整个东京热有史以来所有高清电影的大小甚至更大)，一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎，Tez和Spark是第二代。MapReduce的设计，采用了很简化的计算模型，只有Map和 Reduce两个计算过程(中间用Shuffle串联)，用这个模型，已经可以处理大数据领域很大一部分问题了。

那什么是Map什么是Reduce? 考虑如果你要统计一个巨大的文本文件存储在类似HDFS上，你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段，几百台机器同时读取这个文件的各个部分，分别把各自读到的部分分别统计出词频，产生类似 (hello, 12100次)，(world，15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合，然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果，机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据，而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多，而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总，(hello，12100)+(hello，12311)+(hello，345881)= (hello，370292)。每个Reducer都如上处理，你就得到了整个文件的词频结果。

这看似是个很简单的模型，但很多算法都可以用这个模型描述了。 Map+Reduce的简单模型很黄很暴力，虽然好用，但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature，本质上来说，是让 Map/Reduce模型更通用，让Map和Reduce之间的界限更模糊，数据交换更灵活，更少的磁盘读写，以便更方便地描述复杂算法，取得更高的吞吐量。

有了MapReduce，Tez和Spark之后，程序员发现，MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapReduce，Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序，丢给计算引擎去计算，而你就从繁琐的MapReduce程序中解脱出来，用更简单更直观的语言去写程序了。

有了Hive之后，人们发现SQL对比Java有巨大的优势。一个是它太容易写了。刚才词频的东西，用SQL描述就只有一两行，MapReduce写起来大约要几十上百行。而更重要的是，非计算机背景的用户终于感受到了爱：我也会写SQL!于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来，工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述，因为易写易改，一看就懂，容易维护。

自从数据分析人员开始用Hive分析数据之后，它们发现，Hive在MapReduce上跑，真鸡巴慢!流水线作业集也许没啥关系，比如24小时更新的推荐，反正24小时内跑完就算了。但是数据分析，人们总是希望能跑更快一些。比如我希望看过去一个小时内多少人在充气娃娃页面驻足，分别停留了多久，对于一个巨型网站海量数据下，这个处理过程也许要花几十分钟甚至很多小时。而这个分析也许只是你万里长征的第一步，你还要看多少人浏览了跳蛋多少人看了拉赫曼尼诺夫的CD，以便跟老板汇报，我们的用户是猥琐男闷骚女更多还是文艺青年/少女更多。你无法忍受等待的折磨，只能跟帅帅的工程师蝈蝈说，快，快，再快一点! 于是Impala，Presto，Drill诞生了(当然还有无数非著名的交互SQL引擎，就不一一列举了)。三个系统的核心理念是，MapReduce引擎太慢，因为它太通用，太强壮，太保守，我们SQL需要更轻量，更激进地获取资源，更专门地对SQL做优化，而且不需要那么多容错性保证(因为系统出错了大不了重新启动任务，如果整个处理时间更短的话，比如几分钟之内)。这些系统让用户更快速地处理SQL任务，牺牲了通用性稳定性等特性。如果说MapReduce是大砍刀，砍啥都不怕，那上面三个就是剔骨刀，灵巧锋利，但是不能搞太大太硬的东西。

这些系统，说实话，一直没有达到人们期望的流行度。因为这时候又两个异类被造出来了。他们是Hive on Tez / Spark和SparkSQL。它们的设计理念是，MapReduce慢，但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL，那我就能跑的更快。而且用户不需要维护两套系统。这就好比如果你厨房小，人又懒，对吃的精细程度要求有限，那你可以买个电饭煲，能蒸能煲能烧，省了好多厨具。

上面的介绍，基本就是一个数据仓库的构架了。底层HDFS，上面跑MapReduce/Tez/Spark，在上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。这解决了中低速数据处理的要求。

那如果我要更高速的处理呢? 如果我是一个类似微博的公司，我希望显示不是24小时热博，我想看一个不断变化的热播榜，更新延迟在一分钟之内，上面的手段都将无法胜任。于是又一种计算模型被开发出来，这就是Streaming(流)计算。Storm是最流行的流计算平台。流计算的思路是，如果要达到更实时的更新，我何不在数据流进来的时候就处理了?比如还是词频统计的例子，我的数据流是一个一个的词，我就让他们一边流过我就一边开始统计了。流计算很牛逼，基本无延迟，但是它的短处是，不灵活，你想要统计的东西必须预先知道，毕竟数据流过就没了，你没算的东西就无法补算了。因此它是个很好的东西，但是无法替代上面数据仓库和批处理系统。

还有一个有些独立的模块是KV Store，比如Cassandra，HBase，MongoDB以及很多很多很多很多其他的(多到无法想象)。所以KV Store就是说，我有一堆键值，我能很快速滴获取与这个Key绑定的数据。比如我用身份证号，能取到你的身份数据。这个动作用MapReduce也能完成，但是很可能要扫描整个数据集。而KV Store专用来处理这个操作，所有存和取都专门为此优化了。从几个P的数据中查找一个身份证号，也许只要零点几秒。这让大数据公司的一些专门操作被大大优化了。比如我网页上有个根据订单号查找订单内容的页面，而整个网站的订单数量无法单机数据库存储，我就会考虑用KV Store来存。KV Store的理念是，基本无法处理复杂的计算，大多没法JOIN，也许没法聚合，没有强一致性保证(不同数据分布在不同机器上，你每次读取也许会读到不同的结果，也无法处理类似银行转账那样的强一致性要求的操作)。但是丫就是快。极快。

每个不同的KV Store设计都有不同取舍，有些更快，有些容量更高，有些可以支持更复杂的操作。必有一款适合你。

除此之外，还有一些更特制的系统/组件，比如Mahout是分布式机器学习库，Protobuf是数据交换的编码和库，ZooKeeper是高一致性的分布存取协同系统，等等。

有了这么多乱七八糟的工具，都在同一个集群上运转，大家需要互相尊重有序工作。所以另外一个重要组件是，调度系统。现在最流行的是Yarn。你可以把他看作中央管理，好比你妈在厨房监工，哎，你妹妹切菜切完了，你可以把刀拿去杀鸡了。只要大家都服从你妈分配，那大家都能愉快滴烧菜。

你可以认为，大数据生态圈就是一个厨房工具生态圈。为了做不同的菜，中国菜，日本菜，法国菜，你需要各种不同的工具。而且客人的需求正在复杂化，你的厨具不断被发明，也没有一个万用的厨具可以处理所有情况，因此它会变的越来越复杂。

按照时间

比如别人突然问你对大学的感受?我们可以按照时间来分，包括来大学之前的感受和看法、在上大学的时候是什么样的感受，当时的看法以及离开大学之后的回忆和感受。比如别人问你在昆明旅游的感受，可以从不同时段来说，一天分为早中晚，你可以谈一下每个时段的感受。 ●切分主题

把主题切分开来组织语言，会顺利很多。比如别人突然问你对某个项目的看法，你要在大脑中迅速建立“桩子”，可以把项目细分，从设计、开发与实施阶段来谈。

●不同角度，不同方面

遇到问题要有方向有话说。可以从不同角度、不同方面选取其中一个去回答，比如关于大学母校：可以从以上提到的时间方面来说，讲述不同时间你的体会，也可以从地点方面，比如宿舍、图书馆、教学楼带给的感受，也可以从硬件方面，包括师资、设备等。

比如问内训师你的课程哪里好?我们想一下什么人会关注课程的好坏呢?主要有三种，培训学员、培训经理、咨询公司，那我们的演讲就可以站在这三者的角度“找桩子”，比如培训学员关注内容、例子，培训经理会关注成果等方面展开。有了“桩子”，也要有内容，内容可以用举例子的方式讲。比如年会上突然让你谈对公司的感受，你可以从刚入公司、工作一段时间后以及现在的感受来讲，具体的内容可以举例子来讲，比如工作这几年，每次遇到困难都会有人来帮助你等例子，最后再做个小总结。有了“桩子”，有了例子，你的内容就会丰富起来。美国有个课程叫think on feet，是关于找“桩子”的，有兴趣的可以去看怎么更全面去找“桩子” 。

第一步，把已经定稿的演讲稿按照层次结构划分成清晰的段落;

第二步，熟读演讲稿21遍，在阅读时不要去刻意记稿子，只要达到熟练的地步就可以，不过别偷懒，一定要达到21遍。为什么是21遍呢?

因为“72190法则”告诉我们，一件事情重复7次就会对它产生认识记住它，重复21次就会养成习惯，重复90次就会固化它;

第三步，背第一段，记得后把稿子放到一边面对镜子讲出来，千万不要手拿稿子，这样会产生依赖感;

第四步，单背第二段，不要去管第一段。记得后面对镜子先讲第二段，再把第一段和第二段连起来讲。

第五步，单背第三段，不要去管第一段和第二段。记得后面对镜子先讲第三段，再把第二段和第三段连起来讲，最后把第

一、

二、三段连起来讲;

第六步，如果还有第四段、第五段等等，依此类推，轮到背第几段，就先背第几段，然后对着镜子讲一遍，再以倒推的形式连环起来背。比如讲第四段，那么面对镜子讲时应该是4—34—234—1234;讲第五段，那么面对镜子时应该是5—45—345—2345—12345;以此类推„„

第七步，上面的步骤千万不要打乱，这样会把大脑里建立起来的记忆环打乱，一步一步的按照标准来背，会很好的记住整篇稿子。到最后一段背完、按照倒推连环讲完后，再将整篇稿子连讲7遍。

第八步，在正式参加演讲前，每天早上、中午、晚上各面对镜子讲一遍。没事的时候可以抽背中间的某一段，以增加娱乐性，也可以固化记忆。

在这里要强调一点，不管通过什么方法记住了稿子，都不要追求完美，追求完美等于追求完蛋!正式演讲时不管中间讲到哪一段中途忘记了，都将错就错把本段收一下尾，马上跳到下一段(通过连环记忆，下一段你肯定记得)，而忘掉的部分即使后来想起来，也不要再提!听众看不出来的!听众也不知道你哪个地方掉了哪一句!放松的讲就是了!

第二篇：大数据如何影响政府治理能力

大数据是巨量数据的集合，这个陌生的名词出现在我们每一天的生活、工作中。近年来，随着大数据的使用与发展，中央提出要实施“国家大数据战略”，政府通过大数据治理社会。大数据使决策层实时掌握地区态势，让及时的调控和协调管理成为可能。

大数据，对于普通人来讲这貌似是一个陌生的名词。然而，它其实在我们每一天的生活、工作中。在人们网上购物时，平台储存各用户的购买数据，通过统计、计算得出某些规律，这是使用了大数据;在政府某部门工作中，他们通过对某一些产品的数据统计、比对，从而得出某一些结论，这也是使用了大数据。

麦肯锡全球研究所将大数据定义为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。它具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

阿里巴巴创办人马云在演讲中就提到，未来的时代将不是IT时代，而是DT的时代。DT就是Data Technology，中文意思是数据科技，显示大数据对于阿里巴巴集团来说举足轻重。这不但在商业领域受到重视，在政府层面同样受到关注。广州市六榕街盘福社区的网格员都配备平板电脑，第一时间记录采集到的信息，配合大数据管理社区。

大数据战略上升为国家战略

2015年9月，国务院公开发布了《国务院关于印发促进大数据发展行动纲要的通知》(以下简称《纲要》)。《纲要》指出，目前中国在大数据发展和应用方面已具备一定基础，拥有市场优势和发展潜力，但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题，亟待解决。

《纲要》认为，坚持创新驱动发展，加快大数据部署，深化大数据应用，已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。立足中国国情和现实需要，推动大数据发展和应用在未来5―10年逐步实现以下目标：打造精准治理、多方协作的社会治理新模式;建立运行平稳、安全高效的经济运行新机制;构建以人为本、惠及全民的民生服务新体系;开启大众创业、万众创新的创新驱动新格局;培育高端智能、新兴繁荣的产业发展新生态。

2015年10月举行的十八届五中全会也提出，要拓展互联网经济空间，要实施国家大数据战略，推进数据资源开放共享。其中，十八届五中全会公报提出要实施“国家大数据战略”，这是大数据第一次写入党的全会决议，标志着大数据战略正式上升为国家战略。

国家行政学院公共管理教研部副研究员何哲认为，大数据战略要政府表率推动。大数据战略上升为国家战略，首先是需要政府做出表率，在开放数据、开放政府建设方面做出表率。

“要积极构建政府体系的大数据，打通在部门、区域之间隔离的数据孤岛，为建立统一高效的政府服务体系而努力。其次是需要建立大数据发展的标准体系，为整个市场做好标准制定工作，从而指导大数据产业的健康发展。”何哲说。

使决策层实时掌握地区态势

目前，大数据和政府社会治理的领域有几个新方向。云润大数据研究院首席科学家晋彤认为，一个是政府在大力推进利用技术手段对网络空间进行深化管理，用大数据手段提升社会治理的能力;另一个是大数据技术开发和应用在蓬勃展开，行业里涌现了很多机构、企业、专家学者，也出现了各种帮助政府社会治理的解决方案。在可见的未来，利用技术和数据进行社会治理，将是大数据行业最能出现创新效益的方向之一。

信息无处不在，那么具体到政府的职能和政府工作人员的日常工作怎么进行?除了维护社会秩序的工作外，其他基本就是会议、沟通、文案、信息处理工作，也就是说，整个政府工作基本就是数据处理工作。晋彤说：“抓住政府治理的数据本质，自然会以数据治理作为政府工作发展的核心。”

政府在社会治理工作中的数据处理类型大致分为三个方面。

第一，信息采集，这包括平安城市监控信息、人口调查、市民办事信息录入、土地测量、舆情监测等;第二，决策支持，这包括数据分析的结果，以会议(集中或远程)、报告、信息平台系统等形式给决策者以决策依据，之后形成决策进入信息流通环节;第三，信息流通，这包括会议、活动、政策法规公开信息发布、政府发言人和公众及媒体的沟通、舆情管理等。

晋彤说，数据采集和分析能力的进步，对政府实行社会治理产生了深刻影响。大数据的运用使人们的各个数据集合成数据集，让决策层可以看到。在互联网时代，人类历史上第一次可以做到“上达天听”，为国家的最高决策层所知悉，也使得决策层实时对整个国家、地区、行业、部门的态势进行掌握、调控和协调管理成为可能。

“这一变化对世界所有国家都具有挑战性。中国政府目前在利用互联网和数据能力进行决策支持和社会治理的决心、开放态度和重视程度走在世界前列。如果中国能在数据治理的科学性、严谨性方面如同航天事业那样下功夫，就有机会打造世界上最先进、最高效、最能服务民众的政府管理模式。”晋彤说。

大数据如何影响社区和公共交通

《小康》记者在了解大数据的社会治理案例中，发现多个部门都有进行。以广东为例，它们包括广东省人大常委会、惠州市委市政府、佛山市禅城区委区政府、广东省环境检测中心、深圳市坪山新区智慧社会服务中心等。

如今走在广东某些社区的路上，《小康》记者会发现每隔一段距离就看到一个标识牌，里面是负责本片区域的网格员姓名和头像，而且旁边有一个二维码。例如在深圳市坪山新区，基层围绕打造公共基础信息库，解决信息来源问题，建立了网络信息采集员(简称“网格员”)采集为基础，多种信息共同丰富基础资源库的“1+N”信息采集体系，确保信息的鲜活、真实、全面，为大数据应用提供基础数据保障。

相关工作人员告诉记者，2015年本区共采集人口信息855813条，比网络化服务管理实施前的2013年增加31%，且采集率、注销率、准确均在97%以上。新区数字化城管和社会综治案件办理数量从2013年的77616件增加到2015年的112888件。

另外，公共交通系统也在使用大数据。以广东省委省政府督办和广东省交通运输厅具体部署成立的广东岭南通股份有限公司(以下简称“岭南通”)为例，它的目标是建立全省统一的交通一卡通“类银联”系统，实现“一卡在手，岭南通行”。截止2016年3月，岭南通已基本开通省内21个地市，服务通达香港、澳门地区，累计发卡4920万张。

岭南通大数据云平台是面向公共交通服务的大数据开放式公共服务平台，它根据自身掌握的数据优势，通过研究和分析公共交通一卡通大数据，将其应用于公共交通服务领域、公众出行领域、突发事件处理等，有效提升了公共服务能力和改善公众出行环境。

编辑/陈远鹏

第三篇：大数据分析如何影响企业文化

来源：赛迪网

正如远在石器时代，我们的祖先发现并能够控制火之后，我们的文化经历了令人难以置信的变迁。所以，当我们的企业开始接触到先进的以大数据形式提供的信息时，我们的现代企业文化也必然会相应的发生一定的变化，更重要的一点是，如果大数据尚未对您企业的文化产生任何影响，那可能是您使用大数据的方法不正确。

大数据影响您企业文化的具体方式取决于您企业的数据类型，以及您企业打算用这些数据信息来做什么。举个例子来说，一家公司的主要营收来自服装销售。那么，其编制和收集的数据应包括有关目标销售地区的详细人口信息;适当的大数据分析将揭示一定的消费趋势。该公司找寻这些趋势的方式会影响其整体文化。

企业文化与人力资源

人力资源部门在企业文化起着很大的作用，正是从人力资源部门开始，企业的网络和员工开始步入工作正轨的。人力资源部门的数据意味着企业网络的基础，以及企业员工在企业内部的成长是更为个人化的。人力资源经理在员工升职候选人选拔时，可以从一个业务部门中的硬数据着手，并分析提拔该员工可能给业务部门带来的效益，以及可能带来的缺点。该候选人曾在什么部门工作过，服务了多长时间?在此期间，其所在业务部门的绩效增长情况是怎样的?

在企业的人力资源文化方面，招聘经理考评和看待企业现有和潜在员工的方式会创造一种非常具体且明确定义的企业文化感知。更好的数据分析意味着更为具体和固定的企业文化。营销文化与大数据

营销企业的人口统计工作与整个公司的文化有着非常大的关系，故而大数据也将对其整个企业文化带来十分深远的影响。毕竟，营销企业绝对不能将时间和资金浪费在针对那些根本不会关心您企业产品的人来做广告。基本上，流线型的分析将迫使您企业摆脱低效率的做法，重点关注能为客户带来什么价值，进而帮助企业挣钱。

传统的营销方案告诉企业主进行广泛撒网似的广告媒体投放，包括：电视、广播、平面广告、网络广告和社交媒体。而利用大数据库和有效的分析则意味着，现在的企业可以清楚地看到其营收来源于那些广告投放，而广泛撒网似的广告投放无疑是时间和资金的浪费。这将如何影响企业文化呢?其迫使企业去了解和迎合企业客户的个性和想法。广告活动将随着客户而发生变化。所以最终是消费者的需求真正定义了企业。

金融，贸易和大数据分析

得益于大数据分析，即使是银行和贸易机构也正在经历企业文化的变化。这些机构必须以复杂的数学公式的形式密切关注交易模式和投资模式，进而存储，探索和解释这些模式，这意味着其能够帮助银行和股票专家节约时间和金钱。

大数据分析对于金融业的人士意味着什么?这意味着一种几乎千篇一律的工作方法不容许有任何错误的文化。在金融业方面，大数据特异性的高层次细节越来越重要，比个人报告更可靠。在未来，如果您不遵循大数据分析，您可能会被您自己的雇主或客户起诉。交易和银行文化变得更加激烈和科学。

大数据策略

如果您的企业正在考虑收集大数据并对其进一步的进行分析，准备好对您企业的经营策略进行根本性的变革。保持业务结构的灵活。您可能需要改变您企业的招聘策略，以便更适合您的统计的需要，并改变您优秀员工的工作时间，以便在业务需求高峰时间能够随时找到他们。对于您的营销部门来说，事情会变得更为精简，减少无效的广告计划，加大最有效广告的投放力度。如果您跟随大数据的步伐，您企业的文化可能会一直持续的发生改变，但这将是一个更为健康的文化。

第四篇：大数据如何改变广告业格局

从“广告狂人”到数据为王看

这是个数据密集型的世界，科技巨头与广告巨头正在一较高下。

数据时代的到来让那些我们耳熟能详的广告促销手段开始发生急剧的变化。以往的宣传单页、电视购物和电台广告里总喜欢说“最后一天，机不可失!”，因为那时候的广告都是单打独斗的。在线社交活动的兴起和当今世界的其他变化一道，正在对广告行业的未来走势产生举足轻重的影响--广告的植入必须既能吸人眼球，却又不引起反感。多数商家现在喜欢说“请到Facebook上搜索我们的某产品”。

广告业很早就开始从传统向数字转型。最近，两家广告巨头奥姆尼康和阳狮联合成为了全球最大的广告机构。精准的数据分析能够促进目标消费者的自发购买行为，因而正在成为广告企业的核心竞争力：全球70亿人中60亿都拥有手机，研究如何准确收集数据已成为大势所趋，两大集团的合并意也在此。

人们之间互相联系的频率比我们通常所认为的要大，并且在此基础上还在日益密切，简直是没日没夜不间断地在彼此交换信息。大众这种对分享的痴迷成了广告业的一道分水岭，谁能利用好人们的这种偏好，让有需求的人接受到感兴趣的信息从而激发他们的购买欲望，谁就是赢家。

不能正确搜集分析这些“情报”的广告商将处于劣势，最终导致他们无法精准定位那些有最大需求的人群。相反，掌握了这类信息的广告商能为客户制作一则则量身定制、见效显著的广告，迅速抓住目标受众的眼球。而跟成功售出大量产品所获的收益相比，客户需支付的那点广告费用并不算十分昂贵。

这种转变顿时让广告业的重心面临着转移。靠麦迪逊大道上的“广告狂人”想出金点子的时代一去不返了，数字科技驱动的新型广告时代已经到来。传统广告业时期，定位并使广告直达目标受众的渠道极少，只有电视、杂志、报纸和电台这几大类，所耗宣传力度也令人咂舌。以前的商家能通过一种以上的主要渠道成功售出一种昂贵商品就已经不得了了;而与此同时，除了有关受众数量和结构等最最基本的信息之外，其他的统计数据都是一片模糊。

广告界一贯的标准做法是，找越来越多的渠道，接触越来越多的潜在客户，拓展越来越广阔的市场空间。而现在，我们需要全方位地准确把握消费者的脉搏：去哪买东西，预算多少，日常生活中有哪些需求，平时上哪闲逛，有什么娱乐活动等等。这些新型渠道能帮助我们把资源投放到最有需求的特定人群身上。大数据是现今广告商想要做到这一点所能利用的最有力的工具，而且能避免无效投放造成商业资源的浪费。

打广告时，产品信息的传递总是第一位的。不过随着时代变迁，对各家广告商来说，搞清楚信息传递的对象是谁、他们在想什么无疑才是一把打开市场大门的金钥匙。奥姆尼康和阳狮的联手就是为了握住这把金钥匙。而人们的消费行为也在酝酿更深刻的变革：直接说出你想要什么，喜欢什么，想从不同品牌中获取什么，把这些诉求持续不断地分享发布出来--这，就是大数据价值背后的驱动力。广告巨头合并后，竞争对手变成了谷歌、Facebook、雅虎、Twitter这些收集挖掘了大量有价值数据的公司。

这是个数据密集型的世界，科技巨头与广告巨头正在一较高下。但并不是说这次合并把奥姆尼康和阳狮都变成了谷歌，他们只是不得不扩大规模、共享资讯以应对大数据浪潮的来袭。合并双方都相信客户会对此感到高兴，因为他们将有能力提供一站式服务，确保从数据采集直到受众购买的各个环节都能直击无误。大数据的影响已经立竿见影。而随着数据的身影愈发频繁地出现，这宗合并只是广告业转变的一个开始。

文/戴维·斯坦伯格(David A. Steinberg)

美国InPhonic公司创始人，现任XL Marketing公司CEO

第五篇：金融业如何利用大数据进行精准营销

导读近几年各行各业对大数据技术的应用越来越多，但凡有财力的企业都跃跃欲试，更何况是“手握重金”的金融行业。金融业如何利用大数据进行精准营销?如何构建新一代大数据运营中心?且听永洪科技高级咨询师胡星昱围绕金融行业的经验分享。

说到大数据，有两点我们要强调一下：一个是数据资产化，另一个是决策数据化。

 IT部门转变成利润中心

信息技术部门是做IT支撑的，每年都会进行软、硬件大批量采购，企业内部都认为信息技术部门是成本中心，信息技术部门的数据也都是伴随业务发生时产生的一个附属物。随着大数据技术发展，企业希望通过数据寻找业务规律，对客户需求进行挖掘，因为这样做会给业务带来直接的价值，帮助业务进行优化和提升，所以数据成了金融机构的一项宝贵资产，掌握数据量最大的信息技术部门也逐渐成为企业的利润中心。

从战略方向上讲，以前在企业内部，主要是决策人员根据经验主观判断进行决策，这样做的风险很大，因为人会受到自己所处环境和情绪的影响。所以企业必须借助数据的帮助来做决策，并进行客观的验证和预测，要从原来依据经验说话向依据数据说话进行转变。

在数据量和数据分析需求日益增加的挑战下，从战略层面上讲，金融机构需要建立一套“数据驱动型”的模式，即真正落实大数据运营中心。

从战术方面上讲，金融行业内企业可以尝试三种战术方向。首先可以通过用户画像、精准营销来做运营优化。其次是通过运营分析、产品定价来做精细化管理。最后是利用实时的反欺诈反洗钱应用，以及中小企业的贷款评估来提高风险控制能力，最终实现全面提升金融企业的核心价值和能力。

 新一代金融大数据运营中心金融行业内的企业现在都需要一套整体化的业务架构。构建业务架构要从搭建一套企业级数据中心说起。企业级数据中心会包含企业的业务系统、外部数据和一些机器日志，这些结构化、半结构化和非结构化的数据，都要被汇集在一起。

在这些数据之上，金融行业内企业可以建立各种各样的分析模型。比如利用用户画像做精准营销，用EVA指标模型和反欺诈模型做多维盈利分析、反欺诈的交易分析等。

运营优化、管理提升、风险监控，这三个方向到底给金融行业带来什么价值?

首先是精准营销。精准营销真正要做的就是了解客户：客户到底是什么样的?客户是谁?客户需要什么产品?客户有什么产品偏好?客户喜欢哪些产品组合……还有就是如何进行有效营销、如何提升客户价值、保持客户忠诚度。

比如，现在很多金融机构都有APP，就可以分析用户在寻找什么产品，用户在找到一款产品并真正实现交易的过程中会浏览哪些页面，在哪个页面停留最长时间，交易中断是什么原因造成的等，而分析结果可以用于提升运营效果。

说到精准营销就不能不谈用户画像。以前经常听到“360度用户画像”这个词。但我觉得，“360度用户画像”更像一个广告宣传语，因为人是非常复杂的动物，很难用可数的纬度来100%地描述，所以需要从一定目的出发来建立用户画像。

尤其是在企业内部没有足够数据来构建用户画像，需要通过外界渠道来获取数据支撑的时候。数据的获取是有成本的，更不应该盲目搭建用户画像体系。也就是说，用户画像的本质其实应该是从业务角度出发，对客户需求、消费能力，以及客户信用额度等进行分析。

举个小例子，比如说做存贷款产品营销时，可对高价值信用卡用户的AUM进行分析。筛选他们每月的消费金额、信用额度、当前存款情况、贷款有没有拖欠，是不是商务卡持有者等，通过这些维度对用户进行分析。再针对不同用户分群给出不同的营销策略。比如说哪些用户该提升额度，哪些应该为其推荐金融产品。营销在落实时，可以先通过短信进行营销，再通过呼叫中心来了解客户意图。当客户有意向时，再交由理财经理进行进一步跟进。

除精准营销，还有多维盈利分析。多维盈利分析金融机构已经做很多年了，我最近也与国内几十家金融机构进行了交流，发现其实在业务上他们都希望多维盈利分析能够做到帐户级。可实际上，大部分金融机构现有的IT架构只能支撑做到产品级，或是科目级分析。为什么?就是因为金融机构普遍数据处理能力不够。如果要跑一个帐户级的结果出来，系统要跑好几个小时。而通过数据运营中心，就可以实现几十分钟出结果，企业就可以更好地进行精细化管理。

在风险监控方面，可以列出很多风险监控的指标，再通过这些指标用大数据平台进行实时监控，真正了解整个企业当前所处的风险等级。

 传统业务架构存在的6大缺点

上述应用在传统架构下能否实现?我认为传统业务架构存在6大缺点。

第一是不够敏捷，对业务新需求满足的时间太长。我通过交流了解到，有些金融机构内部业务新的需求提出后，需要几周，甚至几个月时间才能把报表提交上去，业务人员才能看到他需要的数据，这种效率显然跟不上市场变化。

第二是性能不佳，在海量数据面前，没有足够的计算能力去实时计算数据。

第三是洞察力弱，传统IT架构已无法深入挖掘海量数据的数据价值。金融企业的分析人员已不满足于只看到数据呈现，还希望对数据进行聚类、分类的算法来挖掘数据价值。第四是扩展性差，海量历史数据无法单机存储，传统的IT架构又不支持水平扩展。第五是无法挖掘非结构化数据价值，现在每年金融机构的数据增量中有百分之七十到八十的数据属于非结构化数据，如果不能把这部分数据的价值挖掘出来，是严重的浪费。

第六是成本高，从系统搭建到项目实施整个过程不可控。动辄上百万元资金成本或一到两年时间成本的项目在金融机构中很多。

所以，永洪提出了新一代的金融大数据应用中心的IT架构，可以根据业务需求不同，分为在线需求和离线需求。

在线or离线

为什么要分在线和离线?其实，很多需求都是按时效性区分的。

举个小例子，比如我们会分析现有的客户中，哪些属于即将流失的客户，哪些是高价值客户。在这个过程中，要经过复杂的模型，考量多个指标来判断，而结果也许并不需要马上就得到。但在分析某个地区时，高价值客户最近的消费倾向这种分析需求是非常灵活且时刻变化的，这就要求能够实时得到计算结果。

下面，我把在线和离线分开介绍。

在线分析需求，我们总结出了一个最佳实践。这里顺便回答下如何实现敏捷分析的问题。在以前的架构中，通常是把业务逻辑和数据模型结合在一起，也就是根据业务需求制作数据模型，制作CUBE，做二次表，进行汇总计算，最后反馈和展现的只是一个很小数据量的结果。在那这样的架构中，前端需求一旦变化就需要改模型，造成工作量大，交付时间也会拖长。

所以永洪提倡把数据模型和业务逻辑分开。数据模型只把跟分析主题相关的数据关联到一起，做一张大宽表。比如，现在要进行营销相关分析，就把数据交易数据、用户数据、渠道数据都打通，关联起来，但这些数据不要汇总，也就是要保持交易记录级的数据粒度，而要分析哪些纬度，需要什么粒度的数据，都可以通过实时的计算，这样就不会造成业务逻辑和数据模型混在一起。

不能每个分析需求都建一个CUBE，之前我见过有的企业数据仓库中有上千个cube，因为数量太大，根本没人来管理。而每当有新需求提出，也只能做新CUBE。这么做对企业来说有风险。

如果不愿意对数据来进行汇总计算，而是进行实时计算，就要提供大量细节数据实时计算的能力，这时可以采用了MPP数据集市来处理在线分析需求。

在这个过程中，永洪运用了列存储、分布式计算、列存计算的技术来提高运行效率，就算是百亿级的数据，也可以通过这种分布式的集群，实时进行分析计算，然后反馈给用户。此外，大数据平台离线分析是通过Hadoop的平台来做结构化和非结构化数据的存储，解析。然后在上面会用YARN量做资源管理——根据分析需求决定是用批处理模块还是搜索模块、是用流处理还是用机器学习等。

永洪科技现正在帮助国内各个企业进行数据挖掘应用。我们的客户范围涉及电信行业、能源、政府、金融、零售，还有IT互联网行业，永洪会帮助他们提升数据运营效果。

接下来，简单介绍几个做过的案例。

首先是一个股份银行，永洪通过大数据平台，帮助他们进行用户画像的精准营销，把金融机构持卡人的信息、信用卡信息、微信卡信息都拿过来。在大数据平台上，通过画像和算法给用户进行画像分群，根据分析需求来构建画像模型，基于Map Raduce聚类和算法对用户进行分类，然后再进行数据域处理，最终完成用户的画像。

另外,永洪也帮助华北一些金融机构在传统数仓上搭建在线分析平台，以及帮助他们建立全行的报表平台。例如行长驾驶舱和业务类型报表。永洪也为中信金融机构杭州分行、四川分行搭建了在线分析平台。杭州分行通过在线平台帮助用户实时分析零售数据。以前他们的分析人员大部分精力都用在整理数据和制作报表上，通过永洪的在线平台，业务人员可以自己接触到数据，并且可快速地生成分析报告，把真正精力都放在分析数据这块。

现在，整个行业正处在数据架构和数据分析系统的变革时期，永洪科技非常希望通过提供专业技术和服务来帮助金融机构把数据价值挖掘出来，提高业务能力，提高竞争力。

胡星昱：澳大利亚莫纳什大学商业信息系统硕士，拥有3年大型企业需求分析，项目实施和解决方案制作经验;曾为国外大型零售企业和政府机构设计和实现数据分析系统，成功推进国内多个大型金融项目的需求、设计、研发、实施工作。在企业级系统集成，大数据，BI领域有丰富的项目经验;目前主要负责产品和解决方案的咨询工作。

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

>> 查看更多相关文档

上一篇：日语常用惯用语范文下一篇：如何交到好朋友范文

如何理解大数据范文

第一篇：如何理解大数据范文

第二篇：大数据如何影响政府治理能力

第三篇：大数据分析如何影响企业文化

第四篇：大数据如何改变广告业格局

第五篇：金融业如何利用大数据进行精准营销

热门文章

精品范文

全站热搜