数据时代范文

2024-07-25

数据时代范文(精选12篇)

数据时代 第1篇

人脑几乎是在瞬间完成对图形信息的处理, 处理文字却按照线性顺序, 因此速度慢很多。国外很多优秀报纸和杂志一直将视觉化传播手段视为新闻创新、提升媒体影响力甚至是开辟市场的利器。大量的数据信息常常是组成图形信息的重要元素。在早期的新闻写作过程中, 更多的媒体人把数据作为新闻叙事环节的补充或说明, 用来支撑新闻真实性和可读性。

进入新媒体时代, 用户数据、社会化媒体平台上的UGC、移动终端的地理信息、物联网技术的发展等, 使信息的数量急剧增长, 必然产生大数据。

大数据的含义这个概念最早是在上个世纪80年代美国人提出的, 随后的20多年里, 美国企业界、学术界对它不断地加以探讨、深究。所谓大数据是这样的数据——规模大、非结构化、数据集彼此无关联, 需要快速地分析, 且其分析依赖于新兴的技术和人才。大数据具有规模性 (volume) 、多样性 (variety) 、高速性、 (velocity) 和有价值 (value) 等特点。[1]

大数据概念里的数据, 是指具有可追踪、可分析、可量化特性的数据, 而对这个意义上的“数据”进行挖掘和分析, 可以为不同行业提供决策和判断。

在新闻领域, 对大数据利用行为, 使得新闻生产方式和新闻表现形式诱发出新的创新, 那就是数据新闻。

数据新闻 (Data journalism) 或称数据驱动的新闻 (Data Driven journalism) , 被认为是计算传播学的一个具体应用, 它通过挖掘和展示数据背后的关联与模式, 运用丰富的、具有互动性的可视化手段来展现新闻事件和新闻人物。可视化手段包括时间线、信息图表、交互式图表、数据地图等。

一些国际主流媒体如英国广播公司 (BBC) 、《纽约时报》、《洛杉矶时报》, 包括我国的著名门户网站新浪、搜狐和网易也积极尝试运用新媒体技术, 运用数据新闻将复杂信息以更加清晰、直观、活泼的形式呈现出来, 得到了良好的传播效果和市场效应。

2 数据新闻传播特点

⑴表现形式是数据为主、文字为辅, 或者是数据在先、文字在后。不同于传统新闻的文字为主数据为辅, 在一定程度上改变了新闻生产的思路与流程。[2]数据新闻的挖掘数据多以上万甚至百万、千万计。分析的数据量级已远非传统新闻操作中数据图表可相提并论。比如来自英国广播公司BBC News的一条为“1999—2010英国每一条道路上的每一起死亡” (Every death on everyroadin Great Britain1999—2010) 报道英国的车祸。第一天BBC通过订制的互动地图, 详细呈现了车祸时间地点的官方数据, 抽取了10条头条新闻的关键数据, 做成易懂的图表, 并用一段两分钟的视频动画总结了2010年的车祸死亡人数概况。[3]再比如借用维基解密资料制作的伊拉克战争伤亡的新闻, 抽取的数据量就多达39.1万条。

⑵数据可视化 (也有人称为信息可视化) 成为数据新闻的重要特征之一。“可视化 (Visualization) 是利用计算机图形学和图像处理技术, 将数据转换成图形或图像在屏幕上显示出来, 并进行交互处理的理论、方法和技术。它将符号或数据转换为直观的几何图形, 便于研究人员观察其模拟和计算过程。”可视化成为数据新闻的重要特征之一。

“新媒体以全通道传播的方式让人们能够更加真切地感受这个世界的方方面面, 其感性判断得到了极大调动和激活, 越来越多地参与到社会认知和社会决策之中”, 人们的社会认知和社会决策更加感性化。大数据技术提供的可视化新闻叙事可适应受众理性认知和感性认知整合的需求。[4]

可视化叙事让数据新闻更具易读性和动态性。以新浪制作的薄熙来庭审数据新闻作品为例。薄熙来终审事件被新华社评为2013年十大新闻事件之一, 国际国内舆论关注度极高。对于这起重大新闻事件, 新浪将其以数据新闻作品呈现, 得到了业界和用户的一致肯定。

进入项目主页可以看到两个数据视觉化部分:

一张互动时间线图, 下面部分用工具尺的形式呈现, 许多带有新浪微博标志的红色图标和视频蓝色图标密集地排列在时间工具尺上, 它们是薄案庭审的重要时间点。点击某个图标, 工具尺的上面部分立即滚动到该条新闻。包括媒体来源, 事件内容, 立即还原出每一个重要新闻点, 有微博文字, 图片, 以及视频动画视频, 用户可以进入该主页面, 详细了解该信息, 并且给予评论。该数据新闻作品让我们感受到薄案的整个流程的清晰性, 和不同媒体报道的角度, 激发了用户参与性和互动性。

3 数据新闻可视化意义

数据新闻不仅让受众在观看数据新闻时既有动态的体验, 又有互动的产生, 还能在参与的情境中去发现数据背后的意义, 例如网易《数读》对2014年索契冬季奥运会筹备花费的数据新闻可视化报道《黄金打造的索契冬奥会:成本超往届冬奥会总和》, 其中对历年冬奥会举办国的花费成本 (从少到多) 以球形信息图的体积 (从小到大) 纵向对比了历年 (从1924年到2014年) 花费金额, 又横向将本届冬奥会成本与2008北京夏季奥运会对比, 同样是球形大小, 让受众清晰地发现本冬奥会投资奢侈。“据估计510亿美元的花费将超过往届所有冬奥会花费的总和, 同时也打破了北京在2008年创造的耗资400亿美元的记录。”[5]

互联网时代, 人们面临的新挑战是如何筛选和理解信息, 而不是如何获得信息。数据新闻能让受众在短时间内将某些数据与其他数据相结合, 发现这些数据背后蕴含的价值和意义, 并寻找出对公众有价值的新闻。

在传统时代, 媒体主要是采集信息、报道事实。在融合媒体时代, 媒体人角色是搭建平台、聚合社会化信息。那么当下在大数据时代, 媒体人角色应该更多是为受众阐释事件的影响。因此在大数据时代, 传媒机构需要重视数据新闻的制作, 才能拓展新闻的价值空间, 提高受众的认知程度, 获得更加广泛的社会影响力。

摘要:近年来, 数据新闻大行其道。国际知名媒体英国广播公司BBC、《纽约时报》、《卫报》和我国新浪、网易、搜狐等纷纷推出了自己的数据新闻作品和数据新闻频道。本文以正在兴起的数据新闻为观察对象, 结合新近国内外著名新闻案例, 探讨数据新闻的可视化叙事传播特征与意义。

关键词:大数据,数据新闻,可视化意义

参考文献

[1]喻国明, 王斌, 李彪, 杨雅.《传播学研究:大数据时代的新范式》J.《新闻记者》, 201306.

[2]田加刚.《英国<卫报>的数据新闻实践》J.《青年记者》, 2013年7月上.

[3]王斌.《大数据与新闻理念创新——以全球首届“数据新闻奖”为例》J.《编辑之友》, 2013年6月.

[4]王斌.《大数据与新闻理念创新——以全球首届“数据新闻奖”为例》J.《编辑之友》, 2013年6月.

数据时代 第2篇

方存

内容摘要:

随着信息技术的飞速发展,税收征管也已经进入大数据时代,由于数据信息化的广泛运用,使海量数据的即时获取和精确分析成为现实,为研究纳税人办理涉税业务特征提供了良好条件,带来了税收服务手段、服务理念、服务载体、服务管理的大跨越……

关键词:大数据

应用

管理

信息化

现今很多人随时都会拿起手机发微信、微博,要购物不是上超市而是上淘宝、京东,外出就餐先看大众点评,有问题不是找老师而是找百度„„在我们的日常生活中,已经离不开这些网络应用。这些网络应用都有共同的特征,就是通过海量的数据,进行云计算后让用户获得到更好的应用体验。这些随时随地抓取数据的网络应用,让我们感受到,大数据的时代已经到来。

随着信息技术的飞速发展,税收征管也已经进入大数据时代,由于数据信息化的广泛运用,使海量数据的即时获取和精确分析成为现实,为研究纳税人办理涉税业务特征提供了良好条件,带来了税收服务手段、服务理念、服务载体、服务管理的大跨越。近年来,广东地税依据纳税人类别、涉税业务类别、办理时段等信息,依托数据信息化逐步形成了服务大厅、网上办税、纳服热线、自助办税、短信服务等多种渠道并存的大服务格局。

一、实现大数据管税的意义

从目前我们系统的数据量来看,还算不上真正意义的大数据。我们的征管系统中大量的数据都是传统的结构化的数据,已经达到了一定的数量,应该更多的是关注如何提高数据质量,如何应用好这些数据。而对于正在生长的海量的非结构化数据,则要关注怎么收集、用什么方式有效管理,从海量数据中发现有用的信息,深入挖掘分析、与征管系统数据综合利用,如何“要让睡着的数据醒过来”,转化为税源,才真正体现涉税数据的价值,才能实现“信息管税”。

在涂子沛的《大数据》中提出,随着技术的发展,数据的存储与处理成本显著降低,人们现在有能力从支离破碎的、看似毫不相干的数据矿渣中抽炼出真知烁见。充分运用大数据的思维和手段,对于大力推进税收治理能力现代化,不断提高税收管理水平,意义重大。

二、当前税收数据应用管理的中存在的问题

近年来,地税部门在税收征管和信息化建设方面积累了大量的理论和实践经验,也取得了丰硕的成果。但受诸多因素的制约,在涉税数据采集、分析、利用等方面还存在一定的问题,影响税收数据的应用效用。

(一)征纳双方信息不对称日益突显

纳税人经营信息存在多样化和复杂化,地税机关获取纳税人信息的复杂性和工作难度明显增加,获得纳税人信息的渠道相对单一,主要是采用纳税人自报与税务机关根据自身工作需要进行采集所得到的信息。虽然省局与市局正在尝试进行政府部门之间的信息共享,但是这些仅仅是起步阶段,还没有完全形成有效、规范的机制。这些因素导致税务机关对纳税人生产经营状况、销售情况、生产成本等信息的掌握不全面,加上税务部门自身也没有一套完善的决策支持体系,严重影响税收数据的收集质量。

(二)税费征收管理系统过多,相互之间存在信息壁垒

目前,地税系统使用软件相对繁多,与税费征管有关的系统包括大集中征管系统、电子办税服务厅、税源管理平台、两业系统、数据综合展现平台、存量房交易计税价格评估系统等十多个操作系统,这其中有省局开发的,也有市局开发的。这些征管系统有部分在数据交换上互不共享,而软件开发公司也不一致,系统维护相对繁琐,给基层税务人员实际操作带来了很大的困扰。

(三)信息数据分析利用的广度深度不够

一是对现有数据的分析利用不足。目前的税收分析主要对税收任务的分析,只是局限于对某些数据的纵向对比分析。虽然这几年在这方面进行了大量的努力,但是没有形成长效的、可持续发展的数据分析模型,与宏观经济、市场变动、企业财务数据等联动分析不足,没有完全发挥数据信息利用应有的作用。二是税收业务与技术没有有效的融合。目前在基层税务机关这是最为薄弱的一个环节,业务与技术基本上还是各自为政,没有形成业务与技术的有效融合,导致对各方信息的横向比对和各时间段信息的纵向分析不足,从分析比对中发现问题的能力较弱,无法形成对信息分析利用的合力,制约了对信息的深度分析利用。

(四)专业信息技术人才缺乏,数据得不到有效利用

目前,以我县的干部职工为例,能够掌握比较系统的、全面的计算机知识的干部很少,另一方面,由于年轻干部交流频繁,精通税收业务的干部也不算多。因此税收信息化建设队伍任务繁重、人员不足、素质不齐等问题比较突出,高素质的专业化人才更是相当缺乏,即懂技术又懂业务的复合性人才更是屈指可数。这就造成即使拥有大量的有用数据,我们的基层税务人员也不懂分析利用,无法及时从中获取有效的数据信息。

三、完善税收数据应用管理的几点思考

(一)运用大数据的思维和手段,树立“信息管税”的新理念 我们都已清楚的看到,大数据时代所带来的思维方式、管理模式、监控手段等方面的变革,对税收征管工作带来了深远而巨大的影响,税收征管已经离不开信息化手段,紧密依托数据信息手段开展税收征管工作,已经成为税收工作的必然要求。结合风险管理和大数据理念,做为新征管改革的突破口,将大数据税收征管模式与先进的管理理念相结合,技术创新与管理创新相结合,通过税源监控、税收分析、纳税评估、税务稽查等质量控制手段,达到堵塞漏洞、纠正偏差、提高税收质量的目的。

(二)制定数据规范化,提高数据质量 要提高数据质量,必须要有数据管理标准和采集操作规范。一是要规范数据采集渠道。建立基层分局、县区局、市局、省局四级数据采集网,有条件的可设置涉税数据采集专业岗位,专门从事纳税人生产信息、交易信息、经营动态信息的采集。二是要加强数据质量的管理。按照统一标准录入有关数据,对采集的数据进行逻辑和真实性检验,把好数据进口关;制定数据审计规则,加强数据质量事中控制和事后比对,将数据质量纳入绩效考核,为数据应用提供准确可靠的信息来源。三是实行信息数据集中处理。建立覆盖采集、交换、分析、应用等主要环节的数据管理体系和运行机制,实现各个管理系统各类征管数据统一存储、加工和管理,实现各类信息资源互通互联共享,实现征管工作各环节在信息化支撑条件下的相互衔接。

(三)充分发挥政府职能作用,实现全社会的涉税信息共享 一方面,大时代数据必将全方位构建数据网络体系,通过政府部门建立大数据仓库,实施统一的信息管理平台,将工商、供电、建设、房产、交通、国土等政府各部门的数据实施统一管理,并对这些数据建立政府数据共享机制。另一方面,积极健全各政府部门间的信息网络,明确各部门通过网络获取信息的相应用户权限,彻底改变信息离散、各自为阵的局面,实现高效的信息共享,为税务部门全面掌握涉税信息提供强有力的外部环境支撑。同时,地税部门的反馈信息也可以帮助社会综合治税的成员单位掌握有关情况,查找各自工作中的不足和监管漏洞,共同提高管理水平。

(四)创新数据挖掘分析方法,打造智能税务

在调查研究的基础上,不断探索,创建科学有效的数据挖掘和分析体系。要建立税收数据仓库,对分散在各个应用系统中的数据进行集成、整合和统一管理,实现数据资源省级集中和共享,为数据挖掘分析提供基础支持。创新税收数据挖掘分析方法,应当注重五个结合:一是宏观与微观相结合。通过宏观分析了解本地区范围内不同行业、不同税种、不同类型企业的税收情况,找到税收管理的薄弱环节,对有疑点的企业、存在问题多的行业从微观上进行纳税评估、税务稽查,采取切实措施强化管理,堵塞漏洞。二是上级与下级相结合。瞄准税收管理现代化方向,省市县层层落实税源专业化管理思路,分级分类加强税收数据挖掘分析工作。三是全面与重点相结合。在全面分析的基础上,各地要结合本地实际突出重点,有的放矢地开展重点数据挖掘分析。四是定量与定性相结合,形成完整的科学的税收分析方法体系。五是动态与静态相结合。进行税收数据挖掘分析时,注意动态数据与静态数据的结合使用,坚持从经济看税源,从纳税人的发展看税源。

(五)培养复合型税务人员,满足大数据税收工作需要

人的因素是搞好一切工作的前提,实行税收现代化管理,必须培养复合型税务人员。复合型人才是“一专多能”、“多专多能”,以博见长,知识面广,易于融会贯通、触类旁通。培养既精通税收业务,又熟练掌握法律、财会、统计分析、计算机等方面知识和技能的复合型人才,是大数据时代税收工作对拥有复合型税务人员的需求。

在大数据时代,我们每个人既是数据的创造者,又是数据的使用者,这就要求每个税务干部,必须要有大数据的思维,运用大数据方法和手段,不断创新税收管理手段和方式,才能实现税收现代化。

参考文献:

(1)涂子沛《大数据》 广西师范大学版社,2012年7月(2)谢永健 《大数据:实现税收现代化的利器》 中国税务报,2014年9月17日

小数据战略决胜大数据时代 第3篇

最近有大量围绕“大数据”开展的讨论,而大数据以数量大、速度快、种类多为特征,需要配备新的数据处理方式。企业想要运用大数据优化决策并提升运营效率,通过数据挖掘更好地了解客户行为和偏好,甚至用大数据预测股票市场动态。一些企业已经运用大数据战略取得了成功,其他企业也纷纷开始投资大数据所需的基础设施、软件、人才。

然而,有一个要点需要说明。许多企业,可能是大多数企业,都处在数据相对不足的环境,无法获得高级分析和数据挖掘所需的大量信息。例如,销售终端机(POS)的交易数据在新兴市场还未实现标准化操作。在多数B2B行业,企业可以获得自身的销售和配送数据,但很少能了解整体市场销量或竞争对手所售产品情况。在高度专业化或集中的市场,例如汽车零部件供应商市场,其潜在客户的数量有限。这些企业不得不满足于小数据,即使是在数据不足或数据质量参差不齐的情况下,也要通过运用有限的数据形成洞察。

一些评论人士称,大数据不仅仅是新的数据来源和分析技术。大数据彻底改变了决策方式,从管理层根据直觉制定决策转变为根据数据制定决策。而对于那些缺乏完整或明确的市场数据的企业,它们必须努力高效地运用现有数据(可能存在数据不够完善的问题)或运用创新且低成本的方式获得新数据。

让我们来看一个小数据战略的例子。一家大型饮品生产商希望提升其产品在即饮渠道,即酒吧、餐厅、娱乐场所的销量。多年来,该公司一直从同一家机构购买同步数据,这些数据涵盖了10万个销售点。然而这些数据是为了满足大量客户的普遍需求而收集和梳理的,运用标准化的划分方式,并不能帮助该饮品企业了解如何有效地为不同细分市场提供服务。因此,该公司决定采用一系列小数据技术,以便根据需求制定解决方案。

该公司先采用观察研究法,参观了酒吧和餐厅,对消费者及其消费方式进行定性记录。该公司运用这些数据获得了更可行的细分市场定义。接下来要将细分市场进行量化,明确各个细分市场有多少销售点。该公司根据观察到的特征制定了公式,然后让销售人员根据公式将所有销售区域覆盖的酒吧和餐厅进行分类。(这就是一项典型的小数据战略:内部填补数据空缺。)最终,该公司根据各主要细分市场设计了特定的产品组合、定价、市场营销项目。该公司已经在两个大城市开展了相关试点项目,整体销售额和市场渗透率都得到了大幅提升,并正在全国范围推广该举措。

再比如中国的海尔,运用服务工程师收集的信息推动了创新。最知名的可洗土豆的洗衣机就是在上世纪90年代末,工程师发现一些农村消费者用洗衣机清洗蔬菜造成了堵塞,海尔运用该信息开发了一款在洗衣服之外兼顾清洗土豆、红薯和花生的新型洗衣机。

明确思路后,其实所有的信息都能被用于提升产品、客户体验或公司利润。因此,小数据战略可以包括任何能让公司在低成本前提下获得更多客户洞察的方法。如上文所示,挖掘小数据并不意味着要在数据获取、硬件、软件或技术设施方面做大量投资。

此外,企业需要做三方面努力:

致力于发展以事实为依据的决策机制。当公司发现竞争日益激烈或无力准确捕捉多变的消费者习惯和偏好时,通常会萌生这种想法。对于以市场为导向的企业而言,以事实为依据的决策机制是获得竞争优势的重要来源。

有边做边学的意愿。既然小数据战略不需要通过第三方,企业就不得不亲自做出尝试并从错误中汲取经验教训。一旦明确了一些重点,一系列的试点项目将给企业带来宝贵经验,而那些较早通过小数据战略获得成功的企业恰好能激励其他企业。

提升创造力。为了获得更丰富的数据,企业需要提升创造力,自然而然地将创新融入到与消费者的互动过程中。例如,零售商可以烦请门店的客户用iPad完成调研问卷。企业还可以在任何带有信息登记功能的网站上加入询问消费者偏好的问题以收集相关信息,进一步完善网站收集到的一些基础数据。呼叫中心客服人员和消费者的对话也是收集信息的好机会,有利于获得更为深入的消费者洞察。一些企业还会组织善于钻研的成熟消费者组成用户小组,在研发新产品的过程中听取用户小组的建议。有的企业会依靠销售代表获得关于消费者偏好以及竞争对手活动的相关信息。但更重要的是,企业必须投入更多精力收集并解读已经生成的数据。

企业通常会挑选需要关注的一款产品、一个区域以及一个问题而开启一段数据分析之旅,还会开展一个或多个试点项目。高管们会向自己和企业其他成员证明投入的精力和成本是值得的。一旦企业开始投资数据分析,就很难停下脚步,因为它们发现数据分析成果对业务的推动作用远超所产生的成本。这些项目在资金上最终都能自给自足。在有些情况下,企业从小数据入手,在发现数据分析能带来重要的洞察见解后,开始加大相关投资,以便整合更大的数据集并开展更多高级分析。对于另外一些企业而言,小数据已经能满足它们的需求。

大数据时代呼唤数据产权 第4篇

(一) 大数据时代

关于大数据的议题, 虽然早在1980年托夫勒的《第三次浪潮》中就有所提及, 但在2011年以前, 关于大数据的讨论基本局限于计算机技术领域内部, 影响范围相对较小。2011年6月, 作为全球信息产业的领导企业IBM公司以及全球著名的管理咨询公司———麦肯锡相继发布了有关大数据的研究报告, 着力于促进大数据概念和应用的推广。2012年3月美国政府发布“大数据研究和发展倡议”, 把大数据上升到了国家战略的层面。大数据逐渐引起了广泛的关注, 大数据时代已经到来。人们可以通过对海量数据的抓取和处理, 来预测市场风险、疾病传播、交通状况或者潜在购买者等等信息, 这就是海量资料或称之为“大数据”的应用。

(二) 大数据开发面临的困境

目前大数据的产业链可分为数据源层、数据存储平台层、数据分析和挖掘层以及大数据应用层这四个层次: (1) 数据源层主要包括互联网、移动互联网、电信运营商和科学研究等; (2) 数据存储平台层主要包括云服务平台 (如阿里云、亚马逊等) 和云存储设备商 (如思科、联想等公司) ; (3) 数据分析和挖掘层主要包括综合服务商 (如IBM、惠普等公司) 和专业服务商 (如美国的Teradata公司和Datameer公司等) ; (4) 大数据应用层主要包括互联网、电信、金融、零售、健康和安全等领域。我国大数据产业中主要企业类型是像华为、浪潮、用友这样的ICT服务商 (1) 以及如阿里巴巴、百度、腾讯这样的互联网企业。

虽然大数据在我国已成为一大批行业和产业的新战略高地, 但是其权能归属、制度保障等问题仍然困扰着这些行业和产业的发展。目前制约大数据在中国发挥其更大作用的因素主要有以下几点: (1) 数据标准和共享问题; (2) 数据隐私问题; (3) 知识产权框架和保护创新; (4) 技术标准和关键领域的研发。本文将主要从知识产权保护创新的角度对大数据时代数据开发者的权能进行分析和考察。

二、设立数据权能的可行性和必要性

国际知识产权体系是一个开放的体系。从保护工业产权的《巴黎公约》到保护文学和艺术作品的《伯尔尼公约》, 从规定了八项知识产权权利的《成立世界知识产权组织公约》到保护植物新品种的《日内瓦公约》, 再到1994年世界贸易组织缔结的《与贸易有关的知识产权协议》 (以下简称TRIPS协议) 将未披露过的信息专有权 (企业商业秘密) 和集成电路布图设计权等纳入知识产权保护对象的范围之中, 国际知识产权保护制度的发展, “知识产权”所包含内容的不断更新, 一次又一次地证明着它是一个不断发展和完善的体系。在大数据时代的背景下, 设立相关的数据权能有一定的可行性。

此外, 国际上从1995年欧盟颁布《个人数据保护指令》到世界知识产权组织的《数据库知识产权条约草案》到加拿大的《个人信息保护和电子文档法案》、美国的《隐私权法案》等等, 这些国家和国际组织都一直关注与数据、个人数据、数据库等问题的立法, 而我国目前还没有一部关于数据方面的正式法律。与此同时, 我国又是一个数据大国, 众多的人口、广阔的国土就决定了其数据的庞大性。面临信息大爆发、数据“疯狂”增长的大数据时代, 如何更好地在这个时代抢占发展的先机, 笔者认为设立相关的数据权能保护制度具有十分重要的意义。

三、数据产权的概念及其可知识产权性

(一) 大数据时代大数据的定义及分类

大数据时代中大数据的概念不同于一般意义上的数据, 目前学界对此也并无统一的定义。参考维基百科对其定义:大数据 (Big data) , 或称巨量数据、海量数据, 指的是所涉及的数据量规模巨大到无法通过人工, 在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

本文所研究的大数据由公有数据和专有数据两部分构成。公有数据是指存在于公有领域的数据, 任何人都可以无偿的进行收集和使用, 而无需征得数据权利人的许可, 包括了公有领域的信息资料、原理公式、历史材料等数据, 以及政府为服务社会公众投资开发的各种数据, 例如气象资料、地理数据、新闻资讯、电话号码等等。所谓的专有数据则是由企业单位或个人投资开发的, 权利人享有数据的专有权, 未经权利人许可其他人不得传播、使用的数据。

(二) 数据产权的概念

大数据产业中, 数据分析和挖掘层中的数据开发者通过对大数据的抓取、分析、加工等手段, 得到新的数据信息, 在这个过程中, 其付出了一定的智力劳动, 对于这种智力劳动应当予以激励创新、促进发展。在排除了为开发数据所设计的计算机软件的著作权外, 数据开发过程中凝聚了数据开发者智慧和劳动的智力创造, 目前却难以找到特别准确的权能予以保护。

由此, 笔者提出“数据产权”这个概念, 数据产权是指数据开发者对合法获得的共有或专有领域的数据, 通过抓取、分析、加工、处理等智力劳动获得的数据或数据集所拥有的人身权和财产权。

(三) 数据产权的可知识产权性

知识产权的典型特征包括创新性、私有性、地域性和时间性, 设立知识产权制度的根本目的是使人们获得对其智力劳动成果在一定时期内的专有权利, 并努力使“激励创新”和“促进使用”、“创造者利益”与“使用者利益”达到一种平衡。然而, 随着大数据时代的到来, 传统的知识产权所保护的权利已不能涵盖新出现的一些权利要求, 如大数据产业中, 对数据进行抓取、加工、处理的数据开发者的权利保护问题。

1. 数据产权的创新性

“知识”之所以成为知识产权保护的对象, 根本原因是它的创造性以及这种创造性所具有的价值。大数据的开发是多种技术的集合, 主要包括了分析技术、内存数据库、面向网络操作系统的No Sql数据库和分布式计算技术等 (2) 。该过程中, 除了运用现有的相关数据开发软件, 其关键还在于数据开发者的智力劳动, 不论是凭借其知识经验, 还是依靠其逻辑分析, 这个过程无不凝聚了开发者的思想和智慧, 具有一定的创新性。

众所周知, 作为一种激励创新的制度安排, 知识产权制度将创新性视为一切智力成果依法获得知识产权保护的正当性前提。 (3) 因此, 对大数据开发中具有创新性的智力成果, 也可以将其纳入知识产权体系加以考察。

2. 数据产权的私有性

关于知识产权制度的合理性, 在经济学的范畴里, 洛克的“劳动价值学说”具有非常重要的理论价值, 因为该学说为财产找到了合法性基础, 并确立了社会发展的核心价值, 扩张了人格权 (创造物是自己人格的扩张) , 使财产权具有了人权基础。 (4) 洛克的“劳动价值学说”中“留有足够多的同样好的东西给其他人所共有的情况”反映在大数据的处理上非常的贴合:因为大数据开发主体所处理的数据, 不论是公有领域的数据还是他人专有的数据, 这些原本的数据不因之消失或者有所减损, 而经过处理所得到的新的数据或者数据集, 是一种智力创造成果。

因此, 数据开发主体拥有相应的其对数据进行抓取、加工、处理所得成果的所有权也是无可厚非的, 并且该权利也符合知识产权的私权特征。

由此可见, 将大数据开发过程中数据开发者的“数据产权”纳入知识产权体系进行考察具有一定的理论价值和现实意义。

四、对数据产权相近概念的考察

与数据产权保护较为相关的是数据库知识产权保护问题, 此外从对数据开发者权益保护的方式来看, 还可通过商业秘密等形式加以保护。以下笔者将分别对此予以讨论。

(一) 数据库问题

在我国的知识产权法规中, 对“数据库”一词没有明确定义。1996年3月欧盟通过的《关于数据库法律保护的指令》, 作为一个较早出现的单独规范“数据库”的国际区域性法律文件, 其对“数据库”的定义是“经系统或有序的安排, 并可通过电子或其他手段单独加以访问的独立的作品、数据或其他材料的集合”, 并且在其序言的第17段指出“数据库”一词的含义所包含的内容, 如文学、艺术、音乐或其他形式作品, 也包括诸如文本、录音资料、图像、数字、事实和数据的其他资料, 以及能够进行有序编排且分别存取的独立的作品、数据或其他资料。同年12月世界知识产权组织 (WIPO) 在“关于版权和邻接权若干问题”的外交会议上通过的《世界知识产权组织版权条约》, 明确指出按照文学艺术作品的著作权形式进行保护的是数据汇编 (数据库) 内容选择或排列所构成的智力创作, 这种保护并不延及数据或资料本身以及这些数据资料中已存在的任何版权。

由上可知, 数据库具有集合性、有序性、可访问性等特点, 通过著作权的形式保护的是对数据或其他资料汇编过程中对内容选择或排列的智力创作。而数据产权所保护的对象是大数据开发过程中数据开发者对数据内容的逻辑分析、数据建模等智力创作, 与数据库权利有一定的相似性。

(二) 商业秘密

目前, 我国还没有一部独立的法律来规范“商业秘密”, 相关的一些规定散见于《反不正当竞争法》、《民法通则》、《刑法》、《合同法》等多部法律的条文中。纵观国际上对“商业秘密”的保护, TRIPS协议中的第39条规定了对未公开信息的保护, 要求对具有商业价值且已采取合理的保密措施的数据、信息进行保护, 禁止不正当的商业性使用。世界上大多数国家对“商业秘密”的保护都是通过反不正当竞争法的方式进行的, 但也有像美国、瑞士等国家将“商业秘密”的保护单独立法的, 如美国于1970年通过了《统一商业秘密法》, 并将“商业秘密”定义为特定信息并加以保护。

根据我国《反不正当竞争法》的规定, “‘商业秘密’是指不为公众所知悉、能为权利人带来经济利益, 具有实用性并经权利人采取保密措施的技术信息和经营信息”。商业秘密具有秘密性、价值性和保密性的特点。从保护对象的特性上来说, 数据产权也具有价值性、保密性的特点, 在没有单独的法律法规对数据产权予以规范和保护时, 依托商业秘密的保护也不失为一种立法的过渡。

五、结语

大数据时代已经来临, 数据开发者、原始数据拥有者、社会公众等各方利益发生了较大冲突, 数据权能的研究有利于各方法益的平衡。此外, 大数据开发与国家信息化战略息息相关, 数据产权概念的提出有利于朝气蓬勃的大数据产业健康发展。鉴于知识产权制度是一个发展的法律体系, 当前传统知识产权调整对象具有一定的局限性, 在考察大数据时代数据产业发展面临的现实法律权责问题后, 笔者呼吁创设数据产权的概念, 以期充实和完善大数据时代的知识产权体系。

摘要:本文主要是在大数据时代的背景下, 剖析了大数据时代的数据开发困境, 分析了设立数据开发者数据权能的可能性和必要性, 提出对大数据时代的数据权能的新定义——数据产权, 并对数据产权的可知识产权性及其相近概念进行了探讨和研究。

关键词:大数据,数据产权,知识产权

参考文献

大数据时代的小数据的阅读答案 第5篇

○2小数据就是个体化的数据,是我们每个个体的数字化信息。比如我天天都喝,突然,有天喝完酒了胃疼,那么这天和之前的每一天有何不同?原来,这天喝的酒是个新牌子,可能这就是导致胃疼的原因。这就是我生活中的“小数据”,它没有大数据那样浩瀚繁杂,却对每个人的个体至关重要。

○3第一个意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔·艾斯汀。艾斯汀的父亲去年去世了,而早在父亲去世之前几个月,这位计算机科学教授就注意到老人在“数字社会脉动”中性号异常——他不再发送电子邮件,不去超级市场买菜,到附近散步的距离也越来越短。然而,这种逐渐衰弱的状态,在医院的心电图中是看不出来的,这个90岁的老人在检查时并没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显发生变化。这种日常小数据带来的生命讯息的警示和洞察,启发了艾斯汀,他发现小数据可以看作是一种新的医学证据,它是唯一的“your row of their data”(他们数据中属于你的那行数据)。

○4也许人们都知道,大数据将改变当代医学,譬如基因组学、蛋白质组学、代谢组学等等,不过由个人数字跟踪驱动的小数据,同样可能为个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全、私人地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通讯,这些数字追踪将得到一幅只属于你的健康自画像。

○5【 】譬如我们可以分析年老父母的集成数据,用于比较不同的医学治疗方案:如果患者想要确定适合自己的服药剂量,就可以通过数字跟踪数据前后比较,了解不同剂量的药物对自己日常功能的影响;对于慢性病、抑郁症、记忆力衰退等病症,日常活动变化的数据同样非常重要。长期以来,攻克癌症一直使人们的梦想。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化,大致相同的基因变异只占患者的10%。也就是说即使是同一个肿瘤,其细胞的变异也可能是不同。所以,利用患者的.数据进行个性化的癌症治疗,不是“对症下药”,而是“对人下药”。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,所以“小数据”也可以有大作为的。

○6有人说,个人小数据汇聚起来不就是大数据了吗?从大数据里面取出相关的小数据就可以了吗?其实不然,小数据是隐私的,不能共享的,而且它是动态的变化的,着些特征使得小数据不能与大数据混为一谈。

○7当然,这并不是说大数据就不重要,在医学上发现某种疾病治疗的一般规律都离不开大数据。也就是说,依靠大数据可以得到一些规律或普遍现象,而用小数据小数据去匹配个人,表现个性化特点。不过,大数据流行,大家就只谈“大数据”,这显然不是做学问该有的态度。(文章有改动,作者闵应骅系中国科学院计算技术研究所研究员)

【问题】

14、根据上下文文意的连贯,以下填入第○5段横线处最恰当的一句话是( )(3分)

A、的确,小数据可以在很多研究领域中完全替代大数据。

B、那么,运用小数据进行研究到底有哪些成功的案例呢?

C、那么,肖书记可以为我们提供多少研究的可能性呢?

D、那么,小数据和大数据到底哪一个的作用个更突出?

15、对上文理解正确的一项是( )(3分)

A、作者认为我们每个个体而言,大数据太过繁杂,小数据却和我们生活息息相关。

B、第○3节以艾斯汀父亲的例子具体说明了个体化数据因无法检测而在医学上价值不大。

C、根据第○5节所列的数据可知:肿瘤细胞在癌症病人体内发生基因变异的可能性并不大。

D、第○7节告诉我们:大数据远比小数据重要,因为借助它能够发现疾病治疗的规律。

16、联系上下文,第○5节中加点词语“对症下药”是指【 】,而“对人下药”则是指【 】(4分)

17、结合文本,判断下列不属于“大数据”的一项是( )(2分)

A、小明具有A型血做任何事情都条理分明、十分细心认真的特点。

B、感冒一般鼻塞、喷嚏、头痛、咳嗽、咽喉红肿等明显症状。

C、小宝宝一般4到10个月开始出牙,最晚2岁半出齐全部乳牙。

D、为了怡情养性,小红以一杯绿茶代替了原来每天喝的咖啡。

18、上文花了大量篇幅介绍小数据,那么题目能否改成“小数据”呢?请作出判断并简述两点理由。(5分)

答:【 】。(1)【 】;(2)【 】。

【参考答案】

14、(3分)C

15、(3分)A

16、(共4分,每空2分)针对癌症的一般规律进行治疗考虑到每个病人的个体特点,借助“小数据”进行个性化治疗

17、(2分)D

18、(共5分)不能改(1分)

理由(1)从①②④节可知,本文不是简单地介绍小数据,而是要说明大数据背景下小数据的重要性;

(2)结合⑥⑦节可知,文章还点出了大数据与小数据在特性功用上的差异;

大数据时代的高校共享数据平台研究 第6篇

摘 要:在教育领域中,管理和决策越来越依赖于数据和分析,如何利用大数据科学决策是高校近年来信息化建设关注的主题。文章分析了高校共享数据中心平台的理论知识和相关技术,讨论了面向服务的数据交互技术方法及共享数据中心的非技术因素。最后分析设计了面向主题域的常熟理工学院共享数据中心,并对其体系架构及关键业务系统的数据流向做了详细的分析叙述。

关键词:大数据;数据交换;数据中心

中图分类号:TP392 文献标志码:A 文章编号:1673-8454(2015)10-0010-03

大数据科学决策是高校治理体系和治理能力现代化的关键。在教育领域中,管理和决策越来越依赖于数据和分析,而非基于经验和直觉,然而,目前大多数高校的管理模式中信息化的作用尚未充分体现,尽管在长期的办学过程中积累了大量的数据,但这些宝贵的决策信息资源没有得到相应的整合和开发,更谈不上利用这些数据对学校的教学、科研、管理等各项事务进行预测和分析。随着大数据发展而带来的教育政策研究与决策“用数据说话”的趋势亦渐明显,构建共享数据中心,将这些海量、分散、异构的数据资源集成起来达到共享、融合,通过多维度、多层次、多群体、多因素数据分析并形成一定的应用模式,从中分析和挖掘潜在的价值,去解决高校事业的瓶颈问题,是将大数据应用于教育领域的重要举措。

一、大数据时代的高校共享数据平台的相关技术及理论

1.信息编码标准

信息编码标准是做好信息管理的基础,信息只有遵循一个统一的标准进行组织,才可能构成一个可流通、可共享的信息库。信息编码标准是数字化校园中不同层次的系统尤其是应用系统能够相互访问的基础。数据交互过程中,各业务系统数据信息要按照信息编码标准的数据标准进行数据清洗和过滤,处理后的数据才会存储到中心数据库。信息编码标准是学校信息化建设的必要条件;同时信息标准的水平也反映了学校信息化建设的水平和高度。

2.共享数据模型

共享数据中心主要完成学校各类跨地区、跨部门、跨系统的管理数据与信息资源的数据交互和共享,是各个业务系统数据交互的中转站,是信息资源的存储中心。由于各学校早期的信息化建设基本都是由业务部门主导,缺乏统一规划,没有统一标准。同时考虑成本以及推倒重来的建设风险等因素,一般建议采用交集数据中心模式建立共享数据中心,即:各系统间的数据交互完全通过数据中心来完成;共享数据中心只对交互系统之间需要交互的数据建模,各系统沿用原有的权限模型,需要交互的数据在相关系统中独立的存在,但所有数据有且只有唯一的维护源头。

二、大数据时代的高校共享数据平台总体设计

1.共享数据中心体系架构(图1)

(1)数据采集层

采集的数据主要包括基础数据,如人、财、物等基本信息;学校开展教与学主体事务的业务数据,如教师教学、学生选课等;体现教师学生成长与发展的过程数据等。数据采集层主要完成上述相关数据的采集工作,其中大部分数据随着其相关的业务系统日常运作过程而积累下来,还有一部分是相关管理人员手工录入,或者电子表格批量导入。

(2)数据集成层

数据通常存储在很多个不同的数据存储系统中,从所有源中提取数据并将其合并到单个一致的数据集中确实有一定的难度。数据交换工具通过转换功能对数据进行清理、标准化及转换,数据转换为兼容格式后,就可以将其物理合并到一个数据集中,并且数据在合并成功且应用转换后,通常会被加载到一个或多个目标。

数据集成层同时还负责加载数据库中的维度表和事实数据表,处理 Analysis Services 多维数据集和维度,使用 Integration Services 任务和转换来自动处理更新多维数据集和维度,使用户始终获得最新的数据。

(3)管理操作层

管理操作层的基础数据主要来自各个业务系统,有的统计指标类数据是经数据仓库加工提供。管理操作层面向教育治理者日常管理,主要包括师资队伍建设管理、师资结构分析、学业预警、教学考核等。归纳如下:

为满足日常管理,提供了以固定报表为主的综合报表统计平台。

为便于突发性和临时查询需要,提供了各大主题的综合查询平台以及基于数据仓库的灵活查询功能。

为规范对外数据报送,提供了统一的对外数据报送接口。

2.主要业务系统数据流向

共享数据中心本身不会产生数据,所有的业务数据的维护遵循数据生命周期按照“谁产生,谁维护”的原则,各自业务系统分别产生数据,所有数据只有唯一的生产源头。共享数据中心与各业务系统之间进行交互,一方面保证基础数据在各系统中的一致性,同时也对主要业务数据进行积累沉淀。

以学生数据为例,学生的人头数据以学籍系统为准,而学生的其它基础数据又在学工系统中维护完善。数据共享中心既负责从学籍系统中抽取学生人头数据推送学工系统,同时又从学工系统中抽取完整的学生基础数据存储在数据中心,图书系统、一卡通系统等业务系统从共享数据中心订阅学生相关数据。其主要业务系统数据流向如图2所示。

三、共享数据中心的非技术因素

1.数据质量管理

数据是高校有效开展信息化管理和辅助决策分析的依据,是实现高校治理现代化的重要保障,因此其质量和时效性已经越来越受到高度关注。提高数据信息的质量,加强数据管理,不仅需要在高校日常工作中充分利用现代信息技术,强化高校业务与信息技术的融合,还要依靠广大师生的配合参与,必须循序渐进,稳步推进。

(1)从源头治理,从数据录入、内部处理入手,把好数据质量“入口关”;

(2)督促问题治理,部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”;

(3)做好规范管理,完善制度、规范流程、系统硬控制,把好数据质量“流转关”。

2.数据安全管理

大数据既意味着机遇,也蕴涵着挑战。数据安全管理问题,是高校应用大数据面临的最大风险。虽然共享数据中心模式数据管理,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。在使用数据过程中应遵循以下原则:

(1)使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据混淆。

(2)对生产用户进行严格的授权管理,防范非授权访问生产数据。

(3)含敏感信息的生产数据应使用专用邮箱传输等。

(4)对生产数据建立和实施严格的备份机制。

四、总结

在大数据的支撑下,高校运行过程的各种元素能够实现数字化的呈现,数据得到实时流转、存储和整合,信息按照权限充分公开。大数据能够聚焦于决策对象的微观层面,将原本模糊的现象通过数据逐步清晰的描述出来,大数据是超越个体与局部的相对静态视野,更容易发现问题所在、可能弱点和盲区的宏观动态视野并且用于各项事务的预测和决策。本文讨论了面向服务的数据交互技术方法、数据流向以及一些非技术因素,设计了面向主题域的共享式数据中心。本共享数据平台成功应用在常熟理工学院数字化校园建设项目中,通过数据交换、主题分析,为学校的科学决策提供了有力保障,推进了学校的现代化治理能力和水平。

参考文献:

[1]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].电子科技,2015,(2):127-130.

[2]陈瑞.大数据时代基于共享平台的信息服务工作研究[J].科技创业月刊,2015,(1):20-22.

[3]赵巍,刘丹,王欢.高等学校共享式数据中心设计与实现[J].长春理工大学学报(自然科学版),2015,(1):132-135.

[4]陈霜叶,孟浏今,张海燕.大数据时代的教育政策证据:以证据为本理念对中国教育治理现代化与决策科学化的启示[J].全球教育展望,2014,(2):121-128.

[5]张建.教育治理体系的现代化:标准、困境及路径[J].教育发展研究,2014,(9):27-33.

[6]阎光才.高等教育治理体系与治理能力的现代化[J].苏州大学学报(教育科学版),2014,(3):1-3.

大数据时代的数据挖掘 第7篇

企业在信息化建设中, 重点关注的是信息系统对现有业务的支持, 对业务流程的自动化处理, 而没有意识到隐含在数据中的商业价值, 在管理上缺乏对大数据的应用, 导致企业管理高成本、效率低的局面。其次, 由于政策原因很多大企业没有意识到大数据技术的迅猛发展, 在信息化建设中再次处于落后状态。

信息技术的迅猛发展从某种程度上促进了企业集约化与精细化发展, 企业对于信息技术亦愈发重视, 对数据的价值和需求越来越高, 原有的信息技术手段与传统的数据处理方式已成为飞速发展的瓶颈。随着数据呈几何倍数爆炸式的增长, 数据的规模、种类、变化频度和数据的价值也发生了巨大的变化, 因此数据的研究方法、手段和观念也发生了变化。企业亟须通过信息技术手段解决和消化数据, 消除企业内部的资源共享壁垒, 实现数据的共享与融合, 因此借着大数据、云计算的发展, 结合数据挖掘的研究方法, 采用新的信息技术解决海量数据的分析、集成、共享等问题。结合行业的特点及目前工作的特征, 解决用户多种形式、多数据源的集成需求, 快速响应用户, 提高用户感知度, 降低数据集成的复杂度和操作难度, 深度挖掘潜在业务数据价值, 反相分析业务结果数据的业务关联关系, 重塑业务流程, 提供切实有效的业务数据质量检查、业务数据关系检查的工具, 提高业务数据质量, 提高业务水平。

实现大数据分析技术, 企业需要解决如下问题:1.统一数据源:整合异构系统的数据资源形成共享数据源, 通过转换工具统一数据格式, 实现数据交换、数据采集和数据分析的基础资源;2.清楚需求目标:认识企业自身发展对数据对象的需求, 对数据对象进行有效分类, 确认分析结果的商业价值;3.数据挖掘选型:针对不同数据对象类型和分析过程, 选择合适的数据挖掘技术, 对大数据进行分析。

数据挖掘技术

数据挖掘的概念

数据挖掘是从现有企业信息系统长期积累的大量业务数据中, 按照企业发展需要整理数据、分类存储、按规则提取、按目标模型分析, 最终获取隐含在杂乱无序的大数据中的有效信息和知识的过程。

广义上, 数据挖掘是基于一些事实或观察数据的集合中寻找一定模式的决策支持过程。对于企业, 数据挖掘的对象数据主要包括两部分:一是信息系统长期保留在数据库中的业务数据, 通过这些数据的挖掘和分析, 能够为企业管理提供决策支持;二是互联网上的用户数据, 其目的是通过挖掘分析获取用户行为习惯, 以便调整企业服务模式来迎合用户需求。数据挖掘提取的知识通常表示为概念、规则、规律、模式、约束、可视化等形式, 可以被用于信息管理、查询优化、决策支持和过程控制等, 还可以用于数据自身的维护。

数据挖掘的过程

数据挖掘过程是基于对数据对象的深刻理解基础之上, 为数据对象有针对性的选择数据挖掘方法。因此, 充分了解业务领域的前提下, 掌握行业数据对象的背景知识, 明确数据分析的目的, 将数据挖掘方法、统计分析技术与专业领域知识技术相结合, 才能体现出数据挖掘对企业的应用价值。

数据挖掘过程一般由三大阶段组成:数据准备、数据挖掘及解释评估。数据挖掘可以描述为这三个阶段的递归过程, 如图1所示。

数据准备过程 (数据源的集成、数据的选择、数据的预处理) 的优劣, 对数据挖掘的准确度、效率以及最终采用挖掘模式的有效性都有影响。该阶段主要完成的工作包括:数据集成, 实现数据对象整理、清洗等;数据选择, 根据商业需求分类和提取数据集合;数据预处理, 检查数据的完整性和一致性, 目的是消除数据中的非主体数据;数据转换, 是完成数据从数据源向目标数据仓库的转化过程, 是将数据值按照目标数据的属性分组分类, 包含数据转换过程中需要的计算组合等操作。

数据挖掘通过选定的数据挖掘模式, 从海量数据中多次提取并转化为用户需要的知识。解释评价是根据最终用户的决策目的对所提取的知识进行多次清洗与分析, 将最有价值的信息甄别并提取出来, 提交给最终用户。

数据挖掘的体系结构

数据挖掘系统一般可以分为如下三层结构, 如图2所示。

第一层既数据源层, 包括传统的数据库集合、外部的具有一定格式的数据资源等以及数据仓库集合。数据的挖掘是否需要建立在数据仓库的基础上一般需要视实际情况与具体需求而定。如果实际情况与需求允许, 使用数据挖掘技术与数据仓库协同工作, 将会大幅度的提高数据挖掘效率;第二层是数据挖掘的工具, 利用数据挖掘方法 (常用的方法包括聚类分析、分类分析、关联分析等) 分析各数据源中的数据, 通过ETL工具将数据进行多次清洗与转化;第三层是用户界面, 可以通过可视化工具将获取的最终信息展示, 更好的让用户理解和观察。知识库是用于存放专业领域知识, 按照各专业领域建立的主题库, 为后续的数据分析指导准备或数据挖掘结果的评估。

数据挖掘在BI的应用

BI (Business Intelligence) 即商业智能, 是目前流行的词汇, 是数据采集、转换、分析与预测、展示这一整套完整的过程实现, 是数据挖掘与企业已有信息系统支撑的关键业务职能和流程充分结合, 以企业商业目标为导向的普适方案。整个BI的流程如图3所示。

ETL是对企业数据进行数据抽取、转换、装载的过程, 负责将企业各类业务信息系统数据源中的数据, 通过数据中心ODS层抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库, 成为联机分析处理、数据挖掘的基础。BI的难点不是技术, 而是对于业务的深刻理解, 将业务与技术结合, 建立正确的模型, 才能实现真正意义上的商务智能。

结语

通过技术手段获取海量业务数据中隐含的商业价值, 为企业的经营决策提供支撑, 是当前企业信息系统深化应用的研究热点。本文详细论述了大数据挖掘技术的概念、体系结构和实现方法, 阐述了数据挖掘技术在商业智能中的应用。基于大数据的分析技术是当前研究的热点, 必将对企业信息系统的深化应用产生积极推动作用。

大数据时代数据图表呈现模式 第8篇

图表是一种重要的交流工具, 精心设计的图表比数据表格更容易了解数据走向、变化趋势, 一目了然展现数据之间的关联, 简单、直接, 一击即中。

1 呈现具有比较型数据类的图表

比较数据在数据分析中是常用的一种分析方法, 例如, 数据的差异比较、两两比较、环比、同比;某时间前后数据变化趋势。

1.1 比较视力矫正前后的数据

老人随着岁月视力有不同的衰减, 看东西逐渐变得模糊, 一旦严重则需要做白内障手术。作为临床信息积累, 需要掌握手术后的视力改进情况, 将好的经验推广。例如, 部分数据为例, 如图1所示的数据, 在Excel电子表格平台实现, 设置次坐标轴、分类间距变小、边框虚线、无填充柱形图等功能。

这样的柱形图表, 针对每个姓名矫正前后以中线对称, 便于比较, 实线的柱形图是矫正前的, 其数据靠下, 虚线的柱形图是矫正后的, 数据在上, 后者高于前者, 一目了然获取前后数据, 直观。

1.2 比较两个公司销售额的信息

在商业营销中常常比较不同分公司销售业绩, 或者同公司不同营业员的业绩等。例如, 部分数据为例, 如图2所示的数据, 在Excel电子表格平台实现, 通过“条形图”类型, 设置A公司最小值-7 000, 最大值7 000设置, 设置B公司数据的次坐标轴且“逆序刻度值”, 设置次坐标轴最小值为-7 000, 最大值为7 000、缩小条形图的分类间距、边框虚线、无填充色, 以及纵坐标轴的标签为“低”, 效果参加图2。

1.3 比较计划完成与实际完成的数据

实际工作中会有预期和现实、计划和实际完成的两类不同数据比对, 以了解预期和现实、计划与实际完成的状况, 例如, 是超额还是滞后等, 若超额, 超了多少;若滞后, 又滞后了多少, 希望在一个图表呈现出这4个数据。一般情况, 我们获取的数据如图3所示的左侧, 只要计划完成和实际完成两列数据, 为了绘制所需图表, 需要重新设计产生图表的数据, 将图3左侧数据修改为中图的4列数据, “超额”列数据由公式产生, 其值是实际完成———计划完成;“未完成”列的值是计划完成——实际完成。目标是满足构成堆积柱形图条件, 使同行数据叠加。每2行空1行以便柱形图之间产生1个间隔。

新的数据构成之后, 就很容易实现如图3右侧的图表, 一目了然展现每个城市计划与实际完成的情况, 例如, 北京, 计划完成1 230, 实际完成了1 780, 超额完成了550;而上海, 计划完成2 190, 实际完成1 500, 滞后了690。

图表的视觉效果与数据关联, 让数据与图表设计更有意义, 从而提供更高效的决策。

1.4 比较考试成绩整体与细节数据的图表

如图4左侧所示数据, 显示三个科目的分科成绩与总分, 希望通过一张柱形图类型图表来呈现各自数据以及相互关联, 即在分类轴上显示每个学生, 其对应的3个科目和总分的柱形图, 且总分柱形图包含了3个科目成绩的细节柱形图, 如图4右侧所示。实现方法, 主要设置总分柱形图的次坐标、间隔10%、重叠-30%, 以及具有一定透明度的纯色填充。

其效果使用一个较大柱形图显示某个学生总分, 使用其包含的3个柱形图显示各科成绩, 清晰表示了整体与细节的关系。

2 呈现多项指标评估项目的评价图表

项目评估经常针对经济、社会、投资等方面, 从多个视角实施论证和评价, 为决策者选择项目及实施方案提供依据, 并力求客观真实、准确地完整地汇集数据资料, 并呈现于决策者面前, 有科学依据地给予正确的决策;项目评估, 在可行性研究的基础上, 根据有关法律、法规、政策、方法和参数等进行全面技术经济论证和评估, 其目的是判断项目方案的可行性或与其他方案比较优劣。

这里我们用高校学生对教师的评估来举例。每学期每个学生将对他所上课的教师进行评价, 使用十项评估项目考评, 如图5所示, 每项评估项目的评价有5个等级:很好、好、一般、差和很差, 依次得分5、4、3、2和1。

对教师的评价结果显示在数据表格里, 显然不够凸显, 我们将评估项目和得分两列数据图表化, 制作如图5所示的雷达图图表, 十个项目构成的十边形环, 每个角代表一个项目得分, 坐标轴的间隔为0.5, 这样构成了10个环, 按十个项目得分构成的闭合图形就是该教师十项分数, 外环分数高, 内环分数低, 以此清晰显示十项得分。

3 结语

大数据时代数据库技术研究 第9篇

关键词:IT,hadoop,MPP,数据库

1 研究背景

从目前通信业界数据规模来看,PB级汇总数据、10PB级明细数据屡见不鲜,数据存储规模大;涉及批处理、流处理、结构化数据复杂关联处理等多种数据处理技术;出现大数据简单高并发低时延查询、大数据复杂关联查询、即席查询/自定义查询、挖掘探索等数据共享为混合负载的情况;单一大数据技术无法满足要求。

基于上述背景,采用多技术协同进行大数据处理是当前主流方式。本文就从目前业界IT系统主流使用的数据库技术进行分析研究,浅析各类不同数据库技术以及适用场景。

2 主流数据库技术简介

从数据的处理种类、数据的存储方案角度将目前业界使用的主流数据库分为Share disk (如RDB)、Sharenothing (如MPP)、HADOOP【1】三大类。

Share Disk:共享存储能够被所有计算节点访问,所有计算节点共享IO通道。本文主要研究RDB。

Share nothing:计算资源和存储资源能够分开,CPU使用独立的IO通道来访问存储,所有的内存访问都是本地访问。本文主要研究MPP。

RDB:这里指传统关系型数据库产品和数据仓库产品,主要适用于高可用、高并发、低时延、强事务型应用场景,通常采用share disk架构,横向扩展能力受限于与硬件相关的体系架构设计。产品举例:Teradata、OracleExadata、IBM puredata等。

M P P :这里指基于分布式多节点独立计算的数据库产品,适用于并发量不大、大数据量批处理的应用场景。通常采用share nothing架构,以多数据副本实现高可用性,基于X86部署、横向扩展性较高。产品举例:TDAster Data、EMC Green Plum、HP vertica、Gbase等。

HADOOP:Apache开源项目,适用于PB级数据的存储与并行计算,以多数据副本实现高可用性,基于X86部署,开源,横向扩展性高。

3 数据库技术研究

3.1 RDB

R D B属于一种关系型数据库,对于数据共享支撑好,需要采用热备技术实现高可靠性;支持较复杂的数据关联模型,但要关联的数据量增加时,性能快速下降;依靠存储过程、自定义函数支持大数据计算,计算开销大。未经过索引、预计算、优化处理的情况下,复杂关联查询响应时间至少在分钟级甚至更长,以至于系统不可用。基于索引和其他优化手段的情况下,有可能将响应时间控制在分钟级以下,但成本太高,可能导致系统整体性能严重下降,并发能力也随之降低。

支持复杂的SQL查询,使用索引技术保障查询高性能;多表复杂关联性能高,并发能力强;强关系依赖的结构对快速加载有相当的约束,具体速度依赖单点X86的IO,X86场景下单点加载性能低。常规配置情况下,加载能力约15MB/秒上下。支持BI工具。扩容时可以独立扩计算节点或存储节点,无计算节点和存储节点的绑定关系,支持在线的数据再平衡,减少时间窗口,支持业务不中断的扩容。

硬件传统采用小型机,成本高(也可用X86服务器);软件成本适中。开发成本低。

但是扩展性较差,不支持在线扩展。

3.2 MPP

M P P也是一种关系型数据库,对于数据共享支撑好;通过多点数据备份机制保障系统高可靠性;支持复杂的SQL查询,查询性能高;主从架构的Share Nothing通过HA机制保障高可用性,当前业务服务会中断。无主架构的Share Nothing支持业务服务连续性。

MPP扩容时计算节点和存储节点需要同步扩容(增加机器),扩容时因为需要数据的再平衡,产生大量的数据迁移,扩容时间窗口要求较大,扩容期间需要停业务服务。

硬件采用X86服务器,成本低;软件成本较高;

支持扩展,开发成本中等。

3.3 RDB与MPP的比较分析

RDB、MPP这两个关系型数据库从性价比、可扩展性、数据导入能力、数据处理效率、演进方向等维度进行了比较分析,具体见表1。

3.4 HADOOP

HADOOP通过多点数据备份机制保障系统高可靠性;但是HADOOP存储结构和计算结构与应用的关系密切,没有通用的模型支撑,与集成厂家的开发软件紧密耦合,不利于数据的开放共享,并发能力低。

硬件采用X86服务器,成本低;软件采购成本低;开源技术,可能需要采购第三方厂家支持,但有一定的风险;

数据不需要格式化转换,集群支持分布式并行写入,并发写入速度快,其主要取决网络带宽,可达到Gbps,单节点数据加载能力可达到100Mbit/s。

大数据的关联能力弱;适合非低延迟数据处理;计算资源可动态管理 ;大数据的计算模型较复杂;基于hive技术复杂关联查询,同等情况下约50秒-1分钟;基于Hbase及二级索引结构的优化处理,常规查询响应时间将会有明显下降,至少可以到10-20秒以内。

需要通过自定义二级索引支持复杂查询,对开发者技能要求较高;系统内不适合多表复杂关联;支持扩展,开发成本高。

存储方面的优势在于,分布式存储的备份策略提高系统可靠性与数据安全性。

分布式存储特性:任何一个节点失效,不影响HDFS服务; HDFS可以自动完成副本的复制,误删除可恢复,存储机器宕机或永久损坏,Master节点可自动恢复数据在新节点上。数据多副本,一般建议1:2。

具体如图1。

3.5 适用场景比较

表2从各类数据库技术的硬件要求、复杂多表关联分析性能、响应实时性、规模、高可靠性、成本、开发难易等维度进行了比较分析,具体见表2。

目前常用的各类数据库组合技术主要有如表3的四种模式[2],在具体的IT系统应用中可以根据IT系统数据的具体特点、模式的优劣势以及风险选择适用。

举例来说,根据上述的分析,我们可以发现各大运营商最为重要的BOSS系统数据处理方面的需要主要是一、安全性极高;二、大量的实时查询需求;三、巨量的数据关联处理;结合计费系统的数据处理需求,我们会发现:RDB处理复杂关联关系的能力强,查询速度快,满足高并发、低时延的需求;通过多点数据备份机制保障系统高可靠性;支持复杂的SQL查询,查询性能高;所以目前一般都采用RDB+MPP作为BOSS系统的主流数据库组合。

4 结束语

当前,整个社会处于大数据时代,为了更好的提高数据处理效率,更低的节约数据处理平台的成本,研究不同数据库技术以及数据库组合模式成为趋势“混搭结构”构建数据管理和共享平台将成为必然趋势。

参考文献

[1] 辛晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运营商网络数据共享平台研究.电信科学,2014,4:94-97

块数据:大数据时代真正到来的标志 第10篇

大数据正在对社会生产生活的各个层面产生巨大而持久的影响,政府、企业、个体都在大数据浪潮中享受大数据带来的裨益。但到目前为止,人类形成的大数据,更多的是以领域、行业为单位,往往是彼此割裂、互不相通的数据,《块数据》一书将这些数据定义成“条数据”。相对于条数据的概念,本书提出“块数据”的概念——一种以一个物理空间或者行政区域形成的涉及人、事、物等各类数据的总和,相当于将各类“条数据”解构、交叉、融合。它可以挖掘出数据更高、更多的价值。

本书对块 数据从理 论到实践进行了全方位的深入探讨。首次提出“块数据”的定义与特征,“块数据”的形成、汇聚及运行模式,“块数据”公共平台和大数据市场交易机制,“块数据”的全产业链、全服务链、全治理链等。书中有着大量翔实的案例和技术讲解,阐述“块数据”对经济发展的推进作用,可增强社会治理能力,更好地服务于百姓的“共性需求”和“长尾需求”。同 时 , 书中还谈 到了“块数据”对监督政府依法行政和促使政府改革,打造透明政府、智慧政府、法治政府和责任政府的独特推动力。

块数据的 产生 , 将使人类在大数据领域初步探索并逐步形成条数据的基础上,形成“条数据”和“块数据”的融合式发展态势。可以说,这种发展潮流将给我们的时代带来颠覆性的变革,也标志着大数据时代的真正到来。

大数据时代 第11篇

作者: [英] 维克托·迈尔·舍恩伯格(Viktor Mayer-Schnberger)

编译: 周涛

出版社: 浙江人民出版社

“不是随机样本,而是所有数据”。也许学过统计的人,更能体会这其中的革命性意义。而这样的意义在过去那些没有互联网和电子技术大发展的时代,绝对是一种奢求。作为一个概念,大数据(big data)有很多相近似却有微妙差别的内涵,它可以是巨量信息,也可以是全体数据,但它的价值并不只体现在“量大”这样扁平的维度,还体现在信息的处理速度和牵一发而动全身的交错复杂性,大数据与当红的概念--云计算相生相长。虽然炙手可热,但在上世纪80年代之前,这个概念已经被提出。

作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。

在本书中,作者提出了大数据的几个核心特征:不是精确性,而是混杂性;不是因果关系,而是相关性;一切皆可以量化;取之不尽,用之不竭;数据、技术与思维的三足鼎立。然后翻开科技利剑的另一面,数据主宰一切的隐忧、数据之外细节的缺失、数据管理的责任这些扰人的话题,书中也有谈及。

并购时代,数据掘金 第12篇

当马云提出生态电子商务概念的时候, 大多数人不知所云, 随着阿里巴巴生态布局逐渐完善, 人们才知道阿里巴巴的野心有多大。创新意识就是这样, 推动技术发展, 当技术经过磨练并被市场认可之后, 又会再次推动创新意识前行, 循环往复, 生生不息。

大数据就是这样一个概念, 从提出概念到潜力被发掘只经历了短短几年。然而, 小荷才露尖尖角, 早有蜻蜓立上头, 从概念提出伊始, 互联网巨头们对大数据的争夺从来没放弃过。

所谓大数据, 就是无论用户在网页了浏览了什么内容, 看了什么帖子, 赞了那条微博, 今天在哪个电商平台上看了什么商品, 看了多久, 甚至经常去什么地方旅行, 在途中使用GPS导航做了什么——基于用户习惯产生的网络数据, 都是大数据。这新信息无疑是有用的, 然而怎么用一直没有人能说明白。毕竟, 这些浩如烟海的网络数据不是现金, 不是可供评估的有形资产。直到云技术被广泛运用之前, 数据变现一直都是难题。

“云计算”是一个很时尚的概念, 它既不是一种技术, 也不是一种理论, 而是一种商业模式的体现方式。用经济的眼光看, “数据”应该“固定”下来。“云计算”代表了一个时代需求, 反映了市场关系的变化, 谁拥有更为庞大的数据规模, 谁就可以提供更广更深的信息服务, 而软件和硬件影响相对缩小。按照云计算的最普通的和最雄心勃勃的解释, 它的目标是把一切都拿到网络上。云就是网络。网络就是计算机。总而言之, 云计算可以对庞大的数据进行梳理, 进而对用户习惯做出最精准的分析, 以便于企业更加贴近用户。

对于大数据的争夺, 各家互联网巨头除了自建大数据分析部门之外, 都无一例外走上了并购之路。毕竟, 大数据之所以打“大”, 强调的就是数量, 自家的掌握的数据虽然看似很多, 但与数亿用户级相比较, 其实微不足道。

互联网产业三大巨头都不约而同开始在大数据领域发力, 而且是全局布置, 力争上游下游通吃。百度贴吧作为最贴近用户的产品, 在百度大数据布局中占据中心位置, 而收购糯米网堪称神来之笔, 有力的实现了业务的上下延生。以即时通讯的起价的腾讯也重组了搜索业务和电商业务, 前者选择入股搜狗, 后者选择入股京东, 双方的合作议题之一就是在并购后实现数据互通, 又是一起关于大数据的并购!至于阿里巴巴, 生态战略提出之后, 从入股新浪微博到与UC合并, 甚至最近向优酷土豆发出非约束性要约, 入股、收购、合并的步伐一直没有停过, 每次并购都是对大数据的争夺。

上一篇:抑制作用下一篇:优化评讲