大数据行业调研报告

2022-08-27

一份优质的报告,需要以总结性的语录、合理的格式,进行工作与学习内容的记录。想必你也正在为如何写好报告而发愁吧?以下是小编精心整理的《大数据行业调研报告》,供需要的小伙伴们查阅,希望能够帮助到大家。

第一篇:大数据行业调研报告

中国大数据行业调查报告

公司使用大数据的基本情况

无论你是来自互联网行业、通信行业,还是金融行业、服务业或是零售业,相信都不会对大数据感到陌生。据调查报告显示,32.5%的公司正在搭建大数据平台,处于测试阶段;29.5%的公司已经在生产环境实践大数据,并有成功的用例/产品;24.5%的公司已经做了足够的了解,开发准备就绪;基本不了解的只占3000+用户的13.5%。

现有公司大数据的使用情况

其中,大家对大数据平台提出的的主要需求有:36.5%是进行海量数据的离线处理,比如大数据BI;23.2%是为了大量数据的实时处理,比如在线交互式分析;40.3%的公司的大数据平台则同时负责这两种业务。

大数据平台主要负责的业务

传统观念下,大数据往往是大型互联网公司的玩物。然而,通过本次调查,我们却发现在那些对大数据平台有需求的公司中,研发团队规模远没有我们想象的大,29.11%的研发团队仅有1-10人,次居第二的10-50人的规模占到了25.77%,两种规模的研发团队就超过了一半。可见,当下大数据的需求已不止步于大型公司。

研发团队规模 从传统架构到大数据时代应用程序架构的转变往往都会遇到一些问题和挑战。在对计算框架门槛调查中,非专业人士难于入手这一难题的比例达到了46.5%,这对企业人才的培训提出了迫切的要求。

当下计算框架使用过程中存在的问题

打造大数据平台需要企业克服诸多问题和挑战,尤其是安全性和可靠性方面。

大数据平台打造的主要挑战 大数据技术现状 大数据技术在开发者或从业人员的应用中逐步走向成熟,这些成熟的技术在开发人员的探索中得到了初步的稳定发展,公司的使用便是对这些技术的肯定。包括开发语言,数据分析语言、数据库等在内的大数据工具,究竟哪个更适合自己的业务,相信开发者们都有自己的评判标准。

在众多的开发语言中,大数据平台开发者们尤为青睐Java,占到了总比例的65%,远远超过其他开发语言。值得一提的是,Hadoop本身就由Java实现的。

大数据开发语言

在大数据分析语言中,SQL的使用比例达到了64%,是R语言使用者人数的2倍之多。我们从中不难看出SQL-on-XXX项目的前景;同时从R的支持率上,也看到了更多非技术人员,比如数据分析师对低门槛分析类语言的需求。

大数据分析通常用的语言

在大数据存储上,HBase则以67.55%的比例位居榜首,远超其他数据仓库,当然这点与Hadoop原生支持是分不开的。

大数据存储中适合的数据库

对存储在HBase或Cassandra这样NOSQL数据库中的数据进行复杂查询,Solr、Elasticsearch、Splunk等主流的搜索引擎差距并不大。

对存储在NOSQL数据库中的数据进行复杂查询,比较合适的工具 大数据未来发展

诚如上文所说,许多对大数据有需求的公司并不一定具备强大的研发团队,在大数据处理过程中往往遭遇众多挑战。那么,在面临这些挑战时,开发者最迫切需要的是什么?

为了解决公司中的实际问题,39.28%的人希望拥有更犀利和通用的计算框架;37.88%的人希望能拥有更好的数据挖掘算法;21.59%的人则对保障性更高的运维有了更多的期盼。

为了解决公司的实际问题,最希望拥有的新技术

良好的大数据计算平台能够有效地支撑企业的海量数据,对于下一代通用大数据技术平台,Spark和Hadoop是公司的主要选择。同时,我们也看到了新贵Spark的发展前景,对比老将Hadoop,差距也仅有3.7%。

人们看好的下一代通用大数据计算平台

现有公司中,大数据平台已包含的部件位居前三的主要是SQL数据库(90.3%)、NoSQL数据库(50.7%)和HDFS(47.2%),在此基础上,公司计划添加的部件主要包含SQL数据库(57.2%)、Spark(41.5%)和NoSQL数据库(26.9%)。从各公司已有大数据部件和计划添加的部件可以看出,SQL数据库和NoSQL数据库在公司的大数据平台中发挥了重要的作用,得到了各公司的青睐。

现有大数据平台已包含的部件

现有大数据平台计划添加的部件

为了获取更高的收益,企业在前期需要进行有效地成本投入,对大数据平台的投资,公司更加不会吝啬,其中被调查的人群中,45.7%的人所在企业有追加投资大数据平台的打算,同时,公司也期望能够通过多种途径完善大数据平台,主要的完善途径包括基于开源平台自主研发、购买成熟的解决方案,使用公有云。

企业期望完善大数据平台的途径

使用公有云也是企业期望完善大数据平台的有效途径之一,在选择公有云平台方面,企业也面临着很大的倾向性,45.26%的人将阿里云作为首选。

公有云平台的选择 大数据技术培训

技术培训能够对开发者起到一定的指导作用,使得听众可以系统全面的把握新技术的知识脉络,了解技术的发展趋势。在此次调查活动中,69.4%的被调查者表示从未参加过大数据平台构建的技术培训。对于技术培训的形式,49%的人希望是线上培训,收费,成系列型的大数据解决方案,专攻一个方向,解决实际问题;37%的被调查者还是希望免费进行技术培训,即使不成系列,无论是线上线下,能听一节是一节。虽然收费在一定程度上影响了开发者对大数据技术培训的热情,但是能够切实解决实际问题,得到技术和能力的提升,仍是相关技术人员追求的培训目标。

更适合的技术培训形式

那么,对开发者来说,大家特别期望从技术培训中获取的知识又会是什么?

第二篇:“大数据”助银行业监管

——现场检查系统在湖北的实践

基于数据大集中的监管手段——现场检查系统(EAST系统)应运而生。现在,运用EAST系统进行建模分析,从系统中直接筛选符合条件的信息,实时跟踪数据异动,仅用一分钟就能迅速筛查出过去需要好几天才能查出来的贷款挪作保证金等违规情况,现场检查质效得到大幅提升。

这一系统已经在提升监管水平与效率等方面发挥了重要作用。从实践来看,湖北银监局组织了专业团队,认真做好制定实施规划、夯实数据基础、强化科技支撑等先期工作,顺利成为省局版EAST系统首批试点单位之一。由于EAST系统采集数据具有大规模、细颗粒、标准化、自动化等特点,易于进行海量数据的筛选、关联、比对等操作,正好与信用卡的业务特点以及所秉承的“大数法则”风控基础相契合。

在对辖内某银行信用卡业务的现场检查中,湖北银监局以风险管理、收费管理、质量管理等常见违规问题为切入点,利用EAST系统分析功能建立了一系列模型,提取了不少违规疑点信息,实现“精确打击”。

信用卡疑似套现在交易数据上常有一些异常表现,如每笔交易金额较大、先还后借且交易间隔时间短、为得到最长免息期交易一般发生在还款日附近等等。根据这些疑点信息,湖北银监局建立了相关模型,筛选出近千笔存在套现倾向的交易,督促该银行做好风险排查和防范工作。通过EAST系统建立模型还筛选出恶意透支的可疑名单,下一步将通过现场检查核实催收情况综合判断。信用卡业务作为EAST系统运用的“标靶”,为下一步这一系统延伸到对银行信贷业务、表外业务及外部风险的现场检查打下了扎实基础。

从实践中来看,通过EAST系统的数据直接对接,一方面可以有效克服以往银行机构手工数据录入的选择性规避和操作失误,确保了数据的真实性和一致性;另一方面可以依托系统数据的前期跟踪、监测和分析,准确定位疑点,有效聚焦风险,大幅缩小检查范围,提升检查针对性,实现非现场监管和现场监管的高效联动。EAST系统还能够充分及时地对数据信息进行处理,为监管人员及时

- 1 -

捕捉、监测、分析银行风险创造了有利条件,提升了对风险的识别、预判、预警能力,从而将各类风险隐患更好地消灭在萌芽阶段,提高银行业整体风险防控水平。

为更有效地推广EAST系统的运用,上下间的协调联动非常重要。应努力将EAST系统打造成一个开放式平台。同时,还应建立跨部门的联动工作机制。由于EAST系统科技含量高、技术难度大,推广工作中应注重集成监管人力资源,发挥各部门专业优势,建立沟通联络机制,加强科技与业务部门的融合,提高试点工作效果。EAST系统可以为现场检查提供线索,为非现场监管提供情况验证,同时也为市场准入提供参考意见;现场检查和非现场监管可以运用EAST系统将问题查深查透,这样才能将EAST系统用活用足,将其效用发挥到极致。(作者单位:湖北银监局)

链接

EAST系统是银监会自2008年起推出的现场检查系统。这一系统颠覆了过去用抽查代替普查,用点上的问题推测面上的问题的监管模式,构造了先进的现场检查系统平台和灵活的系统架构,实现了对银行业金融机构海量数据的有效挖掘和深度分析,不仅大大提高了现场检查效率,而且为“精确打击”提供了技术上的支持,是我国银行业监管技术的重要突破。

- 2 -

第三篇:大数据时代下的银行业

一、前言

2012 年3 月,奥巴马政府宣布投资2 亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。 这个由世界最强国家政府推动的项目,标志着“大数据”时代的到来。

近年来,移动互联网、物联网等迅速发展,使得新数据源不断出现,全球的数据总量正呈指数增长,过去3年间产生的数据量已超过以往总和。大数据时代的到来已经成为全球共识,数据正成为与物质资产和人力资本相提并论的重要生产.随着信息技术及互联网的快速发展,社会正在走向全面数字化。处于大数据时代的银行业,正面临着一场经营方式的大变革。一方面,互联网和大数据打破了原有银行在渠道和信息上的壁垒,给银行带来更多的竞争对手;另一方面,大数据将推动银行更加科学地经营管理,从而促进银行更健康地发展。

二、大数据时代银行业分析

目前,银行业正处在以客户为中心、以市场为导向的激烈竞争时代,如何应用先进的计算机网络技术跟踪、预测银行客户的发展动向,最大限度地挖掘客户信息的潜在价值,并利用这些信息来改进银行服务,提高竞争能力对银行来说至关重要。

(一)独特优势分析

对银行独特优势或其存在理由的理解有很多角度,基本的一种是将银行看作一个信息处理的机构,它能够获得和处理金融市场所无法获得的信息,并通过贷款决策向市场发送有关借款人信用的信号。

所谓市场无法获得的信息,首先来自于借款人为获得贷款而自愿向银行做出的披露,其次来自于银行家对于借款人进行的近距离的调查和判断。这些信息又可以分为两类,一是能够被编排的、数码化的或结构化的;二是只能意会的。银行贷款决策的做出,固然有赖于对于数码化信息进行分析的技术,但也离不开银行家的职业直觉和判断。

(二)机会分析

1、助推经营转型。以小微贷款发展为例,导致小微企业贷款难的原因很多,包括缺乏足够的抵押担保、缺乏信用评价机制、银行管理成本高等等。而大数据给这个难题带来了新的解决思路,通过大数据可以建立更完善的信用评价机制、风险定价机制、贷款全流程管理机制,并降低人工成本。

2、提升精准营销能力。通过大数据技术,信用卡客户营销可能基于以下的流程:首先对客户的性别、年龄、职业、金融资产、刷卡频度、消费地点、购物种类、营销活动参与情况等数据进行分析,得到客户的贡献度、活跃度和行为偏好等客户特征;然后根据客户特征进行分类差异化营销设计、举办营销活动;最后根据营销结果再进行数据分析,为下次改善提供参考。

3、提高客户满意度。通过分析客服中心的咨询、投诉内容,可以及时发现产品或服务存在不起眼的小缺陷,而改变这些小缺陷,可能会极大地提升客户满意度。通过对大量交易、行为数据、社交网络数据的分析,可以帮助银行找准客户需求,真正做到以客户为中心设计开发产品。

4、创新品牌营销策略。大数据时代,信息传播的方式、渠道和速度都是前所未有的。社交网络将会成为品牌营销的主阵地,客户在社交媒体上快速传播自身体验和感受的影响力将远远超过空洞的形象广告。传统上依赖信息不对称的品牌营销都将无所适从,与其投巨额资金到媒体做广告,不如扎扎实实地搞好自身的产品和服务,通过客户来帮助银行宣传。

三、对我行采取的策略建议

大数据时代是分析时代。大数据分析的实质就是将客户放到更大的社会背景下加以曝光,准确定位环境中客户所处的位置符合怎样一种商业模式;到现在为止没有任何技术能超越人(对我行来说就是客户经理)更能对活生生的客户加以把握分析,客户经理是最好的社会感知装置,同时又肩负将银行预定的熟悉的关系模式导入到现实社会网络,扩大关系。

打好数据基础。“在今天的社会中,最重要的资源,不再是劳力、资产或是土地,而是数据和知识。”我行首先要把行内业务系统的数据用好,这些数据是高价值密度的数据。除了要完整地保存这些数据外,还需要注意数据治理,保证内部数据的可用性。在此基础上,还需要进一步打破传统数据源边界,通过各种渠道和方式获取行外数据。银行可以通过合作、购买、收集等方式获取相关的数据,包括政府公布的各类统计数据、央行征信数据、企业客户的ERP数据、第三方评级机构的数据,以及电商、社交网络的数据等等,用以丰富和完善数据资源。

做好技术支撑和人才培养。当前采用传统的数据库已难以支撑大数据的需求,需要采用开放式的并行计算架构来建设大数据平台。而技术支撑的关键在于人才,既需要熟悉大数据技术的科技人才,也需要具有数据思考能力的业务人才,更需要具有综合素质的数据科学家。

强化数据治行理念。“除了上帝,任何人都要凭数据来说话。”要强化依靠数据说话的理念。首先要改善现有的管理决策文化,真正把数据分析作为决策重要依据;其次要优化数据分析流程,更好地把业务与技术融合在一起。

创新业务发展。大数据应用的深入,将为银行经营模式、业务流程的转变提供依据。我行需要建立新型的创新机制,为基于大数据分析的业务创新提供充分的条件和保障。无论是产品服务创新、风险管理创新、客户营销创新还是运营模式创新,大数据分析都将成为必不可少的途径。

四、结束语

在这个不断创造神奇的大数据时代,银行无法置身度外。若干年后,我们再回看银行的转变,也许会发现改变银行的不是某个人,某个企业,而是大数据。因此,我行有理由自信地拥抱大数据时代,具备作为信息处理机构的传统优势,在大数据时代有无限机遇。

附:基于数据挖掘的银行客户管理信息系统的构建(百度完全摘抄,供参考)

(一)顾客互动模块。它为整个客户管理信息系统提供具体的客户信息,这些信息包括客户的基本信息、财务会计信息、行为特征信息、信用信息等,把这些数据信息进行预处理存入数据库后,可以为银行的客户工作提供有利的支持,银行可以在此系统的支持下选定最为便利的渠道同客户进行沟通,同时也可以在客户营销管理的进程中直接为这些渠道提供信息。

(二)公共信息模块。公共信息模块是存储金融信息和金融行情的模块,它可以为银行提供服务和支持,能使银行便捷地查阅各种金融信息与行情。同时,这个拥有大量信息的模块系统还可以充分利用资源为客户提供专家服务建议、标准化的流程支持和随时更新的公用信息,使银行和客户都能获得及时宝贵的信息反馈

(三)银行产品信息模块。银行产品信息包括银行为客户所开发的各种金融传统产品和衍生产品。随着金融市场的开放与发展,金融衍生产品层出不穷,银行这些产品的出现为拓展客户服务提供了很大的平台,有关信息包括这些产品的特征、价格、适用等。产品信息模块可以为客户提供有关产品信息的服务和支持并为信息库不断提供新的产品信息。

(四)数据存储模块。信息库可以在数据上进行清理和集成,消除信息噪声和不一致数据,使多种数据组合在一起,然后将结果数据存放在分门别类的数据仓库中,再根据使用客户管理信息系统的银行请求,数据仓库可以负责高效地提取相关数据。同样,存储模块信息也可以进行不断的更新。

(五)数据分析模块。数据分析模块一方面通过定制的评价和分析模型对提取的数据进行分析和评价,然后按照银行的业务侧重点把目标客户从中筛选出来;同时,以各种信息为基础,分析出客户的行为特征,这样就可以为银行进行个性化的差别服务提供分析依据。另一方面,为银行指定客户拓展策略和创新产品提供依据。

(六)工作管理模块。工作管理模块的主要任务是对分析模块分析出来的银行重点客户进行管理。银行客户经理通过该工作平台,针对不同的客户,将合适的产品通过合适的渠道在适当的时期以合理的价格销售给不同的目标客户,这就克服了传统客户管理上费时费力在庞大的客户资料中难甄别出重要客户的弊端,同时,基于数据挖掘的工作管理模块更能高效科学地根据不同的客户群制定出针对性很强的销售策略。

第四篇:大数据在教育行业中的应用

1. 大数据在实验室管理方面的应用

海量数据已经使我们进入了大数据时代,数据信息的来源、传播速度和传播数量正在影响、改变着人们的思维方式和生活、工作习惯。近年来,基于“大数据”的实验室管理系统的开发以及互联网的实验室管理技术正在兴起。但真正被业内人士承认的教育领域的大数据应用却为数不多,其中被公认的当数东华大学的智能实验室项目。

2009年,东华大学教务处处长吴良提出实验室智能化管理的思路,并将材料学院作为试点单位。实验室智能化管理即用物联网的方式把实验室里所有的仪器设备都管理起来。实验室智能管理过程中记录了学生在实验室内所有的活动情况,包含学生进入实验室的情况,使用的仪器设备情况,使用仪器设备时长等,以及所有仪器的电流、电压都可以监控。如今,东华大学所有学院的实验室都纳入了智能实验室的管理。东华大学通过实验室智能管理系统进行各个方面的数据采集,并对数据进行深度挖掘,形成了各种各样的图表。从图表中可以看出哪些实验室申请的设备根本不必购买,哪些实验室不再需要拨钱。实验室的使用率和第二年的经费完全挂钩,最后实现教育经费使用的集约高效;也可以结合大数据的分析和模拟,建立新型的实验教学课程。

另外,华东大学智能实验室利用云平台(东华云)通过服务器虚拟化和实验教学资源管理系统进行管理,简化了管理流程, 节约了管理成本, 提高了服务器资源申请的灵活性,实现了实验资源管理的信息化和透明化。目前,东华大学智能实验室还实现了24小时开放无人管理、跨学院使用等人工无法实现的管理,数据显示,智能实验室的管理对学生学习自主性的提高有显著影响,学生在实验室的时间甚至超过了在教室的时间。

2. 大数据在校园网用户行为分析方面的应用

经过多年的积累,人类的数据量、数据处理技术和能力都得到了质的飞跃,大数据时代给人类社会带来了诸多具有革命性的变化,而校园网的出现则是传统“言传身教”教育的一次革命。中职学生思想尚不成熟,自律力和识别能力不强,对于开放式的网络有些迷茫。校园网学生用户行为分析的研究是通过对校园网络的测量和分析,挖掘和发现网络中呈现出来的各种行为规律,同时识别一些异常网络行为,最后将用户行为分析展示。这样以便学校采取对应的策略及措施引导中职学生健康上网,从而使校园网真正成为学生获取知识的平台,提高学生的整体综合素质。

广东省电子职业技术学校罗萍设计了一个基于大数据的校园网学生用户行为分析系统,该系统从网站浏览信息、网站发帖留言、搜索关键词、网络购物等四个维度来描述基于校园网的学生用户行为。通过对网络内容的分析,可以进一步细化到学生用户在网络中具体网络行为、发表的言论和帖子、对网络资源的兴趣偏好是什么等等,从而有效掌握学生的上网行为动态。

随着计算机技术的迅速发展,大数据时代的网络行为已经成为当前学生校园生活中的一项重要活动内容,正在悄然的改变着学生的学习和生活。因此,深入研究学生网络行为,理性分析学生网络行为特点,动机和需求,以及如何引导学生合理运用网络资源,树立健康的上网理念,构建有益的校园网络环境,已经成为目前学校研究的重要课题。

3. 数据挖掘在学习分析及干预中的应用

教育领域已经开发和应用了多款学习分析系统,主要集中在绩效评估、学习过程预测与学习活动干预三个方面。

绩效评估: 如美国 Northern Arizona University 研发的 GPS( Grade Performance Status) 系统,可实现全校在校大学生的课堂学习绩效评估。该系统能为教师提供最新的学生出勤情况、学生的反馈意见,为学生提供教师的最新评价以及重大事项的提醒。

学习过程预测: 如澳大利亚 University of Wol-longong 研发的 Snapp( Social Networks Adapting Ped-agogical Practice) 系统。该系统可以记载和分析在线学习者的网络活动情况( 如学生在线时间、浏览论坛次数、聊天内容等) ,使教师能深入了解学习者的行为模式,进而调整教学方式,最大化地为学习者提供适应的教学指导。

学习活动干预: 可分为人工干预和自动干预,现在主要集中在人工干预上,借助绩效评估工具和学习活动预测工具,由教师完成学习干预。自动干预是未来学习分析技术发展的方向,大数据将为这一目标的实现提供强大动力。

在教育管理改革方面,学习分析能为高职院校教育管理系统的方方面面提供指导教学管理活动的相关数据。依靠这些数据,高职院校管理部门可以有针对性地完善不足之处,修订教育管理方案,优化教学资源配置,并最终评估修订方案及资源配置情况。

在教学改革方面,学习分析技术能真正意义上营造信息化的教学环境,保证教师提供的学习服务契合学习者个性化学习、协作学习的需要。传统教学模式中,教师无法保证所提供的学习资源能真正满足学生的学习需求,无法适时调整和分配资源,无法提供个性化地学业指导,无法及时了解学习过程中出现的障碍与疑惑。这些问题都限制了高职院校教育改革的深度,而学习分析技术恰恰可以弥补这些缺陷。通过应用学习分析的相关工具和大数据技术,教师可以及时获取学生的学习行为数据,从而支持一种既能体现教师主导作用,又能兼顾学生主体地位的新型教学方式,以最大化地激发学生的潜能,为新世纪培养创新性人才。

在学习方式改革方面,学习分析技术的作用在于: 自动识别学习情境,能够从大量纷杂的数据中自动分析出学习者的特征信息,根据其需要推送适应的目标资源,并提供学习建议以协助学习者修订自己的学习任务;学习者可以实时调整自己的学习计划,预约辅导以解答学习疑惑;在特定情况下,还可以通过锁定学习者所在地理区域、学习特点等因素划分学习小组,以满足个别学习者的协作学习需求。此外,学习分析能为在校学生提供个性化的学习指导建议,以帮助学生规划在校学习路径,明确其学业成就的期望。

4. 大数据在课程建设方面的应用

大数据时代学习者在数字化学习过程中留下很多数字碎片,通过分析这些数字碎片,我们将会发现学习者的各种学习行为模式。梁文鑫指出:大数据对课堂教学带来的主要影响是使教师从依赖以往的教学经验教学转向依赖海量数据教学分析进行教学,使学习者对自我发展的认识从依赖教师有限理性判断转向对个体学习过程的数据分析,从而使传统的集体教育转向对学习者的个性化教育。

目前流行的大规模在线开放课程(Massive Open Online Course,MOOCs)教育,MOOCs 教育被寄予厚望的主要原因是学习分析技术和大数据对它的支持,有了学习分析和大数据技术,优质的教学、课程资源和服务等通过数据真实客观的被呈现出来。比如:对每一门课程资源和支持服务系统的建设和维护都建立在学习者使用过程的数据分析基础上,从而使提供的课程内容更符合学习者的需求、教学指导更具有针对性,进而提高了学习者的学习积极性,促进了学习成功的实现。学习者在 MOOCs 平台上学习时,教师和程序可以通过大数据对学习者的学习行为进行理性干预,比如:通过预测认知模型为学习者自动提供适合的学习内容和学习活动方案,通过作业情况、留言板以及讨论区的问题讨论情况可以发现存在学习困难的学习者,以确保可以及时对其学习进行有效干预等。

大数据的应用可以实现大规模在线教育的同时可兼顾学习者的个人需求,大数据对海量数据的高速实时处理技术可以为在线教育平台实时洞察学习者的变化、把握学习者的需求、提高学习效果提供支持,还可以对学习过程中产生的不相关信息进行深度分析,以预测和把握学习者的需求变化。

5. 大数据在助学贷款方面的应用

国家助学贷款始于2000年,此后,全国各地普通高等院校陆续开办国家助学贷款业务。但由于政策设计的缺陷、学生个人的诚信缺失、银行的积极性等多方面的问题,贷款业务开展出现较大差异东部好于西部,南部优于北部,部属院校高于地方院校。年国家修正贷款政策,加大贷款工作力度和政策扶持力度,国家助学贷款工作才得以继续进行。但国家对家庭经济困难学生没有给出界定,更缺乏界定标准,因此各高校在确定助学贷款资助对象时,只能依靠学生个人陈述、老师自己的判断、同学之间的投票等方法对困难学生加以界定,以致帮困助学工作困难越来越多。同时,由于信息沟通缺乏有效的渠道,管理缺少统一的工作平台,很大程度制约了贷款工作的开展,影响了学校、银行工作的积极性。缺少信息的沟通,造成信息的不对称,也影响了工作的开展,出现管理的滞后。

2005年,郑爱华作为课题负责人,组织完成校内课题“济南大学帮困助学问题及对策研究”,主持申报了山东省科学技术发展计划软科学科学项目“山东省国家助学贷款中的问题成因及对策研究”,同年获得立项,项目编号:B2005016。

助学贷款决策支持系统是济南大学研究的山东省省级课题“山东省国家助学贷款中的问题成因及对策研究”的子课题之一。目的在于通过该系统,建立家庭经济困难状况指标评价体系,包括评价指标的设立、指标分值的量化、最后计算机进行决策计算,输出决策支持的结果,帮助学校确定贷款资助对象,建立贷款信息数据仓库,并将贷款信息通过计算机进行处理,实现快捷、方便、及时、准确的数据动态管理,克服银行、学校、学生、主管部门之间的信息不对称问题,实现科学决策、信息化管理的目标,有利于山东省助学贷款工作的健康发展,有利于减轻学校贷款工作的管理难度,降低贷款成本,为帮困助学工作开辟有效的途径。

河北省教育厅学贷中心河北省学生贷款管理中心于2007年开始实施助学贷款信息化建设,将先进的计算机技术应用到国家助学贷款管理工作中,建立“河北省国家助学贷款管理信息系统”,使学生对国家助学贷款的申请、学校对助学贷款的管理、银行对学生申请的审批以及其间的各种信息的交互等都实现网络化。 6. 基于大数据证据的教育教学决策

在美国,教育大数据为美国政府、教育管理部门、学校与教师做出合理的教育教学决策提供了可靠的证据。整体上,美国建立了严格的教育问责制度,包括利用州教育问责系统(State Accountability Systems)对各州教育发展情况进行全方位评价,借助于学区级评价系统(District-level Evaluation Systems)评价各学区、各学校的整体教育质量,并要求学校与学区要对后进生进行基于数据的支持性学习干预(Data-driven Interventions)。美国联邦政府以及各州政府基于对教育大数据的分析结果评价各州或州内学区的教育进展水平,并以此作为教育投入的依据以及教育政策制定的根据。

美国学校一般利用基于大数据的教育评价支持本校在规划学校整体发展、优化学生管理、制定教学质量改进计划等方面的教育教学决策。据统计,97%的美国中小学利用来自整个年级或整个学校的教育大数据确定学校需要提升的关键领域;分析学生的个体数据以便于分班或安排相关学习支持服务,包括了解哪些学生需要特殊支持或更多支持。47%的美国中小学通过专门的评价人员分析不同教师讲授同一教学内容或同一教师以不同教学策略讲授同一教学内容时产生的数据,评价教师的教学质量并提出教学方式变革计划。而83%的学校在利用教育大数据尤其是本校产生的大数据了解本校教师教学发展的现状与需求,并据此决策如何支持本校教师的教学发展。

学校教师可以利用教育大数据改进与优化自己的教学决策。整体上,教师可以利用大数据分析需要在何种时机对哪些学生以何种方式安排何种教学内容。教师利用本班学生产生的大数据,或同时借助与外部大数据的对比分析,可以深度评价本班学生的学习表现与学习效果,可以有效分析学生的学习偏好与个性化需求,分析学生群体的学习需求,同时也可以利用数据分析哪些学生更适合在一起进行小组学习,分析怎样分组才更合理。对于那些有学习困难的学生,通过对大数据的利用,可以分析出学生在什么环节、什么类型内容学习方面存在问题,分析哪些因素可能在影响学生的学习,这样便于给出适当的学习支持与干预。

那么,大数据从何而来?美国在教育评价的实施过程中主要依托覆盖全美的立体化教育数据网络,同时注重数据质量保障,有效地解决了教育评价“大数据从何而来”的问题。

国家级、州级(State-level)、学区级(District-level)以及校级(School-level)在内的各级各类教育数据系统(Educational Data System)均服务于教育问责体系。这些数据系统之间相互关联,数据互通,形成立体化数据网络,为美国教育评价用大数据的获取提供了基本的依托。

在国家层面,美国有由教育部与各州教育管理部门及一些企业协同创建与发展的教育数据机构EDFacts,建设了“教育数据快线(ED Data Express)”,还有美国国家教育统计中心(National Center for Education Statistics),主要任务在于与教育部内部各机构、各州教育管理部门、各地教育机构合作提供可靠的、全国范围内的中小学生学习绩效与成果数据,分析各州报告的教育数据以整合成为联邦政府的教育数据与事实报告,为国家层面的教育规划、政策制定以及教育项目管理提供了有力的数据支持。

2005年,美国教育部启动了“州级纵向数据系统项目(The Statewide Longitudinal Data Systems (SLDS)Program)”,旨在帮助全美各州“设计、开发与利用州级纵向数据系统以便有效地、准确地管理、分析、分类处理与利用每一位学生的数据”,至今全美有47个州至少获得过一次本项目资助。

州级与学区级数据系统主要为区域性教育评价提供数据支撑,其中主要包括本州/学区学生的成长数据,教育工作人员在工作方面的安排与准备等相关数据,以及其它关于学与教条件的关键数据,比如教师人数、学生入学率、学生与学生家长及学校教职员工对于学校氛围、条件等方面的评价数据等,认为这些数据直接反映学校与学区在让学生做好毕业准备方面取得的进展情况。各州的教育数据系统基本都具有测量学生的成长(Student Growth Measures)、提供高中学习反馈报告(High School Feedback Reports)、实施学业预警(Warning Systems)的功能。学校常常利用四种类型数据系统来收集、整合教学过程数据或评价数据:一是在校学生的实时信息系统(Student Information System),其中包括学生出勤率、人口学特征、考试成绩、选课日程等数据;二是数据软件坊(Data Warehouses),其中保存了学校当前或历史上的学生、教职员工、财政方面的信息;三是教学或课程管理系统(Instructional or Curriculum Management Systems),支持学校教师接入教学设计工具、课程计划模板、交流与协作工具,支持教师创建基准性评价;四是评价系统(Assessment Systems)支持快速地组织与分析基准性评价数据。 7. 大数据在招生方面的应用

数据挖掘是一项新兴的技术,是商业智能的重要组成部分。近年来,随着高校数据收集量的不断增加以及教育决策对量化分析结果的愈加依赖,数据挖掘在美国高校管理中的应用呈显著上升趋势。许多研究表明这项技术能帮助大学管理人员更好地分析数据,从而获取潜藏的、有用的信息和知识,最终提高决策效率。

加州大学9所分校在校长办公室的统一协调下通过“综合评审”的原则招收本科生。“综合评审”包括两个步骤:第一步是对申请学生的合格性通过多种方法进行确定;第二步是对合格学生的所有背景、特征及技能进行综合评定,并以此为标准做出录取决定。加州大学虽然保证录取所有合格的学生,但由于有的分校或专业竞争激烈,例如伯克利分校、工程专业等,因此不能保证完全按学生的报考志愿录取。在这种情况下,所有合格、但未被报考分校录取的学生,将被推荐到两所加州大学制定的分校,以确保尽可能录取每位合格的学生。另一方面,这两所分校也通过 录取这些“落榜”的学生来增加其入学人数。由于加州大学的录取审核工作是由各分校负责进行,招生的最后决定到四月初才能见分晓。这时许多学生可能同时接到其他大学的录取通知,并需要在短期内选择自己要上的大学。因此,从吸引合格学生入学的角度来说,这时再向学生推荐这两所大学为时已晚。为了提前做好这一工作,校长办公室招办在一月份申请截止日期之后就对申请学生的录取情况进行预测,并将这些合格但极有可能被拒的学生名单提供给这两所分校,供他们提前向学生宣传学校的情况,鼓励学生来这两所学校就读。校长办公室用来完成这项预测分析研究的工具就是SAS Enterprise Miner数据挖掘技术。

通过这项数据挖掘技术,加州大学可以更有效的招收合格的学生。 8. 大数据在学习成果评估方面的应用

随着大学教学模式由传统的“行为主义”方式向“构建主义”教学过渡,如何更有效地对学生成绩进行评估也成为广大教师和评估工作人员面临的挑战之 一。除了利用传统的考试方法对学生所学知识进行考核外,越来越多的授课教师侧重对学生的学习行为进行评价,譬如合作意识、创新精神、实践能力,等等。这些评价结果更有利于帮助学生提高学习效率,特别是应用知识的能力。但靠传统的评价方法很难有效地完成类似的评估工作,或者说评估结果的可靠性难以得到保证。近几年来,许多学者尝试利用数据挖掘技术提高评估效度。

哈佛大学的研究人员娇蒂·克拉克(Jody Clark)和克里斯·戴迪(Chris Dede)在这方面的尝试非常值得借鉴和参考。他们通过复杂的教育媒体收集丰富的与学生学习行为有关的数据,然后利用数据挖掘技术对其进行分析和研究。

评估结果的价值体现在:1)完成对学生的形成性评估,为教师及时提供信息反馈;2)完成对学生的总结性评估,以真实的实践表现为基础了解学生最终掌握知识的情况;3)根据学生的个性特征,深层了解学生的学习行为以及学习成效;4)合理评判学生合作学习和解决问题的能力;5)通过对学生的学习行为规律和学习成效之间的“路径”关系进行“挖掘”,洞察学生的学习动态。

9. 衢州市柯城区依托大数据为学生“私人定制”成绩单

近年来,随着大数据成为互联网信息技术行业的流行词汇,教育逐渐被认为是大数据可以大有作为的一个重要应用领域,有人大胆地预测大数据将给教育带来革命性的变化。大数据技术允许中小学和大学分析从学生的学习行为、考试分数到职业规划等所有重要的信息。衢州市柯城区以大数据为依托,为学生“私人订制”成绩单。

2015年开始,衢州市柯城区启动教学质量诊断系统项目,采用CC教学测评系统对每个学生进行数据分析,为学生出具“学业诊断分析报告单”。“学业诊断分析报告单”基于对学生一个学期以来成绩的大数据分析,通过“单科成绩对比图”、知识点掌握情况分析表、知识点的个人掌握率和班级平均做对比表,将学生考试各科目考察的每一个知识点的掌握程度作出相应的分析,从数据中分析学生对知识点的掌握程度,对个人能力如识记能力、运用能力做出综合评价,为学生的学业作出一份细致全面的“体检诊断报告”。“学业诊断分析报告单”为学生提供了知识、能力掌握上的优势和不足信息,学生可通过分析原因,提高学习的针对性和有效性,减少重复的试题训练,进而有效减轻学习负担。教师可通过分析了解学生在知识、能力掌握方面存在的优势和缺陷信息,实施补教性教学,从而提高教学质量,促进学校教学、学生学习方式的改革和发展。 10. 大数据在学生扶贫方面的应用案列

西安交通大学学生处立足大学生资助工作实际,按照教育部“教育扶贫,十三五期间实现‘精准资助’”的要求,结合陕西省教育厅关于教育精准扶贫的工作思路,扎实开展了一系列“绿色通道”迎新工作:利用大数据完成学生贫困程度的精准识别,通过实地家访将绿色通道延伸到新生家中,开展“知心工程”让资助教育沁入学生心中,建立七位一体的资助系统让学生没有任何后顾之忧。西安交通大学提供给每个贫困生的,不仅是金钱的资助,更是被尊重及自信积极的人生态度。

资助大数据实现精确认定。在新生来校报到之前,通过“西安交通大学家庭经济困难学生综合认定系统”挖掘学生家庭经济困难指数,认定家庭经济困难学生情况,并以此为依据,主动引导特困新生在家中即可通过网上申请“绿色通道”并顺利入学,消除特困生家庭的后顾之忧,在此基础上与各书院共同主动开展有针对性的帮扶工作。

资助全覆盖实现精准帮扶。学校为每一位通过“绿色通道”入学的学生发放全套床上用品“爱心大礼包”,体现学校的关爱。新生入学后学校将陆续通过“奖、助、贷、补、勤、免、偿”七位一体的资助体系给予学生持续资助,确保每一位学生不会因为经济困难而影响学业。学工系统还通过“知心工程”工作体系,全面跟踪家庭经济困难学生情况,建立建全贫困生信息库。今年学校还将特别为建档立卡户新生每人发放一学期的生活费。 11. 希维塔斯学习”(Civitas Learning)利用大数据帮助学生提高成绩

在教育特别是在学校教育中,数据成为教学改进最为显著的指标。通常,这些数据主要是指考试成绩。当然,也可以包括入学率、出勤率、辍学率、升学率等。对于具体的课堂教学来说,数据应该是能说明教学效果的,比如学生识字的准确率、作业的正确率、多方面发展的表现率——积极参与课堂科学的举手次数,回答问题的次数、时长与正确率,师生互动的频率与时长。进一步具体来说,例如每个学生回答一个问题所用的时间是多长,不同学生在同一问题上所用时长的区别有多大,整体回答的正确率是多少,这些具体的数据经过专门的收集、分类、整理、统计、分析就成为大数据。

现在,大数据分析已经被应用到美国的公共教育中,成为教学改革的重要力量。为了顺应并推动这一趋势,美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于理解学生在个性化层面是怎样学习的。其中,“希维塔斯学习”建立了高等教育领域最大的跨学校数据库。

“希维塔斯学习”是一家专门聚焦于运用预测性分析、机器学习从而提高学生成绩的年轻公司。Civitas Learning提供了一套应用程序,学生和老师可以在其中规划自己的课程和安排。“希维塔斯学习”各种基于云的智能手机第三方应用程序(APP)都是用户友好型的,能够根据高校的需要个性化。这意味着高校能聚焦于各自不同的对象,相互不同地用这家公司的分析工具开展大数据工作。

该公司在高等教育领域建立起最大的跨校学习数据库。通过这些海量数据,能够看到学生的分数、出勤率、辍学率和保留率的主要趋势。通过使用100多万名学生的相关记录和700万个课程记录,这家公司的软件能够让用户探测性地知道导致辍学和学习成绩表现不良的警告性信号。此外,还允许用户发现那些导致无谓消耗的特定课程,并且看出哪些资源和干预是最成功的。

12. 电子科大利用大数据寻找校园中最孤独的人

从硅谷到成都,大数据,这个新鲜的话题正在全球同步热传。一场关乎每个人生活、工作和思维的大变革正在悄然发生,大数据时代迎面袭来。

到底什么是大数据?大数据”是“数据化”趋势下的必然产物。数据化的核心理念是:一切都被记录,一切都被数字化。电子科大的周涛解释到,“大数据要求数据能充分发挥其外部性并通过与某些相关数据交叉融合产生远大于简单加和的巨大价值。”比如,国家电网智能电表的数据可以用于估计房屋空置率,淘宝销售数据可以用来判断经济走势,移动通讯基站定位数据可以用于优化城市交通设计,微博上的关注关系和内容信息可以利用于购物推荐和广告推送„„

他们做过一个有意义的课题——寻找校园中最孤独的人。他们从3万名在校生中,采集到了2亿多条行为数据,数据来自学生选课记录、进出图书馆、寝室,以及食堂用餐、超市购物等数据。通过对不同的校园一卡通“一前一后刷卡”的记录进行分析,可以发现一个学生在学校有多少亲密朋友,比如恋人、闺蜜。

最后,通过这个课题找到了800多个校园中最孤独的人,他们平均在校两年半时间,一个知心朋友都没有。这些人中的17%可能产生心理疾病,剩下的则可能用意志力暂时战胜了症状,但需要学校和家长重点予以关爱。

第五篇:大数据调研报告

大数据技术市场调查报告:“BigData浪潮”迫使企业做出抉择

发表于2012-02-06 13:26| 2517次阅读| 来源CSDN| 0 条评论| 作者李智

数据中心浪潮数据挖掘数据分析大数据

摘要:大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构: 结构化信息这种信息可以在关...

根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。

大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:

结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询; 半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由; 非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。

企业内部大数据处理基础设施普遍落后

从调查结果可以看出,接近50%的企业服务器数量在100台以内,而拥有100至500台占据了22%的比例。500至2000台服务器则占据剩下28.4%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题(中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程)。

但这只是暂时状况,“廉价”服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台,在未来企业基础架构体系的硬件选用上,多核多路处理器以及SSD等设备会成为企业的首选。Facebook的Open Compute Project就在业界树立了榜样,Open Compute Project利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。

而在具有大数据处理需求的企业中52.2%的日数据生成量在100GB以下,日数据生成量100GB到50TB占据了43.5%,而令人惊讶的是,日数据生成量50TB以上也有4.4%的份额。数据量持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人关心的问题。

企业面对大数据处理的挑战与问题

现今大数据呈现出“4V + 1C”的特点。既Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。

从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要问题。其实大数据的基础架构首要需要考虑就是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。

应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。

而多格式数据、读写速度(读写速度是指数据从端点移动到处理器和存储的速度)以及海量数据是企业面临大数据处理急需解决的技术挑战。众所周知随着大容量数据(TB级、PB级甚至EB级)的出现,业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。同时大数据不只是关于数据量而已。大数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。

企业内部数据分析与挖掘工具应用现状

云时代企业数据挖掘面临如下三点挑战。挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据时,目前并行挖掘算法的效率很低;多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战;异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。 抛去价格因素之外可以看出反应速度慢、操作不方便、数据不准确、分析不准确这四项是企业数据分析与数据挖掘面临的主要问题。商业化解决方案固然成熟,但成本也是显而易见的。而具备在开源平台之上处理分析大数据能力的数据科学家则成为另外的一种选择。数据科学家具备专业领域知识并具备研究利用相应算法分析对应问题的能力,可帮助创建推动业务发展的相应的大数据产品和大数据解决方案。

从调查结果中我们可以看出Hadoop占据了半壁江山,而同为开源的HBase也有将近四分之一的占有率。而商业化的数据分析与挖掘平台(如Teradata、Netezza、Greenplum等)总共只有13.9%的份额。短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。可以预见的是,Hadoop作为企业级数据仓库体系结构核心技术,在未来的10年中它将会保持增长。 随着云时代的到来,企业面临的应用方式更加多元化,通过云的手段提供海量数据挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘应用的推广以及专业的行业知识库的构建。同时收集、存储庞大的新型数据充满了挑战,然而分析这些数据的新方法才是帮助最成功企业甩开竞争对手的利器。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:电气自动化专业简介下一篇:读撒哈拉的故事有感