数据分析工作总结

2022-07-29

工作总结是当代年轻人的重要成长方式。根据自身的工作情况，编写详细的工作总结报告，可使我们在不断的反思、吸取教训、目标优化的过程中，对自身进行科学合理的评价，改进自身的工作不足之处，从而得出有利于自己成长的宝贵经验。以下是小编收集整理的《数据分析工作总结》，希望对大家有所帮助。

第一篇：数据分析工作总结

邮件数据分析工作总结-0104

第 1 页共 7 页

邮件数据分析工作总结

1. 问题背景分析

公司内部人员交流主要有电话、邮件以及面对面等三种方式，邮件系统作为三种沟通方式中唯一进行交互数据存储的平台，其大量的数据信息是可以进行分析和挖掘的，并且可以从中获取有价值的信息与发现。

在大数据技术快速发展的今天，通过对公司邮件系统中的交互数据进行科学的分析和挖掘，可以发现公司各部门之间潜在的关联关系，如部门间业务关联度;公司一些员工之间潜在的工作关系，如员工的沟通关系网等。

本项工作主要依据公司现有邮件系统的历史数据，采用一些合适的数据处理、分析与数据可视化方法，力求从邮件历史数据中挖掘出公司各部门之间业务的关联程度、沟通的主题以及一些员工之间的工作关系等信息，以对公司的组织架构调整或员工的工作岗位调动提供一些有价值的决策建议。

2. 数据源

数据源由信息中心邮件系统相关负责人提供，数据信息的基本情况如下：

(1)邮件主要信息数据，包括字段：发件人、收件人、主题、开始时间、完成时间、状态、结果信息、发件人摘要、收件人摘要、邮件大小、IP地址。每月的邮件信息数据导出为一个csv格式文件。

邮件主要信息数据存在的问题：数据信息表中存在很多Null值，如主题(有的邮件没有主题)等;垃圾邮件;邮箱、邮件主题中存在非法字符，这些可能导致数据文件读写时出现问题。

(2)邮件联系人主组信息，包括字段：父组(公司编号)、组(部门编号)、显示名(部门名称)。

邮件联系人数据存在的问题：数据信息表中有废弃的组;有的组没有父组等;这些也可能导致数据文件读取时出现问题。

第 2 页共 7 页

(3)邮件联系人子组信息，包括字段：组(部门编号)、用户(个人邮箱)。

3. 数据处理过程

数据处理过程主要包括数据的预处理、数据的读取、数据的存储等三个操作。

(1)数据预处理：数据主要信息中包括很多字段、但真正有用的信息就3个，发件人、收件人、以及主题，其它信息主要是一些系统信息，没有实际的分析意义和价值，需预处理掉这部分数据。同样，邮件联系人主组信息数据中也包括一些废弃和无效的数据，也需要预先处理。

(2)数据读取：经过验证，处理后的数据文件很多数据分析软件都不能正常读取(包括Matlab、SPSS)，究其原因是数据文件中有非法字符和很多Null空格，最后只能采用.NET编程读取数据文件。

(3)数据存储：应用VS.NET编程读取所有数据文件后，将数据表插入设计好的数据库中，应用WinForm编程将数据处理过程中的重要信息显示出来。

图1-1：发件人-收件人所属部门分析

第 3 页共 7 页

图1-2：部门间收发邮件详细信息、部门名称(按查询顺序)、部门收发邮件总和信息

数据处理阶段需要得到的数据信息：

(1)收件人所属部门、发件人所属部门，可能有的发件地址找不着所属的部门(如系统垃圾邮件等)，有的收件地址找不着所属的部门。

(2)部门间收发邮件的详细数据信息。

(3)部门名称(按查询顺序排序)。

(4)部门的收发邮件的数量总和。

4. 分析方法

(1)数据分析工具：VS2010+SQL Server2008，用于读取数据文件以及分析基本的邮件数据信息;Matlab2008，用于读取VS2010输出的数据信息文件以及进一步的统计分析和数据结果可视化。

(2)数据分析步骤：

Step1：计算各部门的发件正交数据表：47*47维矩阵，元素为目标部门发给其它部门

第 4 页共 7 页

的邮件总数。

Step2：计算各部门的收件正交数据表：47*47维矩阵，元素为目标部门收到其它部门的邮件总数。

Step3：计算排序后的各部门发件数据矩阵：47*47，元素为目标部门发给其它部门邮件从小到大排序后的下标。

Step4：计算排序后的各部门收件数据矩阵：47*47，元素为目标部门收到其它部门邮件从小到大排序后的下标。

Step5：计算各部门收发邮件的数据矩阵：47*2，元素为各部门收发邮件的总和。

(3)数据分析方法

分析1：以发件数量为研究对象，取发件数量排名前N的部门，分析部门间相互发件的数量之和，部门间相互发件的数量之和越大，说明两部门的关联程度越紧密。

分析2：以收件数量为研究对象，取收件数量排名前N的部门，分析部门间相互收件的数量之和，部门间相互收件的数量之和越大，说明两部门的关联程度越紧密。

分析3：分析所有部门对其它部门发件排名前N的部门，形成部门间发件活动的网络关系图，部门连接的节点越多，说明该部门主动与其它多个部门的关联越紧密，该部门对外的信息需求量越多。

分析4：分析所有部门收到其它部门发送邮件排名前N的部门，形成部门间收件活动的网络关系图，部门连接的节点越多，说明该部门被其它部门关注的程度越高。

(4)其它分析思路

上面的分析过程只是根据数据处理过程中得到的一些重要数据信息而采取的一些分析方法，可能在实际应用的过程中还有很多其它的分析思路，这需要进一步去思考这方面的问题。

第 5 页共 7 页

5. 分析结果与可视化

图1-3 发件总数排名前十的部门之间相互发件的网络关系图

说明：(1)部门之间有连线的说明部门之间有过联系(可能是部门间相互给对方发过邮件，也有可能是一个部门给另一个部门发过邮件)，部门之间没有连线的说明部门之间没有联系。(2)部门之间的连线越粗，说明部门之间相互发件的数量之和越大。

图1-4 收件总数排名前十的部门之间相互收件的网络关系图

说明：(1)部门之间有连线，说明两部门之间有过联系(可能是部门相互收到对象的邮

第 6 页共 7 页

件，也有可能是一个部门收到另一个部门的邮件)。(2)部门之间的连线越粗，说明部门之间相互收到的邮件数量之和越大。

图1-5 各部门对其它部门发件排名前三的网络关系图

说明：本图用于描述各部门对其它所有部门发件排名前三的部门网络关系图，从此图可以得到两层信息：(1)每个部门给其它部门发件数量排名前三的部门是谁。(2)部门连接的节点越多，说明该部门与其它有业务关联的部门越多。

第 7 页共 7 页

图1-6 部门收到其它部门发送邮件排名前三的网络关系图

说明：本图用于描述各部门收到其它所有部门发送邮件排名前三的部门网络关系图，从此图可以得到以下信息：(1)各部门收到其它部门发送邮件数量排名前三的部门是谁。(2)部门连接的节点越多，说明该部门被其它部门关注的程度越高。

6. 后续工作与改进方向

本次探索工作在实现的过程中可能存在着各种不足，如网络关系图的可视化方面，在实际应用过程有一些现成的软件可以使用如：pajek、gephi，只需要将数据结果整理成软件要求的格式文件，就可采用这类软件来绘制各种网络管理图，下去可以了解一些这类软件的使用方法。另一方面，在邮件数据的分析目标和分析方法方面，需要进一步去思考怎么去实现，才能真正从数据中得到有价值的信息，这也是以后工作的改进和提升方向。

第二篇：数据分析工作职责

1.完善相关通路的信用卡推广统计报表，并根据业务发展情况及时更新报表体系。

2.根据通路要求，负责现有客户数据挖掘、目标客群市场细分、关联性分析、建模及交叉销售分析，及时为个性化营销方案提供建议和支持。

3.借助相关系统工具完成数据采集、检查、分析和执行工作，对推广业绩和营销专案成效进行统计和分析，并提交数据分析报告和改进意见。

4.参与信用卡中心数据仓库的建设和应用工作，提出业务需求，及时反馈有关信息。

5.负责编制推广通路计划和预算。

第三篇：数据分析岗位笔试题目总结

阿里巴巴

1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.

常见的异常值检验方法如下：       基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法

t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。

狄克逊检验法：假设一组数据有序x1

格拉布斯检验法：与狄克逊检验法思想一样，其检验公式为：

指数分布检验：

SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部;

2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法，CLARANS算法(划分方法)，BIRCH算法(层次方法)，CURE算法(层次方法)，DBSCAN算法(基于密度的方法)，CLIQUE算法(综合了基于密度和基于网格的算法);

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，K是聚类中心，t是迭代的次数。

缺点：1. K 是事先给定的，但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术

是将数据按比例缩放，使之落入一个小的特定区间。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。常用的方法有：

(1)总和标准化。分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即

4.缺失值处理方法

1) 直接丢弃含缺失数据的记录

如：个案剔除法，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。 2)补缺

A. 用平均值来代替所有缺失数据：均值替换法，均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的，而且会造成变量的方差和标准差变小。

B. K -最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。如：回归替换法，该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。 5..Apriori算法和信息熵

信息熵是数学中一个抽象的概念，他表示了信息源的不确定度，这里不妨把信息熵理解成某种特定信息的出现概率，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。

支持度：Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大;如果A与B同时出现的非常频繁，则说明A与B总是相关的。

置信度(Confidence)的公式式：Confidence(A->B)=P(A | B)。置信度揭示了A出现时，B是否也会出现或有多大概率出现。如果置信度度为100%，则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)，单位是bit. 其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大.

以频繁项集{I1，I2，I3}为例产生强关联规则，最小置信度为40%

(1) 频繁项集{I1，I2，I3}的非空子集有{I1，I2},{I1，I3},{I2，I3},{I1},{I2},{I3} (2) 产生强关联规则

{I1，I2}=>I3 confidence=support({I1,I2,I3})/support({I1,I2})=2/4=0.5 {I1,I3}=>I2 confidence=support(I1，I2，I3)/support(I1,I3)=2/4=0.5 {I2,I3}=>I1 confidence=support(I1，I2，I3)/support(I2,I3)=2/4=0.5 I1=>{I2,I3} confidence=support(I1，I2，I3)/support(I1)=2/6=0.33 I2=>{I1,I3} confidence=support(I1，I2，I3)/support(I2)=2/7=0.29 I3=>{I1,I2} confidence=support(I1，I2，I3)/support(I3)=2/6=0.33 则强关联规则为：{I1，I2}=>I3;{I1,I3};{I2,I3}=>I1

3、根据要求写出SQL (没有学习过，之后的学习中需要补)

表A结构如下：

Member_ID (用户的ID，字符型)

Log_time (用户访问页面时间，日期型(只有一天的数据))

URL (访问的页面地址，字符型)

要求：提取出每个用户访问的第一个URL(按时间最早)，形成一个新表(新表名为B，表结构和表A一致) 参考答案：

create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;

5、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息?

c) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样;

需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数;

选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验

6.常见的抽样方法有哪些?

常用的有以下六种类型：

简单抽样(Simple sampling)

即简单随机抽样，指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如：按照“抽签法”、“随机表”法抽取访问对象，从单位人名目录中抽取对象。

优点：

随机度高，在特质较均一的总体中，具有很高的总体代表度;是最简单的抽样技术，有标准而且简单的统计公式。

缺点：

未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低;有可能抽到一个“差”的样本，使抽出的样本分布不好，不能很好地代表总体。

系统抽样(Systematic random sampling)

将总体中的各单元先按一定顺序排列，并编号，然后按照不一定的规则抽样。其中最常采用的是等距离抽样，即根据总体单位数和样本单位计算出抽样距离(即相同的间隔)，然后按相同的距离或间隔抽选样本单位。例如：从1000个电话号码中抽取10个访问号码，间距为100，确定起点(起点<间距)后每100号码抽一访问号码。

优点：

兼具操作的简便性和统计推断功能，是目前最为广泛运用的一种抽样方法。

如果起点是随机确定的，总体中单元排列是随机的，等距抽样的效果近似简单抽样;与简单抽样相比，在一定条件下，样本的分布较好。

缺点：

抽样间隔可能遇到总体中某种未知的周期性，导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低。

分层抽样(Stratified random sampling)

是把调查总体分为同质的、互不交叉的层(或类型)，然后在各层(或类型)中独立抽取样本。例如：调查零售店时，按照其规模大小或库存额大小分层，然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时，按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等，再抽出具体的各类型城市若干。

优点：

适用于层间有较大的异质性，而每层内的个体具有同质性的总体，能提高总体估计的精确度，在样本量相同的情况下，其精度高于简单抽样和系统抽样;能保证“层”的代表性，避免抽到“差”的样本;同时，不同层可以依据情况采用不同的抽样框和抽样方法。

缺点：

要求有高质量的、能用于分层的辅助信息;由于需要辅助信息，抽样框的创建需要更多的费用，更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。

整群抽样(Cluster sampling)(层层深入抽样，不断缩小抽样的范围)

是先将调查总体分为群，然后从中抽取群，对被抽中群的全部单元进行调查。例如：入户调查，按地块或居委会抽样，以地块或居委会等有地域边界的群体为第一抽样单位，在选出的地块或居委会实施逐户抽样;市场调查中，最后一级抽样时，从居委会中抽取若干户，然后调查抽中户家中所有18岁以上成年人。

优点：

适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。

缺点：

群内单位有趋同性，其精度比简单抽样为低。

前面谈到抽样方法的一些基本分类和各自特点，需要注意的是，在实际的运用中，一个调查方案

常常不是只局限于使用某一种抽样方式，而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的，有时甚至在同一时段综合运用几种抽样方法。

例如，设计一个全国城市的入户项目，在抽样上可以分为几个不同的步骤，包括：

1)在项目正式开始前，可以采用判断抽样法选出某一城市先作试点，在问卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。

2)采用分层随机抽样法，确定全国要分别在多少个超大型市、多少个中型市、多少个小型市实施(先分出城市的几个层次，再依据研究需要在各层用PPS法选取具体城市)

3)采用简单抽样法或PPS抽样法，确定抽出城市中应抽的地块或居委会;

4)采用整群抽样法，确定抽出地块或居委会应访问的家庭户;

5)在项目后期，可以采用判断抽样法选取某城市进行深入研究。

8.置信度与置信区间

P(x1

ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

10.数据挖掘步骤

① 理解数据和数据的来源(understanding)。

② 获取相关知识与技术(acquisition)。

③ 整合与检查数据(integration and checking)。

④ 去除错误或不一致的数据(data cleaning)。

⑤ 建立模型和假设(model and hypothesis development)。

⑥ 实际数据挖掘工作(data mining)。

⑦ 测试和验证挖掘结果(testing and verfication)。

⑧ 解释和应用(interpretation and use)。 11.如何评估促销活动?

11. Bayes公式(全概率公式)

探索在已知结果的情况下，是由哪种原因引起的概率;p(Bi|A)p(BiA)p(Bi)p(A|Bi) p(A)p(B)p(A|B)jj

12. 逻辑回归(分类问题)

逻辑回归适合求解哪些问题：逻辑回归本质上解决的是分类问题，Logistic回归的主要用途：   寻找危险因素：寻找某一疾病的危险因素等;

预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大;

 判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

11. 线性回归

线性回归(一元和多元)中对误差的假设都是假定服从均值为0方差为定值的正态分布，拟合系数的求解方法可以有最小二乘法梯度下降法等。关于残差的假设为：零均值，同方差，正态性，不相关，样本随机。

回归分析的自变量为连续性变量，而方差分析的自变量为离散型分类变量; 广义线性回归于线性回归的最大区别是随机误差的分布不一定是正态分布，与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。 12. 过拟合现象以及避免的方法

所谓过拟合问题：过拟合反映的是在学习训练中,模型对训练样本达到非常高的逼近精度, 为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别，在测试数据上往往显示出很差的效果. 产生过拟合是因为：

1.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一. 2.权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征. 过度拟合解决方法： 1.权值衰减. 它在每次迭代过程中以某个小因子降低每个权值 ,此方法的动机是保持权值较小,避免weight decay,从而使学习过程向着复杂决策面的反方向偏。

2. 减少特征的数量，有人工选择，或者采用模型选择算法

3.验证数据

一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差.

4.Cross-validation with some patterns

交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重. k-fold交叉方法: 把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例; 5.正则化方法正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大，正则化方法的作用是：保留所有特征但减小参数的取值。

13. 监督学习与非监督学习

有监督学习：对具有概念标记(分类)的训练样本进行学习，以尽可能对训练样本集外的数据进行标记(分类)预测。这里，所有的标记(分类)是已知的。因此，训练样本的岐义性低。所有的分类回归算法都是有监督算法，常见的算法有：SVM,KNN,决策树算法,朴素Bayes算法，神经网络，最小平方拟合，最大熵等。

无监督学习：对没有概念标记(分类)的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记(分类)是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习，常见的无监督学习算法：聚类，PCA，关联规则算法Aprior，FP-Growth等。 14.分位数3原则

3原则：在-3,+3区间上的概率密度曲线之下的面积占总面积的99.7%,对于标准正态分布有p3x30.997。 15.常见分布的密度函数均值和方差

16. 常见的区间估计以及假设检验表

对于均值的检验，方差已知一般采用U检验(标准正太分布)，方差未知采用T检验(t分布);

关于方差的检验，一般都采用卡方检验，若是两个正太总体采用F检验;

17.假设检验

P值(P value)是一个概率，就是当原假设为真时所得到的样本观察结果或更极端结果出现的几率。如果P值很小，说明原假设发生的概率很小，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著，一般以P < 0.05 为显著， P<0.01 为非常显著。

Sig值是显著性指标，一般大于0.05拒绝原假设，否则接受原假设，一般大于0.05表示差异不显著，小于0.05表示差异显著，小于0.01表示差异极显著。

a:第一类错误是原假设真时拒绝了原假设(弃真); b:第二类错误是原假设错误时接受了原假设(取误); c=1-b:检验功效是原假设错误拒绝原假设; 第一类错误与第二类错误互相矛盾的，检验功效越大越好即犯第二类错误的概率竟可能的小。 18.数据分析的基本流程

第四篇：大数据分析政府工作报告

大数据分析政府工作报告：那注定牵动生活的十大新词

有权不可任性【出处】

在今年的政府工作报告中，国家总理李克强在谈及简政放权时强调：“大道至简，有权不可任性。”

大数据分析：

2014年，政府交出了一张漂亮的简政放权成绩单：10多次国务院常务会议进行专题研究，2次电话会议全国动员，246项行政审批事项被取消和下放、149项职业认证被取消。获得感【出处】

两会前夕，习近平再次强调，要把改革方案的含金量充分展示出来，让人民群众有更多获得感。政府工作报告提出基本实现高速公路电子不停车收费联网、综合治理农药兽药残留问题、大幅提升宽带网络速率等细节，力图让群众获得实实在在的获得感。健康中国【出处】

“健康是群众的基本需求，我们要不断提高医疗卫生水平，打造健康中国。”李克强总理在作政府工作报告时，这句承诺得到了热烈的掌声。大数据分析：

“健康中国”最核心的是加快健全基本医疗卫生制度，让民众看得上病、看得起病、看得好病。《报告》提出要全面推开县级公立医院综合改革，在100个地级以上城市进行公立医院改革试点，破除以药补医，降低虚高药价，合理调整医疗服务价格，通过医保支付等方式减轻群众负担。互联网+ 【出处】

李克强总理提出“互联网+”行动计划，可以预见这将成为新兴产业和新兴业态的竞争高地。大数据分析：

互联网+新媒体=网络媒体互联网+娱乐=网络游戏互联网+零售=电子商务互联网+金融=互联网金融目前，“互联网+金融”已走入正轨，“互联网+交通”各方仍在博弈磨合。今年春节的全民“抢红包”就是互联网金融移动支付暗战传统金融的典型案例。仅除夕当天，微信红包的收发总量就达10.1亿个，1541万微博网友分享了由央视春晚及39位明星与商家送出的1.01亿个红包。书香社会【出处】

书香社会今年第一次出现在《政府工作报告》中，李克强指出，要提供更多优秀文艺作品，倡导全民阅读，建设书香社会。大数据分析：

一个民族的文化自信离不开崇尚阅读、尊重文化的氛围，让阅读成为一座城市高贵的坚持。 3月2日，国家新闻出版广电总局发布通知，将加快全民阅读立法进程，其中，“深圳读书月”作为“书香中国”的活动品牌，截至2014年已坚守了15年，15年参与总人次达1.06亿。创客【出处】

今年“创客”一词第一次被写入《政府工作报告》。《报告》指出，互联网金融异军突起,电子商务、物流快递等新业态快速成长。李克强鼓励众多“创客”脱颖而出，文化创意产业蓬勃发展。大数据分析：

“创客”一词来源于英文单词"Maker”，指把各种创意转变为现实的人。创客与众创、众包、众筹紧密结合，正在发挥经济新引擎的作用。

李克强总理今年1月初参观了深圳的柴火创客空间。《报告》中提到，2015年高校毕业生将达749万人，为历史最高。因此今年《报告》特别鼓励大学生大众创业、万众创新，有创新式解决就业问题的考量。中国已形成以北京、上海、深圳为三大中心的创客生态圈。深港通【出处】

2015年政府工作报告首次提到深港通，并表示2015年将适时启动深港通的试点工作。大数据分析：

有评论认为，深港通核心不在于“通”，而在于“融”，不仅是深圳、香港两地股市的互联互通，更是金融、会计、法律等众多高端产业全面融合。“通”是领导一句话，“融”得市场十年功。南上资金依然会显得火热，北下资金则要看政策的安排。领跑者追赶者准备者

沈阳、株洲、伊犁、江阳智慧城市6大关键词

城镇化、工业化、信息化、低碳、绿色、可持续。

北京、上海、广州、深圳、天津、武汉、宁波、南京、佛山、扬州、浦东新区重庆、无锡、大连、福州、杭州、青岛、昆明、成都、嘉定、莆田、江门、东莞智慧城市【出处】

李克强在政府工作报告中提出，发展智慧城市，保护和传承历史、地域文化。大数据分析：

物联网、电子支付、云计算、4G网络„„2015年“两会”上，构建智慧城市成为代表委员关注的热点。事实上，“智慧城市”已成为全国新型城镇化的一种战略选择。据《中国智慧城市发展水平评估报告》，当前国内“智慧城市”发展水平可大致分为3种类型。为官不为【出处】

政府工作报告指出：“目前少数政府机关工作人员乱作为，一些腐败问题触目惊心，有的为官不为，在其位不谋其政，该办的事不办。”这是政府工作报告中首次纳入治理庸官懒政内容。

大数据分析：

“为官不为”20年来首次写入政府工作报告，与反腐高压下少数官员群体“懒政”有关系。《报告》提出，要完善政绩考核评价机制，分3类对待：对实绩突出的，要大力褒奖;对工作不力的，要约谈诫勉;对为官不为、懒政怠政的，要公开曝光、坚决追究责任。 7% 【出处】

政府工作报告中表示，2015年GDP增长目标在7%左右，居民消费价格涨幅3%左右，城镇新增就业1000万人以上。GDP“7%左右”不再是硬指标。大数据分析：

过去十年《政府工作报告》中GDP增长目标从8%缓慢降至2015年的7%，体现了自2013年以来中央强调的不简单以GDP论英雄。据报道，全国已有29个省主动降低了GDP的增长目标，上海甚至取消了GDP的增长目标。

回望

2014年政府工作报告已改变生活的“新词” ● 互联网金融

“互联网金融”或许是最快被写入政府工作报告的经济新词汇之一。虽然在2014年的政府工作报告中只有一句“促进互联网金融健康发展”，但其火爆态势“一发而不可收拾”。最盛行领域：

1、打车服务;

2、网上购物;

3、网上银行;

4、互联网理财。

优点：起步门槛低;手续简单，无时间地域限制;收益高。风险：法律法规不健全;能否达到承诺的收益;监管和立法。 ● 舌尖上的安全

2014年“两会”政府工作报告提出了“一个严守、三个最严”，坚决治理餐桌上的污染，切实保障“舌尖上的安全”。

亿赞普(IZP)大数据显示，2013年人们对食品安全的平均关注指数是40，2014年这一数据降为34，远低于2014年人们对汽车(98)、住房(85)、教育(80)、养老(73)和空气污染(61)问题的关注度。

2014年，排在食品安全搜索首位的始终是“食品安全法”。过去人们关心的是地沟油、三聚氰胺、地沟油等重大食品安全事件本身，现在则把目标从治标转向治本——监管和立法。 ● 企业黑名单

哪些企业会上黑名单?2014年“两会”政府工作报告中给出了答案：违背市场竞争规则，侵害消费者权益的企业。

最常出诚信问题黑名单的行业：

1、食品行业;

2、餐饮行业;

3、药品行业。

调查显示，近70%的人不了解什么是黑名单制度。大家最关心的问题包括：企业黑名单制度怎么建立?企业上黑名单的标准是什么?上了黑名单的企业要承担什么后果?

第五篇：分析作分析总结计划总结工

词·清平乐

禁庭春昼，莺羽披新绣。

百草巧求花下斗，只赌珠玑满斗。

日晚却理残妆，御前闲舞霓裳。谁道腰肢窈窕，折旋笑得君王。

三、计划总结——工作总结

表一

表二

表三

表四

表五

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

>> 查看更多相关文档

上一篇：世界读书日的由来下一篇：暑假工合同协议书

数据分析工作总结

第一篇：数据分析工作总结

第二篇：数据分析工作职责

第三篇：数据分析岗位笔试题目总结

第四篇：大数据分析政府工作报告

第五篇：分析作分析总结计划总结工

热门文章

精品范文

全站热搜