数据优化处理范文

2024-07-18

数据优化处理范文(精选11篇)

数据优化处理 第1篇

关键词:数据库,查询,优化

目前, 随着计算机技术的发展, 各种软件的应用和普及, 几乎所有的应用程序都需要数据库的支持, 数据库的重要性日益凸显。在数据库的开发过程中, 如果在开始阶段不注重查询优化技术, 随着数据库表中记录量越来越大, 系统的响应速度会越来越慢, 最终导致系统被淘汰。相反, 良好的数据库设计会大大提高其运行效率, 最大限度减少冗余, 缩短查询时间。数据库的优化方法很多, 不同的方法也会直接影响数据库的查询效率。笔者在此介绍几种常用的数据库查询优化方法, 希望能与大家共同探讨。

一、优化SQL语句

对于SQL语句优化有以下的直接原因。SQL语句是数据库操作的唯一途径, 应用程序的执行最终要归结为SQL语句的执行, SQL语句的执行效率对数据库系统的性能起到了重要的作用。SQL语句相对于程序设计逻辑是独立的, 优化SQL语句对程序逻辑不会产生影响, 在时间成本和风险上的代价都很低。SQL语句可以有不同的写法, 不同的写法在性能上的差异可能很大。准确地使用SQL语句, 可以大幅度提高索引中数据的查询速度, 下面就举例说明。

(一) 在查询时, 查询值要等于返回值。在查询中不要过多使用“通配符”, 从而减少对数据库中的表的访问量, 缩小查询范围, 节省时间。如:select*from table1语句, 最小化查询到某行某列, 如:select col1 from table1;因为一般的查询是不必查询所有库内的数据的, 如select top 50 col1 from table1。

(1) select sum (t1.c1) from t1

where ( (select count (*) from t2 where t2.c2=t1.c2) >0)

(2) select sum (t1.c1) from t1

where exists (select*from t2 where t2.c2=t1.c1)

结果是不一样的, 但 (2) 的效率比 (1) 高很多, 因为 (2) 在查询中大量缩减了索引扫描范围。可见, 选择准确的字句可大大提高查询效率。

(二) 选择使用特殊SQL语句, 如EXISTS, NOT EXISTS。尽量避免在where子句中使用in, not in, or或者having。使用or会导致全表扫描。可以用EXIST和NOT EXISTS代替in和not in;union来代替or, having可以用where代替, 如果无法代替可以分两步处理。例如:

where column6>5900;

语句 (2) 可以代替 (1) , 而且比 (1) 效率高。

语句 (4) 的效率比 (3) 高很多, 因为 (3) 的查询中大量缩减了索引扫描范围。

(三) 一个列的标签如果在主查询和where条件子句的查询中同时出现, 那么很可能当主查询中的列值改变之后, 子查询必须重新查询一次, 查询嵌套层次越多, 效率越低, 因此应当尽量避免子查询。如果子查询不可避免, 那么要在子查询中过滤掉尽可能多的行。

(四) 尽量避免在where子句中对字段进行null值判断和使用!=或<>操作符, 否则将放弃使用索引而进行全表扫描。

(五) 关键字LIKE支持通配符匹配, 但是这特别耗费时间。比如, select*from table1 where t1 LIKE“98__”, 即使在t1字段上建立了索引, 在这种情况下, 还是使用顺序扫描的方式。但是, 如果语句改成:select*from table1 where t1>”98000”, 在执行时候就会用索引来查询, 大大提高了查询速度。

二、创建建临时表

使用临时表最明显的一个好处就是可以提高数据库的性能, 特别是查询的性能。临时表是用来存放临时记录的, 同时, 临时表还可以进行预处理计算, 如果发现基本表中的索引不合适, 也可以在临时表中重新创建索引以优化原有的索引。特别是当需要多次访问某个表或者视图的时候, 利用临时表来组织数据是一个提高效率的好方法。即使只是一个简单的查询, 其效率的提升也是很明显的。另外使用临时表还可以减少中间表的产生。在进行某些操作时, 本来往往需要一些中间表的帮助才可以完成, 而现在数据库管理员可以让数据库在需要时自动生成中间表, 并在用完后进行自动删除。如此的话, 中间表的建立与删除就不需要数据库管理员人为的管理了, 这样既减少数据库系统中的垃圾表, 也可以降低用户的工作量。需要注意的是临时表的创建需要比主表行数少, 减少输入和输出, 降低临时表的访问量, 提高其查询效率。

三、使用用存储过程

存储过程是一组为了完成特定功能的SQL语句集, 经编译后存储在数据库中, 用户通过指定存储过程的名字并给出参数来执行它。存储过程只在创造时进行编译, 以后每次执行存储过程都不需再重新编译, 而一般SQL语句每执行一次就编译一次, 所以使用存储过程可提高数据库执行速度。使用存储过程还能减少数据库和应用程序的交互次数, 保证数据安全。在使用存储过程时, 要尽量遵循以下原则:

(一) 尽量使用数字型字段, 若只含数值信息的字段尽量不要设置为字符型, 这会增加存储的开销, 并降低查询和连接的性能。因为在查询和链接时候, 数据库会逐个字符比较, 而对于数字型字段只需要一次比较。

尽可能使用varchar/nvarchar代替char/nchar, 因为变长字段存储空间小, 可以节约存储空间, 在查询中, 较小字段内的搜索效率显然高于较长字段。

(二) 尽量避免使用游标, 其效率低下。但对于小数据集时, 游标通常比其他逐行处理方法来的好, 尤其是需要在几个表中查询数据时, 应该使用游标。

(三) 就像上文提到的, 适当使用临时表能够提高查询效率, 但是在存储过程中需要避免频繁创建和删除临时表, 减少系统表资源的消耗。如果生成了临时表, 在存储过程的最后, 务必将所有临时表删除, 先truncate table, 然后drop table, 避免系统表的较长时间锁定。

四、建立索引

索引是对数据库表中一列或多列的值进行排序的一种结构, 使用索引可快速访问数据库表中的特定信息, 它的根本目的就是为了提高查询效率。创建适当的索引, 有助于提高检索性能, 从而对数据库工作效率有所帮助。对数据库中操作频繁的表、数据流量较大的表、经常需要与其他表进行连接等操作的表, 选择适当的字段建立索引, 将对SQL语句的性能产生重要影响。

在实际应用中, 常用表中经常有的ID和日期字段。因为ID是自动生成的, 我们并不知道每条记录的ID, 所以我们在实践中很难用ID号来进行查询。而我们经常会查询一段时间内的数据。这就使让ID号这个主键作为索引成为一种资源浪费。如果将索引建立在日期字段, 将会缩短查询时间。

建立索引可以提高数据库的查询速度, 但过多或不当的索引则会导致系统低效。索引作为数据库中实际存在的对象, 每个索引都要占用一定的物理空间。所以, 对于索引的建立要考虑到必要性和实用性, 使数据库能得到高性能的发挥。索引的使用要恰到好处, 其使用原则如下:

·在经常进行连接, 但是没有指定外键的列上建立索引。

·在频繁进行排序或分组的列上建立索引。

·在条件表达式中经常用到的不同值较多的列上建立索引。

·对于那些在查询中很少使用或者参考的列不应该创建索引, 增加了索引, 反而降低了系统的维护速度和增大了空间需求。

·对于那些只有很少数据值的列不应该增加索引。由于列的取值很少, 在查询的结果中, 结果集的数据行占了表中数据行的很大比例, 即需要在表中搜索的数据行的比例很大, 增加索引, 并不能明显加快检索速度。例如人事表的性别列就属于这种情况。

·对于那些定义为text、image和bit数据类型的列不应该增加索引。这些列的数据量要么相当大, 要么取值很少, 不利于使用索引。

参考文献

[1]Abnhrmx Silbersehaa.数据库系统概念[M].机械工业出版社, 2006.10.

[2]许志清, 赵博.精通SQL Server2005数据库系统管理, 2007.10.

[3]王能斌.数据库系统原理[M].北京:电子工业出版社, 2000.

Excel数据优化教案 第2篇

一、教学目标:

知识与技能:

1、利用表格处理数据,并结合图形化表示,提示事物的性质、特征及其变化规律

2、学会从不同的角度挖掘表格数据所蕴含的信息。

过程与方法:

结合学生身边的事例讲解,一方面激发学习的兴趣,另外一方面能将所学知识应用到日常学习生活中去。

情感态度与价值观:

培养学生协作精神和利用计算机技术解决实际问题的能力,提高学生的观察能力和操作技能,并能在学习中举一反三,融会贯通,提高学生的信息素养,更好地利用网络为我们的学习服务。

二、教学重点:

本课教学内容重点是表格数据的图形化,学生学会用图表这一工具来形象地显示数据;掌握图表的制作方法;培养学生制作图表要多元化。

三、教学难点:

几种常用图形的适用范围

四、教学组织:

及时解决学生在实践过程中遇到的种种问题,并与学生交流与总结在实践过程中得到的经验。

五、教学安排: 1课时。

教学过程:

一、导入新课:

数据是对客观事物的量化,由于客观世界的丰富性和多元性,数据所包含的信息也是多义的。就像一个公司或一个单位,在年终时,各个部门都会了解本年度本部门年终所花的资金,公司或单位的会计就要按照各个部门制作出不同的图表。所以说,对数据的加工总是带有一定的选择性。我们本节课就要学会根据需求不同制作不同的图表。

二、表格数据的图形化

表格数据的图形化表示实质就是表格内要素关系(通常是数量或比率与类别、地点、时间等要素的关系)的图形化展开,它反映了数据之间的直观比较,增强了数据的可读性,从而使我们更容易发现和理解事物的性质、特征及其变化规律。

1、柱形图能清楚地表示出每个项目的具体数目,体现不同项目数据之间的比较。

任务:根据光盘“杀毒软件调查”表,请同学说说反映各种品牌的销售业所占的份额,适合用柱形表示吗?为什么?

小结:强调数量的差异,通常用来比较一段时间中两个或多个项目的相对尺寸。例如:不同产品季度或年销售量对比,在几个项目中不同部门的经费分配情况,每年各类资料的数目等。

2、饼图能清楚地表示出各部分在总体中所占的百分比。

任务:根据光盘“杀毒软件调查”表,请同学说说用饼图表示各品牌软件的单价,合适吗?为什么?

小结:饼图能清楚明了地表达了一个数据列的情况,在实际工作中用得比较多。例如:表示不同产品的销售量占总销售量的百分比,各单位的经费占总经费的比例,收集的藏书中每一类占多少等。

3、根据光盘“杀毒软件调查”表,折线图多用来反映事物随时间变化的情况,可以清楚地表现出事物发展趋势,从而帮助我们做出推论。

任务:请同学说说用折线图反映各门市的杀毒软件销售数量,合适吗?为什么?

小结:如果要表示数据在一段时间内是呈增长趋势的,另一段时间内处于下降趋势,我们可以通过折线图来表示。

4、除了详细分析这三种图表外,要强调制作图表是根据不同的需求制作不同的图表的,有时一组数据,可以用多种图表来表现,还可以制作出线形图和面积图等。

三、作业:

一、上网调查题:(按照要求完成下面两题)

小学生

初中生

高中生 2 辅助学习 6 浏览信息 16 游戏聊天 4 5 其他

要求:

1、模仿上表在电子表格中制作,工作表名为“上网内容的调查”

2、根据上表建立柱形图

3、设图表标题为“上网内容的调查”

在另一个工表里完成,上网对学生的影响

迟到学生比例 体质较差学生比例

学业较差学生比例

13.60% 13.70% 每周 2 小时以下

19.90%

每周 2 小时到 8 小28.80% 40.10% 19.80% 时之间

46.30% 66.50% 每周 8 小时以上

51.30%

4.2.1表格数据的处理 时间:2009-11-16来源:信息发布组点击: 150次

一、教学目标:

知识与技能:

1、理解信息的表格化、掌握表格数据的处理

2、选择恰当的软件加工表格信息(这里使用Excel2000

过程与方法:

引导学生如何在教材现有的知识层次之外发掘新的知识点,拓展学生的思路,激发学生的创造性。

情感态度与价值观:

寻找新旧知识的关联点,对有兴趣进一步学习的学生可以鼓励他们多分析和思考。

二、教学要点:

本课教学内容理论性与实践相结合,并且实践是本节课的重要教学环节。有一句名言:“没有实践就没有真知”。因此,实践是学好表格数据处理乃至整个信息技术课程的重要途径。针对这种情况,我们教师应采取少讲多练的教学方法,也可以让学生自主探索,根据教材中所提供的数据制作,分小组探究学习,并完成任务。

三、教学组织:

组织选择合适的软件(Excel2000)加工表格信息,借助表格对数据进行计算、排序、筛选、汇总;掌握数据的计算、数据的筛选、数据的排序、数据的分类汇总和建立数据透视表。

四、课时安排 2课时

教学过程:

一、概念:(略讲)

单元格:单元格是表格中行与列的交叉部分,它是组成表格的最小单位,单个数据的输入和修改都是在单元格中进行的。

工作表:工作表是一个由若干行和列组成的表格,一行和一列的交叉部分称为单元格。一般而言,数据处理都是在单元格内进行的。电子表格常常处理成批的数据,它一般包含大量的单元格,最多为65536(256)=16777216个单元格。

工作簿:工作簿一般由若干个工作表组成,并以文件形式存放在磁盘上。所以,工作簿是面向用户操作的一个概念,而文件则是面向计算机系统的一个概念。

二、处理电子表格(讲授知识点)

A、表格单元格的地址(这里只讲解相对地址)

B、数据的计算:让学生学会日常应中的求和公式sum(summber1:summber2)、平均数公式(average(summber1:summber2)、最大值max(summber1:summber2)、最小值min(summber1:summber2)。学生通过回忆、讨论并完成利用公式计算和自动计算完成表格《各门市一周内各品牌杀毒软件的销售数据》和自已设计一个自己班里的成绩表进行计算。C、数据的筛选:学生对表格中的某一特定数据所蕴含的信息进行筛选处理。(简单通俗来说就是从表格中选中符合某个特定条件的数据来)

D、数据的排序:对表格进行一般排序或进行自定义排序:有时候我们可能对数据进行排序,如对学生的成绩排名顺序来进行排序,那么如何对数据进行排序呢?学生完成一般排序和自定义排序的学习。E、数据的分类汇总:有了排序的结果,我们可以对数据进行分类汇总(也就是说先进行排序,然后再汇总)。

F、数据透视表:数据透视表是一种对大量数据进行快速汇总和建立交叉列表的交互式表格。她可以转换行和列以查看源数据的不同汇总结果,可以根据需要显示指定区域内的数据,还具备查询应用的功能等。要求学生尝试对杀毒软件销售情况数据表的透视表的操作过程。

教师活动:通过课本的实例介绍,一边讲解以上概念,一边演示操作过程。

任务:根据教材中所提供的数据制作,分小组探究学习。

总结与归纳:对学生任务完成情况进行总结,归纳制作步骤和使用场合。实践:

在Excel里,利用公式计算、排序、筛选、汇总题(根据要求完成下面两题)

1、下面是某班的部分同学成绩表,根据下面要求完成。

X X班学习成绩表

学号

姓名

语文

数学

英语

物理

化学

生物

信息技术 总分

平均分

名次

001 罗昌辉

90 67 89 87 90 56

002 王丽青

90 67 59 60 80 90

003 林道威

89 88 85 79 67 90

004 曾燕华

89 98 76 56 43 65

005 韩龙

87 89 80 82 78 74

006 何雪瑜

87 90 85 65 78 80

007 高美玲

76 73 83 91 90 56

008 张智飞

76 57 79 50 64 87

009 韩静

75 82 85 82 84 93

010 冯刚

69 84 83 82 70 87

011 80 67 98 56 98 87 68

邢小玉

012 陈松健

63 65 69 60 69 69

013 黄健

60 89 43 59 87 72

014 唐东阳

56 65 67 69 78 90

015 林道彬

85 78 96 63 85 74

总分

最高分

最低分

要求:

1、利用公式计算出每学科的最高分、最低分。

2、利用公式计算出每位同学的总分、平均分。

3、按总分从高分至低分进排序。

2、下面是某总公司的各分公司,各分公司在几周内销售各种产品如下表(根据要求完成下列任务)

XX总公司的各分公司销售产品情况统计表

公司名称 周 次

星期

品牌

数量(台)

单价

总价 TCL 200 385

公司一

星期一 158 419

公司二

星期二

联想 TCL 160 385

公司三

星期三 PH 85 435

公司四

星期四 128 365

公司五

星期五

七喜 PH 96 435

公司六

星期六 TCL 87 385

公司七

星期日 198 419

公司八

星期一

联想 448

公司九

星期二

清华同方

250 4 448

公司十

星期三

清华同方

204 2 180 419

公司十一

星期四

联想 169 365

公司十二

星期五

七喜 448

公司十三

星期六

清华同方

3 PH 80 435

公司十四

星期日 90 419

公司十五

星期一

联想

要求:

1、利用公式计算出每个公司的总价

2、按照总价为关键字,按从高到低进行排序。

3、分别按照周次、品牌进行汇总。

教学反思:由于学生以前接触过EXCEL,而且在我反复演示后,模仿能力比较强,大多数同学能基本完成我所布置的六个任务。但可能有的同学只是“依葫芦画瓢”,如果要其独立完成的话可能还是存在某些困难,所以我在讲解时尽量结合例子,讲解其中的内涵,让学生了解为什么要这样做,怎么做最简单。

4.2.2表格数据的图形化

时间:2009-11-16来源:信息发布组点击: 114次

一、教学目标:

知识与技能:

1、利用表格处理数据,并结合图形化表示,提示事物的性质、特征及其变化规律

2、学会从不同的角度挖掘表格数据所蕴含的信息。

过程与方法:

结合学生身边的事例讲解,一方面激发学习的兴趣,另外一方面能将所学知识应用到日常学习生活中去。

情感态度与价值观:

培养学生协作精神和利用计算机技术解决实际问题的能力,提高学生的观察能力和操作技能,并能在学习中举一反三,融会贯通,提高学生的信息素养,更好地利用网络为我们的学习服务。

二、教学重点:

本课教学内容重点是表格数据的图形化,学生学会用图表这一工具来形象地显示数据;掌握图表的制作方法;培养学生制作图表要多元化。

三、教学难点:

几种常用图形的适用范围

四、教学组织:

及时解决学生在实践过程中遇到的种种问题,并与学生交流与总结在实践过程中得到的经验。

五、教学安排: 1课时。

教学过程:

一、导入新课:

数据是对客观事物的量化,由于客观世界的丰富性和多元性,数据所包含的信息也是多义的。就像一个公司或一个单位,在年终时,各个部门都会了解本年度本部门年终所花的资金,公司或单位的会计就要按照各个部门制作出不同的图表。所以说,对数据的加工总是带有一定的选择性。我们本节课就要学会根据需求不同制作不同的图表。

二、表格数据的图形化

表格数据的图形化表示实质就是表格内要素关系(通常是数量或比率与类别、地点、时间等要素的关系)的图形化展开,它反映了数据之间的直观比较,增强了数据的可读性,从而使我们更容易发现和理解事物的性质、特征及其变化规律。

1、柱形图能清楚地表示出每个项目的具体数目,体现不同项目数据之间的比较。

任务:根据光盘“杀毒软件调查”表,请同学说说反映各种品牌的销售业所占的份额,适合用柱形表示吗?为什么?

小结:强调数量的差异,通常用来比较一段时间中两个或多个项目的相对尺寸。例如:不同产品季度或年销售量对比,在几个项目中不同部门的经费分配情况,每年各类资料的数目等。

2、饼图能清楚地表示出各部分在总体中所占的百分比。

任务:根据光盘“杀毒软件调查”表,请同学说说用饼图表示各品牌软件的单价,合适吗?为什么?

小结:饼图能清楚明了地表达了一个数据列的情况,在实际工作中用得比较多。例如:表示不同产品的销售量占总销售量的百分比,各单位的经费占总经费的比例,收集的藏书中每一类占多少等。

3、根据光盘“杀毒软件调查”表,折线图多用来反映事物随时间变化的情况,可以清楚地表现出事物发展趋势,从而帮助我们做出推论。

任务:请同学说说用折线图反映各门市的杀毒软件销售数量,合适吗?为什么?

小结:如果要表示数据在一段时间内是呈增长趋势的,另一段时间内处于下降趋势,我们可以通过折线图来表示。

4、除了详细分析这三种图表外,要强调制作图表是根据不同的需求制作不同的图表的,有时一组数据,可以用多种图表来表现,还可以制作出线形图和面积图等。

三、作业:

一、上网调查题:(按照要求完成下面两题)

小学生

初中生

高中生 2 辅助学习 6 浏览信息 16 游戏聊天 4 5 其他

要求:

1、模仿上表在电子表格中制作,工作表名为“上网内容的调查”

2、根据上表建立柱形图

3、设图表标题为“上网内容的调查”

在另一个工表里完成,上网对学生的影响

迟到学生比例 体质较差学生比例

学业较差学生比例

13.60% 13.70% 每周 2 小时以下

19.90%

每周 2 小时到 8 小28.80% 40.10% 19.80% 时之间

46.30% 66.50% 每周 8 小时以上

51.30%

要求:根据上表,建立折线图,并完成下表。(在另一个工作里完成,工作表的名称为:“上网的影响”

4.2.2表格数据的图形化

时间:2009-11-16来源:信息发布组点击: 114次

一、教学目标:

知识与技能:

1、利用表格处理数据,并结合图形化表示,提示事物的性质、特征及其变化规律

2、学会从不同的角度挖掘表格数据所蕴含的信息。

过程与方法:

结合学生身边的事例讲解,一方面激发学习的兴趣,另外一方面能将所学知识应用到日常学习生活中去。

情感态度与价值观:

培养学生协作精神和利用计算机技术解决实际问题的能力,提高学生的观察能力和操作技能,并能在学习中举一反三,融会贯通,提高学生的信息素养,更好地利用网络为我们的学习服务。

二、教学重点:

本课教学内容重点是表格数据的图形化,学生学会用图表这一工具来形象地显示数据;掌握图表的制作方法;培养学生制作图表要多元化。

三、教学难点:

几种常用图形的适用范围

四、教学组织:

及时解决学生在实践过程中遇到的种种问题,并与学生交流与总结在实践过程中得到的经验。

五、教学安排:

1课时。

教学过程:

一、导入新课:

数据是对客观事物的量化,由于客观世界的丰富性和多元性,数据所包含的信息也是多义的。就像一个公司或一个单位,在年终时,各个部门都会了解本年度本部门年终所花的资金,公司或单位的会计就要按照各个部门制作出不同的图表。所以说,对数据的加工总是带有一定的选择性。我们本节课就要学会根据需求不同制作不同的图表。

二、表格数据的图形化

表格数据的图形化表示实质就是表格内要素关系(通常是数量或比率与类别、地点、时间等要素的关系)的图形化展开,它反映了数据之间的直观比较,增强了数据的可读性,从而使我们更容易发现和理解事物的性质、特征及其变化规律。

1、柱形图能清楚地表示出每个项目的具体数目,体现不同项目数据之间的比较。

任务:根据光盘“杀毒软件调查”表,请同学说说反映各种品牌的销售业所占的份额,适合用柱形表示吗?为什么?

小结:强调数量的差异,通常用来比较一段时间中两个或多个项目的相对尺寸。例如:不同产品季度或年销售量对比,在几个项目中不同部门的经费分配情况,每年各类资料的数目等。

2、饼图能清楚地表示出各部分在总体中所占的百分比。

任务:根据光盘“杀毒软件调查”表,请同学说说用饼图表示各品牌软件的单价,合适吗?为什么?

小结:饼图能清楚明了地表达了一个数据列的情况,在实际工作中用得比较多。例如:表示不同产品的销售量占总销售量的百分比,各单位的经费占总经费的比例,收集的藏书中每一类占多少等。

3、根据光盘“杀毒软件调查”表,折线图多用来反映事物随时间变化的情况,可以清楚地表现出事物发展趋势,从而帮助我们做出推论。

任务:请同学说说用折线图反映各门市的杀毒软件销售数量,合适吗?为什么?

小结:如果要表示数据在一段时间内是呈增长趋势的,另一段时间内处于下降趋势,我们可以通过折线图来表示。

4、除了详细分析这三种图表外,要强调制作图表是根据不同的需求制作不同的图表的,有时一组数据,可以用多种图表来表现,还可以制作出线形图和面积图等。

三、作业:

一、上网调查题:(按照要求完成下面两题)

辅助学习

浏览信息

游戏聊天

其他 小学生 2 15 3 初中生 2 27 4 高中生 6 16 5

要求:

1、模仿上表在电子表格中制作,工作表名为“上网内容的调查”

2、根据上表建立柱形图

3、设图表标题为“上网内容的调查”

在另一个工表里完成,上网对学生的影响

迟到学生比例 体质较差学生比例

每周 2 小时以下

19.90% 13.60% 每周 2 小时到 8 小时之间

28.80% 40.10% 每周 8 小时以上

51.30% 46.30%

学业较差学生比例

13.70%

19.80% 66.50%

大数据优化定价决策 第3篇

我们倒不是说制定合适的价格很容易:由于数字化促使多渠道越来越复杂,客户接触点的数量不断激增。不过,价位需要跟上来。由于许多公司没有发现大数据带来的机会,也没有见机行事,那无异于错失了丰厚的利润。提高利润率的秘诀在于,充分利用大数据,在产品层面、不是类别层面找到最合适的价格,而不是淹没在一大堆数字当中。

大到不能成功

对于每一个产品,公司应该能够找到顾客愿意支付的最合适价格。理想情况下,公司会将影响价格的非常具体的宝贵信息考虑在内,比如次好的竞争产品的成本与该产品对顾客而言具有的价值,然后敲定最合适的价格。的确,对一家拥有几种产品的公司而言,这种定价方法很简单。

要是产品数量繁多,问题就比较棘手。一家普通公司的收入中大概75%来自标准的产品,这些产品往往数以千计。人工制定价格的做法很耗费时间,几乎不可能看到可以完全释放价值的定价模式。要是大公司有成千上万的产品,它们想获得精细的数据,并管理这些复杂的定价变量……这些定价变量不断变化,实在是勉为其难。从本质上来说,这其实是个大数据问题(见图表)。

许多营销人员最终只是把头埋在沙子里。他们根据过于简单的因素来制定价格,比如产品制造成本、标准利润、类似产品的价格和批量折扣等等。他们借助老方法来管理产品,因为他们动不动拿“市场价格”作为不认真处理问题的借口。可能最为糟糕的是,他们依赖“久经考验、屡试不爽”的历史方法,比如所有产品的价格普遍上调10%。

林德气体公司(Linde Gases)的销售业务主管罗杰·布里奇吉(Roger Britschgi)说:“因此实际上发生的一幕是,每年我们根据规模和销量来提价,而不是科学合理地提价。我们的人根本不认为可以换一种方式来提价。而坦率地说,我们的人没有充分准备好说服顾客我们确实有必要提价。”

将数据转化为利润的四个步骤

想制定更合适的价格,关键是完全明白现在可供公司使用的数据。这就需要放大目标,而不是缩小目标。正如综合性能源和化工企业沙索(Sasol)集团副总裁兼营销和销售总经理汤姆·奥布赖恩(Tom O’Brien)提及这种做法时说:“销售团队知道价格,还可能知道销量,但这种做法需要了解更多信息:极其精细的数据,实际上来自每一张发票,按产品、客户和包装分门别类。”

事实上,将大数据成功应用于B2B环境方面最激动人心的一些例子实际上不仅仅着眼于定价,还涉及一家公司的商业引擎的其他方面。比如说,“动态交易评分”(dynamic deal scoring)提供了单笔交易层面的价格指导,还提供了决策逐级上报点、激励机制、绩效评分及更多方面,立足于一系列相似的盈/亏交易。使用较小的、相关的交易样本很有必要,因为与任何一笔交易息息相关的因素会有变化,这导致一系列总体交易成为毫无用处的衡量基准。我们已见过这种方法应用于技术行业,取得了巨大成功。将销售利润率提高了4到8个百分点(相对于同一家公司的对照组)。

想获得足够精细的数据,公司就要做好这四项工作。

倾听数据。制定最合理的价格不是牵涉数据的挑战(公司通常已经坐拥庞大的数据宝库),而是牵涉分析的挑战。最出色的B2C公司知道如何解释自己拥有的海量数据,并见机行事,但B2B公司往往一味管理数据,而不是利用数据推动决策。优秀的分析工具可以帮助公司确定经常被忽视的因素(比如更宏观的经济形势、产品偏好以及销售代表的洽谈),揭示什么因素左右针对每个客户群和产品的价格。

提高自动化。人工分析数千种产品太耗费时间和财力。自动化系统可以识别狭小的客户群,确定什么因素左右每个客户群的价值,并且拿来与历史交易数据进行比较。这样一来,公司就可以根据数据,为产品群和客户群制定有针对性的价格。自动化还大大简化了复制和调整分析的工作,因此没必要每次都从头开始分析。

培养技能、树立信心。实施新价格既在运营方面带来了挑战,又在沟通方面带来了挑战。成功的公司非常注重深思熟虑的变革计划,帮助销售队伍了解并接受新的定价方法。公司需要与销售代表们齐心协力,解释为什么实行建议价,这套价格体系是如何运作的,那样销售代表就会非常信任价格,从而竭力说服顾客。同样重要的是制定一套明确清晰的沟通方法,为价格给出一个理由,从而着重突出价值,然后针对具体顾客给出相应的理由。全面的洽谈培训也至关重要,以便让销售代表获得信心和工具,那样与客户面对面交流时,能拿出颇有说服力的理由。最优秀的领导陪同销售代表会见最难拿下的客户,专注于迅速见效,那样销售代表就能树立起信心,积极奉行新的定价方法。林德集团旗下瑞士PanGas AG公司的总经理罗伯特·克里格(Robert Krieger)说:“表明领导层支持这种新的定价方法这个立场,至关重要。为此,我们采取的做法就是领导层与销售代表一起拜见难缠的客户。我们不仅能够帮助销售代表,还能够阐明为什么制定新价格。”

积极管理绩效。想改善绩效管理,公司就需要借助实用的绩效指标支持销售队伍。最大的影响来自确保销售一线对于客户带来的利润了然于胸;销售和营销部门拥有合适的分析技能,得以发现机会,并牢牢抓住机会。还需要将权力下放给销售队伍,让他们自行调整价格,而不是依赖集中式团队。这不仅需要创业理念,还需要在针对特定的客户制定价格策略时有一定的创造力。在改变定价策略和绩效衡量标准的同时,可能还要改变激励机制。

我们已经看到了这一幕:软件、化工、建材和电信等众多行业的公司利用大数据,帮助制定更合理的定价决策,因而收到显著成效。这些公司都有数量众多的库存单位(SKU)和交易,还有一大批高度分散的客户;重新制定价格后,都发现利润率提高了3%到8%,这些价格是在极其精细的产品数据层面制定的。仅举一例,一家欧洲建材公司为几种有所选择的产品制定合适的价格后,利润增幅高达20%。如果公司想制定合适的价格,就应该充分利用大数据,并投入足够的资源来支持销售代表,否则它们会发现自己在为此付出高昂的代价:利润流失。

(原载麦肯锡季刊英文版,沈建苗翻译)

Java千万级别数据处理与优化 第4篇

大数据本身就是传统意义上的数据的几何级表现形式。大数据技术意义在于对这些有价值的数据进行专业化处理, 通过“加工”实现数据的“增值”。大数据处理的一个关键环节就是数据处理引擎如何与大数据有一个良好的连接通道。目前比较主流的数据处理引擎开发语言有Java, C#, C++等。

Java作为主流开发语言的连接数据库方式采用JDBC, 通过建立一个数据库连接池以及一套连接使用、分配、管理策略, 连接可以得到高效、安全的复用, 避免了数据库连接频繁建立、关闭的开销。另外, 由于对JDBC中的原始连接进行了封装, 隔离了应用本身的处理逻辑和具体数据库访问逻辑, 使应用本身的复用成为可能, 提高了开发效率。

从传统技术发展来看, 一般新技术通常不会跨越太大。特别是软件开发技术, 为了不过度超前采用一种妥协的技术发展方式向下兼容。新技术大多是从传统方式拓展延伸过来, 而不是跨越式的从新研发一套全新的技术, 大数据处理也遵循着这样的一个原则。

2 大数据量下的内存管理

JVM (Java Virtual Machine, Java虚拟机) 是Java的核心和基础, 在Java编译器和OS平台之间的虚拟处理器。它是一种基于操作系统和硬件平台并利用软件方法来实现的抽象的计算机, 主要功能是管理分配内存和执行垃圾回收。JVM内存结构由堆、栈、本地方法栈、方法区等部分组成。

当Java一次性从数据库加载过多的数据时, 由于查询结果的记录首先要读入JVM内存, 大量的数据占用了内存空间, 此时再为实例化对象申请空间时, 便出现内存溢出的问题, 即使调整内存大小, 启动程序的时候加上-Xmx1024m, 将JVM可以使用调至1G内存, 很多时候也不能满足调用数据量的要求。

3 大数据量处理时的优化方案

通过对JVM使用内存的分析, 结合数据调用处理的研究与实践, 得出的解决方案如下:

(1) 客户端读取数据时, 不再一次性读入JVM内存中, 采用分批查出所有数据, 每次查询得到的部分记录使用恒定内存读入的方法, 避免内存溢出问题。

(2) 将查询出的数据在JVM内存中经过简单加工写入查询结果文件, 对生成的记过文件进行压缩, 目的是减小文件大小, 节省带宽, 加快文件传输速度, 然后按一定规则存入本地硬盘。

(3) 获取数据时, 通过批次读取将压缩文件直接发给客户端, 在客户端解开压缩文件获得查询结果。

4 结语

本文通过Java语言数据处理时的原理分析, 提出了大数据量数据加载的解决方案, 实现了在不增加硬件开销的前提下, 由于数据量大导致的内存溢出问题, 保证了数据查询时系统的高效与稳定性。

摘要:伴随着云计算、物联网等新兴技术的不断发展, 数据量呈现几何式的增长, 海量庞大的数据出现标志着大数据时代的来临。从海量的数据资源中提取有价值的信息并反馈给用户是数据处理面临的主要研究方向。本文主要探讨Java这门经典的编程语言在当前的数据环境下, 如何实现对大数据的加工及优化处理, 来实现数字资产的保值增值。

关键词:Java,大数据,处理技术

参考文献

智能应用网络优化数据中心 第5篇

业内专家表示:计算能力可能日益廉价,但支持计算能力的能源却并非如此。事实上,能耗成本正成为数据中心最大的运营开销之一。如果没有全面的管理策略,用于硬件供电和散热的花费有时甚至比硬件本身还贵。有一组数据显示,超过减少10%的能耗,到2015年,每年平均可以节省用电200亿度,节省资金20亿美元,避免340万吨煤炭燃烧(67.5万辆车的运力),同时,还能够延长目前数据中心的使用年限和容量,并潜在推迟建造2300MW新产能发电厂的需求。我们建议通过提升服务器和存储设备的使用率、优化资源的部署和运作,以及大力发展虚拟化应用,能够充分有效地实现节能降耗,真正做到资源的有效利用,帮助用户在节省成本的同时,大幅提高资源使用率。

一种智能应用网络前端解决方案则能够优化数据中心和业务,RadwareAPSolute应用前端为数据中心最优化提供统一的解决方案。该方案中AppDirector和AppXcel的结合使得用一个综合解决方案就能解决应用可用性和连续性、加速应用性能、保障服务水平、应用安全、IT服务器基础架构的整合和扩展性。通过保障服务器运行的安全、可靠、顺畅、加速来提供一个节能、优化的数据中心,减轻服务器负载过重的问题所导致的高能耗和成本浪费。

AppXcel作为应用加速器可通过压缩web内容、优化图像、HTTP连接多路复用以及控制带宽使用,大大缩短事务响应时间。从而减少冗余、降低因服务器响应时间过长带来的能源损耗。超过从服务器卸载SSL和持久性功能(处理器和服务器密集的运算),AppXcel能够释放CPU以处理其它的请求,因而避免了购买额外的硬件来满足应用处理需求,可降低企业成本,节省服务器的资源浪费。这些加速能进一步地优化服务器的性能,实现真正的节能环保。

据调查的资料显示:RadwareLinkProof链路优化解决方案通过对每个ISP连接实时的监控,健康检查以及安全和性能的确认保证智能地选择可用链路,分配流量负载,保证关键业务的应用。同时通过智能的链路选择,LinkProof链路优化解决方案能够保证用户选择最优的路径访问业务,合理利用网络资源,大大降低了网络的负荷,节约了能源,提高了效率。此外Radware DefensePro安全解决方案提供了目前业界最为完备的多层次的安全防护手段,保证网络的绝对安全。

打造C2B(用户到企业)新模式

6月4日,微软(中国)有限公司正式推出了面向中小型企业用户的服务新模式——C2B(用户到企业)概念店,通过全新C2B平台可解决中小型企业用户的需求。用户可通过设立于微软(中国)官方网站的C2B平台将需求传达给微软授权合作伙伴,解决从软件购买到部署应用的一系列问题,并获得全方位的可信赖服务。这一服务平台的推出,在为用户带来极大便捷的同时,也为微软授权合作伙伴带来更多商机,从而为中小型企业用户和授权合作伙伴搭建起一座双赢桥梁。

微软在官方网站上设立中小型企业用户服务专区。中小型企业用户只需点击进入该专区(http://www.microsoft.com/china/smb/c2b),用Windows Live ID注册并输入基本联络信息。微软呼叫中心的工作人员将根据联络信息及时进行回访,了解用户的实际需求,并将这些需求分类传达给微软相关授权合作伙伴,从而使中小企业用户及时获得来自微软授权合作伙伴的可信赖、全方位的服务,从而彻底解决从购买到配置的一系列问题。这一平台不仅帮助中小型企业用户解决了各种实际需求,更为广大微软授权合作伙伴带来无限商机。微软合作伙伴可以通过此平台获得潜在的未知客户,并有机会展示自己的服务,进一步提升自己的业务。

下一代数据中心解决方案:Rackonomics

日前,布莱德网络技术公司CEO维克拉姆·梅塔为国内用户带来了其最新的数据中心经济、高效解决方案——网路层虚拟化技术“Rackonomics”。它能和服务器虚拟化技术相辅相成,更进一步满足新一代数据中心的需要。

布莱德的Rackonomics拥有三大设计核心理念。首先,利用一个机架为最基本的功能单元,以此为基础不断地复制,从而构建新一代的数据中心;其次,当你考虑服务器虚拟化的同时要考虑网络的虚拟化:最后,在扩建数据中心时要考虑到怎么样把多种不同的网络连接方式统一成一种单一的网络连接方式,以简化总成本。依据这些理念设计的具体支持网络虚拟化技术的G8000/G8100机架交换机和SmartConnect软件等完整的解决方案,则将为下一代经济、高效数据中心构建,提出一个全新的思路。

Sybase启动服务快车,打造行业服务新模式

DB2数据库故障处理及其优化研究 第6篇

DB2数据库是IBM公司研制的一种关系 (E-R) 型数据库。DB2数据库提供了很好的数据可利用性、数据安全性、数据可恢复性、数据完整性, 并且具有很高的数据存取速度。DB2主要应用于大型的服务器系统, 具有很好的伸缩性, 既可以运行在大型机上, 也可以运行在个人PC机上。DB2数据库具有跨平台执行的能力和从小规模数据到大规模数据的执行功能。DB2数据库的设计使用了数据分级技术, 可以很方便地将大型机数据库的数据同步下载到本地的数据库服务器, 可以使用客户机/服务器的模式和基于LAN的程序访问大型机服务器数据, 并实现了本地数据库及远程大型数据库的透明化连接。它拥有一个非常高效的查询优化器, 大大地提高了查询性能, 并支持多个任务的并发查询。DB2具有强大的网络功能, 一个DB2数据库系统可以同时激活上千个活动进程, 支持同时连接十几万个远程的分布用户, 非常适用于大型的分布式应用系统。

2 数据库实例的问题

数据库实例问题可以分为两种情况

2.1 实例无法启动, 运行db2start后, 直接返回错误码, 如SQL1042C。

如果根据错误码信息无法解决, 可以尝试如下方案:

数据库文件的权限被改成了777, 数据库文件的权限是有要求的, 所以不能将所有的文件都改成777的权限数据库实例文件被删除或损坏主机名与db2nodes.cfg里记录的不一致。

2.2 运行db2start时, hang在那里, 既不报错, 也无法启动实例

这种情况一般是由于实例没有正常的停止造成的, 一般运行下列命令可以解决:

(将所有的与该实例有关的db2进程杀死kill-9<pid>) 然后重新启动实例。

2.3 数据库实例崩溃问题

遇到实例崩溃的问题, 首先查看db2diag.log, 根据里面的信息来分析数据库宕机的原因。再看db2dump目录中是否有trap文件。可以根据这些信息来分析原因, 一般这类问题都需要IBM工程师协助解决。

宕机的原因可以分为两类, 一类是数据库的BUG, 即数据库的缺陷引起的, 一般如果遇到了数据库的缺陷, 都有临时的解决方案, 或者通过安装最新的补丁来解决, 对某些问题IBM也提供临时的修订来解决 (需要付费) 。另一类是操作系统, 误操作等非产品问题导致的, 对非产品问题导致的宕机尽量要避免。

Tip:常见的数据库宕机原因

系统的交换空间 (paging space) 用尽数据库的某个进程被kill

3 数据库问题

3.1 数据连接问题

无法连接数据库, 常见的错误有代码页错误, 通讯协议错误, 数据库状态错误等。

对代码页类错误, 可以通过设置db2codepage, db2country来解决, 这两个变量需要用db2set设置成与数据库一致的值。

当发生通讯类错误时, 首先要要检查环境变量DB2COMM=TCPIP是否已经设置, 然后要检查dbm cfg的SVCENAME, 该变量可以直接设置成端口号, 或者设置成服务名, 该服务名要在services文件中设置成对应的端口号。要检查该端口号是否已经被其他服务占用。在启动数据库后, 可以运行netstat-an|grep<port>, 来查看该端口处于的状态。

还有一种情况, 当连接数据库时, 数据库处于backup pending状态, 无法连接。这是只要对数据库做一个备份就可以了。

3.2 数据库损坏

数据库最严重的问题莫过于数据库损坏, 那么当数据库损坏时, 最好的办法是从备份恢复数据库。

如果无法从备份恢复, 可以根据损坏的原因尝试相应的解决方案。

由于存储问题导致部分数据文件损坏, 但是数据库还可以连接, 这种情况可以采用导出数据库的表结果和数据的方法来恢复数据库。

当然对损坏的表, 导出是无法完成的, 这是可以使用db2dart的导出数据功能来导出这些损坏的表的数据。

如果数据库损坏到已经无法连接的程度, 那么除了从备份恢复, 唯一的办法是使用db2dart来导出所有的数据了。

# (suffic page number withˊpˊfor pool relative) , 按照提示输入表名, 表空间id, 起始页数, 需要导出的页数。

4 数据库优化研究

4.1 逻辑数据库和表的优化

在DB2数据库的逻辑设计阶段, 从整体上考虑数据表之间的关系, 研究尽可能合理的设计方法, 是从整体上优化数据库性能的关键之一, 可以为进一步优化数据库打下良好的基础。

在数据库的逻辑设计阶段, 尽可能用一些数据列少一些、但数量多一些的窄表来代替包含很多列的长数据表, 也就是可以将很多列的长数据表拆分成有相互关系的列数较少的多个数据表。但并不是将长表拆分成短表就可以了, 而是如果一个长表中包含了多个逻辑关系才拆分, 否则反而会降低性能。

这样设计数据库的优点包括:由于数据列少, 可以更迅速地进行排序和建立索引;由于相互关联的表比较多, 而且关系清晰, 所以很多情况下可以建立多簇索引;表的列数少, 建立的索引可以更窄更紧凑;因为表的列数少, 每个表的索引就会相应减少, 这样可以提高存储和删除数据的速度。

4.2 数据库的碎片整理

过多的数据库碎片也会影响数据库的运行效率;它对数据库的影响主要表现为三方面:一是降低性能, 过多的碎片导致在数据库访问时需要更多的磁盘I/O, 增加数据库读的数量和磁盘查找时间。二是浪费存储空间, 碎片带来很多无效的空间使用, 导致这些空间不能存储实际的数据。三是影响系统的稳定性, 如应用在创建新的存储对象或分配新的存储空间时, 因找不到足够大的连续空间而终止。DB2提供了两个实用工具RUNSTATS、RE-ORG完成此功能。REORG清除表和索引中的碎片, 并且可选择根据索引的次序排列表行。当性能随时间下降时 (当数据的插入、更新和删除造成群集或空间利用下降时) , 就使用REORG。RUN-STATS实用程序更新系统目录表中的统计信息以帮助查询优化处理。数据库管理器通过这些统计信息可以做出决策以提高SQL语句的性能。大量更改数据之后, 或运行REORG之后, 使用该实用程序。

4.3 SQL语句的优化

应用程序对数据库数据的存取基本上是通过SQL语句来完成的, 因此, SQL语句的实际和优化是至关重要的。DB2数据库的优化器可以自动分析查询语句, 对查询语句进行优化并找到最有效率的查询方案。DB2数据库可以对SQL语句中的一些子句做优化, 并对它们选择有效的索引。最后在优化出的方案中选择一种最有效率的方案执行。

SQL语句的设计也是可以遵照一些规则来进行的。如在执行查询时, 可以使用where等作为过滤条件, 提高查询速度;在返回查询结果时, 只返回有用的数据列和数据记录, 尽量避免使用select*这种查询语句;在查询的过程中, 选择合适的索引列;尽量调用数据库中已经提供的功能或者是存储过程。

摘要:随着信息技术的发展, 信息的规模和传递速度正在发生着日新月异的变化, 面对如此多的数据, 如何管理变得至关重要。而大数据量数据的存取和管理目前主要是由数据库来完成的。本文着重介绍了DB2数据库出现的故障与处理技术, 及其技术优化研究, 对相关领域的研究者有这一定的指导意义和实践价值。

关键词:DB2,数据库,故障,优化

参考文献

[1]史嘉权.数据库系统概论[M].清华大学出版社.2008.

[2]刘宇明.基于DB2的大型数据库性能优化方法研究[J].科学技术与工程, 2007.

数据优化处理 第7篇

在社会的不断发展下, 电力系统发挥着重要的作用, 且电力调度朝着自动化、网络化的方向发展, 加强电力调度数据网的建设, 是保证电网安全、稳定、可靠的重要手段[1]。而从当前电力调度数据网的发展现状进行分析, 其传输通道、网络结构等还存在着一定的问题, 影响着电力调度数据网的发展[2]。为了有效的推动中国电力调度数据网的发展, 需要将电力调度数据网传输通道的问题解决, 并进行优化配置。为此本文针对电力调度数据网传输通道的解决处理和优化配置进行分析研究。

1 电力调度数据网传输通道发展现状

随着我国电力系统的建设和发展, 电网建设的范围不断的扩大, 在电网建设的过程中, 存在着个各种各样的问题。从电力调度数据网的建设进行分析, 主要是由路由设备、交换设备、管理设备、数据通道接口设备等组成[3]。而电力调度数据网则是分为三个层面:核心层、骨干层、接入层, 电力调度数据网的核心层主要是由通信中心、网络枢纽节点组成, 骨干层则主要是各个地区电力调度控制中心的节点, 以及网络枢纽节点, 接入层则主要是其他的分支节点等 (如图1) 。

图中:—是宽带155Mbit/s, —是宽带4×2Mbit/s

从当前的电力调度数据网络发展现状进行分析, 其主要存在的问题有:

第一, 覆盖率低。虽然当前中国电力调度数据网络的建设, 取得了一定的成绩, 但是电力调度数据网络在各个地区的建设水平不一, 在经济发展水平较高的地区, 电力调度数据网的覆盖率较高, 而在经济发展水平较低的地区, 电力调度数据网络的覆盖率较低, 当前我国经济发展水平整体上与国际上发达国家的发展水平之间还存在着一定的差距, 所以我国的电力调度数据网络的整体覆盖率较低[4]。

第二, 安全防护薄弱。在电力调度数据网建设的过程中, 部分地区并没有完全的按照电力系统建设中的安全方法技术规范进行, 所以电力调度数据网的建设, 其安全防范工作相对的薄弱。

第三, 网络管理不足。当前我国的电力调度数据网络的建设, 并没有建立相应的可以完成独立网络管理的系统, 所以网络管理还存在着一定的不足。

2 调度数据网传输通道的解决处理及优化配置

在电力调度数据网络的建设中, 传输通道是重要的组成部分, 影响着整个调度数据网的安全性、稳定性, 以及数据传输的安全性和有效性。以上内容中我们认识到当前电力调度数据网的建设存在着一些问题, 其中数据传输通道也存在着一些问题, 这些问题的存在, 严重影响调度数据网络的数据传输等工作, 为此需要将这些问题解决, 并对其网络结构进行优化配置, 提高工作的安全性、有效性[5]。

为了满足电力调度数据网络的各项工作需求, 以及在电力数据传输中的各项工作支持, 需要根据当前电力调度数据网的建设需求, 进行优化改进设置。首先对电力调度数据网络结构拓扑进行改进优化, 合理的保证网络结构优化, 并将电力调度厂的接入和维护工作质量提升。电力调度数据网的结构分为核心层、骨干层和接入层, 核心层主要负责管辖范围内的数据的汇总交换, 使其拥有更多的可靠性。骨干层则主要负责其管辖范围内各个网络节点、站点的数据信息的汇总和转发, 完成网络节点IP地址的转换, 以及各种网络协议的转换。

作为电力调度数据网中, 最为关键的组成部分, 接入层影响整个网络建设的质量, 所以需要加强接入层的改进优化, 接入层是骨干层和核心层有效运行的保障, 其主要负责各个站点数据系统的接受, 直接面向用户的电力调度数据网的接入和访问。加强网络结构的拓扑, 同时为了避免造成资源的浪费, 需要对各个节点的建设、传输设备的配置等进行充分合理有效的设计, 给出最优的方案。

在当前的电力调度数据网的建设发展中, 存在着调度数据网建设、传输通道问题, 为了提高中国电力调度数据网的建设质量, 需要加强各个地区电力调度网络的建设, 提高电力调度数据网的覆盖率, 并提高网络的安全性, 加强管理。针对其中出现的故障, 需要及时发现并纠正。电力调度数据网传输通道安全问题, 需要根据相关的标准和规范, 加强二次安全防护建设, 提高风险评估能力, 建立健全安全防护体制等。在优化配置中, 电力调度数据网传输通道的网络区域划分拓扑, 以数据网管理中心为主, 加强各个拓扑节点的安全建设, 提供整个数据网的安全性[6]。

在电力调度数据网建设中, 传输通道相关设备更换速度快, 且设备的价格高, 为了更好的降低传输通道的建设成本, 可以加强设备扩容建设, 或者是现有传输通道设备的合并更新利用, 将其容量增加, 更好的推动传输通道的建设发展。电力调度数据网传输通道随着电力调度数据网的发展, 其业务量不断则增加, 新增用户不断的增多, 为了保证数据传输的安全性、流畅性以及稳定性, 需要加强传输通道的建设, 保证传输通道的建设质量。加强电力调度数据网传输通道的安全保护和管理, 在建设的过程中, 方面网络的扩展和变更, 以便于更好的为用户提供服务。

3 结语

在社会的不断发展下, 电力系统发挥着重要的作用, 推动着中国经济的发展, 在电力系统不断的发展中, 电力调度数据网产生, 且其覆盖率的不断的扩大。在电力调度数据网发展的过程中, 传输通道等方面还存在着一定的不足, 为了更好的推动中国电力系统、电网的发展, 需要将传输通道中存在的问题解决, 并加强电力调度数据网的优化配置, 提高其安全性, 加强管理, 加强网络的拓展, 提高覆盖率等, 将电力调度数据网的安全性、可靠性和稳定性提升, 以便于更好的为用户提供高质量的服务。

参考文献

[1]齐聪.鹰潭地区电力调度数据网组网分析及规划[D].南昌大学, 2012.

[2]冯敬.地区电力调度数据网建设研究[D].华南理工大学, 2014.

[3]郁丽.包头地区电力调度数据网通信传输通道解决方案[J].内蒙古电力技术, 2014 (1) :35-38.

[4]崔美兰.包头地区调度数据网传输通道配置与分析[J].内蒙古科技与经济, 2014 (21) :124-125.

[5]马红.电力调度自动化系统实用化应用[J].现代电子技术, 2004 (16) :106-107.

数据抽取中数据预处理 第8篇

网页设计师在设计网页的时候为了使网页显示效果更为吸引用户, 通常会加入大量图片、动态效果、特效字体等。主要包括:为了使用户更容易浏览网站内容还加入了以列表形式给出的水平或垂直导航条;部分网站会为了帮助用户快速查询信息加入网站内信息查询表单;一般网页底部会包含网站的版权信息、联系方式, 友情链接等;通常商业站为了营利会在网页中插入大量的广告。这些网页中的辅助内容与网页要表达的主题内容并无关系, 但是数据量多内容冗长, 我们可把它们称之为“噪音”。虽然这些噪音信息对用户浏览网站来说具有一定的实用意义, 但是对于机器提取网页数据来说, 这些数据会使抽取结果混乱与内容不纯净失去使用价值。因此, 在对网页进行信息提取之前需要先尽可能多的去除掉这些无关的噪音数据。

通常我们要抽取的内容位于网页的中间, 噪音数据分布在网页正文内容的周围, 普通用户阅读网页上时一般会习惯性地越过广告、导航等信息轻松阅读, 不会去关注这些内容。但是, 对于使用程序去抽去信息时, 我们所面对的不是用户所看到的图形界面, 而是直接分析网页所对应的html源代码。这些噪音数据和网页正文信息混和在一起, 显得杂乱无章, 分析起来十分困难。去掉网页中的噪音数据, 有利于减少其对最终抽去结果的干扰, 提高系统抽取的准确度。同时, 去除内容冗长的噪音数据, 实际上是对网页标记树进行剪枝操作, 可以极大地减少整个网页数据规模, 降低程序计算的时间消耗, 提高了系统的性能。另外, 经过实践证明, 去除一定量的噪音数据后系统运行错误分析跟踪工作也变得容易很多。

2 HTML错误检查与修正

目前大多数网站是HTML格式的, HTML的使用存在随意性, 不规范和不严格等问题。HTML编码不强制要求网页中每一个标签都有结束标签配对, 甚至存在一些错误配对的网页标记, 虽然它们依然能够被浏览器正常显示, 但这些错误可能导致后面的数据抽取工作无法进行。XML (可扩展标记语言) 是由SGML发展而来, 是被设计用来描述数据, 其焦点是数据的内容, 具有定义严格、语法明确、表示方便、结构良好适用于所有行业的新的标记定义等特点。将HTML格式网页转换成结构严谨的XML文档是Web数据抽取工作的必要环节。

HTML tidy是一个开源HTML代码检查工具, 可以指出其中没有完全符合W3C发布标准的地方, 对网页中存在的错误自动进行必需的修正并完成HTML到XHML转换工作, 使代码符合相关标准的要求。JTidy是HTML Tidy用Java语言实现的版本。

Jtidy的使用比较方便, 使用Jtidy时需要以配置文件形式给出修订具体要求。使用Jtidy工具页面进行清洗, 有下面几种预处理规则:

(1) 对HTML标记进行配对闭合

所有的标记必须首尾标记配对, 例如

与结束标记

,

与结束标记

等, 对于单体标记必须以结束, 例如
,

 

(2) 删除与抽取内容无关的标记

与抽取内容无关的标记一般为注释标记、动态脚本标记、样式标记、表单输入标记。注释标记完全独立于DOM文档树结构, 与本文主要研究的网页层次结构算法无关。页面中大量的动态脚本标记和样式标记 它们一般包括大量的修饰作用代码, 经研究对比, 这些代码长度较长远远超过正文内容甚至多达数十倍。去除这些节点有利于后期页面正文抽取。需要删除包括这些节点的起始标记和结束标记以及它们的内容。另外, 在详情页中的长文本中, 通常存在换行标记
或段落标记

, 这些标记会导致系统把长文本分成多段抽取, 在后期数据存储时找到不到其对应属性项, 同样把它们作为噪音去除。

(3) 替换转义字符

网页源码中存在一些特殊字符, 例如“ ”和“&gb;”, 需要转换成对就的空格和>符号。输入:原始未处理html文件, 输出:经Tidy修正后的xml文件。

HTML文档的标记之间通常会包含大量回车、换行符、制表符等空白字符这些字符不是网页抽取内容。虽然这些内容在浏览器中并不显示出来, 但是在后期数据抽取阶段时, XML文档经解析生成DOM树结构, 空白文本会被转成空白文本节点。由于文件中空白节点数目较多, 影响后期抽取算法性能, 并且对用户毫无意义, 所以在本文中也作为噪音数据处理。

3 结束语

过滤掉网页中与用户关注内容无关的页面展示数据, 将分散在html标记中的事实信息抽取出来, 转成结构化的语义清晰的数据以供其他应用程序使用。可以看出, 高效地从网络中抽取有价值的数据的前提是“噪声”的识别和消除。“噪声”的识别和消除, 成为数据抽取的网络信息检索领域中的重要研究课题。

参考文献

[1]毛先领, 何靖, 闻宏飞.网页去噪音:研究综述[J].计算机研究与发展, 2010, 47 (12) :025-2036.

[2]SALTON G, FOX E, WU H.Extended Boolean Information Retrieval[J].Communications of the ACM, 1983, 26 (11) , 1022-1036.

[3]宗永升, 张祎.支持向量机与K近邻结合的网页分类方法[J].计算机仿真, 2010, 27 (9) , 08-211.

数据优化处理 第9篇

随着信息技术和网络技术的迅猛发展,互联网迎来了大数据[1]时代。大数据的主要特点就是一个字“大”。具体来讲,主要体现在两方面:一是数据量巨大,从TB级别跃升到PB级别;二是数据类型繁多,包括文本、网络日志、视频、音频、图片、地理位置信息等等。

面对互联网中浩瀚的大数据,人们却很难从中获取有用的信息,这就是所谓的“数据爆炸”现象。造成这一现象的原因是计算机无法“理解”数据的语义和数据之间的关联性,而大数据中真正有意思的数据正是数据之间的关联性。计算机理解数据要解决三个问题,一是语义数据的描述;二是语义数据存储;三是语义数据的查询。语义数据描述是必要条件,语义数据的存储是实现有效查询的关键。为了解决这些难题,学者进行研究,也提出不同的方案,其中,语义Web[2,13]的理念逐渐得到大家的认同。

语义Web是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,所谓语义Web就是一种能理解人类语言的智能网络。计算机能认识网络中的数据,能帮助人们进行分析和处理,从而将有用的数据信息提交给人们。语义Web的设想和大数据的要求比较吻合,虽然到目前为止,语义Web还没实现,但语义Web的理念为解决大数据难题提供了很好的思路。

1 语义数据描述

语义Web理念是一个很大的理论框架,包括一系列理论和方法,其中一个核心问题就是语义数据的表示。所谓语义数据就是赋予含义和关联性的数据。

语义Web中的语义数据表示采用了资源描述框架标准,即RDF[3]。它能保证数据的语义完整地描述出来,而且也能表示各数据间的关联性,是目前最佳的描述语义数据的方式。

RDF语义数据描述形式有三种:三元组、RDF/XML和RDF Graph,下面通过一个例子来说明这三种描述形式。用到的语义数据例子:一篇wiki文章Tony_Benn的title是Tony Benn,出版者是Wikipedia。

1.1 三元组

这种描述方法中,一个RDF文件有很多陈述语句组成。一条陈述语句包含三个部分:即主体,属性,客体,通常称为RDF三元组。其中主体是被描述的资源,属性表示资源的特征或关系,客体表示主体在属性上的取值,可以是另外一个资源或者是文本,如图1所示。第一条陈述句的含义是Tony_Benn的title是“Tony Benn”,第二条陈述句的含义是Tony_Benn的publisher是Wikipedia。

1.2 RDF/XML

RDF通过可扩展标记语言XML实现。XML用于标记文件使其具有结构性的标记语言,是一种允许用户对自己的标记语言进行定义的源语言,可以用来标记数据、定义数据类型。如图2所示。

1.3 RDF图

通过将RDF三元组看作带标签的边,主体和客体是节点,属性是边,RDF数据很自然地符合图模型结构,即一个有向的图。同时图模型符合RDF模型的数据的语义层次,可以最大限度地保持RDF数据的语义信息,也有利于对语义信息的查询,如图3所示。

2 语义数据存储

RDF资源描述框架解决了语义数据的描述问题,RDF语义数据存储问题如何解决呢?首先要认识到存储问题不是简单地将数据写入数据库和存储介质,其将直接影响到数据库各个方面的性能,包括数据组织、读取、维护,以及最重要的查询性能等。存储方式的不同将直接到影响RDF语义数据的查询的效率和效益。语义数据存储是整个互联网性能最关键的因素,因此RDF语义数据存储时就要考虑到查询性能优化的问题。

目前RDF语义数据存储有五种方案:关系数据库、Big-Table、Key-Value、RDF图、XML文档,其中关系数据是最成熟的数据库类型,后4种属于No SQL[4]。下面将从查询性能优化角度对不同RDF语义数据存储方案进行分析。

2.1 关系数据库

关系数据库是当前是最成熟、应用最广的数据库。许多研究者试图将RDF语义数据直接存储在关系数据库中,以便充分利用关系数据现有的一切优势和成果。关系数据库存储语义数据基本是三元组及其拆分的思想,有五种具体形式[5,14],分析如下:

(1)三元组表存储方案。本方案是构建一张三列表(主体,属性,客体),将所有的RDF三元组都放在这个表中,其优点是这种方案具有很好的通用性,问题是查询时产生多个表的自连接操作,查询性能差。

(2)水平存储方案。本方案是将所有的属性均作为一列形成一个大表,优点是:这种策略的好处在于设计简单,同时很容易回答面向某单个主体的属性值的查询。问题是:列数太多,空值太多。

(3)属性表。对水平存储方法的优化,通过对相关属性的分类,将大表分成若干的子表,避免了表中列数过多等问题,但很难兼顾减少空值和查询效率的问题,减少空值的话尽量将表的列数减少,势必增加表的个数,那么查询涉及的表就增多,查询效率下降。

(4)二元存储。有的文献叫垂直分割法,三元组表被重写为n(n等于RDF数据中属性的个数)张包含两列的表。每一张表都以对应的属性为表名,第一列是所有在这个属性上有属性值的主体,第二列是该主体在这个属性上的值。优点是存储空间减少,空值减少,缺点是增加了表连接的运算数。

(5)全索引策略。为了提高简单三列表存储的查询效率,目前一种普遍认可的方法是“全索引”策略,即列举三列表的所有排列组合的可能性,有6种,并且按照每一种排列组合建立聚集B+-树。全索引策略可以弥补一些简单垂直存储的缺点,但增加了存储空间。

通过以上分析表明,关系数据库存储RDF语义数据,有以下不利因素:

(1)受到关系数据库很多先天特征的限制,例如,模式的固定和不灵活,模式和外模式的隔离,NULL数据处理。

(2)关系数据库强调的是实体本身,是显性的,而语义数据更重视实体间的关系,或者说更重要更多的信息是实体间的关系,是隐形的。

(3)关系数据库中,表连接操作效率低[6],语义数据的关系又多,势必表连接多,势必效率低。很难兼顾查询效率和增加索引的开销,往往顾此失彼,很难平衡。

因此,关系数据库不适合存储RDF语义数据。

2.2 Big-Table

Big-Table[7]是Google采用的存储方案,本质是一种列存储,数据模型是一个稀疏的、分布式的、持久化的、多维的排序映射。该映射的索引是行关键字、列关键字以及时间戳;映射中的每个值都是一个未经解析的byte的数组。数据模型就是一种map,表现为一种表的形式,主要用来存储网页内容,因此Big-Table不适合存储RDF语义数据。

2.3 Key-Value

Key-Value数据模型的思想来自哈希表,包含一个特定的key和一个value指针,指向某个特定数据。Key-Value[8]模式的典型代表是亚马逊的Dynamo[9]存储平台,其可用性和扩展性都很好,采用动态哈希表,实现数据分布存储和查询,但这只是P2P模式的改进,对关系数据库性能进行权衡和取舍,为了得到高可读写性,牺牲其他的性能,而且也仅考虑到了分布式和大规模数据,没考虑数据的关联性,弱化了数据结构,不是语义数据,只解决了数据库分布式的问题,而且只提供Get、Set等操作。因此Key-Value不适合存储RDF语义数据。

2.4 RDF文件系统

RDF文件系统又称为面向文本存储,基本思想是文本封装数据,解析工具是语义Web基础框架Jena。典型例子有Mongo DB,其集合(类似关系数据库中的表)里包括文档(关系数据库的表里的一个记录),为关系数据库的table。文档为一种键值对形式,键ID用于唯一标识一个文档。优点是采用无模式形式,能实现海量大数据,缺点是和关系数据库一样,无法体现数据间的关系。因此RDF文件系统不合适存储RDF语义数据。

2.5 RDF图存储

以上四种数据库模式难以实现RDF语义数据存储,许多研究者开始考虑使用图形式存储RDF语义数据,RDF图存储的优点主要有以下几点:

(1)RDF用图描述方便直观。

(2)图模型符合RDF模型的语义层次,可以最大限度地保持RDF数据的语义信息。

(3)图能够直接映射RDF模型,避免了为适应存储结构对RDF数据进行转换。

(4)以图结构存储RDF数据避免了重构,以其他形式存储时,查询RDF数据的语义信息需要重构RDF图。

(5)可以借鉴成熟的图算法、图数据库来设计RDF数据的存储方案与查询算法。

图存储也有其缺点,一是存储空间大,二是查询的算法时间复杂度较高。正因为这两点,图存储一度没有得到重视和很好的发展,但当前存储介质的容量越来越大,单位容量的价格越来越便宜,因此存储空间大的缺点已经不是关键问题。至于算法复杂度,也正有很多研究者正精心设计算法以降低实时查询的时间复杂度,出现很多类型的图数据库,目前典型的RDF图数据库有6个:Neo4j、Allegro Graph、Bigdata、Open Link virtuoso、Oracle Spatial and Graph、R2DF等,其中Neo4j[10]是目前最具权威性的,使用最多的开源图数据库系统,下文将分析Neo4j的特性及其开源Java开发。

3 Neo4j图数据库

3.1 Neo4j特性分析

Neo4j是一个用Java实现、完全兼容ACID的图形数据库。数据以一种针对图形网络进行过优化的格式保存在磁盘上。Neo4j的内核是一种极快的图形引擎,具有数据库产品期望的所有特性,如恢复、两阶段提交等。

Neo4j的典型数据特征有三点:

(1)数据结构不是必须的,甚至可以完全没有,这可以简化模式变更和延迟数据迁移。

(2)针对常见的复杂领域数据集,可以方便建模,如CMS里的访问控制可被建模成细粒度的访问控制表、对象数据库的用例、Triple Stores以及其他例子。

(3)典型使用的领域如语义Web RDF、Linked Data、GIS、基因分析、社交网络数据建模、深度推荐算法以及其他领域。

3.2 Neo4j系统实现

在安装部署了Neo4j Server后,可以通过地址:http://127.0.0.1:7474/进行访问。Neo4j Web管理工具是当前官方提供的主要管理工具,主要功能有:

监控Neo4j Server的运行,维护和浏览数据,通过控制台与数据库进行交互,浏览原始数据管理对象(JMX Mbeans)。

如图4所示demo系统实现图数据Web UI界面。该界面直观,所见即所得。方便添加或者删除数据节点,方便查询所需的数据:可以通过节点查询,也可以通过边(关系)查询。

Cypher语言[11]是Neo4j图数据库的专有查询语言,是一种图描述查询语言,可以在不对图结构进行写遍历的情况下,进行高效查询,进行高效更新图存储。Cypher是一种人性化查询语言,适合于系统开发者和专家,进行随时的查询图数据库。它是一种描述语言,结合SQL和Spar QL的特性,其中关键字类似于SQL,模式匹配方式借用了Spar QL,如图5所示,Cypher查询语言界面。

3.3 查询优势分析

任何数据库,只要是进行数据查询,一般都要用到索引。根据索引来查询数据是快速的,但建立索引和更新索引是非常消耗时间的。

在关系数据库中,通过索引在一个表中能快速找到相应的记录数据,但当连接两个表时,要重新为这两个表中所有的数据建立一个新的大的索引,如果还连接其他表时,又要重新为三个表中的所有数据建立一个新的更大的索引,这是一个完全递归的过程,每次都需要扫描所有的数据元素建立索引,这个开销是非常惊人,这是为什么表连接要付出如此昂贵的代价的原因。而且语义数据的关联性很强,几乎查询任何有意义的数据都需要表连接,很多时候还是多个表连接,因此关系数据库中存储RDF语义数据时,查询的效率肯定非常低,查询请求快速密集加入时,有可能导致数据库资源耗尽而崩溃。

Neo4j图数据库,进行数据查询,只在查询出发点时用到索引,然后就可以通过出发点沿着边进行遍历,而且再也不使用索引就能查找到下一个数据,这就是所谓的“index-free adjacency”[12]。一个图数据库只维护一个或有限的几个索引,只在语义数据变动时进行索引的更新,因此索引建立和维护的开销是非常有限的。语义数据量增加时,索引会相应的增加,找到出发点的速度会变慢一点点,但遍历的网络不会变慢,因为并非一切都将被连接在一起,从运行的查询的角度看,没有连接到开始节点的其他东西可以简单地理解为“不存在”。

因此Neo4j的查询快速,没有表连接的代价和开销,受索引更新的影响小,性能是稳定的。

3.4 实例验证

下面通过一个语义数据集的实例运行来阐明Neo4j查询的过程,并和关系数据库进行比较,以验证Neo4j图数据库进行RDF语义数据查询的高性能和稳定性。

Neo4j中的一个RDF语义数据集,如图4所示,表示的是一个家族的宗谱信息,包括19个节点,18条边,节点表示一个人,每条有向边表示母子或者父子关系,默认的索引是按人名建立的一个索引。如果要查询这样的数据:Shana Willems的兄弟姐妹有哪几个?比较关系数据库和Neo4j的不同查询方式。

(1)关系数据库中,数据采用常用的三元组表(名为T)方案存储,如图6所示。

通过SQL查询的语句是:

SQL能得到正确结果,但SQL查询过程产生表连接操作,显然,这里有表T1和T2的表自连接操作,有表连接必然要重新建立索引,当三元组表列的规模比较大时,建立索引将消耗大量时间,必严重影响到数据查询性能。

(2)Neo4j图数据库中,通过Cypher查询语句来查询,语句如下:

Cypher语言查询语句和结果如图5所示,先使用索引node_auto_index找到起点“Shana Willems”,通过MATCH遍历找到节点m,m是“Shana Willems”的MOTHER,再通过节点m找到所有的节点a,所有a正是Shana Willems的兄弟姐妹,有两个,它们是“Sharonda Peele”和“Melda Reza”。整个过程只使用索引一次,然后遍历即可查询到所需的数据,其效率很高的。即使数据节点增加时,因为索引只使用一次,受其影响非常小,查询性能依然很高;而遍历的复杂度也是有限,因为现实世界里所有的节点不可能都与起点链接,没有连接的节点不用去比较。

以上比较可知,RDF语义数据存储在关系数据中,进行数据查询时,因为每一次表的自连接都要进行索引的建立,而索引建立消耗时间,使得查询效率低下,并且随着三元组规模增大,索引建立时间会迅速增加,从而查询性能不断降低。RDF语义数据存储在Neo4j图数据库中,查询时使用默认索引一次,不存在表连接的情况,不用建立新索引,因此不存在索引影响查询性能的问题,而且通过索引找到出发点后进行遍历,只和出发点向关联的节点进行比较,这将大大减少计算次数,因为现实世界中不存储很多或所有节点与出发点向连的情况,大部分的情况是出发点和少数节点相连。因此Neo4j中查询RDF语义数据是高效快速的,而且查询性能是稳定的。

4 结语

数据优化处理 第10篇

【关键词】油田数据 信息 数据挖掘技术

【中图分类号】TP391 【文献标识码】A 【文章编号】1672-5158(2013)04-0217-01

一、引言

目前决策科学化、管理扁平化、业务综合化、数据集中化是信息化建设的发展趋势,通过建立数据挖掘系统来处理纷繁复杂、规模庞大的信息数据并且挖掘出隐藏在这些数据背后有价值、有决策意义的信息。

数据挖掘技术概述:

数据挖掘就是从大量不完全的而且模糊的、有噪声的、随机的数据中获取隐含在其中的潜在有用的信息和知识的过程。计算机取证数据挖掘技术可以发现、分析并出示计算机犯罪的未知信息。通过对犯罪属性分类、模式的发现、规则的提取实现计算机犯罪证据的数据挖掘。而广义数据挖掘是把统计数据建立在经验和直觉之上的组合数据挖掘方法,不是仅依靠不完全的数据分析。这样,就避免了大量的、不完全的、有噪声的、模糊的和随机的数据在大多情形下并不具有数据分析情况的出现。广义数据挖掘基本结构如图如下:

二、建立数据应用平台

(1)采用数据挖掘与在线分析技术、数据仓库相结合能够实现不同系统的共享和互联,用户访问信息变得很方便,一段时间的历史数据能够被决策人员用来分析,从而对事物发展的趋势进行研究。通过分析油田数据,建立适合于油田数据信息的数据挖掘应用平台,如下图:

(2)建立油田生产数据仓库

系统主领域的确定、数据建模是构建数据仓库的首要步骤,如在在井组生产中系统主题的确定是:油井生产受注水量的不同和层位不同的注采工艺的影响。其中注水井生产数据、油井生产数据、油井属性数据、生产时间等是分析中要应用到的数据,从而对每个主题的维度和事实进行确定,并且数据仓库的建立使用多维数据模型。在井组生产中,气油比、日产气量、日产液量等事实数据是决策者所关心的。数据的含义是多维数据模型所关心的,并且对分析领域的数据模型能够清晰的表达出来。所以应用多维数据模型来建立数据仓库的概念模型。在建立中首先建立的不是物理模型而是逻辑模型,物理实施在逻辑模型的指导来实现。确定数据源、定义关系模式、划分粒度层次等是设计逻辑模型的主要内容,其中粒度的大小需要兼顾查询分析效率和数据量的大小,并且对数据仓库的分析能力也要进行考虑。如下图是井组生产的多维数据模型:

三、在处理油田信息中数据挖掘的过程

(1)在油田信息中应用数据挖掘技术的时候,必须明确所要达到的目标和要解决的问题。针对数据挖掘的目标进行如下定义:对油田生产中的异常现象应用聚类分析法或分类分析法进行分析、如超注欠注、单量异常变化等。而且对泄露、异常井号及时发现,使生产出运行参数得到优化,确保油田经济、安全、正常运行;对数据之间的联系等利用时间序列分析、回归分析、相关分析等方法进行挖掘,能够检测出油田生产受到各变量的影响程度,便于融合油田分散的数据,对生产的指导也有很大的帮助;在油田生产经营中进行了信息化建设,生产经营的大量成果数据和历史数据得到了很好的积累,进行这些数据背后的知识的挖掘和提取可以采用兴趣模型来实现,对油田生产中的规律进行探索,对未来的生产情况、油藏开发指标等能够进行预测,从而在优化和调整生产方面起到更好的作用。

(2)数据准备阶段在数据仓库中完成之后,接下来需要进行模型应用、建立模型、数据探索等工作。在数据挖掘工作中建立数学模型是核心环节,各种数据挖掘算法在这一模型中有效的集成,如贝叶斯预测、模糊聚类、神经网络、统计分析、决策树、关联规则等吗,通综合和比较多种建模方法来实现数学模型的建立,并且数据被分层为校验数据和训练数据,在模型检验主要使用校验数据,在求解模型参数中主要使用训练数据。在已经建立的模型中代入检验数据是模型检验阶段的主要任务,并且要对模型的响应进行观察,模型准确程度的评估是通过真实数据和模型相应的比较来实现的。倘若是比较差的模型准确性,那么就要建立新的模型、重新进行数据探索,指导新模型检验。所以,模型检验、建立模型、数据探索在实际应用中是反复迭代的过程。

(3)在大量数据采集中选择训练样本,很可能出现数据误差,网络训练的准确性会受到一些明显矛盾的影响,网络识别的能力降低,所以必须有效的筛选训练样本,经过专家经验和用户对数据挖掘阶段发现模式的评价,剔除无关和冗余的模式,当用户的要求模式不能满足的时候,整个发现过程需要对数据进行重新选取,换一种算法进行再次挖掘,或对数据挖掘参数值进行重新设定、应用新的数据变化方法。通过图形化的方式把一些正确并有趣的模式呈现给用户。

四、结束语

数据上报“巧”处理 第11篇

一、耐久跑项目数据输入错误“巧”处理

《标准》指出, 在耐久跑项目上报中, 学生成绩录入就以“X′XX″”或“X′XX”进行输入, 但在教师们输入成绩过程中, 难免会因为各种原因使数据输入错误而造成上报出现问题, 输入成绩时误把“′”输入成圆点“.”或全角的单引号“’”, 或者误输成其他违规符号, 按如下操作即可完成数据“回归”。

操作流程:打开图表, 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——表格B列“性别”栏, 筛选“2” (女生) ——表格内“800米跑”栏, 筛选查看都有哪些违规符号, 浏览好后全选“I”整列——操作栏内点“开始”, 在下方最右侧“查找和选择”——点击“替换”——在“查找内容”内填写违规符号“.”——在“替换为”内填写正确符号“′”——最后点击“全部替换”。其他违规符号替换重复最后三步操作即可。

二、性别和成绩输入错误“巧”处理

在输入成绩过程中, 因数据过多、过杂, 可能会在成绩录入过程中将男、女生的项目成绩混淆, 可以按如下操作进行查询与修改, 以女生“一分钟仰卧起坐”和男生“引体向上”两个项目为例。

操作流程:打开图表 (见图1) , 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——表格B列“性别”栏, 筛选“1” (男生) ——表格内“一分钟仰卧起坐”栏, 筛选查看是否有数据存在, 如有数据应按规定核对后进行删除——返回表格B列“性别”栏, 筛选“2” (女生) ——表格内“引体向上”栏, 筛选查看是否有数据存在, 如有数据应按规定核对后进行删除——操作完毕后保存表格即可。

三、数据处理时对未参加测试人员或成绩“录入值”不合理“巧”筛选

在成绩录入过程中难免会有“未测”或“录入值”不合理等情况出现, 应如何进行操作和合理地查询统计呢?下面以excel表格筛选功能进行查询和统计:

操作流程:打开图表 (见图1) , 选中第一行——在操作栏内找到并点击“数据”——在此栏内找到并点击“筛选”——在表格“C”列, 筛选“身高”值——查找身高值的正确情况, 将“全选”去钩, 点击向下拉箭头, 查看是否有不合理的数据, 然后选中, 再确定, 查找原始测试数据并进行核对和修改, 如没有进行下一步操作——将“全选”去钩, 点中下拉菜单找到“空白”项目选中, 确定, 找到空白人员, 查找相关信息, 如没有, 自首行首列“A1”起, 点击鼠标左键向右下拉至无数据 (将所有数据选中) , 松开左键进行全部筛选数据选取, 按“ctrl+c”键复制 —— 点击表格左下新建表格“sheet1”, 点击首行首列“A1”按“ctrl+v”粘贴数据, 最后按“ctrl+s”将数据保存。说明:如经确定此学生数据无法查找或学生是“免修”, 要返回上表重复操作, 对此行数据进行删除处理方可上报 (因上报成绩所有数据不能为“空”) 。其他所有项目查找统计同上操作即可完成数据整理。

四、数据上报“名字”、“数据”或表格不统一“巧”处理

在数据上报过程中的最后一步, 常常会碰到如下情况 (见图2) 。

此情况表明, 在操作过程中可能无意中在表格的其他位置输入了不合法的字符或对表格进行了不合理操作, 运用excel表格最简单的对齐语句“=”进行操作, 会更加便捷, 操作如下。

上一篇:语文教学要找准切入点下一篇:组织感染