过程数据范文

2024-07-07

过程数据范文（精选12篇）

过程数据第1篇

1 相关技术研究现状

1.1 数据仓库

世界上最早把数据仓库提升到理论高度并加以论述的是著名学者被尊为数据仓库之父的Bill Inmon。他对数据仓库所下的定义是[1]:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,以支持管理决策的过程。

从本质上讲,数据仓库是一种信息集成技术,实现从其他支持业务日常运作的数据库系统中获取数据。数据仓库的基本体系架构如图1所示。

主要分为三层结构:DS-DW-DVIEW。DS为数据仓库的数据源,如图1中的各应用系统,办公管理数据库、政务管理数据库等;DW为数据仓库层,该层从多个应用系统的数据库中获取原始数据,经过数据整理、清洗、迁移等,然后再根据数据所属的主题存储到数据仓库中;DVIEW层通过集成化综合数据处理、服务的平台,应用分析和展现工具向用户提供集成的信息,以帮助领导者进行深入的综合分析,从而支持全局决策。

数据仓库的两个重要特征是集成性(Integrate)和随时间而变化性(Time Variant)[2]。

数据仓库的数据来自不同的应用系统,使用不同的数据结构和类型,有着不同的编码方式,所以并不能简单地照搬每个细节数据,而是要对数据进行加工,将不同类型的数据统一到数据仓库的模式上来,数据集成是数据仓库建设中至关重要的环节。

而另一方面,数据仓库的数据常用作趋向性分析,需要有足够的历史性数据,时间跨度可以很长,因此需要记录业务数据库数据在整合周期中的变化情况,并将变化数据加载到数据仓库中,以体现数据仓库的数据随时间变化的特点。

因此产生了数据整合技术。

1.2 数据整合技术

数据整合[3]并不是对企业原有技术和模式的颠覆,而是把企业中各种各样的资源整合起来为业务服务。整合包括硬件和软件的整合,企业内部和跨企业的整合,操作环境和业务流程的整合等等。整合的首要问题是数据源的整合。整合后统一的数据平台可以用于业务分析和领导决策等。

数据整合主要包括数据的收集、整理、分析和变换等步骤:

1)数据收集:根据项目规划和任务目标以及对数据分析的需求,确定选择哪些数据源作为分析目标。帮助理解数据源的资料有源系统的数据字典(这是最重要也是最易获得的资料),数据库设计说明书,E-R图,概要设计,系统需求分析报告,系统运行情况报告等。

2)数据的整理:收集到的数据资料可能来自企业内部也可能来自企业外部,数据源存储的平台和格式也不一定相同。对于不同的数据来源需要有不同的汇集和处理方式。

3)数据的分析:这是一个不可逾越的工作过程且直接影响着新系统的质量。做数据分析的时候首先要看懂数据字典,了解数据库表中各字段的含义及作用,撇开纯操作型的数据,保留分析型的数据。

4)数据转换:数据转换的过程实际上就是数据映射的过程。如果数据源分析的前面几步工作都做好了,那么这一步就相对容易的多。可以按照分析主题级、数据源实体级、属性级映射进行。

一个成功的数据整合方案将会带给企业的是业务灵活性的加大、企业商务效率的提高、信息传递的准确及时、业务流程透明度的增强、成本的最小化和进入市场能力的提升。正是基于上述原因,我们提出了基于物化视图的四层架构数据整合方案。

2 基于物化视图的四层架构数据整合方案

在了解和分析了当前一些主流数据整合技术后,我们提出了一种结合物化视图、日志等技术的四层架构数据整合方案,该方案相对于传统方案具有更好的可操作性和更高的数据整合能力。下面,我们来详细阐述该整合方案。

2.1 物化视图

物化视图Materialized view(简称MV)是数据仓库平台中用来管理概要数据的一项数据库功能。它是远程数据的本地副本,或者用来生成基于数据表求和的汇总表。当物化视图存储基于远程表的数据时,也可以称为快照。

物化视图可以分为三种类型:包含聚集的物化视图、只包含连接的物化视图和嵌套物化视图。对于数据仓库,通常情况下创建的是聚合视图(单一表聚合视图和连接视图)。

物化视图可以查询表,视图和其它的物化视图。通常情况下,被称为主表(在复制期间)或明细表(在数据仓库中)。它可以任意创建需要的数据组合,象创建视图一样简单。物化视图提供了强大的功能,可以运用在不同的环境中。

2.2 物化视图日志

物化视图日志将跟踪物化视图建立的表所驻留的主节点的变化(即跟踪物化视图的基表中数据的增加、修改和删除)。

如果物化视图采用快速刷新,则需要建立物化视图日志。物化视图日志根据不同物化视图的快速刷新的需要,可以建立为Rowid或Primary Key类型的,还可以选择是否包括Sequence、Including New Values以及指定列的列表。

在数据整合方案中,对于时常变化的业务数据建立的物化视图一般选择快速刷新(增量刷新)方式,即利用物化视图日志来发送基表已经修改的数据行到物化视图中。

2.3 四层架构数据整合方案

因为数据整合并不是对企业原有技术和模式的颠覆,而是把企业中各种各样的资源整合起来为业务服务。所以数据整合的首要问题是数据源的整合。

在传统的数据仓库三层体系架构(图1所示)中,数据源中的数据直接通过抽取工具抽取到目标数据库中。对于不同的数据源,必须采用不同的方案进行数据整合。而且数据整合过程包括了数据的收集、整理、分析和变换等步骤,这样对于不同数据源、不同平台的异构环境下的整合将非常的麻烦。

因此在数据源与目标数据库中间增加一层中间数据库,数据源中的数据首先按照一定的规则抽取到中间数据库中,而目标数据库只对中间数据库中的数据进行数据清洗和数据加工等操作,以达到异构环境和多数据源对目标数据库透明的目的,使得在特定范围内数据采集对象能够进行清洗和迁移。具体架构图如图2所示。

架构图中从上到下依次为:目标数据库、中间数据库、接口和数据源。数据由数据源到中间数据库的抽取我们采用物化视图来实现,它能很好的保证数据的及时更新和同步。现实情况中并非所有的数据源都能够支持物化视图功能,所以针对不同的数据源,要采用不同的策略来产生中间数据库。

1)支持物化视图的数据源

采用在中间数据库上建立物化视图的方式来刷新业务数据到中间数据库。中间数据库采用存储过程封装数据处理的规则,在物化视图建立dml触发器调用存储过程实现更新业务数据到数据中心层综合业务数据库(即目标数据库)。物化视图通过增量更新方式实现数据同步。

2)不支持物化视图的数据源

业务系统基于不支持物化视图的数据源的数据,采用数据库透明网关建立中间数据库到业务数据库的连接,存储过程封装数据处理的规则,通过JOB定时调用存储过程实现更新业务数据到数据中心层综合业务数据库(目标数据库)。

3)文件数据源

文本文件、xml、excel等文件数据源的获取采用在管理系统中提供相应接口导入方式实现。

在整合方案中运用物化视图、日志等技术后,主要有如下优点:

1)利用物化视图复制的特点,实现业务数据库的数据向数据仓库的迁移,减轻ETL数据处理过程中数据迁移的网络负载压力,同时减少对业务数据库系统的性能影响;

2)利用物化视图的刷新机制。在数据整合方案对于时常变化的数据可采用物化视图的快速刷新,在刷新时,只针对基表上发生变化的数据进行刷新,实现增量数据加载;对于物化视图的刷新控制,即可控制对变化数据的捕捉粒度,同时可与数据仓库的抽取周期予以分开,可供工作流进行控制,对于主题对数据的粒度的变化有较好的可维护性;

3)利用物化视图的查询和聚集,实现数据子集构造或非连接计算,对MV中的数据再次进行整理,按主题存放,完成数据最初的清洗和整合,提高ETL速度。

2.4 数据整合方案应用

基于物化视图的四层架构数据整合方案相对于传统方案具有更好的可操作性和更高的数据整合能力,其在“业务综合管理系统”中的应用也获得了较好的效果。“业务综合管理系统”整体架构图如图3所示。

3 结束语

随着数据库技术的快速发展和数据仓库建设规模的不断扩大,数据整合将成为数据仓库技术中的一个重要组成部分。本文在介绍和分析当前数据仓库系统中数据整合技术相关理论的基础上,提出了基于数据库物化视图功能的四层架构数据整合方案,该方案通过结合物化视图、日志等实现业务数据的整合和业务数据库变化数据的“捕捉”,并应用到实际项目中,取得了较好的效果。

参考文献

[1]Ponniah P.数据仓库基础[M].段云峰,李剑威,韩洁,等.译.北京:电子工业出版社,2004.

[2]李嘉宁,郭顺生,周路鸣.面向数据仓库的客户数据采集和运用[J].机电工程技术,2005(6):70-71.

[3]余晓平、瓮正科、张振宇、胡宇光,数据整合技术研究[J].兵团教育学学报,2006(2).

[4]杨俊生,数据驱动方式下的数据源分析[J],中国金融电脑,2004(5).

[5]程保炜.数据仓库技术浅析[J].现代计算机,2000(1).

[6]彭峰.数据仓库中抽取转换加载系统的设计和实现[D].华中科技大学,2003.

[7]孙丰数据中心的数据采集与加载系统的设计与设计[D].大连理工大学,2005.

[8]Nenad J.MODELING STRATEGIES AND ALTERNATIVES FOR DATA WAREHOUSING PROJECTS[J].Communications of the ACM Apr.2006,2006,49(4):83-88.

数据库面试题：存储过程第2篇

答：存储过程是用户定义的一系列SQL语句的集合，涉及特定表或其他对象的任务，用户可以调用存储过程。

而函数通常是数据库已经定义的方法，它接收参数并返回某种类型的值，并且不涉及特定用户表，例如聚集函数avg、max、count等，日期时间单数day、month等。

PL/SQL(Procedural Language/SQL, PL/SQL)是编写数据库存储过程的一种过程语言，它结合了SQL的数据操纵能力

和过程化语言的流程控制能力，是SQL的过程化扩展。

综上PL/SQL就是对数据的操纵过程化

存储过程的优点

它是由PL/SQL语句书写的过程，这个过程经编译和优化后存储在数据库服务器中，因此称它为存储过程，使用时只要调用即可。

1、由于存储过程不像解释执行的SQL语句那样在提出操作请求时才进行语法分析和优化工作，因而运行效率高，

它提供了在服务器端快速执行SQL语句的有效途径。

2、存储过程降低了客户机和服务器之间的通信量。客户机上的应用程序只要通过网络向服务器发出存储过程的名字和参数，就可以让RDBMS执行许多条的SQL语句，并执行数据处理。只有最终处理结果才返回客户端。

3、方便实施企业规则。可以把企业规则的运算程序写成存储过程放入数据库服务器中，由RDBMS管理，既有利于集中控制，又能方便地进行维护。当用户规则发生变化时，只需要修改存储过程，无需修改其他应用程序。

《数据的传输过程》教学案例第3篇

本课教学内容是教育科学出版社出版的高中《网络技术应用（选修）》第三章第二节网络通信的工作原理中的第一课“数据的传输过程”，内容包括网络协议、OSI层次模型、TCP/IP协议体系和网络中数据的传输，内容比较抽象，学生很难通过实践操作或亲身体验来获取新知识，但却是网络的基础内容。本节内容在教材中起承上启下的作用，只有在理解网络数据传输过程的基础上，才能更好地理解数据交换技术的作用，才可以更好地理解网络服务。

学情分析

本课学习对象为江苏省无锡市太湖高级中学高一年级学生。随着因特网的发展与应用范围的扩大，因特网提供的各种功能学生已经比较熟练。学生们喜欢网络游戏、QQ聊天，收发E-mail，但是真正能了解网络数据通信工作原理的学生却寥寥无几。本课利用成语猜谜游戏、Flash动画、模拟操作等手段来提高学生学习的积极性，让抽象的知识变得有趣、有意义，便于理解和掌握。

教学目标

知识与技能目标：理解OSI模型及TCP/IP协议的基本知识，理解网络中数据传输的过程。

过程与方法目标：通过动画演示与实践对比理解OSI参考模型及网络中数据的传输过程，通过实例操作体验互联网中TCP/IP协议收发E-mail的过程。

情感态度与价值观目标：感受通信技术在网络互联中的核心价值，体验人类在解决问题的过程中表现出来的智慧。通过实例操作体验来提升学生解决问题的能力。

教学重点、难点

重点：OSI参考模型各功能层的功能；TCP/IP协议的核心内容及其特点。

难点：结合实例，分析网络中数据传输的过程。

整体思路

从教学内容来看本节课是一节纯理论的课程，而且内容比较抽象。首先，在导入时让5位学生完成一个游戏：通过形体语言传输一个成语信息，最终得到一个错误数据。借助此游戏来分析数据传输过程中数据出错的原因。通过“游戏导入、问题设疑”的方式引出“约定”和“功能层”的功能，为后面讲解OSI的层次模型、TCP/IP协议的层次结构埋下伏笔。其次，采用事件驱动的方式。在理论内容讲授的过程中形式不能过于平缓，适当地让学生参与到授课过程中及时捕捉学生的情绪。从OSI层次模型到TCP/IP协议模型的过渡穿插一个验证计算机上安装的TCP/IP协议的过程，教师在此基础上具体讲解TCP/IP协议的各功能层的作用及数据传输过程。最后，选择学生最熟悉的网络应用E-mail的传送过程为实践操作，体验模拟E-mail在网络中的发送和接收的工作过程，理解网络通信的工作原理。

教学准备

准备好一个方便学生形体展示的成语；为方便教学同步，准备好学生的操作素材，并下发到学生桌面；投影仪。

教学过程

1.游戏导入，问题设疑

教师请5位学生完成一个游戏：通过形体语言传输一个成语信息“画龙点睛”，最终得到一个错误数据。借助此游戏来分析数据传输过程中数据出错的原因。

我们有什么办法可以让这个成语在数据传输的过程中不出错呢？

归纳总结：①发送方和接收方有形体动作约定。如用双方约定好的形体动作来表达一个数据信息等（表示层）。②相邻两人之间有数据传递的约定。如上一个同学拍下一个同学的肩约定有数据传输等（会话层）。③保证形体动作在传送过程中不走样，即数据在传输的过程中不出错（传输层）。④保证数据朝正确的路径传递下去（网络层）。

设计意图：通过对疑问的解答，在学生脑海中建立处理一件事情的过程中需要有约定和层次的概念。为后续OSI层次模型的各层的主要功能介绍作铺垫。

2.自然过渡，引入新课

师：网络中数据的传输也是一个复杂的过程，在计算机网络中为了有效地传递数据，传输过程中一定也需要一种共同的约定，这里的约定就是“协议”；为完成一次数据的传输过程，要将网络的各部分功能划分成功能层来完成一个任务。

教师展示OSI开放系统互联参考模型，展示各功能名称、层次和各功能的功能。

师：结合刚才的成语猜谜游戏，理解各功能层的功能。

学生反馈，用自己的话描述出各功能层的功能。

设计意图：结合成语猜谜游戏，使学生更易于理解网络数据传输过程的层次型结构，在此基础上再介绍OSI模型的产生背景及其各层次的功能，学生会更易于接受。

3.验证体验，过渡新知

（1）基本任务

学生观看“OSI七层参考模型的信息流向动画”，反馈并得出数据流向。

（2）进阶任务

师生共同验证计算机中安装的TCP/IP协议，来引出本部分的内容。

教师展示TCP/IP协议的结构，并与OSI模型相比较。

师：作为TCP/IP协议体系的核心协议，TCP协议和IP协议的作用是什么？分别作用在哪一层？

生：TCP协议确认数据传输及进行纠错处理，工作在传输层；IP协议负责数据的传输、路由及地址选择，工作在网际层。

设计意图：从基本任务到进阶任务，避免了只有教师平铺直叙式的讲授所带来的情绪转移，能够起到吸引学生注意力的作用。同时，在纯理论课中体现学生主动参与的学习方法。

4.实践操作，体会抽象

学生在教师的指导下完成一个实践操作“Web页面下E-mail传输工作在TCP/IP协议中的工作过程”，体会层次化的TCP/IP协议模型在实际应用中的工作原理。使学生把学到的理论形象地建立在脑海中。

学生完成表1，并将完成后的Word文档，上传到FTP服务器上。

说明：将表2中的各个图片填入表1中的合适位置。

设计意图：利用学生熟悉的“利用FTP交作业”的例子，巩固应用层的功能，便于学生理解。通过课堂练习，启发学生自主思考、探究发现，达到良好的教学目的，既提高了学生的参与度，也使学生更有成就感。

5.回顾梳理，巩固提升

（1）回顾梳理

师：计算机网络通信是通过分层实现，每一层都遵守协议，上层对下层提出要求，下层完成上层提出的要求。发送方封装信息，接收方拆封信息。

教师引导学生回顾OSI参考模型各功能层的功能、TCP/IP协议的核心内容及其特点。

师：OSI参考模型只是一种理想的概念模型，在网络技术的发展实践中，更多的是诸如TCP/IP协议等协议在发挥作用。我们要结合生活中的网络应用实例，理解TCP/IP协议的各层功能和作用。

（2）巩固提升

师：单击“测试题”的网址，根据自己所在班级和学号登录。根据网页的评分功能，对出错的题目进行改正。

学生活动：根据自己的班级学号登录、测试。若有错误，查看课本内容再改正。

设计意图：根据学测需要，考查学生对知识的掌握情况。此练习可根据教学时间，做弹性安排。

教学反思

浅析制造过程数据管理和数据库技术第4篇

PDM就是管理产品整个生命周期的相关数据和过程的技术。产品数据包括CAD/CA PP/CAM/CA E产生的文件、过程信息、审批信息、配置信息、资源库数据、设计说明书、批注、项目计划、和设计过程数据等。产品过程指产品的生命周期过程的定义和监控。

2 PDM的功能

(1) 数据仓库;

(2) 文档管理;

(3) 产品结构管理;

(4) 工作流和过程管理;

(5) 通讯和电子协作功能;

(6) 项目管理;

(7) 配置管理;

(8) 分类查询功能。

随着网络技术和Internet的发展, PDM技术的研究领域进一步扩大, 诸如利用WEB技术将PD M的信息联接到Internet信息服务器上, 以使PDM的信息可以被更为广泛地应用。此外许多新的功能和数据安全将成为新的需求。

3 现状及国内外发展趋势

PDM技术在国外国内都有了一定的研究和应用, 典型的如美国著名的PTC公司已经开发出了管理PRO/ENGINEER产品数据和软件Pro/INTRALINK。

Windcill技术更是基于WEB技术的、跨异构系统的、可管理跨国跨地区的大公司的产品数据信息管理系统, 其产品已广泛应用于各个行业。

Motiva软件公司专门从事企业范围内数据管理解决方案, 其DesignGroup2.0软件可以管理产品和项目信息定义, 并支持设计组人员通过Internet电子协作直接访问企业内部网管理全球的工作成员。其可扩展性能支持日益增长的企业需求, 可使企业根据需要扩展系统。

AutaDesk公司是CAD软件的最著名的厂商之一, 该公司密切关注设计信息的管理, 并联合Motiva软件公司, 开发了管理文档数据和工作流自动化的软件WorkCenter。

由上可知, 在国外, PDM技术已经进入应用软件的开发和企业的成功实施阶段。但不同的PDM软件在功能上有差别, 有的软件在功能上更全面, 有的仅集中在PDM的文档管理、数据仓库功能上。有的仅适合企业内部网上实施, 有的却能在Internet上实现。

在我国许多CAD产品厂商如华软、高华、利玛等公司都密切关注PDM技术的发展, 并推出了PDM产品, 在一些企业得以实施, 提高企业的计算机管理水平, 给企业带来了较大的经济效益。

但是我国对PDM技术的研究还很落后, 虽然在“九五”期间已经对PDM技术的研究有了一定的基础, 但还比较薄弱, 特别对PDM的应用领域的范围还比较狭窄, 仅局限于制造业, 理论研究和实现的方法研究不足, 对于PDM的集成技术各软件开发商各自为政, 标准接口还有待于研究、规范和推广, 这有利于不同商家软件的集成, 有利于应用不同PDM技术的企业的信息交换。

根据CIMdata公司的市场统计, 全球PDM市场正在迅速增长。PD M软件及服务费:1993年3.52亿美元、1994年4.78亿美元、1995年6.84亿美元、1996年8.5亿美元、1998年14亿美元、1996~2000年PDM业务正以每年27%的速度增长。

PDM技术对企业不是能不能实施的问题, 而是在什么时候、什么范围内实施的问题。所以我国必须加强PDM技术的研究和软件的开发, 为企业成功实施PDM提供解决方案。但PDM实施是一个技术和管理结合的复杂系统, 必须在技术上、管理上、实施范围上给予充分的研究和组织。

4 发展目标及主要研究内容

4.1 目标

根据国内处PDM技术的研究现状和发展趋势, 结合我国机械行业的实际情况, 制造过程数据管理和数据库技术的发展目标:突破PDM所涉及的数据库、数据安全及监控、应用集成、网络的技术难点, 开发具有自主版权的PDM大型软件, 并在机械行业企业中推广应用, 初步形成PDM软件产业。

4.2 主要研究内容

(1) PDM总体技术。研究PD M的体系结构, PDM应采用开放式标准的、面向对象的、可扩展的体系结构。

(2) 数据库技术。研究数据仓库技术和决策支持系统, 在PDM软件开发上, 研究三层结构的Client/Server数据库应用系统, 在用户界面层和数据源层之间增加业务逻辑层, 保持业务逻辑层独立, 使PDM较易适应各企业不同业务规则和企业业务规则随发展而变化的需要。

(3) WEB技术。随着网络技术和Internet技术在企业内部的应用, 研究在PDM中运用WEB技术, 使PDM技术和Internet技术结合, 支持异构系统、支持异地办公、支持销售人员查询企业产品资料和用户信息, 以及随时录入市场信息, 同时可以通过Internet对客户提供技术支持。

(4) 面向对象技术。这是目前计算机软件技术领域中广为采用的一门技术, 无论从业务操作、系统架构、软件框架, 通过采用面向对象技术, 使得软件更容易对现实世界的描述和实现。目前流行的软件技术都采用面向对象的技术, 诸如微软的Active X技术、Java技术等。

(5) 数据安全和监控技术。由于是运行在企业内部网甚至是互联网的数据库管理系统, 其数据安全变得尤为重要, 研究对数据库操作的权限控制、数据传送的加密及监控技术。

(6) 应用集成技术。研究PD M与非数据库CAD/CAPP/CAM/CAE技术软件集成接口, 使得PDM成为这些应用软件的数据管理助手, 同时研究PDM与ERP的集成技术。

(7) 配置管理技术。这是PD M研究的又一个新的热点。配置管理是产品结构管理、变更管理、复杂数据管理的一种过程方法, 其着重于协调、监视、变更控制, 维护部件、文档以及从设计到制造间变更数据之间的同步。

(8) 在研究上述技术基础上, 组织协作攻关开发具有我国自主版权的PDM系统软件, 并在机械行业企业推广应用。

摘要：随着计算机技术在制造企业中广泛应用, 产生了大量的数字化信息, 而这些数字信息尚缺乏有效的管理, 造成信息资源的再利用和查找困难, 越来越多的企业迫切需要采用数据库技术解决这一难题。制造过程的数据信息主要围绕着产品的生产过程而产生, 研究产品相关数据的管理技术在国外早已引起企业的重视。国内也已开始重视产品数据的管理技术, 这一技术起初在国内外有各种名称, 诸如工程数据管理 (EDM) 、产品信息管理 (PIM) 、技术数据管理 (TDM) 、技术信息管理 (TIM) , 最终国内外研究人员都统一称为产品数据管理 (PDM) , PDM技术就是解决企业产品大量数据化信息管理的一门技术。

客户关系管理的数据采集过程分析第5篇

要使CRM产生效益首要任务就是数据采集。所谓数据采集即对大量数据中的新奇、隐含和可控的知识进行重要提取并且可利用其做出准确的预测，找到好的顾客，提出合适的附加产品等。一般数据采集包含以下六步：企业定义→数据储存→数据选择→数据建模→数据评估→部署，如图1所示。

图1 数据采集步骤

企业定义

数据采集本身就是解决实际的业务问题。首先数据采集的目标应该根据公司的商业需求以及对原始数据和实际操作的分析来定义。企业必须清楚自己的目的才能最好的利用数据采集。例如，根据 “提高反应速度”或“增加反应价值”的特定目标，企业就需要建立一个截然不同的模型以加强服务中心的反应。

数据采集在客户关系管理中通常应用于以下四个领域：保留客户;客户服务与支持;市场研究;提高客户忠诚度。

数据储存与选择

在数据储存阶段的主要任务是收集数据，同时应该注意：数据不可以储存在数据库管理系统中，而是储存在xml文件和excel里。

为了CRM的应用，数据通常通过客户、产品、市场来收集。客户的资料通常包含名字、年龄、性别、收入、工作、信用等级、是否结婚、是否有孩子等等。

数据选择是数据采集六步骤中最重要的阶段之一，

前一个阶段收集的数据当然不是全部有效的，它可能包含噪声数据、不一致的数据和模棱两可的数据。如果要得到精确的结果，数据选择是必须的。它通常由下列三个步骤组成：数据提取、数据处理、数据集成和转换。

数据提取。解决一个具体的业务问题，我们不需要所有的数据。应该保留相关数据并且剔除无用数据。例如，为了增加服务中心的反应速度，客户的性别应该被提取。

数据处理。在数据处理阶段，应该用平均值填充噪声数据，改正不一致的数据，并且除去模棱两可的数据等等。

数据集成和转换。收集的数据通常存放于不同类型的数据库管理系统或文件中，这就需要将其输出到统一的数据集中，这也就是数据集成和转换的重要任务。

数据建模

数据建模是一个重复的过程。我们需要探究许多模型从而找到一个最适当的模型来解决实际存在的业务问题。在搜索模型时，有时需要重新对先前的数据进行改动。在决定所做预测的类型以后，必须选择一种模型类型做预测。

在建立模型之前，应将收集的数据分成两组。一组用于建立和训练模型，另一组用于评估之后建立的模型。目前已经存在许多成熟的模型。但是要应用CRM软件解决业务问题，究竟哪种模型最适用于解决具体的业务问题呢?主要有以下三种：

分类和聚类。根据客户不同的购买模式和个人资料，可对客户进行分组。对客户进行分类在CRM中发挥着重要作用，特别是当实施营销战略或决定价格灵敏度时。对客户分类可以将目标市场定义为片段的集合，每段具有不同的特征。我们采取不同的策略来满足每个片段的不同需要从而保持与各户的有利可图的长期关系。决策树是用于该领域的最有代表性的算法。

回归分析。回归分析主要用于分析市场趋势。市场分析包括新产品趋势分析，通过趋势分析从而提出紧密联系市场和不同地区不同需求的反映季节趋势的产品。决策树也是该领域的算法。k-mean是用于该领域的最有代表性的算法。

过程数据第6篇

[关键词] 芯片制造质量控制 SPC

[中图分类号] TN406 TP399 [文献标识码] A [文章编号] 1674-2583（2014）03-0026-07

1 统计过程控制SPC

统计过程控制SPC（Statistical Process Control）是基于统计理论的技术和方法，通过对生产过程中的工序参数质量数据进行计算描图，实现对工序过程稳定性的监控和预测，从而达到发现异常、及时改进、减少波动、保证过程稳定、产品总体质量稳定可靠的目的。所以SPC可以提高过程的稳定性，降低不合格品率，降低成本，提高企业的经济效益。

SPC控制图的预防原理：应用SPC对检测数据进行统计分析能够区分生产过程中的正常波动与异常波动，及时预警，提醒生产人员采取措施消除异常，从而保证产品质量特性的一致和稳定。对异常波动的及时预警是SPC的最大特点，它能够在异常因素刚一露出苗头，尚未造成不合格品之前就能及时发现，指导技术人员采取措施，消除异常。这样，便极大地减少不合格品的产生，保证生产顺畅进行，从而提高生产率。可以在这种趋势造成不合格品之前就采取措施加以消除，从而实现SPC的预防作用。

在生产监控现场，更多的情况是控制图显示异常，表明异因已经发生，这时要严格贯彻过程质量控制的原则：查出异因，采取措施，保证消除，不再出现，纳入标准。每贯彻一次这个原则，即经过一次这样的循环就消除一个异因，使它不再出现，从而起到保证过程稳定一致的作用。由于异因有限，经过有限次的循环后，最终可以达到在过程中只存在偶因而不存在异因。

ISO9001-2000提出关于质量管理的原则，对于质量管理实践具有深刻的指导意义。其中，过程方法、基于事实的决策原则都和SPC有着密切的联系。以什么样的方法来对过程进行控制？以什么样的手段来保证管理决策的及时性和可靠性？是管理者考虑最多的问题。SPC的运用是对按ISO9001标准建立的质量管理体系的有力支持。

2 建立芯片制造过程SPC系统

2.1 系统构成

芯片制造过程SPC系统以客户/服务器结构（C/S结构）为基础模型，包括数据库服务器、数据采集/监控站点、SPC监控分析站点、SPC监控查询站点、SPC异常报警装置、基于浏览/服务器B/S结构的远程质量查询站点、SPC控制图异常回馈等部分组成。

2.2 功能构成

2.2.1 工程师权限构成

系统软件对操作权限进行详细的划分，严格细致的权限管理使系统的安全性得到充分保证。每个工程师的权限包括系统功能操作权限、产品/工序查询权限、采集计划使用权限三部分。根据工程师的工作内容、职务划分而做适当的权限设置，充分保证软件系统和数据的安全和高效运行。

2.2.2 工艺版本属性工程师自定义

软件系统采用视窗软件常用的树形结构来保存“工艺版本”的属性定义。可以根据生产线的组织结构来自由定义“工艺版本”的“路径”，路径层次的深浅随意延伸。树形结构弥补表格式结构中属性项目数量固定、名称固定的缺陷。

2.2.3 质量特性定义

在质量特性的属性定义时，工程师不仅可以定义它的规格类型及数值，还可以定义控制图、数值精度、样本大小、控制线计算方法、与特性参数关联的标签项目、控制图判异准则等内容。这些项目都是在SPC工序监控过程中要用到的。

2.2.4 两种可并发的数据采集方式

软件系统提供两种可并发的数据采集方式。一种是从制造控制系统中采集的量测数据自动转入，另一种是由检测人员得到量测数据后键盘录入。不管由那种途径采集到的量测数据都要存入SPC数据库中，同时进行控制图描点判异及相关统计参数的计算。数据自动采集由接口软件在后台读取数据，数据准确及时，是SPC工序控制的主要和最佳方式。键盘输入只是一种补充。

2.2.5 判异准则内容可自定义

软件系统中的控制图判异准则的详细内容由工程师根据情况自定义。在判异准则管理树中，系统给出8个判异准则大类和一些通用的判异准则条款。工程师要使用一些特殊的判异准则条款，可以自定义具体内容。比如在规则类“连续n个点中有m个点落在中心线同侧的B区以外”中，工程师可以根据实际定义n和m的取值，生成一个新的判异条款。

2.2.6 建立监控计划

软件系统中引入监控计划的概念。监控计划是一组相关联SPC的特性参数的集合。这些特性参数可由一台计算机完成数据采集，也可能是因为它们集中在一个测量检验台上，或许它们是一道工序、一种产品或一台设备上的一组特性参数。把它们集中在一个监控计划中，便于工程师同时采集数据、监控观察它们的控制图变化情况进而掌握工序的运行状态、产品的质量状况。一个监控计划应该赋予一个工序监控站点。

nlc202309031550

2.2.7 实现实时SPC监控

参数监控界面在标准状态下，系统同时显示当前特性参数的控制图、键盘录入格式、统计参数、特性参数路径等内容。还可以通过点击功能按钮以表格形式显示当前控制图对应的质量数据。还可以任意切换其它控制图，选择“属性”项设置控制图的显示风格，如控制图点的形状、大小、颜色，显示或隐含规格线、合理控制线等。

2.2.8 控制图功能

软件系统在现场实时监控中提供十几种控制或监视图表。把带有稳定控制线的图表称为控制图，而不带控制线的图表称做监视图。计量型图表有均值-极差图（Xbar-R图）、中位数-极差图（Xmed-R图）、均值-标准差图（Xbar-S图）、单值-移动极差图（X-MR图）、运行图（Run 图）、预控图（Pre-control图）、EWMA图、直方图等；计数型控制图有不合格品率图（p图）、不合格品数图（Pn图）、合格品率图（q图）、合格品数图（Qn图）、单位缺陷数图（u图）、缺陷数图（c图）等。针对计数型参数还提供DPMO/DPTO（百万机会缺陷数/千次机会缺陷数）分析图。在监控过程中，工程师还可以随时查看原因、措施、备注排列图。丰富多样的图表可以帮助工程师从不同视角去监控过程状态，充分发挥不同图表的各自优势，及时发现问题分析问题。

为了提供更充分的过程质量信息，除了直观的统计图表外，软件还同步提供大量统计参数值（在监控界面的最下方）。这些参数包括：总体均值（μ）、总体标准差（σ）、工序能力指数统计参数（3σ时：Cp、Cpu、Cpl、Cpk、 Cr；4σ时：Cm、Cpm、Cpkm；1σ时：、Zu、ZL、Zmin）、样本均值（μS）、样本标准差（S）、工序性能指数统计参数（3σ时：Pp、Ppu、Ppl、Ppk、Pr；4σ时：Pm、Ppm、Ppkm；1σ时：、PZu、PZL、pZmin）、直方图偏斜指数（Skewness）和陡度指数（Kurtosis）。偏斜系数表示样本分布直方图的对称情况。如果分布对称，则偏斜系数为0。正数表示直方图右边拖有长尾巴，负数则表示直方图左边拖有长尾巴。陡度系数是直方图分布的陡峭（或扁平）程度指标。在正常情况下其值为0，正数表示直方图尖峭、双肩较薄；负数则表示直方图相对扁平、跨度较大。

Cpk和Ppk是最常用的两个统计指数。过程能力指数Cpk给出的是过程的固有能力，过程固有的能够满足标准与规范的能力。过程性能指数Ppk给出的是根据采集到的数据对当前过程性能的估计。过程能力指数运用的是总体参数均值m和标准差s。过程性能指数用的是样本统计量，即样本均值X和样本标准差S。过程能力指数只有在已经判定过程处于稳态以后才可以通过计算得到；过程性能指数则无此要求，可以随时反应实时过程的性能。

2.2.9 异常提示报警

软件系统提供多种控制图异常报警方式。在监控界面上，控制图稳定时参数点显示为绿色，出现异常时，则控制图参数点显示为红色。点击参数点可以查看异常的类型信息，在该界面上可以向手机发送短消息寻求帮助。还可以提供SPC监控状态显示板、监控状态警示灯和蜂鸣器等硬件报警设施。在SPC监控状态 LED显示板上，可以显示一些经过计算的统计参数值，如参数均值、标准差、Cpk、控制图状态等信息。监控状态指示灯则一般设置三种颜色，绿色表示工序参数稳定，黄色表示控制图异常警告，红色则表示控制图参数点超出界域，异常情况加剧。

2.2.10 工序质量分析方便追溯

软件系统把数据库技术引入到SPC过程质量控制系统中，使原始数据记录的检索和分析变得异常快捷方便。由于分布式数据库的海量存储能力，使积累的原始数据记录可以达到尽可能丰富、全面、详细的地步。为多角度全方位的质量分析诊断提供可能。由于记录信息的足够详细，使质量问题追溯变得有据可查。

2.2.11 质量数据查询和作图功能

软件系统提供原始数据查询浏览功能。为满足依据产品的附属标签信息的查询、浏览质量特性数据的要求。可以按用户要求的定义保存查询条件，方便下次直接打开执行。还可以对这些查询条件下的数据做控制图，可对历史控制图做进一步分析。

2.2.12 特别监控

软件系统为专门的管理人员提供宏观掌握生产线过程质量控制情况的功能模块。通过预设配置可以看到各质量监控点发生的控制图异常情况。点击产品的特性参数，则可以看到包括异常点在内的一段控制图。再通过点击控制图上的红色异常点，还可以进一步看到异常点的详细内容及异常原因、纠正措施等辅助信息。

2.2.13 功能专业的统计分析工具

软件系统对历史数据可做进一步、更全面的检查分析，专为质量工程师提供分析工具包。它提供工序能力及其变动分析、产品直通率分析、多参数对比分析、正态概率纸、DPMO转换表等六个专业分析工具。

（1）工序能力分析工具：利用工序能力分析工具，可以按产品/工序类选择一批特性参数计算它的Cpk，Ppk及产品/工序大类的平均值，并对工序能力进行简单评价，对生产线做一定范围内的工序能力分析。

（2）工序能力变动分析：可以选定一个产品的所有特性参数和分析时间区段、时间间隔周期，然后绘制工序能力指数Cpk的变化折线图。通过折线图的变化趋势可以了解各特性参数所对应加工环节的加工能力的变化情况。有的放矢地从各方面改进工序加工能力，提高整体工序能力，从而保证产品质量。

（3）产品直通率分析：一般情况下，最终用户的产成品都是经过多道工序加工形成的。每道工序或加工过程都有一个投入产出比例，称之为良品率。一个产品的直通率就是所有工序的良品率的乘积。通过产品的直通率分析，可以了解每个特性参数的良品率和该产品总的直通率。通过分析清楚地认识到产品加工过程中的薄弱环节和可改进空间。最终实现生产线整体良品率的提升。

（4）多参数对比分析：使用多参数对比分析功能，可以把同一产品的不同参数或不同产品的同一参数的数据描图进行对比分析，包括选择任何存在某种内在或外在联系的两个或多个特性参数进行对比分析。从而很容易发现这些参数波动的差异特征或关联特性，帮助改进过程质量，提高产品性能指标。作图区最多可同时选择6个参数进行描图分析。图形种类、时间区段都可任意选择。

（5）正态概率纸：采用正态概率纸可以直观地判断一组数据是否服从正态分布。从概率纸上还可以得到正态分布参数均值和标准差。而且概率纸对小样本数据更适合。

（6）DPMO对比转换表：提供标准差Sigma、Cp、Cpk及百万分比Ppm之间的关系对应关系。也可以输入Sigma、Cp、Cpk三者之一计算其它参数值。

3 结论

在芯片制造过程SPC系统由上海贝岭研制并实施，SPC系统自动记录控制图的异常点，而异常原因和纠正措施则由现场工程师处理后登记到系统中，成为知识积累。

通过丰富强大的分析工具对这些信息进行处理，可以形成异常原因知识库，为未来可能出现的异常状态提供有效的质量改进方法和措施建议。从而帮助企业不断改进质量，提高产品的可靠性，保持优势的竞争力。及时发现过程异常是手段，促进不断改进质量才是目的。

基于RUP的数据平台开发过程第7篇

有效的管理具有量大、来源广、格式多、实时性高等特点的数据是金融、通信、石油勘探等行业面临的重点和难点问题,这一问题导致了企业中已有的软硬件平台无法充分发挥作用,因此有必要开发统一的数据平台对数据进行管理,以适应企业业务的发展。

目前针对数据平台的开发尚没有一个适合的软件过程作指导。文中对RUP作适当裁剪,给出了一个指导数据平台开发的软件过程,并运用该过程指导了中国石油天然气集团公司的地震采集资料质量分析与评价(SQAP)系统的数据平台的开发。

1 RUP

RUP[1]是目前市场上领先的软件过程,它是一个二维结构,如图1所示。横轴时间维表示制定开发过程所用的周期,涉及到的概念术语主要有阶段、里程碑和迭代,体现了RUP的动态结构。纵轴逻辑维表示开发过程所包括的内容,主要包含9个核心工作流程,体现了RUP统一过程的静态结构[7]。

以体系结构为核心、用例驱动、迭代式增量开发是RUP的三大特点,同时RUP允许裁剪以适应具体的应用系统的开发[6]。

2 数据平台的开发

一个良好的数据平台应该能支持企业现期业务和远期业务的拓展,支持不同工具和模型的使用。良好的数据平台概括起来应具有以下特点:收集和规范数据、统一数据模型、数据共享、统一数据管理、统一数据接口。

根据RUP的特点,我们以SQAP系统的数据平台为例,从数据平台体系结构、数据平台开发核心工作流来描述一般数据平台的开发过程。

SQAP系统是用于对物探试验阶段和施工过程中的地震资料、施工结果数据进行分析、检查、评价的一体化系统。该系统分析内容非常丰富,包含了定位数据、观测数据、地震数据的检查和联合分析等,数据来源和格式非常多,因此有必要开发一个能对系统提供数据支持并具有向物探领域的其它方面扩展提供数据基础的数据平台。

2.1 数据平台体系结构

SQAP系统的数据平台主要由数据存储,数据访问及平台工具三个部分组成,体系结构如图2所示。数据平台的最底层是数据存储系统,主要由数据库系统、文件系统和磁盘系统组成,其中磁盘系统要满足海量存储的要求;数据平台的中间层是数据接口层,主要提供数据库数据控制访问接口和文件数据控制访问接口,通过这两种接口存储系统的数据被转化为持久对象来支持应用接口程序的编写,高层应用可以通过应用接口对数据进行访问;数据平台的高层是平台管理工具层,主要是用来维护整个数据平台,平台管理工具的主要职责有数据管理、数据备份、数据加载、数据浏览以及版本升级等。

2.2 数据平台开发核心工作流

RUP在静态维上主要采用工作流来描述软件开发过程,包含9个核心工作流,分别是商业建模、需求、分析和设计、实现、测试、部署、配置和变更管理、项目管理、环境,并不是全部工作流都适合于数据平台开发过程。数据平台开发过程中,平台调查、数据模型的建立和数据接口的开发是比较重要的环节,是开发过程核心工作流,其中平台调查、数据模型的建立、数据接口的开发对应于RUP标准工作流中的需求、分析和设计、实现。

2.2.1 平台调查

平台调查主要包括成熟模型调查、数据调查、接口调查、数据关系调查和数据库实现调查,如图3所示,它是RUP动态维上初始和细化阶段的主要工作,也是数据模型尤其是整个数据模型的基石——元模型建立的基础。

成熟模型调研是对当前市场上成熟的数据平台产品进行调研,分析产品的优缺点,形成调研报告,以确定可以向该产品借鉴的设计思想和技术。数据调查由软件开发人员、应用需求人员及模型定义人员对数据平台中用到的各种数据进行调查,形成调查文档,以备定义数据模型时使用。接口调查由软件开发人员和应用需求人员对数据平台中的数据接口进行调查,要调查的接口主要有服务器端公用接口、数据库访问接口、数据文件访问接口等。数据关系调查由软件开发人员和应用需求人员对数据平台中的各种数据间的关系进行调查,最终形成这些动态数据间的关系文档并分析汇总这些数据关系文档。数据库实现调查是由数据库系统管理员为了实现数据库做的一系列调查,主要包括数据库逻辑结构调查、数据库表调查、视图调查和数据库设计调查等。

2.2.2 数据模型的建立

数据模型的作用是将调查并整理好的数据,按照应用领域对数据进行分类,整理数据间的关系,并将以此数据为基础的数据模型映射到数据平台中去,通过数据平台对数据进行统一管理,以适应系统应用的需要。在SQAP系统的数据平台中,数据模型主要由逻辑模型、物理模型、元模型以及模型工具组成。

逻辑模型是按各数据实体的内部层次划分的逻辑关系模型,SQAP系统中逻辑模型的层次关系使用纵横交错的方式,在纵向上按照工区、项目及测线三级结构划分,在横向上使用地震资料主数据和施工辅数据来对每一层的数据进行分类及管理。

物理模型是为了将逻辑模型所描述的数据信息写入到数据平台中而建立的适应于具体数据库及其技术的模型,物理模型可以用DDL来进行描述。

元模型是用中介语言(XML[2])对逻辑模型进行完整描述形成的模型,通过程序读取元模型,可以自动生成物理模型及访问数据库的持久对象层接口。下面是用中介语言对SQAP系统逻辑模型中EVALUATE子模型的EVALUATE_RESULT实体描述形成的元模型。

为减少手工工作量,我们把SQAP系统数据模型建立过程中一些可定义操作抽象出来设计成元模型工具、SQL脚本工具、持久对象层实现工具和应用接口实现工具等一系列模型工具。元模型工具建立在逻辑模型的基础上,通过该工具输入一些必要的信息后,就可以产生用XML语言描述的元模型目标代码。SQL脚本工具、持久对象层实现工具和应用接口实现工具建立在元模型的基础上,可以读取元模型中的数据,产生相应的目标代码。

2.2.3 数据接口的开发

数据接口由物理存储接口、持久对象层接口、应用层接口组成,体系结构如图4所示。物理存储接口是访问存储在物理磁盘/带上具体数据的接口,它由三个接口部分组成:数据库访问接口、数据文件访问接口和磁带数据文件访问接口。图5是数据库访问接口实现的基本类结构图,类PRecordeset、PDataSource及它们的一系列子类封装了对数据库的访问细节。当数据平台的物理存储需要扩充时,可以通过增加类PRecordeset、PDataSource的派生类来实现对新增DBMS的支持,以实现潜在的可扩展性。

持久对象接口层通过调用物理存储接口层以访问存储在磁盘介质上具体数据,根据读取的物理数据建立应用层需要的持久对象。在持久对象接口实现过程中,可以利用持久对象层实现工具来读取元模型中的数据,形成持久对象层接口代码,加快数据接口开发进程。

应用接口层的目的是为满足SQAP系统应用层对数据访问请求多样化的要求,组织一个或多个持久对象来形成应用对象,它是系统应用层人员能直接面对的接口。对象关系元模型描述了应用对象与持久对象间的关系,它是根据行业专家定义的数据间关系建立的一个模型。对象关系元模型使用中介语言XML对数据间关系进行描述,它是建立应用层接口的基础,应用接口实现工具可以读取对象关系元模型来实现应用层接口。

3 结束语

数据平台的设计对于一个大型应用系统是非常关键的。文中针对数据平台的特点对RUP进行裁剪形成的软件过程,在指导SQAP系统的数据平台开发过程中取得了成功,这些开发思想可以推广到其他数据平台的开发中。在为中国石油大学(北京)国际交流中心开发的基于Web GIS的智能楼宇信息系统中,采用该方法成功开发了系统的数据平台,同样取得良好的效果。

摘要：阐述RUP的基本特点,并对RUP进行了裁剪,来指导SQAP系统数据平台的开发。该开发过程可以推广到一般数据平台的开发中。

关键词：RUP,数据平台,SQAP系统

参考文献

[1]Rational Software Corporation.Rational Unified Process Version2002.02.1[M].American:Addison Wesley,2000.

[2]Natanya Pitts.XML in Record Time[M].New York:SYBEX Inc.1999.

[3]Jacobson I,Booch G,Rumbaugh J.The Unified Software Development Process[M].American:Addison Wesley,1999.

[4]袁满,等.面向对象数据模型建模方法研究及在大规模数据平台中的应用[J].小型微型计算机系统,2003,24(8):1474-1479.

[5]文必龙,等.PSP数据平台应用模式[J].大庆石油学院学报,1999,23(3):38-40.

[6]丁峰,梁维泰.RUP软件工程过程研究及应用[J].计算机工程,2000,26(10):112-114.

一种过程数据趋势特征提取方法第8篇

关键词：过程数据,趋势特征,趋势因子,k,阶极值法

工业过程数据的归档存储具有重要意义,一般由实时历史数据库完成,如PI数据库及InSQL等。计算机软、硬件技术的发展,为海量历史数据的存储提供支持,为历史数据的分析提供保证。然而海量历史数据也给数据分析带来困难,再加上噪音干扰,往往使分析人员迷失在细节中,难以看清总体过程趋势。另外,人们更喜欢以图形曲线的方式显示和观察测点数据的历史趋势,受屏幕分辨率的限制,每次只有部分趋势被显示,分析结果不具有全局性。综上所述,从海量过程数据中根据实际需要提取出不同缩略程度的趋势特征显得尤为重要。

在工业自动化监控领域,最简单的历史数据趋势分析方法是周期取值模式,即把全部数据分为定长的若干周期,并用该周期内的起始点、终止点和数据均值或极值代表该周期内的全部数据,通过这些点的直线插补来刻画原始过程数据的趋势特征。虽然该方法误差较大,但由于其简单易用,在实际中应用较多。此外,InSQL提供的BestFit模式也具有典型性,该模式按时间周期查询,一般每个周期取起始点、终止点、最大值、最小值和第一个例外值,这种模式与周期取值模式相比,能更好地提取历史数据趋势特征。但是,周期模式的共同缺点在于平均化,每个周期都生成或提取相同数目的数据,实际上每个周期的趋势往往具有不均衡性。因此,这些方法很难用有限的数据准确地刻画原始历史数据趋势。

工业过程数据的实质是时间序列数据。目前,对原始时间序列数据进行变换常采用分段线性表示法(Piecewise Linear Repre-sentation,PLR),文献[1,2]分别提出了基于重要点和特殊点的分段线性表示方法,其中重要点和特殊点的定义是一致的,即使用相邻3点的关系来定义极值点,属于局部分析方法。笔者提出的k阶极值点概念相当于对重要点和特殊点概念的扩展,在整体范围研究了极值点对整体趋势的影响。此外,文献[1,2]所提方法都兼顾了趋势一致性且减少了拟合误差。这两种方法与笔者的出发点并不相同,笔者根据工业自动化监控领域的需要,仅从工业过程数据趋势分析的角度进行研究,因此不以最小化分段线性拟合误差为目标,同时k阶极值法并不是有损压缩算法,在工业自动化监控领域过程数据的实时采集一般采用旋转门算法作为其在线有损压缩算法[3]。

k阶极值法定义的趋势提取是指从原始过程数据中提取Nte个数据点(趋势数据),再通过这些数据点相邻点间的线段连接形成的曲线来刻画原始过程数据的趋势特征。

文献[4]提出根据趋势变化转折点和短时间大波动数据点刻画原始过程数据趋势特征,k阶极值法与其类似,也是从原始过程数据中提取真实数据点,且相邻点间直接进行直线插补。该方法通过比较相邻两点来定义趋势变化转折点和短时间大波动数据点,定义简单、易于理解,合理设置参数的情况下能取得较好的效果。但该方法仍是局部分析方法,其输入参数将会对结果产生重要影响,合理的参数不易给定。

笔者基于单点趋势因子和k阶极值点的概念,研究过程数据趋势特征提取方法,提出k阶极值法。该算法定量的研究单个数据点对整体趋势的影响(单点趋势因子),为趋势数据的选取与趋势显示的缩放提供度量依据。

1 趋势提取方法

1.1 基本概念

定义1 过程数据(时间序列){x(ti)}undefined是一个有限集合,其中ti

定义2 趋势提取指采用某种方法从原始过程数据中提取部分关键数据,并将其相邻点间用线段连接从而形成的连续曲线(即趋势特征曲线)能在一定程度上刻画原始过程数据的趋势特征。

定义3 趋势特征值(Trend Eigen Value,TEV)和趋势特征数据是从原始过程数据中趋势提取Nte个数据(Nte为趋势特征值),它对应的Nte个过程数据称为趋势特征数据。

定义4 趋势特征比(Trend Eigen Radio,TER),设原始历史数据的个数为Nsrc,趋势特征值为TEV,则趋势特征比定义为TER=TEV/Nsrc。

定义5 局部区间和局部趋势,包含若干个彼此相邻的过程(时序)数据区间,如若满足只具有一种基本趋势——平稳、上升或下降,则称为局部区间,对应的基本趋势称为局部趋势。

定义6 给定过程数据{x(ti)}ni=1,如果x(ti)(i=1,2,…,n)满足{[x(ti)>x(ti-1)]}∩[x(ti)>x(ti-2)]∩…∩[x(ti)>x(ti-1)]}∩{[x(ti)≥x(ti+1)]∩[x(ti)≥x(ti+2)]∩…∩[x(ti)≥x(ti+r)]}或者{[x(ti)≥x(ti-1)]∩[x(ti)≥x(ti-2)]∩…∩[x(ti)≥x(ti-1)]}∩{[x(ti)>x(ti+1)]∩[x(ti)>x(ti+2)]∩…∩[x(ti)>x(ti+r)}或者{[x(ti)

undefined

定义7 趋势因子,单个的数据点x(ti)对整体趋势的影响程度称为趋势因子γ(ti),此处规定

1.2 k阶极值法

k阶极值法的核心在于采用定义7中以极值点阶数为依据的趋势因子定量表示法。在这种表示法中,只考虑极值点对趋势的影响,极值点的阶数越大则趋势因子越大,该点对过程数据整体趋势的影响越大,在趋势分析中越应该保留。由k阶极值点的定义可以看出,过程数据的起点和终点,以及全局的最大、最小值都是n阶极值点,具有最大的趋势因子。

性质1 极值点x(ti)(i=2,…,n-1)两侧的趋势相反,在相邻极值点之间具有同一基本趋势。

性质2 趋势一致性。由性质1可知,当趋势特征数据为所有的极值点时,所形成的趋势特征曲线与原始过程数据的趋势曲线在任意局部区间内具有相同的局部趋势,因此刻画过程数据包含的全部基本趋势至少需要Nte个趋势数据,Nte为极值点个数,此时的趋势数据就为全部极值点。

性质3 单调性。对于单点x(ti)(i=1,…,n),趋势因子越大,则该点对整体趋势的影响越大;趋势因子越小,则该点对整体趋势的影响越小。

性质4 趋势相对性。在分析过程数据整体趋势时,某些局部趋势被简化或忽略并不影响整体趋势分析;反之,在分析局部趋势时,整体趋势不明显。所谓的整体和局部趋势是相对的,完全取决于观察者的缩放尺度,这种缩放尺度可以通过调节趋势特征值实现。

由性质2可知,对于趋势分析而言,只需把极值点数据集合作为趋势数据,就能够满足提取的趋势特征曲线与原始数据趋势曲线的趋势一致性要求,即基本趋势不失真。

对于工业过程数据,由于噪音等因素的存在,造成大量的低阶极值点,使得过程数据的局部趋势变化频繁。由性质4可知,进行整体趋势分析时,忽略低阶极值点并不影响趋势分析的效果,反而使趋势轮廓更加明显。

由性质3可知,趋势因子越大的点对整体趋势的影响越大,在限制趋势特征值Nte的情况下,应该提取趋势因子最大的Nte个数据点。因此,调节Nte的取值,就可以实现对原始过程数据趋势显示的缩放。

2 试验分析

现以k阶极值法和InSQL的BestFit查询模式为试验对象,进一步说明k阶极值算法的有效性。

2.1 试验1

2.1.1 试验数据

过程数据的产生函数y=k·sin(0.1×3.14t)+Q(t),其中Q(t)是在[-20,20]均匀分布的噪声。以1为步长,生成400个原始历史过程数据。目标趋势特征值为42。

2.1.2 k阶极值法

选取趋势因子最大的42个数据点作为趋势数据。

2.1.3 BestFit

划分为11个周期,在每个周期均提取44个值,即起始点、终止点、最大值和最小值。

2.2 试验2

2.2.1 试验数据

过程数据的产生函数为:y=100sin(0.05t)+Q(t),其中Q(t)是在[-20,20]均匀分布的噪声。以1为步长,生成400个原始历史过程数据。目标趋势特征值为8。

2.2.2 k阶极值法

选取趋势因子最大的8个数据点作为趋势数据。

2.2.3 BestFit

划分为两个周期,在每个周期均提取8个值,即起始点、终止点、最大值和最小值。

2.3 试验结果分析

由图1、2可以看出,k阶极值法对原始过程数据趋势特征的刻画效果最佳,原始数据中局部噪音干扰形成的众多局部趋势波动被有效过滤,从而保留整体趋势特征,便于趋势分析。BestFit法的误差较大,趋势特征不一致性相对较大。

3 结束语

笔者在定义趋势提取、单点趋势因子及k阶极值点等概念的基础上,研究极值点对过程数据整体趋势的影响,给出单点趋势因子的定量计算方法,这是k阶极值算法的核心。单点趋势因子越大表明该点对整体趋势的影响越大。因此,在给定趋势特征值Nte的情况下,应该选择趋势因子最大的Nte个数据点作为趋势数据,来刻画过程数据趋势特征,而Nte越大则趋势显示越细节化;Nte越小则趋势显示越轮廓化。通过调节Nte的值可以实现趋势显示的缩放,而实现趋势的缩放符合趋势分析具有相对性的特点。k阶极值法原理简单、实现方便,可以作为工业自动化监控领域中实时历史数据库及组态软件等提供的历史数据趋势分析工具的实现方法,具有推广价值。

参考文献

[1]贾澎涛,林卫,何华灿.时间序列的自适应误差约束分段线性表示[J].计算机工程与应用,2008,44(5):10～13.

[2]周黔,吴铁军.基于重要点的时间序列趋势特征提取方法[J].浙江大学学报,2007,41(11):1782～1787.

[3]曲奕霖,王文海.用于过程数据压缩的自控精度SDT算法[J].计算机工程,2010,36(22):51～54.

浅谈数据挖掘技术及其应用过程第9篇

随着通信技术、计算机技术、网络技术在各企业单位的广泛应用,大部分企业单位的业务流程操作基本实现了自动化,随着时间的推移,积累了海量数据,由此产生的数据和信息是一个企业的财富,真实记录着企业单位的运作状况。对于如此大量数据,很多单位部门仅仅限于数据录入、统计、查询等易于实现的简单功能,却忽略了各数据中隐藏的有效信息。

“大量数据,缺乏信息”,是国内很多企业所面临的问题,如何分析利用已有的海量数据,发现数据之间的关系及模式特征,进而得到可以给企业带来价值的规律,已经成为迫切需要解决的问题。

2 数据挖掘技术

数据挖掘(Data Mining,DM),是从已有的海量数据中挖掘出隐藏其中被人们忽视的、但是可以给决策带来利用价值的规律,并用这些挖掘出来的规律指导建立支持决策的模型,提供预测支持决策的工具、方法和算法。数据挖掘是利用各种挖掘算法和分析工具在大量数据中找出规则和模型的过程;这些规则和模型帮助企业单位分析风险,预测风险,进而规避风险,避免损失。

各企业单位系统积蓄的海量数据是企业的一笔宝贵财富,目前,数据挖掘的研究成果得到了广泛应用,主要用于电信、零售、农业、互联网、金融、电力、生物、化工、医疗、教育等。企业单位、教育部门和学校系统利用数据挖掘技术,从大量的历史数据中找到对建立决策方案有用的信息和规则,有助于提高企业单位管理者的决策能力和管理能力,并可以预知风险,规避风险,给企业单位带来经济利益。

2.1 数据挖掘应用分类

数据挖掘技术可以从历史海量数据中分析隐藏在其中的有价值的信息,主要应用有分类与回归、时序模式、聚类、偏差检测、关联规则五个方面,所以数据挖掘技术应用主要有分类分析、时序模式、聚类分析、偏差分析、关联分析、预测分析等。

2.2 数据挖掘过程

利用数据挖掘技术主要是从历史数据库中找到有价值的规律,所以从历史数据到找到有效价值的解决方案可以用公式表达:行动+目标+方法+工具+数据=价值。

数据挖掘虽然有上述六种应用,虽然相应的应用所涉及的知识、技术、工具和算法不尽相同,但都可以使用统一的过程和步骤来实行。挖掘过程通常有数据准备、规律寻找和规律表示三个步骤。

1)数据准备。从海量数据源中选择需要的数据,经过布尔换成或者数据集成,将数据转换成适合数据挖掘的数据集。

2)数据挖掘。根据挖掘目标选择合适算法,对整合后的数据集进行挖掘,发现并找出隐藏的有价值规律。

3)结果表达和解释。将第二步挖掘到的隐藏规律用用户可以理解的方式将表达出来,为用户提供有效的指导方法。

数据挖掘的详细过程如下:挖掘目标的确定、历史数据取样、对取样数据探索、预处理数据、挖掘有效规则、构建健康模型、评价规则等。

2.2.1 定义挖掘目标

针对问题的提出,明确数据挖掘的具体应用需求,首先必须确定本次挖掘的目标,预设挖掘效果,充分分析数据所在的应用领域,包括该领域中的相关信息和知识,以了解是否能达到应用目标,弄清需求,对目标有清晰明确的定义。

2.2.2 数据取样

明确数据挖掘目标后,依照相关性、可靠性、可行性、最新性四个原则,从数据库中抽取出一个与挖掘目标相关的样本数据子集,进行数据取样。数据取样时不动用所有数据,对数据样本进行高质量的精选,以便减少数据处理量,节省系统资源。数据取样质量的标准为:

1)各项指标齐全,所需资料应该完整无缺。

2)数据必须反映正常状态下的水平,所有数据准确无误,可以进行各种方式进行数据处理,以使得数据完整。

获取到的数据,采用随机抽取、等距抽样、分层抽样、从起始顺序抽样、分类抽样等方法进行抽样操作。

2.2.3 数据探索

数据探索是对所抽取的样本数据进行探索、审核、必要的深入调查的过程,以保证预测质量,数据探索主要包含异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。

2.2.4 数据预处理

数据预处理是指对采用数据包含的有噪声、不完整、不一致、甚至缺失的数据,进行预处理,达到改善数据质量,达到最终的数据挖掘结果。

数据预处理包含有数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等内容。

数据探索和数据预处理都是为了保证样本数据集的正确性而采取的数据处理的方式,为达到预测挖掘目标提供正确的基础。

2.2.5 模式发现

样本数据经过抽取并完成预处理后,剩下的数据都是有用的正确的数据,模式发现是指确定本次数据挖掘问题定类,从而确定挖掘算法。常用挖掘算法有:关联规则、分类预测、聚类分析、时序模式等。

2.2.6 模型构建

模型构建是对采样数据轨迹的概括,反映采样数据内部的一般特征,并与该采样数据具体结构基本吻合。

模型构建包括模型建立、模型训练、模型验证、模型预测4个步骤。

2.2.7 模型评价

模型评价是从模型构建的分析结果中找出最好的模型,并对模型进行解释和应用。模型评价首先直接使用原来建立模型的样本数据来进行检验,若没有通过,则说明上述步骤中的抽样数据或者构建模型有问题,需要返回到上述步骤重新来过;若通过并得到较好的评价,则说明确实挖掘出了符合实际规则的有用信息。

2.3 数据挖掘工具

在数据挖掘过程中,为了得到正确有效的规律,需要寻找合适的工具和算法,将工具和算法提供的技术和实施经验与企业单位的业务需求相结合,并在挖掘过程中不断的磨合才能取得预算的成功,所以合理选择数据挖掘工具非常重要。

常用的数据挖掘建模工具介绍如下。

2.3.1 Enterprise Miner

Enterprise Miner(EM)是SAS推出的集成数据挖掘系统,允许使用不同的技术和算法,并且集成了复杂的数据库管理软件,操作简单,通过对相应节点的设置,可以得到相应的结果。

2.3.2 Clementine

Clementine是SPSS的核心挖掘产品,是业内领先的数据挖掘平台,其界面友好,提供了可视化的快速建模环境,数据挖掘算法非常优秀,通常可以得到正确的挖掘结果,允许企业单位利用其相应的业务专业技能快速开发预测模型,能迅速提升部署决策水平。

2.3.3 Intelligent Miner

Intelligent Miner是IBM开发的数据挖掘工具,一直占有数据挖掘工具的领导地位,其重点在于资料探勘。

2.3.4 SQL Server

SQL Server是Microsoft公司集成的数据挖掘工具,借助其数据库管理功能,可以实现快速数据挖掘建模,并提供了聚类分析算法、决策树算法、Naive Bayes算法、时序算法、关联规则算法、线性回归算法、神经网络算法等常用数据挖掘算法。

2.3.5 MATLAB

MATLAB是美国Mathworks公司开发的一个优秀的应用软件,以矩阵计算为基础,具有强大的科学计算能力和工程分析能力,提供了强大的数学计算和分析功能,还具有丰富友好的可视化图形功能,极大程度上方便了程序设计。

2.3.6 WEKA

WEKA是一款采用开源机器学习和数据挖掘的一个软件,WEKA提供了图形化界面,可以通过Java编程和命令行来调用其分析组件,可以进行预处理、分类、聚类、关联规则、文本挖掘、可视化等。

2.3.7 Tip DM

Tip DM是一个基于云计算和SOA架构,能从各种数据源获取数据,建立各种不同的数据挖掘模型的数据挖掘平台。

3 数据挖掘的应用过程

3.1定位挖掘目标

详细分析数据集的应用领域,并熟悉该领域的应用知识,并了解相关领域的前沿信息,确定本次挖掘方向和目标,洞悉知识背景,弄清用户需求。

3.2 分析方法与过程

本阶段确定数据挖掘所采取的挖掘工具和算法,建立数据挖掘模型,并对数据库中的历史数据进行原始数据采集、集成数据表、数据转换、预处理数据、挖掘模型和规则、分析结果等操作,主要过程有模型构建、模型修正、归纳规律三部分。

3.3 选取模型训练样本集

检测挖掘出来的模型和规律是否正确有效,为了得出评价中的真实有效的评价,需要提取数据集中的一部分计算其对输出指标的贡献度,用以验证所得规律是否满足用户的真正需求,是否合理有效,并有一定价值。

4 结束语

数据挖掘技术,可以帮助各企业从已有数据库海量数据中找出数据间隐藏的可利用的关系,为企业规避风险、发现潜在利益提供正确有效的指导。本文主要介绍了数据挖掘的分类、挖掘算法、挖掘工具,并详细介绍了利用挖掘技术在海量数据库中寻找潜在有利用价值的律的过程。

参考文献

[1]David H,Heikki M,Padhraic S.数据挖掘原理[M].北京:机械工业出版社,2001.

[2]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论(完整版)[M].北京:人民邮电出版社,2014.

医疗数据挖掘的特点、过程及方法第10篇

关键词：医疗数据,数据特点,数据挖掘

0 引言

数据挖掘是未来信息处理的骨干技术之一,它以一种全新的概念改变着人类利用数据的方式。数据挖掘技术在医疗领域的应用有其自身的优势,因为医疗过程中收集到的数据一般是真实可靠、不受其他因素影响的,而且数据集的稳定性较强。这些对挖掘结果的维护、不断提高挖掘模式的质量都是非常有利的条件。[1]

1 医疗数据特点

医疗数据挖掘和其他挖掘领域的不同,一定程度上是由于原数据特性不同而导致的。医疗数据是在对病人的诊断治疗中获得的,包括了与病人的交谈记录,各种医学仪器拍摄的图片,医生的观察说明等。人类是地球上最受关注的物种,其可供观测的一些方面是很难在其他动物研究中得到的,例如视觉、听觉、对疼痛的感知、不舒适和幻觉等[2,3]。医疗数据挖掘在所有的生物信息数据挖掘中是收获最大但最困难的。动物实验一般是短期的,因此不能追踪观察长期疗效,如对动脉硬化症的疗效,直接使用人类的医疗数据就没有使用动物实验推测到人类医疗时所产生的问题[2]。医疗数据具体特点概括如下:

1.1 异构性

指医疗数据类型的多样化。医疗数据的类型包括了数值型数据、类别型数据、图像、文字、信号、语音、视频等,所以结构类型众多。[4]这种多模式特性是它区分其他领域数据的最显著特点,并且加大了知识发现的难度,使开发基于医疗数据库的通用软件系统较为复杂。

1.2 海量性

由于医疗工作自身的特点,如病情观察的不可间断、各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等,导致医疗数据量非常巨大,尤其现在越来越多的医疗单位使用高科技的医学检查设备(如SPEC,MRI,PET等),而这些设备每天都会产生数千兆字节的数据。[2]

1.3 数学表征不显著

物理学家收集数据后带入公式模型,可以得到较好反应数据间关系的模式,而医疗数据混合了文字、图形等非数值型数据,使得数据挖掘人员并不能很好的找到可以反应数据间联系的模型。

1.4 主观性

实验和诊断都会带有主观性,也就难以发掘知识。同一个领域的顶尖专家都会对对方的诊断带有异议,这就会难以整合。

1.5 标准化危机在医学界,很多基本概念都没有规范,例如一

个简单的概念,“结肠腺癌,转移到肝”都有很多的表达形式,再如有的中药有很多别名。

1.6 伦理性、社会性、法律性包括了数据归属权问题、数据安全问题、法律诉讼问题等[2]。

2 预处理与统计分析

2.1 预处理

因为医疗数据库数据量很大,数据结构多样化,且经常不完整,有数据缺失、冗余,用现有的数据挖掘工具不能直接处理它,所以需要进行预处理。

数据预处理:是决定整个知识探求成功与否的两个关键性步骤之一,在原数据很繁杂的时候,通常要占去一半的总处理时间。因为待处理数据量很大的话,任何一种数据挖掘算法都很难处理好所有的原数据,这就要求我们对其进行预处理,从而易于发现知识,其主要步骤[5]有:

(1)数据清理:消除噪声、不一致数据;

(2)数据集成:多模式数据源可以组合在一起;

(3)数据选择:从数据源中提取与分析任务相关的数据,从而减少分析数据量;

(4)数据变换:数据变换或统一成适合的挖掘形式,如数据标准化操作等。

2.2 统计分析

在进行数据挖掘前,可以运用统计分析方法建立初步规律印象。医疗数据的统计分析和动物实验的统计分析有点不一样,如果数据不准确,不符合规划,也不能重新做一个实验组。其具体实现方法可如下:

2.2.1 统计分析样本的均值、方差、最大值、最小值等。

2.2.2 用二维图表的形式显示各自变量之间、各自变量与应变

量之间的关系。其中关系一般指函数关系和相关关系,可以采用回归分析、相关分析和主成分分析等统计分析方法,外还有最邻近技术、Bayesian网络、遗传算法等方法,在实际应用中应根据情况选用适当的方法。

3 数据挖掘技术

3.1 数据挖掘和统计学的联系和对比

数据挖掘是统计学的超集,是知识探求成功与否的另一个关键性步骤。它是揭示存储在数据里的模式及数据间的关系的学科,强调对大型数据的处理。统计学是关于数据的采集、整理、分析和推理的学科。数据挖掘和统计分析之间有明显的联系,它们有着共同的目标,就是发现数据间的隐藏关系。

中华数据采矿协会会长谢邦昌认为,硬要去区分数据挖掘和统计学的差异其实是没有太大意义[4]。数据挖掘技术的CART、CHAID或模糊计算等算法理论,也都是由统计学者根据统计理论发展衍生,换另一个角度看,数据挖掘有相当大的比重是由高等统计学中的多元统计分析[6]所支撑。

和统计分析比较,数据挖掘有下列几项特性:

3.1.1 处理大型数据和异构数据具有优势,且不需要非常专业的统计背景。

3.1.2 数据挖掘技术不仅涉及统计学分析原理,且还包括数据库管理、人工智能、机器学习、模式识别、以及数据可视化等技术。

3.1.3 数据挖掘技术的核心是算法,当然也需要考虑模型和可

解释性,但算法及可实现性才是最重要的。它所强调的首先是发现,其次才是解释,因而,数据挖掘并不过分依赖于严格的逻辑推理。

3.1.4 数据挖掘技术,比传统统计学更加强调探索性、实践性和灵活性。

3.2 医疗数据挖掘的特点

医药数据挖掘就是基于医药数据进行知识发现,数据挖掘过程中需要反复和医药学专家或者已有的知识进行交互。医疗数据挖掘的特点研究:

3.2.1 快速的、鲁棒的挖掘算法

医疗数据库数据量大,结构多样,要在如此海量的数据中提取知识,需要花费比其它数据库更多的时间,因此必须考虑医学数据挖掘的效率问题,需要使用计算速度快的挖掘算法。同时,医学数据库的类型较多,并且又是动态变化的,要求挖掘算法具有一定的容错性和鲁棒性。

3.2.2 知识的准确性和可靠性

医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策,因此必须保证挖掘出的知识具有较高的准确率和可靠性。首先根据自定的度量标准度量,识别真正需要的模式。数据挖掘系统具有产生数以千计甚至数以百万计的模式或规则的潜力,这就需要从中筛选出真正感兴趣的,真正有用的知识。其次再通过一些机器筛选之后,最后的决策是要由人来提供的。因为对于知识可用性的理解是非常主观的,且在在以生命健康作为赌注的医药领域进行知识发现需要经验丰富的专家来做最后的决策。

3.2.3 数据标准化

是对医疗数据非标准化的特点的解决方案,把原来的非标准化的数据通过机器,翻译成标准化的数据。数据标准化过程中的一个障碍是,对输入数据的翻译有时不是唯一的,而且现在的翻译系统不能翻译过多的字,这其实也好理解,就算是人,也很难第一次阅读就能理解一个长句子的含义。

4 医疗数据挖掘方法及应用

从上文的数据挖掘的特性和医疗数据挖掘的特点,可以看出,数据挖掘技术很适合应用在医疗领域。可以挖掘的数据模式有———概念描述、频繁模式、分类/预测、聚类分析、离群点分析、演变分析。[5]

4.1 人工神经网络

人工神经网络算法是一种模仿生物神经网络的算法[7]。其模型是以人工神经元作为基本计算单元,通过神经元的相互连接组成网络。典型神经网络模型主要分为三类:感知机、BP反向传播模型、函数型网络[8]。

医药数据具有不完全、不确定、不精确等特性。而神经网络是一种模仿人类神经元的智能计算方法,它可以对非线性、不完全、不确定、不精确的数据进行智能处理。所以,神经网络在处理医药数据时具有良好的容错性、鲁棒性、高精度,能够满足医药数据挖掘模型的精准性要求。但是,由于神经网络是黑箱操作,所以并不易于理解,处理速度也较慢。采用BP神经网络对乳腺的X图像进行分类[9],运用优化的Kohonen聚类神经网络用于医学图像的分割[10],还可以利用BP神经网络预测蛋白质的亚细胞定位[11]。

4.2 决策树方法

决策树是一种类似于流程图的树结构,决策树算法是通过测试每个属性的信息增益,选择最大信息增益的属性作为当前节点的测试属性,并自上而下递归对属性进行划分从而建树的算法。

决策树很适宜用来处理分类/预测模式问题,虽然其不属于人工智能算法,但因其类似于医生的思考方式所以很容易被理解而在处理医药领域问题中广泛应用。在医药数据处理中常用的决策树算法有:ID3(Iterative dichotam izer version 3)算法、C4.5算法[5]。决策树算法处理医药数据的过程很容易被医药领域专家理解,可以处理高维的医药数据,对于大量的数据处理速度也依然较快。采用将数据挖掘决策树技术用于慢性胃炎中医证型的分类[12],用SQL Server2005中包含的Microsoft决策树算法进行相关性分析和分类[13],还可以用Matlab建立基于决策树算法的医学图像分类器[14]。

4.3 关联规则

两个或多个变量的取值之间存在某种规律,如“同时发生”或“从一个对象可以推出另一个对象”就称为关联。关联分析就是挖掘隐藏在数据间的相互关系。其核心方法是基于频繁集理论的递推方法,目的就是要发现医药数据库中满足指定的最小支持度和最小可信度的所有关联规则。经典算法Apriori算法是所有已知关联规则算法的基础。可以解决的模式问题主要有频繁模式和分类模式。适用于药物成分相关性研究和病人病理症状相关性研究等[15]。用Apriori算法研究发现冠心病发病的相关因素[16],用关联规则挖掘算法的建立医学图像分析器[17],也可以通过优化的关联规则算法计算心脏病患者的基本信息的关联[18]。

5 结语

过程数据第11篇

【关键词】大数据时代高职英语写作教学

【基金项目】2015年度教育部职业院校外语类专业教学指导委员会课题（外语教指委 [2015] 22号），课题编号：GZGZ5414-54

【中图分类号】H319 【文献标识码】A 【文章编号】2095-3089（2016）02-0177-02

1.高职英语写作存在的问题

近年来，我国高职学生的总体英语水平和考试成绩在“听”和“读”上有了明显的提高，但写作能力和写作成绩少有改善。高职英语的教学一般是大班上课，教学课时主要放在课文的讲解和习题上，写作教学学时太少，仍以纸和笔为写作工具，教师很难在有限的课堂上对学生进行个性化、有针对性的写作细致指导和反馈，学生无趣的完成作业，写作质量不高，很容易挫伤他们提高英语写作能力的积极性。近二十年来，国内外对大数据时代的大学英语写作教学的研究取得了显著的成绩，突出的有王海啸教授等专家。但相关的研究对象几乎都是本科高校学生，以高职学生作为研究对象的文章非常少。因此，针对高职学生的写作现状，利用现代信息技术和网络教学平台，探求有效的与职场需要对接的英语写作教学具有现实的意义。

2.研究背景

写作过程的研究源于上世纪七十年代的北美，九十年代网络技术开始在外语学习中发挥作用，近10年来，网络技术应用到外语写作教学中并初显成效：李气赳（2009）介绍Moodle 平台在自主英语学习中的积极作用；骆鹏（2009）指出网络教学互动平台在高校写作课程教学中的优势是能够把参与性、交互性、针对性有机融合在一起提升教学效率；朱铭（2010）描述了如何利用Ning.com网络学习平台辅助英语写作教学；李航、刘儒能（2011）如何运用Blackboard 网络平台开展写作教学促进师生互动并增强对英语写作的兴趣及写作效能感；唐锦兰（2012）认为网络智能评估系统消除了学生多评估反馈的厌恶情绪和写作过程的焦虑感，可以有效地提高英语写作教学的效率和提升学生的英语写作能力；王海啸（2014）认为大数据技术具有分析、了解不同学生情况，并结合适当的专家系统为不同的学生推荐最佳学习资料、定制最有效学习计划的潜力。

3.基于大数据的英语写作教学过程

信息技术为大数据时代的写作教学提供了良好的教学环境。吴康宁（2012）认为信息化时代需要与之相适应的教学，而这种新教学只有将网络技术融入教学后才会诞生。因而教师需要充分利用大数据技术建构英语写作、评估系统与高职英语写作教学有效衔接，如写作资料的收集、写作资料的呈现，课堂教学活动的组织、作业的提交、修改和评阅，师生之间、同伴之间的线上互动、互评，消除学生写作过程的焦虑感，提高学生写作兴趣，让学生自觉自愿地主动学习是我们取得英语写作教学成功的关键。

3.1确定主题，创设情景。高职教育注重学生的需求分析和职业发展，英语教学越来越重视学生所学专业与将来职业的相关性。无论我们写什么话题的应用型英语文章，先思考话题，联想与话题有关的各种观点和事实。在选择主题时，要注意几点：选择大家共同感兴趣的、共同关注的话题，与学生认知水平相适应的；有明显的职业导向。如让学生写an application letter for an exhibition（一封展览的申请信），老师可以给学生一个情景提示：①你从当地的报纸上获知本地展览馆将举办“2015年中国-东盟博览会”（China-ASEAN Exportation）.请给东盟博览会组织方的联系人Mr. Smith写一封信，内容包括：

1）写信的目的；

2）参展的原因；

3）询问参展的要求及展位的情况（包括价格等）。

3.2 构思和提纲布局。确定了写作题目之后，要通过网络进行计划完成写作构思和素材收集。在大数据信息的写作环境下，通过学生集体构思激发新想法：通过QQ或网络即时弹幕或电子邮件进行讨论问题，在网络上观察图像显示，通过数字图书馆和网络收集相关的数据。在构思的过程中确立学生的读者意识：文章的目标读者是谁？学生的兴趣何在？最能吸引学生的语言风格是什么？之后明确信息，要求学生列出信息清单或思路图，确定文章的主题，把主题思想用恰当的主题句表达出来，并且把论据按照一定的逻辑顺序写下来进行整理和归纳思路，完成写作提纲。可以要求学生列出信息清单或思路图。

3.3草拟初稿。在明确了写作主题和提纲之后，把自己搜集到的某一个主题的素材知识综合起来，按照主题的需求表达出来。在表达过程中注重写作思路的流畅和行文的流利并与主题相关，学生独立写作，亲身在写作实践中锻炼英语应用能力，培养自主写作能力。学生利用计算机和网络可以阅读到丰富的写作素材，开阔了思路，激发了学习的兴趣，教师也能通过阅读学生保存的不同版本了解他们的构思和修改的过程。学生写作时很容易使用WORD 实现文章的编辑，例如语法、拼写、格式可以纠正各种错误。完成初稿后，学生可以提交到老师指定的作文批改系统中，系统立即能自动地给出很详细的句子中的注释和错误如何改正的提示，并且给出鼓励性的中肯评价，学生乐于接受。系统还提示学生的作文的原创率，可以避免学生抄袭作文现象，学生如果不满意系统给予的分数，可以根据提示进行无数次的修改和提交，直到写出令他们满意的作文。

3.4修改评价。作文讲评是师生双方再一次围绕某几个学生的习作或习作过程进行讨论，分析得失，进而启发学生改进习作过程、提高写作质量。教师可以把收到的作文通过邮件发给其他几个甚至多个同学（同时省掉作者的名字），由他们进行修改并作出反馈。教师集中反馈意见后，把问题分类，将其和优秀文章一并在课堂上或网络上发布，要求学生上网参与公共论坛讨论，发表自己的意见和看法。教师也可以在线参与学生讨论，回答学生问题，这在很大程度上拓展了课堂教学。

学生之间相互阅读文章，参与网上讨论，师生之间有充足的时间交流，这是传统英语课堂上做不到的。基于网络平台进行作文修改，可以使学生间有选择地任意交互修改，也可以有针对性地对任意一篇作文进行集体修改；在开放编辑的教学平台下，不同学生反复讨论修改同一个句子或同一词汇相当于学生进行一场广泛参与的协商讨论，协商讨论越充分，得到的结果就越容易获得更多学生的认可，准确性得到了提高。同时学生通过修改别人的作文，所学的知识得到应用，也学习了别人的写作知识，体验了当老师的感觉，获得了心理满足和成就感，极大地调动了学生的积极性。

利用网络进行修改和评价时，讨论和反馈的全部信息可以利用电脑保存详细记录，教师在课堂上能随时从电脑中调出记录，供示范和讲解写作过程的各个环节、各个阶段，清晰地演示文章、句子的组合和修改。教师围绕部分优秀习作和错误较多的习作的写作过程及其修改过程进行评价，耐心详细解答学生提出的问题，启发和引导学生的思维；每一个学生可以对讲评的范文进行仔细阅读与思考、品评习作，针对教师的点评以及在写作和修改过程中遇到的问题向老师提问，从而达到师生互动，这样学生从中直观地了解写作过程中存在问题及自己提高的过程，这种过程促进了学生的反思性学习，增强自主学习的意识，有利于发挥学生学习主体的作用，自我监控学习过程的认识活动；同时网络的交互性也使得学生的写作行为发生改变：积极性提高了，自信心增强了，就会更加用心去完成老师布置的写作任务。

3.5 编辑交稿。编辑阶段主要是要学生检查自己作文中的拼写、单词、语法、标点符号和表达方式等内容的准确性，尽管不可能期望每一个学生都能修改作文中每一个错误，但是教师要善于培养学生自己认识问题、发现问题和解决问题的能力，开发学生的潜能，提醒他们尽量克服和避免编辑过程中的一些常见错误：如是否正确运用了动词时态？动词形式是否符合句子要求？句子主谓语是否恰当使用？介词、副词使用正确了吗？句子结构是否完整等？在整个编辑的过程中强调文章的明晰度和正确性，最后修改确认后交稿。

4.网络英语过程写作的优势

4.1大数据时代为过程写作教学提供了硬件保障，学生可以通过免费的校园WIFI 共享资源，通过阅读大量原汁原味的英语作品，拓宽学生的写作思路，激发学生的自主写作学习欲望，提高了学生的英语遣词造句的能力。通过批改网的同题作文，学生可以和本班学生比较，也可以和其他高校的学生比较，也可以比较自己过去和现在的作文，看到自身写作能力的变化。学生通过相互评改、自主合作，提高他们的协作学习水平，有利于激发学生的自我成就感和协作意识，增加了学生协作交流的机会，培养了他们的合作能力和创新精神。

4.2 网络教学平台有利于教师有效监控学生的写作过程：从初稿、修改到反馈，可以清晰地看到学生各个环节出现的问题并能够直接指导解决。教师和学生可在指定的网络平台建立自己的写作档案，这些写作档案给教师的教学和科研提供了条件，可以更清楚了解学生写作能力的变化。通过学生的变化，老师能够精心设计更科学、合理的指导方案，促使学生课后能够积极主动地进行网络自主学习，提升他们学习英语的应用能力。教师在具体的教学环境中充分应用信息技术的推动作用，有效利用丰富的网络教学资源，积极开展自主学习，达成教学目标。

4.3高职英语的教学强调学生专业发展和职场需要想结合，更注重真实场景的教学和写作的语境化，需要教师设计形式多样、不同情景的写作任务，让学生通过写作实践了解写作策略在写作过程的意义和作用，让学生明确写作内容、合理安排写作任务、运用相关的的写作知识和读者的知识呈现作品，提高学生对作品的清晰性、完整性、一致性认识的敏锐度。在培养学生的自主性和创造性的高职应用写作的过程中，突显学生的批判性思维和原创力。如要求学生写请写一封求职信，给学生设计在当地报纸上看到一则招聘会计（可以根据学生的专业进行调整）的广告。内容包括：1.写信的目的；2.简单的自我介绍——教育背景及主修专业、工作经历等；3.求职的理由；4.联系方式。不同专业的学生专业需求不同，根据他们的专业设计不同情景更能让学习者进入职场的实用性，写出的作品更符合行业的标准。

5.结语

网络辅助英语写作过程教学法给高职英语教学提供了有利的条件和带来了积极的影响，有利于提高学生的英语整体水平和写作水平，增进学生间以及师生间的交流互动与协作。在写作教学中，教师通过网络技术帮助学生最大限度地增强谴词造句的能力，如向学生建议使用各种反义词、同义词、分词短语和丰富多样的衔接连贯词汇，有意识地鼓励学生选用丰富的词汇和句式、多读多分析美文佳作，使学生尽可能写出接近目标语的作品。但如何在写作教学实践的过程中使其教学职场化、应用效益更大化、模式更优化，依然是高职英语教学实践中不断探索的现实问题。

参考文献：

[1]刘玉红.网络环境下大学英语教学改革理论与实践（二） [M]，苏州：苏州大学出版社，2013

[2]蒋云华.网络环境下大学英语写作教学理论与实践 [M]，云南：云南大学出版社，2012

[3]束定芳.外语教学改革：问题与对策[M]，上海：上海外语教育出版社，2005

[4]司建国.基于网络的高职英语过程写作教学模式研究[J]，中国外语，2007，（4）

[5]王海啸.大数据时代的大学英语写作教学改革 [J]，现代远程教育研究，2014，（3）

[6]杨朝春.大学EFL写作与网络互动实证研究[J]，外语教学，2013，（6）

作者简介：

运用事项法完善会计数据处理过程第12篇

根据文献检索, 2005年我国学者张永雄先后在财会通讯、会计研究等刊物中发表论文, 提出了“事项凭证”的概念, 并以采购存货业务为例对事项凭证的格式、业务处理规则进行了说明。在其看来, 就如同之前的AIS通过记账来获取信息似得, 事项法AIS也是经由凭证的措施来获取初始内容。全部的机构在分析事项的时候均运用事项类的凭证, 它的格式有专门的要求, 业务事项处理规则体现在凭证设计上[1,2]。

笔者认为, 此类凭证本身是AIS使用的关键设计思想, 要想明确该项内容就要了解如下的信息。

1 此类凭证本身作为经济活动的所有初始信息记载的依托体, 是对经济活动的综合精准体现

在单位生成经济活动之后, 出现的初始信息就能够经由凭证来记载, 此类信息不但涵盖价值内容以及非价值的内容, 同时还涵盖财会内容和业务机构的内容, 可以精准并且综合的体现经济活动。此时就规定在开展相关的设计工作的时候, 首先要明确业务事件, 精准的描绘经济活动。同时, 凭证中要涵盖可以分辨信息真假的内容, 其就如同之前的记账类凭证, 要靠着相关的人员, 比如制证者等群体来签字防止伪造。对于记账类的来讲, 它主要在财会机构自身进行传输, 对于事项类的来讲, 它在很多个机构间进行传输, 由于信息处理必须有较高的功效, 所以此类凭证必须在网络中才可以体现出它的意义。

2 它体现很多机构的业务内容, 而且也要求机构间明确活动处理规定

由于它要精准全面的体现信息, 就必定涵盖很多个机构的内容, 很多机构在协调开展好一些经济活动的时候, 活动中就会有次序以及互相牵制的联系, 我们叫做是业务步骤。此类凭证要体现相关活动的业务步骤, 该步骤必须是在网络背景中开展的, 是通过网络科技对过去的活动步骤的再造。

3同时他还是单位管控别的体系的信息连接点

它并非是局限在信息体系里面的凭证, 它是体现所有的经济事项的一类凭证, 其不单单体现价值信息成为传统会计信息处理的数据入口, 也是企业其他管理子系统的数据入口和业务发生的凭证。

4经济活动的多样化规定其要具有很多种种类, 确保所有的经济活动都可以对应一个凭证开展信息的采集工作

单位的经济活动具有多样化, 比如生产以及销售和相关的培训等等, 所有的活动的内容是不一样的, 其信息总数也是有差异的。此时很显然无法通过一个种类的凭证来记载全部的活动事项。此时就规定单位对经济活动合理的划分类型, 结合不一样的运作特征和活动要素来布置不一样种类的凭证, 以此来确保所有的经济活动都可以对应一个凭证, 进而开展信息的收集活动。

5所有的经济活动对应的凭证种类是体系提前设定的标准或是体系运行前结合单位活动的具体性质而设置的

事项法AIS在采集数据时必须生成相关业务类型的事项凭证, 此类凭证的样式应该怎样设置呢。一般是由体系提前设定, 体系同一标准的凭证分类资源, 和之前的体系设置科目库差不多。不过, 相同的单位还是有着一些特征的, 体系就要供应相关的编制内容, 通过专门的管控工作者来提供专属的事项内容。

2 过去的以原始凭证为前提的处理流程和面对的不利点

传统账务处理数据流程如图1所示。

2.1 在这种流程里面，初始凭证作为记账类凭证的必然前提，不过不一样的活动的初始凭证并不是完全一样的，然而记账类的凭证的显著特点是单一性，所以两者形成了比较显著的对比，通过初始凭证直接的形成记账类的内容的话，对于信息的收集来讲是不利的，很多的初始凭证对于工作者了解经济活动的能力有着较高的规定。

2.2 在这种流程里面，信息处理最为重要的内容是记账凭证，通过此类凭证制作得到账簿等内容，通过它的保存为依据来分析之前的凭证，而且对记账凭证进行信息类型的划分。通过信息处理科技来分析，此类凭证是初始凭证的相关信息经由处理而得到的，是一种衍生的内容，将衍生的信息当成是关键点，不合乎信息处理的思想。

2.3 这种流程中，相关的审核活动应是对初始凭证以及记账凭证等的审核，通过该项审核来确保活动的精准性，确保类型的划分恰当。不过此类步骤中工作者和经济活动的产生步骤之间没有必然的联系，此时就使得审核活动的意义降低了，减弱了对其真实性的分析，较多分析的是其活动类型以及精准性的论述。

2.4 在这种流程里面，从原始凭证到记账凭证，均是经由财会工作者的职业分析来明确的，工作者自身的经验不一样，使得活动处理也不一样，进而使得相关的规范性受到很大的影响。

2.5 在这种流程中，对于经济活动总体记载来讲是不合理的，其会影响到凭证进行自动化活动，而且也会干扰到自动化相关的设计能力的提升。

2.6 同时，这种流程也会影响到会计信息相关的处理工作的开展。单位的经济活动很多时候都会牵扯到多个机构，机构间经由初始凭证的传输将活动信息聚集到一起。初始凭证在活动机构间的传递会受到时空的影响，使得其实时性减弱。

3 基于事项凭证的账务处理流程 (图2)

3.1 这个流程是将事项凭证当成是中心内容的，它是对经济活动的初始内容的总体记载，经由对其储存管控来确保业务事项的总体记载，进而获取相关的衍生信息，非常的合乎如今的信息处理思想。

3.2 在这种流程里，事项类凭证类型的设置是一个非常关键的活动。由于经济活动具有多样化的特征，所以使得此类凭证也就具有了多样化的特点。不一样的凭证中论述了经济工作要获取的事项以及经济活动的要求，此时就确保了活动从出现到完成一致处在记录中，如果为设置此类凭证的话就没有信息处理的平台，此类凭证是过去处理活动的前提和别的决定模型的前提。

3.3 基于事项凭证的账务流程，通过事项凭证对经济业务活动的原始数据进行完整的记录和反映。经济业务的发起部门选择事项凭证类别填写业务数据，涉及的其他部门按照业务规则在同一张事项凭证中填写各自业务数据，从而使某经济业务活动能够通过事项凭证得到全面的记录和反映。

3.4 基于事项凭证的账务流程，有利于实现从事项凭证到记账凭证的自动生成设计。在事项凭证类别设计中，可以建立事项凭证类别与记账凭证模板的对应关系，事项凭证产生后通过记账凭证模板自动生成记账凭证。

3.5 基于事项凭证的账务流程，有利于简化现行系统中科目设置的复杂程度，改变在总账中增加辅助核算的机制。通过事项凭证与记账凭证的对应关系，记账凭证中只反映总账科目，明细科目和具体业务事项及分类都可以通过事项凭证实现，简化传统账务处理过程。

3.6 这类流程，能够使之前的记账凭证发展至报表的处理步骤更加的精简。将事项凭证相关的存放工作当成是关键内容之后，之前的制单者以及审核者等等都没有了之前的作用和功效了，此时就不需要了，进而精简了一些活动步骤，确保了之后的处理后动的自动化。

参考文献

[1]张永雄.基于事项法的会计信息系统构建研究[J].会计研究, 2005 (10) :29-34.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【过程数据】相关文章：

数据库存储过程06-09

燃烧过程数据库研究08-10

动态创建MSSQL数据库表存储过程存储过程08-02

大数据时代企业知识管理过程分析10-15