数据标准体系范文

2024-06-09

数据标准体系范文(精选9篇)

数据标准体系 第1篇

1.1 数据模型发展

数据模型的发展可划分为三个阶段:第一代为层次数据模型、网状数据模型;第二代为关系数据模型;第三代为面向对象数据模型和多维数据模型。第一代数据模型由于在概念、结构和使用上都比较复杂, 现在几乎不被使用。关系数据模型描述一致性高, 可以直接表示多对多的联系, 有很强的数据表达能力和坚实的数学基础因此被广泛应用。第三代面向对象数据模型是将面向对象的思想、方法和技术引入数据库, 包含更多数据语义信息, 对复杂数据对象的表达能力更强。采用这种模型的数据库是基于传统关系数据库及S Q L的面向对象数据库, 称为通用数据库, 目前占统治地位。采用多维数据结构的数据库称为后关系型数据库, 是未来发展方向, 这种数据库提供三种方式访问数据:对象数据库访问、高性能的S Q L访问、直接对多维数据数组访问。

1.2 数据库产品分类

目前市场上的数据库种类非常繁杂, 没有一个权威的分类, 为了更好的对数据库领域标准体系进行规定, 本文将从四个角度对数据库产品进行分类: (1) 从数据模型的角度可分为:层次数据库、网状数据库、关系数据库和面向对象数据库; (2) 从所处理数据的形式的角度可分为结构化数据库和非结构化数据库; (3) 从运行模式和应用场合的角度可分为嵌入式移动数据库、实时数据库和通用数据库; (4) 从数据存储位置的角度可分为硬盘数据库和内存数据库。

2 数据库相关标准

数据库领域的国际标准目前发布了20项, 主要是ISO组织发布的ISO/IEC 9075和ISO/IEC 13249两个系列的SQL查询语言类标准, ISO/IEC 15408安全技术类标准 (CC标准) , ISO/IEC 18021移动数据库方面的标准以及ISO/IEC 9579远程数据库访问标准。除此之外, 由美国国家计算机安全中心在T C S E C (可信计算机系统评估标准 (Trusted Computer System Evaluation Criteria) ) 基础上所发布的TDI (Trusted Database Management System Interpretation of the Trusted Computer System Evaluation Criteria) , 是目前各国所引用或制定的一系列安全标准中最重要的一个。

数据库领域的国内标准目前发布的有16项, 主要是国家质量监督检验检疫总局和国家标准化管理委员会发布的G B/T 1 2 9 9 1数据库语言S Q L标准, G B/T 2 0 0 0 9和G B/T 2 0 2 7 3数据库管理系统安全方面的标准, G B/T20531移动数据库应用编程接口类标准和GB/T 17533远程数据库访问类标准;公安部发布的GA/T 389-2002计算机信息系统安全等级保护数据库管理系统技术要求;国家军用标准发布的有G J B 1 3 7 5军用远程数据库访问系列标准;GJB1382军用数据库语言类标准;GJB 3982.3特定领域军用数据库产品通用要求类标准;GJB 4353、GJB 4354和GJB/Z 109关系数据库管理系统产品类标准;除正式发布的标准外国家标准化管理委员会同意立项的标准有6项:《关系数据库管理系统技术要求》 (项目号20075451-T-469) 、《关系数据库管理系统检测规范》 (项目号2 0 0 8 0 4 8 4-T-469) 、《信息技术数据库语言SQL多媒体和应用包》系列标准的第1部分框架 (项目号20032267-T-339) 、第2部分全文 (项目号20032266-T-339) 、第3部分空间 (项目号2 0 0 8 0 5 4 3-T-4 6 9) 和第5部分静态图像 (项目号20080544-T-469) 。

数据库领域联盟规范目前发布的标准有3项, 主要是O D M G (O b j e c t D a t a M a n a g e m e n t G r o u p) 发布的面向对象数据库的标准O D M G规范, T P C (T r a n s a c t i o n Processing Performance Council, 事务处理性能委员会) 发布的性能测试方面的系列标准以及国际开放标准协会组织O A S I S发布的内容管理互通服务 (C M I S) , 该标准提供的技术是非结构数据库的发展方向。

数据库领域厂商规范有两项, 一项是微软推出的一组数据访问组件, 称为MDAC (Microsoft Data Access C o m p o n e n t s) , M D A C中的组件分为O D B C (O p e n Database Connectivity) 、OLE DB (Object Linked and Embedded Database) 和ADO (ActiveX Data Objects) 三个部分;另一项是SUN推出的JDBC, 是一套数据库编程接口API, 由Java语言编写的类、方法等组成。

通过对上述标准进行全面分析, 可以得出两点结论: (1) 数据库语言S Q L类标准, 由于国外起步较早, 目前发展已非常成熟, 这一系列标准可以直接将国际标准转化为国家标准。 (2) 可以在数据库安全方面、产品技术要求方面和产品测试方面自主制定国家标准。

3 数据库产品现状

国外通用数据库产品主要有Oracle、SQL Server、D B 2、M y s q l、S y b a s e、C a c hé和P o s t g r e S Q L, 移动数据库产品主要有O r a c l e B e r k e l e y D B数据库、SQLite数据库、UltraLite数据库、Oracle移动数据库, 实时数据库主要有美国O S I S o f t w a r e公司开发的PI、美国H O N E Y W E L L公司开发的P H D、美国A s p e n T e c h公司开发的I P 2 1。国内数据库产品主要有达梦数据库、金仓数据库、神舟通用数据库、虚谷数据库和实方数据库等通用数据库和浙江天宇全文数据库、T R S全文数据库系统等非结构化数据库产品。通过分析国内外各种类型的数据库产品的功能和产品对已有标准的符合性, 得出两点结论: (1) 国外通用数据库产品尚无一家产品符合最新的S Q L 2 0 0 8版标准, 一般是符合SQL2003版标准中规定的核心集的部分内容;我国通用数据库产品主要符合S Q L 9 2中或S Q L 9 9规定的内容; (2) 无论国外还是国内在移动数据库、实时数据库和非结构化数据库领域尚缺少相应标准。

4 标准化需求

通用数据库产品在S Q L标准符合性和系统功能实现上存在很大的差异性, 主要表现在:

(1) 现有标准中规定的SQL内容, 数据库产品没有完全实现。

(2) 各数据库厂商均有自己扩展的功能, 例如:数据类型、接口及函数等。

(3) 现有标准没有对系统工具进行规定, 例如迁移工具存在很大差异。

由于这些差异导致各种数据库产品无法互操作。通过制定关系数据库产品技术要求和测试规范对通用数据库产品的功能、性能、接口以及测试方法进行规定, 不仅能保证各种国产数据库之间能互操作, 最大限度地降低数据库应用开发成本, 而且将有效指导数据库管理系统市场的相关认证工作的开展, 规范市场秩序, 为国产数据管理系统产业搭建一个和谐的发展环境, 从而极大地促进国产通用数据管理系统产业的壮大。

非结构化数据管理系统实现过程中可参考的国内外标准非常缺乏, 尤其是非结构化数据表示标准、数据访问接口标准和产品测试方面的标准目前还处于空白。加快制定符合我国国情和国内厂商、用户利益的非结构化数据管理领域标准, 对于推动国产非结构化数据库软件的开发和应用, 发挥我国特色的非结构化数据管理产品的优势, 扩大国产数据库产品的份额以及进一步将我国自主制定的标准形成国际提案进而转化为国际标准, 提升我国在国际上的影响力具有非常重要的意义。

5 标准化建议

通过对数据库相关标准、产品以及相关技术进行分析得出数据库标准体系框图 (见图1) 。

在此体系中将数据库标准分为五大类:数据库语言、数据库产品、数据交换管理、数据安全管理和集成应用相关。数据库语言类标准、数据库产品类标准和集成应用相关标准是我国标准化重点。

S Q L语言标准是整个数据库标准体系的核心, 已有成熟的国际标准1 6项, 其中1项已被转化为国家标准正式发布, 4项已纳入国家标准计划并进入最终报批阶段, 建议尽快立项将其余11项转化为国家标准。

我国在国产基础软件集成测试方面积累了一定的经验, 建议制定数据库与其他基础软件产品之间的互操作测试相关规范。

数据标准体系 第2篇

地球系统科学数据共享标准规范体系研究与应用

地球系统科学是地球科学发展的一个新的历史阶段,其以地球系统及其整体行为作为研究对象,迫切需要大量多学科、多来源、多类型、综合性地学数据资源的支撑.针对这一需求,我国国家科技基础条件平台设立了“地球系统科学数据共享网”这一支撑条件.为了构建该支撑条件的标准规范环境,本文分析了地球系统科学数据的特征,剖析了“研究型”数据对标准规范的需求,指出了其面临的3个关键问题.研究了地球系统科学数据共享的概念模式,根据定义的4条基本原则,分析了地球系统科学数据共享标准规范体系的定位,构建其体系结构.该体系结构包括4个大类,即机制条例类、数据管理类、平台开发类、数据服务类,具体包括18项条例、办法、规范和技术标准.其中,地球系统科学数据共享联盟章程、核心元数据标准、数据质量管理办法、数据分类标准是该体系中的`引领性、核心标准规范.经过近6年的研究和应用,目前该标准规范体系已经在地球系统科学数据共享网的总中心和13个分中心试用,取得了良好的运行服务效果.未来,地球系统科学数据共享标准规范将“向下”、“向上”两个方向继续发展.

作 者:王卷乐 孙九林 WANG Juanle SUN Jiulin 作者单位:中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京,100101刊 名:地理科学进展 ISTIC PKU英文刊名:PROGRESS IN GEOGRAPHY年,卷(期):200928(6)分类号:P2关键词:地球系统科学 数据共享 标准规范 条件平台 earth system science data sharing standards and specifications facility

数据标准体系 第3篇

2014年3月,“大数据”首次出现在我国《政府工作报告》中。2015年7月,国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》。8月,国务院印发《促进大数据发展行动纲要》,明确规划国家将实施政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程、万众创新大数据工程、大数据关键技术及产品研发与产业化工程、大数据产业支撑能力提升工程、网络和大数据安全保障工程等十项大数据工程。10月,党的十八届五中全会提出,实施网络强国战略,实施“互联网+”行动计划,实施国家大数据战略,标志着大数据战略正式上升为国家战略,开启了大数据建设的新篇章。

一、从信息视角认识世界

人类已经进入信息社会、信息时代,信息是我们这个世界赖以运行的血液、食物和生命力。尽管信息的原始形式已经存在了成千上万年,但是真正对信息进行理性认识,却还是上个世纪中叶左右的事。信息是什么?1948年,控制论的创始人维纳(Norbert Wiener)在《控制论——关于在动物和机器中控制和通信的科学》一书中指出:“信息就是信息,既不是物质也不是能量。”从而第一次把信息提到了与物质、能量并驾齐驱的地位,勾画出了一幅“物质—能量—信息”的世界三要素的新图景。哈佛大学信息政策研究中心主任A.欧廷格(Oettinger)说:“没有物质,任何东西都不存在;没有能量,任何事情都不会发生;没有信息,任何东西都没有意义。”

人们一般很少去思考信息与讯息、消息、知识、数据等之间的联系和区别。第一次洞察信息本质、也是第一次赋予“信息”一词精确定义的是克劳德·香农(Shannon)。1949年,香农发表了《通信的数学理论》,经典地阐明了通信的基本问题,提出了通信系统的模型,给出了信息量的数学表达式,这是人类第一次系统、全面、理性地认识信息,从此奠定了一门新的学科——信息论。香农认为,剥除了语义内容,“信息是用来消除随机不确定性的东西”,是出人意料,这一定义被人们看作是经典性定义并加以引用。香农还引入了测量信息的最小单位——比特(bit),如今已经跻身为量纳的一员,成为今天日常生活都离不开的词汇。信息与概率密不可分。1比特,从根本上说,就是代表一次掷硬币猜正反面时的不确定程度。令人颇感兴趣的是,香农当时能够想到的最大信息仓库是美国国会图书馆。

从此以后,信息论犹如一股洪流,在心理学、遗传学、量子力学、经济学、语言学等一个又一个领域掀起了颠覆性的革命,极大地改变了现代科学的面貌。万物源自比特。在这个大数据时代,所有新闻出版行业从业人员在世界观方面,应该具有“信息”视角,让信息成为我们世界观的核心之一,因为我们本身就是信息行业,我们现在所从事的社会活动和工作岗位,归根结底都是信息的获取利用、生产加工和传播消费。

二、树立三种新的数据思维

西方有一句话:“除了上帝,任何人都应该用数据说话。”《促进大数据发展行动纲要》提出建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,这将建立起全社会的数据思维和数据文化。正解大数据要上升到文化的高度,其本质就是理性思维、科学精神、实事求是,因为数据就是事实。大数据专家维克托·迈尔·舍恩伯格在《大数据时代》一书中具有洞见性地提出三种数据思维:整体思维、多样思维和相关思维,已经成为共识。但我认为,新闻出版行业更应该具备如下三种思维:

一是价值思维。我们要明明白白地认识到:数据是一种资产,数据是财富。大数据思维的核心是价值思维。这里所说的数据,不仅包括管理数据、交易数据和社交数据,也包括用户数据。传统新闻出版单位一定要充分认识到:用户也是不可忽视的一笔重要财富。2014年2月20日,Facebook宣布用160亿美元收购WhatsApp,在整个收购的价值组成中,对WhatsApp逾5亿用户的估值约为20亿美元(约合人民币123亿元),相当于每名用户约4美元(约合人民币25元)。

二是应用思维。有人说,谁拥有了大数据,谁就拥有了未来,就占领了制高点、取得了主动权。这种观点值得商榷,因为数据的价值在于应用,而不在于拥有。大数据真正重要的不是数据本身,如何利用数据驱动单位内部的业务流程和产品研发才是重中之重,这意味着要从业务驱动转变为数据驱动,这正是传统产业转型升级的关键所在。数据比流程更重要,这一点对于新闻出版行业尤其关键,因为我们这个行业定量思维、数据决策严重匮乏,选题策划、印数决策等更多地依赖于经验。亚马逊与传统书店对决的胜出,最核心的原因在于,其电子商务架构于大数据平台之上,通过全维度记录、存储与描述数据,深入进行数据关联与数据挖掘,并基于数据进行预测与推荐。而传统发行行业面临的痛点在于,产品与服务无法数据化。

三是共享思维。出版单位内部的数据孤岛现象是普遍存在的,有的出版社不同编辑室之间连作者信息都不能共享。出版传媒集团不同企业之间的孤岛效应更加明显,新闻出版行业层面更是缺乏大数据平台。大数据的发展需要全社会、全行业协同,最终实现数据共享。共享是指“使用而非拥有”,非公非私,既可以公有私用,也可以私有公用。必须要认识到,本部门、本企业、本集团、本行业内部数据如果不流动起来,不与外部数据融合,就会成为死数据。越共享,效率越高。当然共享并不意味着免费,关键在于利益机制设计。

三、大数据在解决新闻出版业痼疾方面大有可为

长期以来,新闻出版行业形成了几大痼疾,严重影响产业健康发展:一是库存暴涨,产能过剩,供需严重不匹配,已经成为产业不能承受之重,风险极大,行业亟需绿色发展。出版业和全国经济一样,面临巨大的去库存问题。2004到2014年10年时间,全国总库存(出版社和新华书店系统)数量增长近25亿册,金额突破1000亿元,达到创纪录的1010亿元,而2014年全国纯销售仅为778亿元,早已形成倒挂之势,剔除中小学教材,实际库销比已经逼近2。二是发行市场诸侯割据,条块分割,缺乏全国性的发行中盘,统一开放竞争有序的全国大市场远远没有形成,导致我国的出版传媒集团难以做大主业。三是出版发行生态链畸形,寄销制导致无条件退货,账期长,回款难,诚信缺失,真正意义上的出版社图书单品种核算难以实现,编辑绩效考核和激励机制难以建立,整个行业仍是粗放式管理。要想从根本上解决上述问题,就必须充分利用大数据技术,建立行业大数据平台和信用信息平台,从产业链上中下游进行精确管理,数据驱动选题策划、印刷决策,分析用户行为,精准营销、个性化推荐,重塑出版生产、销售和管理模式。

nlc202309091501

四、新闻出版行业有哪些大数据

人人都在谈大数据,到底新闻出版行业拥有哪些大数据?仁者见仁,智者见智,分类方法很多。我认为,从业务来分,新闻出版大数据可分为七类:一是机构数据。主要包括新闻出版政府机构、事业单位、行业协会,出版传媒集团、出版社、报社、期刊社、音像电子社、印刷厂、发行集团、书店等企业和机构的名称、地址、法定代表人、网址、规模、业务范围、收入、利润等数据。二是人员数据。主要包括公务员、企业管理人员、编辑、记者、发行、技术、作者、专家等新闻出版行业从业人员的基本数据,如姓名、性别、地区、行业、专长、职务、职称、主要作品、发表文章、教育经历、职业经历等数据。三是产品数据。包括图书数据、报纸数据、期刊数据、音像制品数据和网络出版物数据。既包括作者等元数据,也包括选题数据、发稿数据、印刷数据、版权数据等。四是政务数据。指政府在综合办公、市场监管、公共服务过程产生的数据,包括人事信息、财务数据、政策法规、统计信息、规划计划、标准信息等。五是商务数据。指新闻出版企业主体在市场交易过程中产生的数据,包括合同、供货、采购、发货、退货、结算、版权交易等数据。包括用户人口属性数据、用户关系数据、用户行为数据等。像评论、转发、分享、下载、点赞、收藏数据,粉丝数、认证信息、学习时段、阅读工具、阅读方式、阅读时间段、阅读时长、阅读偏好、阅读能力、阅读目的、阅读范围等用户行为数据正是目前移动互联网出版所必须关注的。七是内容数据,包括信息和知识。一般将知识归纳为四种类型:事实知识、原理知识、技能知识和人力知识。中文百科知识体系把人类科学文化知识和实践活动领域分为24个类别,形成了中文百科分类目录。这是我们新闻出版行业所特有的数据宝藏,也是知识服务的基础。

五、了解一点大数据技术

要想不被IT企业神乎其神的大数据软件和技术所忽悠,有必要对大数据技术略知一二。大数据关键技术一般包括大数据采集技术、大数据存储及管理技术、大数据分析及挖掘技术、大数据展现及应用技术等。

网络爬虫、ETL(Extract-Transform-Load)和数据众包属于大数据采集技术。我们所熟知的高德地图则综合采用情报搜集平台LSE、API轨迹分析、卫星影像自动识别、UGC反馈以及浮动车等多种数据采集技术。大数据存储及管理关键技术则包括Hadoop的三大核心技术,即分布式文件系统(HDFS)、分布式系统架构(MapReduce)和分布式数据库(NoSQL)。大数据分析及挖掘技术包括自然语言处理、语义分析、关联挖掘分析、神经网络、话题检测与追踪、情感倾向分析、序列分析、机器学习、个性化推荐、文本智能处理技术、图像识别、模式识别、语音识别等。个性化推荐又可以分别基于协同过滤、关联规则、社交圈、用户画像、内容来进行推荐。文本智能处理技术包括文本分类、相似性检测、自动摘要、主题词标引、信息抽取、文本聚类、中文分词。大数据展现及应用技术值得一提的是数据可视化技术,传统的数据展示是单调、乏味的,多以饼图、柱图和线图等形式展示,远远满足不了多角度、多层次及交互性的要求,那么大数据数据可视化技术则可以提供标签云、聚类图、流图、热图、散点图等更具表现力、更具交互性的数据可视化实现方案,将数据的各个属性值以多维数据的形式表示,使人们能够以更直观的方式看到数据及其结构关系,发现数据中隐含的信息,从不同的维度观察数据,从而对数据进行更深入的观察和分析。最后,还要提一下云计算与大数据的关系。大数据和云计算是一枚硬币的两面,大数据必须云计算来处理,云计算的本质就是大数据处理技术。云计算和大数据应当成为大型新闻出版传媒集团的标配。

六、亟需建立新闻出版大数据标准体系

标准化是建设新闻出版大数据的基础与关键,也是真正实现新闻出版大数据潜在价值的必要条件。2014年,工信部和国标委成立了“全国信标委大数据标准工作组”,负责制定和完善我国大数据领域标准体系。建设新闻出版大数据过程中,多源采集的数据存在格式混乱、对接困难等问题,必然会降低数据挖掘、分析的效率,影响其价值的实现。因此,必须开展新闻出版大数据标准顶层设计,从基础、技术、产品、安全、管理、应用等多个角度梳理新闻出版大数据标准需求,建立健全新闻出版大数据标准体系,重点突破一批涉及大数据的基础性、方法性、应用性标准的研制,指导新闻出版大数据的采集、共享、交换、加工、应用和服务,为新闻出版大数据发展夯实基础。在研究国家大数据技术标准体系框架的基础上,结合出版数据自身的特点,以及未来出版大数据发展的趋势,新闻出版大数据标准体系框架可以包括基础标准、技术标准、产品和平台标准、安全标准、应用和服务标准等五大类。其中,基础标准包括总则、术语、技术参考模型、元数据等标准。技术标准包括数据治理、数据质量等标准。产品和平台类标准主要包括智能工具、可视化工具、大数据平台、测试规范等标准。数据安全标准主要包括通用要求、隐私保护等标准。应用和服务标准包括开放数据集、数据服务平台、领域应用数据等标准。

七、建立新闻出版行业大数据共享交换机制和平台至关重要

正如英特尔中国研究院院长吴甘沙所说,数据之于数据社会,就如同水之于城市或者血液之于身体一样。要真正盘活新闻出版大数据资源,让散落在各处的新闻出版数据真正流动起来,建立新闻出版政府主管部门、新闻出版企业和社会之间的大数据共享交换机制和平台就显得格外必要。一是政府统筹规划、全面部署。倡导通过市场化、社会化方式汇聚和优化配置社会资源,避免出现新的“信息孤岛”。二是开辟多种数据采集渠道。综合行政收集、自愿提供、有偿购买、协议交换、网络抓取、传感收集等方式建立新闻出版大数据采集机制。尤其要加强对新闻出版企业信息化规划与行业大数据采集需求的融合指导,鼓励新闻出版企业加强对其生产经营活动中数据的采集。三是创造多种数据共享模式。鼓励各级新闻出版主管机构率先推进政务数据资源的集中与开放,与社会联动;鼓励新闻出版企业通过商业行为创新数据共享机制,探索既确保多方数据所有权又实现数据整合应用的商业模式;鼓励民间资本参与新闻出版大数据共享交换体系的建立。四是解决信息安全和隐私保护等。只有对涉及隐私保护和商业秘密的数据进行合理化处理,才能最大化发挥数据共享交换各方的积极性,才能实现新闻出版大数据的有序共享。

nlc202309091501

八、加快建设行业大数据重大工程,构建新闻出版大数据体系

新闻出版大数据体系应该包括基础设施、数据、技术、平台、应用、标准、安全、机构、机制等方面。重大工程对构建大数据体系起着核心作用。“十三五”期间,应该从政府监管、公共服务和产业发展三个层面启动若干重大工程。在政府监管层面,启动新闻出版及扫黄打非大数据监管工程,建设新闻出版信息资源数据库,提升政府决策支撑、风险防范、市场监管、重大事件预警能力。在公共服务层面,启动出版发行信息公共服务平台,建成全国出版可供书目数据库,形成基于国家标准的支撑出版、发行、采购、编目、决策于一体的新型公共服务模式。在产业发展层面,启动新闻出版大数据应用工程,包括国家知识服务大数据应用工程、国家出版发行大数据应用工程、ISLI标准大数据应用工程等。

对于新闻出版人来说,大数据完全不同于云计算、移动互联网、物联网,后者都是技术,而懂技术、关心技术的总是少数,而数据、信息、知识则不同,它们是内容,是我们生存的根本,我们应该具有信息视角、数据思维,我们的重点应该放在数据、信息的采集、处理和应用上,扎扎实实、一点一滴做好数字化转型工作,开创新闻出版业创新、协调、绿色、开放、共享发展之路,因为我们都是马歇尔·麦克卢汉所说的“采集信息为生的人”。

九、数字化转型仍然是大数据的基础

应用大数据首先要拥有大数据。可是,大数据在哪儿呢?目前,出版传媒企业自己拥有大数据平台和大数据采集能力的很少,大多没有用户多方位属性和行为数据,难以对用户行为和个性化需求进行深入分析。而拥有用户大数据的社交网站、电商、互联网公司也不会把大数据给出版企业使用。即使是出版企业内部的小数据,也散落在网站、ERP、协同编辑系统等不同的系统平台,没有统一整合。因此,出版企业大数据建设顶层设计要统筹大数据与小数据、内部数据与外部数据。首先,要全面进行ERP建设,加强对选题、生产、营销、发行、服务、财务、管理等全过程的管理信息化,完整收集过程中的内部数据,这是大数据的基础之基础。临渊羡鱼,不如退而结网。其次,全面推进数字化转型,国家数字复合出版系统工程研发的新闻内容选题与评价系统、图书选题及发行分析系统、出版信息采集与策划服务系统、全文相似性分析系统、内容动态重组系统、发布管理系统、出版机构运营服务与支撑系统、多形态广告发布系统、在线学习平台、数字资源标准管理与解析服务系统、复合出版数据传递系统、全国出版内容交换系统等众多系统和平台,全方位支持新闻出版企业的创意、生产、营销和经营管理活动,让新闻出版企业充分拥抱大数据和互联网,希望能在不久的将来全面应用在所有新闻出版企业,否则大数据就是无源之水,无本之本。

十、不能神化大数据

拨开对大数据纸上谈兵和美好理想的迷雾,对大数据专家所强调的全样本、相关性和混杂性需要保持清醒的认识,不要神化大数据。首先,大数据不能代替小数据,全样本分析依然不能代替抽样调查。原因是大数据技术本身以及现实的条件远远没有达到全体样本的水平,存在一定偏差。大数据与传统数据最主要的不同在于,大数据的采集过程更多是生产经营等各类活动的未经处理的附属产品,数据反映的信息可能只是总体的一部分。何况总体取决于人们关心的问题,总体是会变化的。另外,过度追求全样本可能造成建设模式复杂度升高、成本增加而导致事实上不可能。不能片面追求大数据。不是所有企业都必须考虑大数据战略,大数据分析有其门槛。规模不够大的企业可以考虑购买服务。第二,即使在使用抽样数据时,我们也从未奢望过数据的精确性。我们从来都要在信息混杂的情况下做出大多数的决策。百分百的数据决策、科学决策是做不到的,否则还要创意干什么呢?恐怕在相当长的时间,我们都要数据决策和经验决策并重。第三,强调相关关系而忽视因果关系是让人无法接受的,尤其是以知识传承为使命的新闻出版行业,大数据不能代替理性思考、逻辑演绎。甚至《大数据时代》一书的译者周涛都公开表示:如果放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。其实,因果关系也是相关关系的一种。

(作者系新闻出版总署信息中心副主任)

数据标准体系 第4篇

主要工作内容

(1) 开展基础分析

工业大数据是支撑智能制造关键基础和核心要素,目前研究和实践均处于起步阶段,各种观点、概念分散,亟需规范和统一各种概念,建立明确的体系和方向。专题组通过广泛的调研,推进和总结智能制造实践需求和成果,确定了工业大数据工作范围、方向和理论体系。

(2) 开展智能制造实践

a. 阀门行业C2M定制平台:3 000 多万种产品库,全流程关键数据采集、贯通、关联,实现数据驱动的大规模定制和智能制造过程;

b. 家具自动化设计和智能装备方案:一键自动拆单、排料和生成全套生产资料和工艺配置,驱动智能产线实现自动化制造;

c. 汽车零部件柔性生产线:设备、物料、工艺流程、人员等采集和智能控制,实现数据支撑的柔性配置、工艺优化、问题追溯。

(3) 开展大数据技术应用实践

a. 阿里云:大数据技术在石油石化行业中产能预测、生产设备实时监控和预防性维护,新能源和电力行业应用实践等;

b. 西安美林数据技术公司:大数据技术在IMU组合装配研发、钢铁质量改进、元器件安全库存控制等方面应用。

主要工作成果

(1) 确定工业大数据标准化范围和方向

工业+ 大数据:针对C2M个性化定制需求驱动的新型制造模式,基于工业互联网基础架构和通用大数据技术应用,支撑智能制造和工业云服务,实现用户价值驱动的业务流程,输出产品、服务,持续满足和提升最终客户的价值需求。

(2) 确定应用场景运营模式( 见图1)

C2M框架:业务、流程、生产性服务单元、设备等实体。

数据建模、采集、存储、智能分析,改善营运环节效率,创新产品、服务价值和商业模式。

(3) 形成6 项标准提案,已立项4 项

立项4 项:《工业大数据术语》、《工业大数据参考架构》、《工业大数据产品核心元数据规范》、《工业大数据订单元数据》;其余2 项《智能制造对象标识符编码与存储规范》、《智能制造对象标识的分配、注册与解析》。

(4) 明确工业大数据技术架构( 见图2)

(5) 提出工业大数据标准体系框架( 见图3)

2016 年主要工作

标准研制:2016 年10 月完成4 项已立项国家标准报批稿;新立项3~5 项标准。

区域卫生信息平台标准化数据体系 第5篇

关键词:信息平台,数据体系

一、区域卫生信息平台标准化数据体系的构成

标准是对重复性事物和概念所做的统一规定。卫生信息标准指在卫生事务处理过程中, 信息采集、传输、交换和利用时所采用的统一的规则、概念、名词、术语、代码和技术, 包括信息表达标准和信息技术标准。

居民电子健康档案是以居民为中心组织的, 以其它实体为中心的文档不包括在内, 尽管它们可能同样是区域卫生信息网络处理的重要信息对象, 例如药品、公共卫生事件、医疗设备、疾病等等。在典型的区域卫生信息平台中, 域常常是一个行政所辖地域, 为相应的区域卫生信息网络所覆盖。但它不一定需要如此。而且, 一个机构可能同时成为多个域的成员。从国家卫生信息网络的视角, 域是一个不可再分的基本网络节点。域之间的相互联结是形成更大覆盖范围的卫生信息网络, 以至国家级网络的基础。

二、区域卫生信息平台标准化数据体系的实现

社区卫生服务中心所使用的健康档案管理系统, 大多数是为该社区的居民建立个人基本健康档案, 一旦建档完成后就保存在本地的服务器上, 绝大多数的建档档案数据独立存在于本社区内, 既没有被临床诊疗相关的业务系统“激活”, 也没有被上级机构所采集共享以实现跨社区的联动。该系统完全为建档而建档, 建好的档也就成为“死档”, 没能体现应有的利用价值。

为了建立对区域范围内各医疗机构业务联动, 实现数据共享或业务协同, 对各医疗机构在个人身份上必须具有统一的身份机制, 此项工作是作为区域卫生信息平台建设的最为基本性的任务。信息分类编码标准将信息按照一定的原则和方法进行分类, 然后一一赋予代码, 使每一项具体信息与代码形成唯一的对应关系, 为数据记录、存取、检索提供一种简短、方便的符号结构, 从而便于实现信息处理和信息交换, 提高数据处理的效率和准确性, 且增强信息的保密性。信息分类编码是信息化社会中对信息进行有效管理、加工处理、综合利用的必要技术手段。在医院信息系统中, 对信息进行分类同样是数据资源表达和分析利用的必然要求。

1. 健康档案数据

健康档案数据 (EHR Data Store) 是区域卫生信息平台的基础。健康档案数据不限定以关系型数据库或文档的存储方式进行存储, 在存储架构设计中应重点考虑健康档案数据中不同数据存储方式下的存储、归档、检索的效率, 以及所涉及的数据备份恢复。

根据健康档案信息的分类, 健康档案存储服务分为七个存储库:个人基本信息存储库、主要疾病和健康问题摘要存储库、儿童保健存储库、妇女保健存储库、疾病控制存储库、疾病管理存储库以及医疗服务存储库。

2. 业务文档数据库

业务文档数据库指的是医疗活动产生的与EHR相关的文档, 这些文档通过区域信息交换层 (HIAL) 传送到区域卫生信息平台。它需要平台的专门服务解析和映射 (Parser/Map/Rebuilder) , 才能转换成EHR文档。平台必须有一个永久存储业务文档库的数据库。业务文档以XML方式进行组织, 与电子签名相结合, 在文档库中进行注册。

3. ODS数据库

从业务支持的角度来看, 我们需要建立ODS数据库, 来实现对业务的更好支持。为了完成某些特定业务上的流程要求, 可能产生很多中间数据, 而这些中间数据都有赖ODS数据库实现其存储方式。

4. 业务平台数据库

除健康档案数据 (EHR Data Store) 之外, 区域卫生信息平台需要存储一些相关的业务数据, 并实现对这些数据的插入、更新、查询和统计功能。业务数据主要包括以文档形式存储的结果数据, 以及操作型数据。文档数据:以文档形式存在于平台中的临床和预防保健业务数据, 例如检验报告、处方、传染病报告卡等。这些数据是结果数据。操作型数据:从多个医疗机构内部信息系统中采集上来, 并加以汇总处理后的数据, 主要服务于统一的实时查询和实时的统计。

5. 数据仓库

主要是业务管理和辅助决策所需的支撑数据。这些数据是通过数据仓库工具进行抽取、转化和整理后存储在数据仓库中的。数据仓库数据以主题方式组织, 是经过二次加工的历史数据。

6. 标准数据

标准数据是区域卫生信息平台运行的数据基础。标准数据包括区域卫生业务数据的所有数据标准规范, 通过这个库和数据校验机制对数据中心的数据进行标准化保障, 主要的数据标准包括整个定义电子健康档案的数据集和数据元 (具体可参考卫生部发布的中国健康档案数据标准) , 还有各种代码标准。由于数据标准存在着时效性, 因此针对有时效性的数据进行版本控制, 不同的版本有各自的生命周期, 不同生命周期中的业务数据对应不同版本的数据。在系统实现中, 标准数据以XML template的形式或关系型数据的形式进行存储。

7. 注册数据

注册数据是满足注册服务所需的数据及存储。包括个人、医疗卫生人员、医疗卫生机构、医疗卫生术语的注册管理数据。

8. 区域信息交换层 (HIAL) 临时存储的交换数据

区域信息交换层 (HIAL) 将来自于POS的数据/文档接入到平台中进行处理。区域信息交换层 (HIAL) 将EHR数据/文档发送到POS或其他数据消费方。这些数据/文档在处理前将临时存放在数据交换 (HIAL) 应用服务器或其他服务器。这部分数据的存储要求有较高的I/O速度。

三、区域卫生信息平台标准化数据体系的应用

本平台建立后, 首先可以解决信息共享的需求。原先分布在医疗机构、社区、公共卫生机构内的关于区域内居民的健康信息均可以交换整合到本平台中的卫生信息数据中心, 各医疗卫生机构可以通过平台调阅本区域居民的健康档案和诊疗信息。

1. 诊疗信息共享

诊疗信息共享是区域卫生信息平台建设最基本的目标, 也是本平台的核心业务。通过将居民在每家医院的诊疗数据统一采集, 形成每个居民完整的诊疗信息档案, 供居民自己、临床医生、责任全科医生及相关机构查看。诊疗信息共享功能范围要求包括:数据中心患者主索引的建立与调阅;就诊患者就诊记录的采集、整合与调阅;实验室检验报告的采集、整合与调阅;医学影像检查报告的采集、整合与调阅;住院病案的采集、整合与调阅等等。

2. 其他卫生服务信息共享

数据标准体系 第6篇

自大数据概念提出以来,受到了信息服务提供商、政府和国际组织等的广泛关注,相关投入和研究快速增加,纷纷通过内部研发、收购、技术整合等一系列手段布局“大数据”战略,以期统一管理和高效处理已有的海量结构化、半结构化、非结构化数据。2015 年9 月,国务院发布《促进大数据发展行动纲要》,指出“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”[1]。大数据技术应用的关键不是“大”和“数据”,其核心价值是将数据视作与人、财、物一样的企业核心资产,让资产创造价值。

为适应大数据与“互联网+”融合创新应用的需求,国家电网公司于2015 年初正式提出了“全球能源互联网”的发展战略,即以特高压电网为骨干网架(通道)输送清洁能源、建设全球互联泛在的坚强智能电网为目标,将应用大数据、云计算、物联网、移动互联、智能穿戴、计算机视觉等技术,增强输变电设备状态的智能感知与实时评价、设备精准定位、故障自动预警等能力,优化大电网分布部署与集中协调的控制模式[2]。全球能源互联网将运用大数据技术,对多元能源数据(如燃气网数据、热力网数据、发电厂数据、电网数据等)和经济、气候等外部数据进行快速、及时、准确地分析,提升能源供应的效率,实现互联网与风能、太阳能、地热能等可再生能源的融合和全球能源互享[3]。

全球能源互联网环境下的电力大数据更强调多元数据处理的多样性、复杂性和实时性[4]。要实现大数据技术在全球能源互联网行业的广泛应用,需要设计一整套覆盖基础设施、信息采集、数据集成、分布式存储、高性能计算、数据探索、可视化展现、一体化搜索、智能信息处理、安全治理、多维交互的大数据混合体系架构,以成熟先进的大数据产品及开源软件框架相结合的方式,搭配传统数据处理组件,形成数据、平台、存储、计算、分析、可视化的完整生态链,提出恰当的数据管理规范和应用标准,规范大数据在系统中的流动和处理过程,形成面向电力大数据技术研究、产品研发、试点建设的大数据标准体系。

1 大数据研究现状

1.1 电力大数据概述

随着坚强智能电网的建设,电力行业已产生大规模海量的专业数据,例如:电网规划方面,已有GB级电网计划类数据和规划信息数据,随着配网规划业务的急速扩张,将逐渐积累TB级数据;电网建设方面,目前每年产生约1 TB结构化和4 TB非结构化的建设管理数据;电网运行方面,目前每年产生约150 TB电压、电流等电网运行数据;电网检修方面,生产设备每年不仅产生TB级的状态数据量,而且还产生PB级的视频数据;电力营销方面,每年新增约100 TB营销用电采集数据,随着用户规模持续扩大,系统数据量将进一步增加;电力客服方面,目前产生TB级客户档案及交易数据,日增约4 GB客服音频数据。这些体量巨大、处理速度快、数据类型多样、价值密度低和复杂的数据共同组成电力行业大数据集[5]。

通过对大数据4V特征的深入理解,结合电力行业实际业务与数据现状,国家电网公司研究并提出“电力大数据”的内涵。电力大数据是指通过传感器、智能设备、视频监控设备、音频通信设备、移动终端等各种信息获取渠道收集到的,海量的,结构化、半结构化、非结构化的,且相互间存在关联关系的电力业务数据集合[5]。电力大数据应用的关键不是“大”,也不是“数据”。“大”是一个相对的概念,不是必须“大”到某个量级的数据量才是大数据。“大”主要体现在2 个方面:一是数据集“大”到一定程度,可全面表现数据所描述的对象的特征或某种规律;二是数据的规模和复杂程度“大”到传统数据工具无法处理分析,需要运用大数据技术。电力大数据以大数据平台和数据资产管理为基础,通过新的多元数据集成、多类型数据存储、高性能计算和多维分析挖掘技术,实现跨专业、跨部门、快捷便利、个性定制的内外部数据关联分析,满足电力企业在电网生产、经营管理、优质服务3 方面的管理提升和业务创新需求[6]。

1.2 大数据基础体系架构

以往的国内外大数据研究趋势主要侧重于应用,而非基础架构,但越来越多的研究机构认识到,大数据研究中基础架构是至关重要的,因为它会影响其他关键技术的性能。任何大数据的基础设施架构,本质上需要平衡成本和效率,以满足特定的业务需求。总的来说,大数据基础体系架构大致可分为3 个层次:第一层为数据智能,包括数据仓库、实时的数据处理等,为大数据技术的应用层;第二层为软件基础架构,包括大规模分布式存储、分布式计算,可对应云计算的平台即服务(Platform as a Service,Paa S)和软件即服务(Software as a Service,Saa S)层;第三层为数据中心、网络、服务器等硬件基础设施,可对应云计算的基础设施即服务(Infrastructure as a Service,Iaa S)层。其中,软件基础架构和底层硬件可统称为数据中心计算,而软件基础架构、数据智能和数据展示则被看作大数据技术,提供大数据服务。

当前,部分业界厂商和研究机构也在积极开展大数据基础体系架构研究,如Juniper公司基于Hadoop的可扩展大数据体系架构,并在其新一代产品ONE QFABRIC SYSTEM中得以应用;IMEX Research研究机构也针对大数据开展下一代体系架构研究,作为后续大数据研究的基础[7]。

1.3 电力大数据标准

根据大数据应用的本质,大数据的相关标准往往分布在数据的采集、数据的传输、数据的存储和管理、数据的分析挖掘等方面。由于大数据的多样化特征,针对不同行业,大数据的相关标准也会有较大不同。针对电力行业目前的业务应用及发展现状,电力大数据的相关标准体系现状如下。

1)大数据采集相关标准。主要是用电信息采集相关的一些标准和视频监控数据采集相关的一些标准。其中用电信息采集相关的标准包括IEC标准4 项、国家标准13 项、行业标准3 项、国家电网公司企业标准2 项。

2)大数据传输相关标准。IEEE标准协会制定并通过了一系列智能电网通信标准项目,为大数据应用提供了有效支撑。

3)大数据的存储和管理相关标准。以非结构化数据管理相关标准、分布式存储相关标准、存储虚拟化相关标准为主。

4)大数据分析挖掘相关标准。主要包含数据挖掘流程规范、模型表示标准、数据描述等相关标准[8]。

2 基础体系架构

2.1 面向全球能源互联网的电力大数据总体架构

为了分析电力大数据的体系架构,需要从数据全寿命生命周期出发,沿着“数据→信息→知识→应用”的路线分析大数据平台的主要功能构成。电力大数据的分析流程主要包含数据集成、数据存储、数据计算、业务应用4 个阶段,在该流程中融合数据治理、分布式存储、高性能混合计算、数据探索、一体化搜索、可视化展现、智能信息处理、安全治理等信息技术实现数据分析、处理、安全防护的基础平台支撑,通过全球能源互联网多领域交叉融合研究,建立智能化的建模分析及数据使用模式,支撑全球能源互联网业务应用和场景需求,总体架构如图1 所示。

1)数据源层。通过整合多元能源数据和人口、经济、环境等其他内外部数据,形成由关系型数据库、二维表等结构化数据,文本、图片、音频、视频、日志、报表等非结构化数据、历史/ 准实时数据以及电网GIS数据共同构成的数据海洋,是大数据分析与应用的数据基础和来源。

2)数据管理层。基于SG-CIM模型,对数据源层的数据进行模型统一,通过消息总线接入、关系数据库导入以及文件导入3 种数据接入的方式,实现数据存储与集成管理[9]。消息总线接入重点解决流式数据和日志数据的接入,关系数据库导入主要用来完成结构化数据从关系数据库到大数据平台的数据迁移,文件导入则用于对传感器数据、社交媒体数据以及文档、图像、视频等新型大数据文件的向上传输。

3)数据计算层。融合传统的批数据处理体系和面向大数据的新型计算方法,通过数据的实时计算、海量数据的批计算,以及流数据的合并、快速的流计算处理,构建高性能、自适应的数据计算框架;整合现有成熟的数据分析挖掘算法,形成可定制、可调配的分析模型组件库,有效支持并行化计算[10]。

4)数据应用层。引入多租户模式,提供各类数据访问的控制方式及图形化的编程框架,为输变电智能化、智能配用电、智能调度控制、广域新能源功率预测及负荷预测、广域电网灾害监测与预警等典型电力大数据应用提供决策支撑,服务于全球能源互联网和三集五大两中心体系的建设。

2.2 电力大数据平台功能架构

电力大数据功能架构设计可用于规范和定义电力大数据平台在运行时的整体功能流程及技术选型,该平台可整合电力行业不同领域的数据,形成统一的数据资源池,构建具备开放性、可扩展性、个性化、安全可靠、成熟先进的大数据分析服务体系,并具备面向社会的公共服务能力。围绕大数据分析应用生态圈,从底层基础设施、数据集成、数据处理、数据分析、数据可视化5 个层面以及运维与安全2 个保障功能,应用先进技术、工具、算法、产品,构建电力大数据分析与应用平台功能架构(见图2)。

1)数据集成。通过改进现有数据抽取、转换、加载(Extract Transform Load,ETL)、文件适配器等采集技术,融合分布式高速高可靠数据爬取或采集等新型采集技术,完成现有数据中心数据、业务数据、终端数据等海量多样化数据的解析、转换与转载。

2)数据存储。结合业界成熟的分布式文件系统(Hadoop Distributed File System,HDFS)、No SQL、去冗余等高效低成本的存储技术,改进传统的关系数据库、数据仓库存储技术,实现海量多类型数据的存储,建立相应的关联索引,进行管理和调用服务;结构化数据采用行式数据库进行存储,非结构化数据采用HDFS进行存储,半结构化数据采用列式数据库或键值数据库进行存储,实时性高、计算性能要求高的数据采用内存数据库或实时数据库进行存储[11]。

3)数据计算。通过改进已有查询计算、批处理计算、内存计算技术,融合实时流计算、并行计算等新型计算技术,支撑大数据分析挖掘应用。

4)数据分析。通过提升改造现有智能分析决策平台的分布式能力,融合、集成开源分析挖掘工具和分布式算法库,实现大数据分析建模、挖掘、展现支撑业务系统实时、离线的分析挖掘应用。

5)数据可视。通过大数据图形化、图像化以及动画化等展现技术,完成报告、查询、分析、预警、搜索、数据开放、服务等接口/ 门户形式为公司大数据应用提供服务。平台服务接口包括原非结构化数据中心服务接口。

6)安全。解决从大数据环境下的数据采集、存储、分析、应用等过程中产生的诸如身份验证、用户授权和输入检验等大量安全问题;由于在数据分析、挖掘过程中涉及企业各业务的核心数据,防止数据泄露、控制访问权限等安全措施在大数据应用中尤为关键[12]。

7)运维。通过大数据平台服务集群进行集中式监视、管理,对大数据平台功能采用配置式扩展等技术,解决大规模服务集群软、硬件的管理难题,并能动态配置调整大数据平台的系统功能。

2.3 电力大数据平台技术架构

电力大数据核心平台基于Hadoop、Spark、Stream框架的高度融合、深度优化,实现高性能计算,具有高可用性,其技术架构如图3 所示。

数据整合方面,主要采用Hadoop体系中的Flume、Sqoop、Kafka等独立组件;数据存储方面,在低成本硬件(x86)、磁盘的基础上,采用包括分布式文件系统、分布式关系型数据库、No SQL数据库、实时数据库、内存数据库等业界典型系统;数据分析方面,集成Tableau、Pluto、R语言环境,实现数据的统计分析以及数据挖掘能力;监控管理方面,利用Ganglia,实现集群监控、服务监控、节点监控、性能监控、告警监控等管理服务[13];可视化展现方面,基于GIS、Flash、Echart、HTML5 等构建可视化展示模块。

2.4 电力大数据平台部署架构

在基础设施部署架构及容量规划方面,电力大数据平台集群主要由数据存储服务器、接口服务器、集群管理服务器和应用服务器组成,支持存储与计算混合式架构以及广域分布的集群部署与管理。每个省集群由共30 台x86 服务器和1 台小型机组成,其中核心数据集群由25 台服务器构成;剩余5 台服务器中,3 台服务器组成消息总线集群,部署包括Kafka消息队列集群以及文件传输协议(File Transfer Protocol,FTP)传输入库集群,1 台服务器作为集群登录跳转以及Rstudio Server服务节点,还有1 台服务器作为ODBC/JDBC服务以及Web HTTP/REST服务节点。小型机作为关系型数据库以及时间序列数据库节点,部署架构如图4 所示。

3 电力大数据标准体系

通过分析国内外大数据相关标准,并结合电力大数据技术、产品和应用需求,形成电力大数据标准规范18 项,重点涵盖基础概念、数据采集、存储、计算、分析、展示、质量控制、安全防护、数据服务等方面,适用于全球能源互联网环境下电力大数据平台建设和相关标准编制,电力大数据标准体系见表1所列。

1)基础标准。电力大数据术语规定电力大数据相关的基础术语、定义,保证对电力大数据相关概念理解的一致性;从数据生存周期的角度,提出电力大数据技术参考模型,指导电力大数据模型搭建[14]。

2)数据采集与转换标准。规定电力大数据平台上所采集数据的基本内容和属性结构,主要数据要素的采集方法和技术要求,适用于电力大数据各类信息的采集、处理、更新和转换全过程,指导大数据平台的数据采集与转换功能的实现和运行维护。

3)数据传输标准。规定智能电网通信的传输模式和传输协议,满足全球能源互联网大容量数据传输的高实时性和高可靠性要求[14]。

4)数据存储与管理标准。规范内外部数据源的多类型数据存储,满足全数据类型海量规模存储和多样计算快速查询读取需求。

5)数据处理与分析标准。规定电力大数据的商务智能分析工具和可视化工具的技术及功能的规范,用于大数据计算处理分析过程中的各项技术指标决策。

6)数据质量标准。规定大数据平台上数据的质量控制方法和成果验收要求,基于对数据采集、存储、处理、展示全过程的监控,详细规定数据从采集、处理到入库全过程质量控制要求和评价指标。

7)数据安全标准。规定大数据平台的物理安全防护、通信安全防护、系统安全防护、数据安全防护、访问控制、应用容错、容灾等安全指标和规范,规定对用户隐私数据的保护措施和要求,规范突发安全问题的应急措施和要求。

8)数据服务标准。规定大数据平台上数据的与外部系统之间的交互接口规范,包括文件服务(如消息队列、文件采集、文件操作、文件管理)及数据服务(如数据抽取、数据访问、数据调度、数据管理、多语言编程)等接口规范。

4 应用场景

4.1 实时分析应用

在输电监测与状态评估业务中,涉及线路台账、在线监测、试验检测、日常巡视、直升机或无人机巡视和卫星遥感等数据,电力大数据实时分析框架如图5所示,实时获取输电监测与状态的流数据,利用分布式存储系统的高吞吐,实现海量监测与状态数据的同步存储[15];利用事先定义好的业务规则和数据处理逻辑,结合数据检索技术对监测与状态数据进行快速检索处理;利用流计算技术,实时处理流监测与状态数据,根据流计算结果,实现实时评估和趋势预测,对输电线路健康安全状态进行正确评价,指导输电线路状态检修决策,准确识别输电线路故障,实现异常状态报警,对恶劣自然条件下输电线路气象灾害安全进行预警,为自然灾害防治提供决策支撑[16]。

4.2 离线分析应用

针对配电网规划、运行过程中产生的海量异构、多态的数据,具有多时空、多来源、混杂和不确定性的特点,分析配电网规划数据的种类和格式多样性,建立统一的大数据存储接口,实现配电网规划离线数据的一体化分布式快速存储。电力大数据离线分析框架如图6 所示。

在离线数据一体化存储的基础上,建立数据分析接口,提供对配电网规划数据统计处理任务的支撑,并进一步满足配电网规划计算分析、配电网风险评估及预警等高级应用系统的数据要求,为管理层合理调整负荷、调节运行方式、制定电价政策等决策提供科学合理的依据[17]。

5 结语

全球能源互联网的建设将产生爆炸式的信息数据,大数据技术的运用对于更好地管理和运行全球能源互联网具有极其重要的现实意义,旨在突破全球能源企业之间、业务之间的数据壁垒,促进能源生产和企业业务变革,提升全球能源互联网智能化水平。本文提出分层可扩展的面向全球能源互联网的电力大数据基础体系结构,构建功能架构、技术架构和部署架构模型;结合数据全周期管理,从基础、技术、产品、应用等方面综合考虑提出电力大数据标准体系;根据平台提供的混合计算功能,结合不同业务场景和计算任务特性,形成电力大数据实时与离线分析框架,支撑未来能源互联时代的精细化能量管理。

摘要:在充分研究调研大数据应用现状、智能电网大数据发展趋势的基础上,文章从数据源、数据管理、数据计算和数据应用等4个层面提出一套适用于全球能源互联网的电力大数据基础体系架构,并从功能、技术和部署的角度进行阐述,另外制定了电力大数据相关管理规范和应用标准体系,建立了电力大数据实时分析与离线分析场景的应用框架,支撑全球能源互联网环境下的电力大数据分析和决策。

基于标准数据的重点数据分析法 第7篇

重点数据分析法主要是指对于标准化工业建筑 (如仓库、厂房) 的造价控制建立系统数据库采用标准数据进行重点分析方法控制造价, 从而达成对工程造价控制的方法, 不针对一个项目, 针对这一系列项目。根据以往的经验, 工程造价控制只是针对某个项目实施阶段, 或延伸到投资决策和初步设计阶段, 但对于标准化工业建筑采用标准数据库并对重点数据进行系统化分析法, 能更快更好达到投资控制目的。

2.重点数据分析法

2.1重点数据分析法

工业化是建筑业科学发展的大趋势。在中国, 要实现建筑业的现代化, 必须走工业化的道路, 依靠科技进步, 用建筑工业化、部品标准化、施工机械化、管理信息化的“四化”。现在我们的建筑行业存在的问题有手工操作多、现场制作多、材料浪费多、高空作业多等, 而在工程造价方面也存在长期存在概算超估算、预算超概算、决算超预算的“三超”现象, 如何采取有效措施, 使工程造价管理尽快纳入规范化、系统化、标准化轨道, 并最终实现合理确定和有效控制工程造价, 不仅在于把项目投资控制在批准之内, 更在于合理使用人力、物力、财力、控制固定资产投资效益。

重点数据分析法控制主要注重工程的设计阶段和工程结算阶段, 工程设计阶段重点是招标分析并最终确定合同价格, 工程结算阶段对于签证和变更审核最终合同结算价格。

2.2工业化建筑建设的几个阶段

当前, 世界各国都普遍认为建筑定型设计 (标准设计) 是实现建筑工业化, 改进和提高建筑质量的重要手段之一, 同时它又能促进建筑技术水平的提高, 显著缩短工期和工作量, 因而标准化的工业建筑对我们造价控制也提出同样的目标, 要更有效更客观控制建筑安装费用。标准化的工业建筑特点:标准工业建筑如厂房、仓库是指在规定区域内统一规划, 具有通用性、配套性、集约性等特点。推进标准化建设, 有利于优化资源配置, 缓解用地紧张矛盾;有利于优化生产力布局, 促进中小企业发展;有利于培育产业集群, 建设先进制造业基地;有利于改善生态环境, 实现经济社会和谐协调发展。标准化建筑的“标准”与行业性质和用途有关。“重点数据分析法”主要采用横向和纵向对数据进行分析, 找出重点的数据推断分析, 得出结论。标准化工业建筑具有数据具有标准化和模块化特点, 便于数据采集和分析并得出结论运用于造价控制中, 采用数据分析方法, 又具有客观特点, 最终结论能避免人为因素的干扰。

工业化建筑建设造价控制主要分为设计招标阶段、施工阶段和工程结算阶段。采用重点数据分析法主要针对标准化的工业建筑 (主要为物流仓库和标准厂房) 。重点数据分析法是采集标准化的造价数据, 建立系统数据库, 系统采用标准数据进行重点分析方法控制造价, 并且贯穿于整个工程阶段, 从而达成对工程造价控制的方法。由于标准的数据库的建立, 造价控制不针对一个项目单个子项, 而是针对一系列标准化的项目。

数据分析法的根源, 即从客观的、系统的观念来看待企业业务, 并利用数据的收集和分析, 不断改进业务流程和方法, 改进决策。根据以往的经验, 工程造价控制只是针对某个项目实施阶段, 或延伸到投资决策和初步设计阶段, 但对于标准化工业建筑采用标准数据库并对重点数据进行系统化分析法, 能更快更好达到投资控制目的。

2.3重点数据分析法的使用

2.3.1设计阶段

设计招标阶段是造价控制的重点, 工程设计是建设项目进行全面规划和具体描绘实施意图的过程, 是工程建设的灵魂, 是科学技术转化为生产力的纽带, 是处理技术与经济的关键性环节, 是控制工程造价的重点阶段。工业建设项目设计包括总平面图设计、工艺设计和建筑设计。总平面图设计即通常所说的总图设计、总平面配置;工艺设计是根据企业生产的产品要求, 合理选择工艺流程和设备种类、型号, 并合理地布置工艺流程;建筑设计是按照工艺流程与设备的要求, 完善地表达建筑物、构筑物的外型、空间布置、结构类型和建筑群体的组成。以上设计的经济合理, 对控制工程造价具有十分重要的意义。为保证工程建设和设计工作有机地配合和衔接, 通常将工程设计划分为几个阶段, 每个阶段有不同的任务和要求, 这些不同的阶段统称为设计阶段。国家规定:一般工业与民用建设项目设计按初步设计和施工图设计两个阶段进行, 称之为“两阶段设计”;对于技术上复杂而又缺乏设计经验的项目, 经主管部门指定, 可以增加技术设计阶段, 称之为“三阶段设计”。

我行的造价控制在设计阶段的初步设计时就提前加入, 在初步设计阶段, 主要任务是根据设计图纸编制标准统一工程报价框架模式, 框架模式参照以往类似项目和本项目特点, 如工程项目独特而造价特别高的, 数据分析主要以下几个方面:以往类似项目数据分析;初步设计提取该项目数据, 提供业主为下一步的施工图设计优化提供数据支撑;对业主若干优化方案提供造价对比服务。

施工图设计阶段和设计深化阶段主要针对各家投标单位报价分析类比, 对各家单位的报价的工程量和单价横向和纵向比较, 最终合理的最低价格成为中标单位, 并在对比分析过程中, 提出问题并澄清, 帮助建设单位规避下列风险:对图纸项目漏报;对图纸项目内容不清;对图纸项目少报;投标报价算数错误。

2.3.2施工阶段

施工阶段是工程造价确定与控制是实施建设工程全过程造价控制的重要组成部分, 在实际的工程管理中采取有效措施加强施工阶段的造价控制, 对管好有效资金, 提高投资效益有着重要意义。对于标准化工业建筑由于工期合理, 一般为一年到两年, 主要控制造价手段是控制签证和设计变更。

2.3.3工程设计变更的审核与控制

(1) 对拟进行的工程设计变更进行计量与评估, 分析拟进行的设计变更对造价的影响, 从多方案变更中优选出实际可行、最经济合理的变更方案, 并测算出设计变更可能造成的费用上的增减。主要有以下几种情况:

(1) 对于确属原设计不能保证质量、设计遗漏和错误以及与现场不符、无法施工非改不可的, 应按设计变更程序进行。

(2) 对于变更要求可能在技术经济上是合理的, 也应进行全面评估, 将变更以后产生的效益与现场变更引起施工单位的索赔所产生的损失加以比较, 提出合理化建议。

(3) 分析工程变更引起的造价增减幅度是否在控制范围之内, 若确需变更而有可能超出控制范围时, 提醒业主注意。

(2) 和业主以及监理单位密切合作, 尽量减少设计变更的发生, 确需在施工中发生变更的, 也要在施工之前变更, 以避免索赔事件的发生。

(3) 对设计变更进行现场监督和重大事项记录, 并简要载明变更产生的原因、背景、变更产生的时间, 参与人、工程部位、提出单位等。为竣工结算提供详实可靠的资料。

(4) 对设计变更实施过程进行跟踪, 主要跟踪以下三点:

(1) 设计变更是否已全部实施, 若在设计图已实施后, 才发生变更, 则计算因牵扯到按原图施工的人工费、材料费及拆除费等。若原设计图没有实施, 则要扣除变更前部分内容的费用。

(2) 若发生拆除, 已拆除的材料、设备或已加工好但未安装的成品、半成品则要提请业主注意回收。

(3) 特别要提请业主注意, 对于调减或取消项目也要签署设计变更, 以便在结算时扣除。

(5) 对设计变更进行分析, 以便追究责任方的责任。可能的情况有以下几种:

(1) 若由于设计部门的错误或缺陷造成的变更费用以及采取的补救措施, 如返修、加固、拆除等费用, 由造价工程师协同业主与设计单位协商是否索赔。

(2) 若由于监理单位的失职或错误指挥造成设计变更应由监理单位承担一定费用。

(3) 由于设备、材料供应单位供应的材料质量不合格造成的费用应由设备供应单位负责。

(4) 由于施工单位的原因造成施工不当或施工错误, 此变更费用不予处理, 由施工单位自负, 若对工期、质量、造价造成影响的, 还应进行反索赔。

工程签证单的审核与控制, 主要为保证隐蔽工程的及时签证、及时计量、及时评估、及时提请业主注意, 在工程的施工过程中, 全面掌握工程实况, 检查隐蔽图、隐蔽验收记录。检查隐蔽工程签证是否由设计单位、监理单位、建设单位等有关人员到现场验收签字, 直到手续完整、工程量与竣工图一致方可列入结算。做到签证在施工的同时就计算相应工作量, 以有效避免事后纠纷。在跟踪同时还将从以下几点进行控制:

(1) 应在合同中约定的, 不能以签证形式出现。例如:人工浮动工资、议价项目、材料价格等, 合同中没约定的, 我们将提请业主注意以补充协议的形式约定。

(2) 对工程签证单进行备份, 以避免添加涂改等现象。并且要求施工单位编号报审, 避免重复签证。

(3) 评估签证对工程造价的影响。分析签证有无涉及工程整体造价的上升, 并及时提请业主注意。

(4) 审查签证的内容有无重复计列在投标报价时已含的内容中。

(5) 做好原始资料的积累, 为做好补充定额及正确处理可能发生的纠纷、索赔提供原始数据。真实合理地编制可能发生的补充定额, 维护各方应得利益。

2.3.4工程竣工结算阶段

工程竣工结算阶段的造价控制在整个工程造价控制活动中的作用尤为明显, 对于采用标准化重点控制的工业建筑, 多是针对签证和变更的审核。工程竣工结算时, 工程结算各方要对照合同、图纸、中标文件, 认真分析工程签证单的种类, 实事求是、客观公正地处理各方的利益。工程签证单要求表述清晰具体, 如材料签证:注明规格、品质、质量、数量、产地、生产厂家、时间、地点;工程量签证, 需注明事由、明确责任、表述完整、能唯一地确定工程量, 但又必须避免直接签工程量, 施工组织措施表述详细具体。工程签证单分为以下几类:

(1) 由设计单位提出的变更。

(1) 正常变更。由于设计单位在设计时难以考虑或不可预见的原因导致的变更, 如图纸深化时, 节点构造的设计。由于报价时无法确定费用, 即合同中未含此项费用, 应该增加费用, 工期顺延。

(2) 由于设计失误而导致的变更, 设计变更单要注明是否已按原合同约定的设计图纸完工, 若已完工, 合同中约定的此部分不能扣除, 再根据实际情况, 增加拆除费用和新设计的施工费用, 工期顺延;若未施工, 合同中约定的此部分扣除, 再根据实际情况, 增加新设计的施工费用, 工期不顺延。然后应该扣除相应的设计费用。

(3) 因为施工单位管理不善等原因, 设计单位为了弥补施工造成的错误和不足, 而导致的变更。例如:施工单位将ⅱ钢筋擅自改为ⅰ钢筋, 只能采用加密钢筋解决, 设计单位从设计考虑, 是允许的, 但是费用应该由施工单位承担, 工期不顺延。

(2) 由建设单位原因提出的变更。建设单位根据现场实际情况, 变更使用用途、装修标准等引起的变更。现场签证单要注明是否已按原合同约定的设计图纸完工, 若已完工, 合同中约定的此部分不能扣除, 再根据实际情况, 增加拆除费用和新设计的施工费用, 工期顺延;若未施工, 合同中约定的此部分扣除, 再根据实际情况, 增加新设计的施工费用, 工期不顺延。因建设单位指令处理现场内发现的有价物体、历史文物或其感兴趣的发现, 要窝工补偿和工期顺延。

(3) 由施工单位提出的变更。

(1) 不可预见因素造成的变更。招投标时不可预见的, 而在实际施工时难以避免的因素。如天气原因、地方协调、停水停电造成的窝工, 需要窝工补偿和工期顺延;如国际、国内金融环境影响, 造成原材料、半成品、零件、配件等价格上涨、要严格执行合同约定, 要分析界定需双方承担的风险额度和增减费用。

(2) 非正常变更。由于承包单位内部原因造成的, 而导致的工程变更 (或投标报价失误) 。只要是合同中包含的工程内容, 不论施工单位的报价中是否漏项、少计, 都视为含在了合同价中, 不应经济补偿和工期补偿。

(3) 正常的施工变更。施工单位提出的变更, 需要签明事件发生的原始状况、签证理由、签证发生的工程量、造成的结果等 (隐蔽工程需有影像资料) 。签证单需要建设单位、监理单位签证确认后, 按照合同约定计取费用。工程竣工结算阶段, 工程造价控制活动在工程签证单的处理后要做工程造价的分析。

2.4重点数据分析法的特点

“重点数据分析法”具有客观, 有效地特点。对于标准化建筑采用数据分析方法, 在大量数据中寻找规律, 分析相关性, 得出造价控制的方法。对于同类项目数据进行类比, 可以事半功倍, 数据又能反复使用, 方便快捷, 缩短工作周期。数据分析就是指通过建立分析模型对数据进行核对、检查、复算、判断等操作, 而数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来, 以找出所研究对象的内在规律。标准并且大量的物流仓库和厂房造价费用提供大量的数据来源, 标准化的设计让项目之间具有通用性质, 对于重点数据的控制可以提高工作效率和工作客观性。

2.5主要技术要求

“重点数据分析法”主要用于标准化工业建筑。步骤为:

(1) 根据标准工业化建筑特点结合项目特点, 制定项目报价框架, 一般按费用类别和单体建筑进行划分, 划分原则为费用归类便于横向和竖向比较。

(2) 收集数据后进行横向和纵向分析, 主要针对重点数据。重点数据主要是指占总价0.3%以上的费用, 先采用分析手段, 选出重点数据, 且采用横向和纵向分析, 对该项费用进行类比, 如有不合理数据, 及时预警业主。横向分析主要针对我们的预算和施工方预算, 纵向分析主要类比类似项目的建筑指标。

(3) 对比建筑中关联数据合理性, 如建筑外墙粉刷面积与外墙面积等, 数据逻辑是否合理等。

(4) 通过分析类比, 大量数据分析, 最终的合同总价进入实施阶段。

(5) 在施工过程, 严格控制签证和技术核定单, 对于每一项变更均记录在案, 控制造价。

2.6解决的关键问题

“重点数据分析法”的使用解决的关键问题主要是效率性和客观性。标准化建筑的目的主要是标准化后可以有集约效益和时间效益, 针对造价控制就需要高速有效地提供咨询, 采用重点数据分析法方法后, 我们的咨询质量得到了提高, 我们的咨询速度也加快了。

例如浦东某物流地块物流仓库建设工程项目, 我们从前期施工单位报价就提供造价咨询服务。标准仓库设计也是标准化, 我们的造价咨询从初步设计就提前介入, 对工程报价的各项指标如钢筋指标、商品混凝土指标、外墙指标、电线电缆指标等, 并对本工程特殊内容进行分析, 如有异常分析原因, 如设计客观原因, 可以分析是否有改进的可能。在造价分析中发现预应力钢筋占工程造价比重较大, 对预应力钢筋进行专项分析。进入工程结算审核过程, 造价控制主要针对技术核定单、设计变更通知单和图纸会审纪要, 本工程各类技术核定单和设计变更单, 土建分为结构和建筑, 安装按专业分工, 最后的结算审核施工单位增减帐上报-385511元, 最终审核三方确认增减帐-2159180元, 核减1773669元。造价控制中采用“重点数据分析法”, 建立标准报价模板, 利用公司现有完整的数据库对承包商的报价进行标准化系统化重点分析, 保证了项目顺利实施, 并在过程中控制好变更和签证, 最终控制总造价。项目结束资料完善公司数据库, 为下一项目做准备。

3.未来的趋势

数据标准体系 第8篇

1临床试验数据标准化的现状与问题

1.1临床试验数据标准化的现状:我国《药物临床试验质量管理规范》于1999年发布, 2003年修订完善, 极大的推动了国内临床试验的发展, 但我国临床研究的质量和水平仍明显落后于发达国家, 尤其是试验数据的质量尚待大幅度提高。

应用统一的药物临床试验数据标准是当今国际上的发展趋势, 也是欧美等先进的药品监管机构正在大力提倡和促进的工作。

研究和推进我国临床试验数据标准的统一这一工作涉及面广, 工作量巨大, 需要临床试验相关各方的相互协作和达成共识。目前, 我国尚未建立临床试验数据的统一标准。

1.2临床试验数据标准化的问题: (1) 医疗信息与临床试验数据难以集成和共享:目前, 我国同类研究的医疗信息与临床试验数据很难做到集成与共享。随着我国大力推动医疗机构开展信息化建设, 医院信息系统建设得以迅猛发展。各医院及科研院所所积累的丰富临床数据, 不能互联互通、共享利用的问题日益突出。 (2) 试验数据难以在相关各方交换和分享:一直以来, 我国的临床试验数据难以在生物制药公司、合同研究组织、电子数据采集系统、临床试验中心、统计学专家、药品审评部门之间交换和分享。 (3) 需要花费更多的时间去理解消化数据:临床试验相关各方需要花费更多的时间去理解消化目前临床试验所产生的数据。 (4) 难以构建药物数据仓库:药品注册临床试验的数据是我国审评事业的宝贵财富, 但目前我国还难以构建药物注册临床试验数据仓库。

2 CDISC标准

2.1 CDISC概述[1]: (1) 发展历程:临床数据交换标准协会 (Clinical Data Interchange Standards Consortium, CDISC) 是一个全球性的、开放的、多学科的非盈利性组织, 最早成立于1997年。经过近20年的发展壮大, CDISC已拥有超过350家跨国公司会员, 超过60个国家的志愿者参与了标准的开发。CDISC标准已经成为目前在国际上应用最为广泛的临床试验标准。 (2) CDISC的使命:CDISC的早期使命是建立一系列标准用于收集、交换、提交和归档生物医学研究数据及元数据, 提高数据质量, 优化医药开发与研究流程, 早期使命已完成。

目前, CDISC正致力于开发和支持能够实现信息互联互通的全球性、跨平台数据标准, 使得不同临床研究间的数据可以方便地进行交换与共享, 从而促进医药研究和相关卫生保健领域研究的发展。

2.2 CDSIC工作进展[1]:CDISC建立的每一个标准都有着不同的目的, 针对不同类别的数据, 并且每一个标准都由大量的文件组成, 这些文件的背后还有更大量的用以指导具体操作的实施指南。SDTM、ADa M、CDASH是目前应用最为广泛的三个CDISC标准。

2.2.1研究数据制表模型 (Study Data Tabulation Model, SDTM) :SDTM由CDISC下属数据递交标准 (SDS) 团队负责起草。SDTM于2004年6月问世, 现行版本为SDTM v1.4。其实施指南 (SDTMIG) 于2004年7月问世, 现行版本为2014年发布的SDTMIG v3.2。

CDISC开发SDTM的目的是为了制定一个向监管机构 (如FDA) 进行数据递交时的统一标准, 该标准既符合当前业界的通常实践又符合监管部门的要求。列表数据集包含了临床试验中采集到的受试者最重要的数据, 是每个受试者每一次观测的电子数据集合。在美国申办者在递交产品上市申请时递交符合标准结构的列表数据集, 可不再要求一起递交单独的受试者概要与数据清单类信息, 可最大程度地减少以不同格式递交同一数据。审评人员通过学习标准化数据集的原理和相关软件工具, 提交的数据可以被方便的正确解读, 节省用于理解数据的时间。标准化的数据集支持药监部门为所有递交的临床试验数据建立统一的数据库, 使用一套统一的标准评审工具来读取、操作和查看相关数据。

2.2.2分析数据模型 (Analysis Data Model, ADa M) :ADa M由CDISC下属分析数据模型 (ADa M) 团队负责起草。ADa M于2006年2月问世, 现行版本为2009年12月发布的ADa M v2.1终板。其实施指南 (ADa M IG) 于2008年5月问世, 现行版本为2009年12月发布的ADa M IG v1.0终板。

SDTM是ADa M数据的来源, ADa M具体说明在创建分析数据集和相关的元数据时要遵循的基本原则和标准, 支持分析结果有效率的生成、复制、和审阅, 能帮助更有效的产生、重现及评审所分析或提交的结果或数据。ADa M标准的开发不仅方便向FDA监管提交数据, 同时不同申办者运用相同的分析数据模型, 使未来获得相关的使用授权许可变得更加容易。

2.2.3临床数据获取协调标准 (Clinical Data Acquisition Standards Harmonization, CDASH)

CDASH由CDISC下属临床数据获取协调标准 (CDASH) 团队负责起草。CDASH于2008年10月问世, 现行版本为2011年1月发布的CDASH v1.1正式版。

临床机构为了呈递给药监部门符合SDTM标准的数据, 需要花费大量的人力和时间将临床数据管理系统的CRF/e CRF数据转化为符合SDTM标准的数据集。CDASH就是试图根据SDTM的数据结构, 建立标准的CRF, 用于数据的收集, 以相匹SDTM, 减少数据转化工作。因此, 该标准基于SDTM定义了CRF中临床试验数据收集的内容标准。数据管理者可以将CDASH和SDTM结合起来设计出符合研究方案的标准的CRF和注释CRF。

2.3国际影响:2004年7月, FDA在电子通用技术文档的研究数据规格中要求参照使用SDTM[2]。2015年3月FDA发布《研究数据技术一致性指导原则》推荐在临床试验及进行电子申报过程中采用CDISC标准中的SDTM、SEND、ADa M、CDASH[3]。

日本计划试行CDISC标准, 并要求2015年1月1日至2015年9月30日进行电子提交的所有新药申请需遵循CDISC标准[4,5]。

2008年, 一群致力于将CDISC标准引入我国的志愿者成立中国CDISC协调委员会 (China CDISC Coordinating Committee, C3C) , 协会成员主要分布在北京和上海, 他们开始带领使用CDISC标准, 并探索我国的临床研究数据管理标准工作。

3对推进我国临床实验数据标准化工作的建议

3.1我国临床试验数据标准的统一工作应充分参考C D I S C标准:CDISC是目前国际公认且较成熟的标准体系。CDISC标准集从临床研究的方案设计开始, 覆盖数据采集、分析、交换、提交等环节, 为整个临床研究过程提供标准化的规范参考。尽管它们仍在不断地被测试、更新和完善, 研究和推进我国临床试验数据标准的统一工作应充分参考CDISC的标准化理念与基本构架。对于我国临床试验数据标准化工作, 可以参照已有的CDISC标准并根据中国的实际状况来逐步建立, 我国不宜另搞一套标准。

3.2创新建立中医药临床试验数据标准:目前, 由于中药、民族药存在特殊性, 其临床研究又与国际先进水平存在较大差距, 中药、民族药难以走出国门, 其成果仍然存在许多异议。在CDISC标准本土化的过程中, 中药、民族药由于其特殊性难以直接运用CDISC标准, 也难以与国际通行的术语集相融合。尚需在CDISC框架下创新建立中药临床试验数据标准、中医药术语集、及电子病历表。

3.3广泛讨论、达成共识、硬性要求, 促进我国临床试验数据早日实现标准化:我国临床试验数据标准的统一工作是一个工作量巨大的系统工程, 需要在业内广泛讨论、达成共识、开展测试和试用工作、组织系统培训等。不是由几个人、公司、行业协会或组织就能承担并实现的。临床试验数据标准的统一工作需要在药监部门的牵头下制定具体的工作计划和时间表, 可以先建立临床试验数据递交标准, 再推出其他标准, 可采取分品种试点、分阶段要求的形式, 逐步要求应用, 最终实现临床试验数据的“全链路”标准化。

摘要:目前CDISC标准已被欧、美、日等药监部门接受, 广泛应用于临床研究中。然而, 在我国药物临床试验数据标准化程度不高, 如何推动临床数据标准的统一工作, 缩小我国临床研究与国际先进水平的差距是当前亟待解决的问题。本文介绍了我国临床试验数据标准化的现状与问题、CDISC标准及其三个重点模型, 并对推进我国临床试验数据标准化工作提出了建议。

关键词:标准,临床数据交换标准协会,研究数据制表模型,分析数据模型,临床数据获取协调标准

参考文献

[1]CDSIC[EB/OL].http://www.cdisc.org.

[2]FDA.Studydata v1.2[EB/OL].http://www.fda.gov/cder/regulatory/ersr/Studydata-v1.2.pdf.

[3]FDA.STUDY DATA TECHNICAL CONFORMANCE GUID[EB/OL].Ehttp://www.fda.gov/downloads/For Industry/Data Standards/Study Data Standards/UCM384744.pdf.

[4]PMDA.Japan PMDA and CDISC Standards[EB/OL].http://www.pmda.go.jp/files/000163603.pdf.

数据标准体系 第9篇

近日, 山西省质监局批准发布了8项山西省能耗限额地方标准。此8项标准全部为强制性单位产品能耗限额标准, 由山西省经信委提出并归口。

强制性单位产品能耗限额标准是《中华人民共和国节约能源法》的重要配套标准, 其能耗限额限定值是淘汰现有落后产品和工艺的技术依据, 其新建准入值是新建和改扩建项目及工艺的能耗门槛, 是固定资产投资项目节能评估和审查的重要技术依据, 其能耗先进值是行业能效对标工作的技术依据。此次发布的8项标准于7月25日实施, 包括电解铝、风电法兰、合成氨、烧碱、水泥、氧化铝6类产品单位产品综合能耗限额、铸钢件可比单位产品综合能耗限额, 以及钢铁生产及主要工序单位产品综合能耗限额。

据介绍, 自2010年以来, 山西省已先后出台了镁冶炼、电石和铁合金单位产品能耗限额地方标准和监测方法地方标准。2012年, 山西省预计还将完成21项节能新标准的制定工作, 继续在化工、钢铁、有色、电力、建材、煤炭等重点行业中组织制定单位产品能耗限额标准, 逐步建立覆盖全省主要耗能行业的产品能耗标准体系。

上一篇:超高层写字楼建筑设计下一篇:政策性马铃薯保险