时间:2023-05-29 17:44:26
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据管理,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
一次与交通行业某大客户CIO的技术交流中,客户的回答让惠普的产品经理很惊讶。
那位CIO表示,厂商所说的系统性能、存储备份恢复等内容尽管非常重要,但是还不是他日常最为关心的问题。让他感到担心的是不知道系统什么时候会出问题。因此,坐在CIO位置上,就仿佛是坐到了火药桶上。
今年年初,惠普对中国160多家大型企业的关键业务数据管理进行了一次调研,他们发现,类似那位CIO的忧虑还是比较普遍的。
根据调研的结果,惠普高层决定引入一套“方法论”帮助用户解决实际问题。今年6月,惠普正式推出了“适应性数据高可用管理”解决方案(Adaptive Data Availability Management, ADAM)。方案立足于客户现有的数据环境,通过对企业数据管理环境的监控,惠普咨询专家们可以对现状进行调查评估,定位问题所在,量化问题严重程度,并分析问题背后的成因,进而提供对症下药的解决方案。
据记者了解,与企业定期的员工体检相类似,ADAM将企业关键业务数据管理分为了IT治理、流程自动化、架构优化和平台标准化等四个维度,总共有44个KPI(Key Performance Indicator,关键绩效指标),350个衡量点,其中包括数据和业务连续性规范和标准、责任人员的专业性和掌握的技能、运维管理流程、客户数据恢复目标、客户数据丢失程度等多项内容。
通过对这些指标的全面考量,有经验的技术热源就可以及时发现问题,并建立IT发展的参照计划。
据了解,该解决方案建立在惠普IT成熟度模型(IT Maturity Model,ITMM)之上,它是一套全面衡量企业IT建设现状与业务协同状况的方法论。
惠普公司中国区副总裁兼企业计算及专业服务集团(TSG)全球IT科技服务部总经理潘家驰在接受记者采访时表示,针对ADAM服务,惠普已经组建了一支涵盖服务器、存储、网络、安全、数据中心基础设施、系统管理等多个领域的专家咨询团队。
咨询团队将采用“请进来”和“走出去”想结合的策略,既要“坐堂听诊”,也要“巡回问诊”,帮助中国行业企业用户了解ADAM,及时发现关键业务系统所存在的各种隐患,全面评估数据管理IT环境中的各种因素,提升应用系统整体的高可用水平。
潘家驰表示,方案改变了以往头疼医头,脚疼医脚的思路。通过一次全面深入的“体检”,提供对症下药的解决方案,改变企业信息系统的“亚健康”状态。
他表示,如果数据管理长期处于“亚健康”状态,问题被忽略或处理不当,必将成为影响运营的“定时炸弹”,对此,企业应该引起足够的重视。惠普ADAM解决方案可以帮助客户通过主动化的手段,发现和识别数据管理中存在的潜在风险和隐患,提高关键数据的可用性水平和应用系统的连续运行能力,改善应用系统性能,适应不断变换的业务环境,遵从国际标准和行业法规,满足IT对业务部门的服务级别承诺。
链 接
美国“次贷危机”给全球金融带来的影响正愈演愈烈,也影响着中国各行业的经济秩序。面对此次的国际金融危机,中国IT产业的发展也面临着巨大挑战。从企业IT市场来看,受经济危机的影响,中国经济发展放缓使得市场需求开始减速,这在IT企业表现尤其明显。IT企业除了面临经济寒冬的窘境外,还有―个迫在眉睫的问题需要解决,就是如何跟上数据增长的速度。
而从数据本身而言,企业需要考虑两个问题,一是数据量的管理,还有就是数据资源的利用。数据量的规模不仅考量着企业自身的IT环境,跟企业的业务运营也是息息相关;而数据资源的利用更多的则反映出企业如何切实实践“花小钱办大事”的原则。尤其是在目前全球经济普遍不景气的态势下,如何以有限的资金来实现数据量的管理和数据资源的充分利用,是决定企业能够度过经济寒冬的重要因素。
数据管理的病根
实际上,从数据量的管理来看,往往企业面临的很多问题都是由数据快速增长而衍生的。未知数据的持续增长,意味着你的一切都会受其影响,包括你的文件系统、磁盘系统、网络、保护计划、进程甚至是你的生活都不例外。对此,我们只有四处购买更多容量以尽量满足这个永无止境的增长,但往往徒劳无功。
数据增长是自然产生的(世界上新数据一直在不断生成),但大部分数据是由科学研究产生的。如数据扩展、副本、副本的副本、备份副本的副本、备份副本的副本的副本等等,这些不只是容量问题,而是和科学一样复杂的问题。
正如ESG的创始人兼首席分析师所说,数据在处理的过程中,就好像细胞的有机分裂一样,在不停地裂变。如,科学家利用细胞副本进行多种实验来观察会发生什么,而IT人员需要利用副本进行测试、填充数据库、创建备份副本和灾难恢复副本、发送副本给其他用户等等。区别在于,科学家们预先就知道他们需要多少副本。因此,他们是有规划的。他们无需将其迁移到一个新的皮氏培养皿中。而且实验完成后,他们可扔掉副本,不用任其一直复制下去。而在IT行业中,企业很少清空皮氏培养皿。相反,在不断创建新的副本的副本。IT进程很少有科学实验室里的那种预先规划,这种由于副本保留导致的数据增长,很大程度上,很多数据是毫无用处的。而且,企业绝大部分的问题都是由此而造成。而解决此问题的唯一办法,就只是从供应商手中购买新一代更大的皮氏培养皿来应对。
如何掐断数据增长的源头
在这种情况下,采取什么样的方式来进行数据管理,则是企业迫切需要的。如果能够将数据的裂变在数据生成初期就使其得到遏制,将大量的重复数据删除,从而达到高效管理数据的目的,则不失为明智之举。
最初,重复数据删除在次级存储与备份存储中得到了广泛的应用,专门用于在减少需要备份的数据量、最大化存储利用率的同时,使更多的备份数据在线保留更长时间。通常来讲,重复数据删除技术会将最新的备份数据与已有的之前的备份数据进行比对,从而消除冗余数据。这项技术的优势在于数据的减少不仅使存储的效率更高、成本更节约,带宽的利用也降到最低,使更经济、更快速的实现备份数据的远程复制成为可能。
但是随着技术的发展,以二级备份数据删除为主已经开始向主存储数据重复删除演变,而这种发展趋势将从根本上改变存储的经济状况。在这种分级存储的模式下应用重复数据删除,可在数据整个生命周期内创造经济和运营效益。
在主存储下,不仅能够大幅提高系统的容量利用率,还能够降低大多数昂贵存储层的资本支出,更进一步地提升存储性能。而在二级存储中,不仅大大减少数据备份的总量,还能够在线保存更多的活动归档数据,降低通信成本。同时这种数据的分级存储模式,实现了对数据的精简配置,更是大幅提高了主存储空间的利用率,也降低了管理成本的开支,确保了中小企业的良性运营。
数据管理的良方
而从数据资源的利用角度而言,随着数据的飞速增长,企业的存储越来越无法满足需求,采用哪些手段能够提高数据资源的利用率,来满足企业日益增长的业务需求,是企业目前亟待考虑的问题。当前整个IT领域充斥着各种所谓的先进技术,无一例外的都宣称,可给企业用户带来诸多好处等等。这些让人眼花缭乱的各种术语、诠释等,只会让用户感到无所适从。
但是企业面临的存储压力,如降低成本、更高效、少花钱多办事等,却与日俱增,迫使企业必须采取某些措施来捍卫自己的存储,进而保证企业运营的正常有序,并有所增长。而虚拟化恰好能够帮助企业做到这一点。近几年来,虚拟化技术在市场已经得到热捧,客户也都迫切地想了解其到底能够带来哪些好处,包括提高资源利用率、整合、提高业务连续性以及降低运营开支等。而且已经有很多厂商纷纷上马,争先恐后的推出各种虚拟化产品。而目前思科高调推出其虚拟数据中心,更是进一步验证了虚拟化市场的竞争激烈,同时也说明了虚拟化确实是未来数据资源管理的方向所在。
内外兼修方为本
目前存储虚拟化的各种版本如,主机实现虚拟,控制器实现虚拟,服务器实现虚拟,网关实现虚拟,归结为一点,都是为了简化用户的管理,提高存储的利用率。ESG的调查显示,随着数据的无休止增长,如何削减成本成为企业考虑的重点。几乎40%的IT经理称,削减业务总成本的内部压力是影响其IT运营的首要问题,而虚拟化常被视为解决这个问题的灵丹妙药。
在2009年这个困难的经济时期,很显然,精简存储让人眼前一亮。精简技术如精简配置不仅能降低50%的数据总成本,还可以减少预期存储成本,帮助企业削减电能和冷却开支,并能提高其10倍的管理效率。
而另外一个IT发展趋势,则是数据资源管理的外包。随着技术的发展,在未来几年中,用户对数据保护技术的需求越来越大,要求也会越来越苛刻,对单一性能的产品将不甚感兴趣。而对于中小企业,当业务发展速度不可预测时,在IT管理资源有限的情况下,可考虑外包存储服务,或者一部分二级存储使用外包存储服务。如将最基本而成熟的业务,如硬件维护、呼叫中心等外包给专业IT服务公司,将做完需求分析后的软件开发外包给专业的软件公司,IT部门仍保留对内部应用系统的管理与控制、IT规划、IT产品采购等业务。
而IT外包服务也是未来信息化发展的大势所趋,总的说来,IT外包应坚持三条基本原则:一,需求抽象而又总体需求量不大的IT业务,本身也处于企业可控范围内,还是企业自己把握较好,凡是通用技术、产品,如OA系统、财务软件开发、服务器维修等,可考虑外包。二、需求量比较大且稳定的业务,可考虑外包。三、要求响应时间在可允许范围内的业务,尽量外包,而对那些虽然技术含量不高,但要求响应时间极快的业务,尽量不外包。
随着科技的发展,社会的进步,尤其是计算机通信技术的发展,人们对数据库的共享性要求日益明显,当前数据库的管理和访问充满了复杂性,如何解决这一问题成为了管理者和用户最为关心,最为头疼的问题。例如,非数据库的建设者和维护者,都需要知道数据库当中的全部内容,以此来避免数据的重复录入,从而更好的使用数据。根据用户的需求用户需要知道数据信息的质量,用户也需要知道数据库的数据结构和句存储格式,来满足用户的信息数据交换和利用。在这种情况下数据的内容、品质等元数据的信息就变得十分重要了,它是信息数据有效管理和利用的重要方式,元数据的重要性正在得到用户和数据库的建设者的证明。由于现在数据库的使用对象越来越专业化、复杂化,他们对数据集的元数据内容以及各式会存在相当大的差别,对数据的共享性影响很大,为了制定一套元数据的标准,需要采用同样的各式对数据集进行描述。
2元数据的定义和形成
元数据又叫做描述数据,是台湾学者通过英文翻译过来的(英文为Metadata),现在我国对该术语还没有形成统一的认识。国际标准化组织地理信息、地球空间信息技术委员会的地理信息元数据标准草案将元数据简单的定义为“数据的数据”。美国联邦地理数据委员会在数字地理空间元数据内容标准中将元数据定义为“关于数据的内容、质量、条件和其他性质的数据”。国际地球科学信息网络学会对元数据定义为“关于数据和信息资源的描述信息,他们描述、指向或者补充与之相关的信息内容”。元数据的定义和专业术语出现的时间虽然不长,但是元数据的本质内涵确实流传了很久。举一个简单的例子,在很早以前的图书管理当中,管理人员对书籍目录的编写,记载了书籍的各种相信内容,包括作者、写作时间、页数和字数等,这种对书籍信息的记录就可以理解为元数据。只不过在以前涉及到的数据不是特别复杂,只是到了现代随着网络技术的普及,数字资源呈现出爆炸性增长的速度,人们为了便于统计这些数字信息不得不将以前的文本化数据向网络表格化数据方面进行转变。从上世纪八十年代开始出现元数据的记录方式,到现在元数据的应用已经扩展到了各个行业。
3元数据标准内容分析
根据元数据的使用目的不同可以将元数据大体分为两类,即:管理和组织数据的元数据;浏览和导航数据的元数据。第一种类型的元数据的代表就是美国nasa描述遥感数据的目录交换格式标准(DIF),这一标准有一个典型的特征就是必备六个字段:登录目录标识、登录目录的名称、参数、原数据中心(包含名字、数据集标识、联系人等)和数据概要描述。另外,为了让信息表达的更加明确,这一标准当中还要增加字段,如传感器的名字、位置、数据分析、计划口令、品质等,增加这些字段可以提高用户的使用效率,尽可能的完善元数据。第二种元数据的代表就是澳大利亚新西兰土地信息委员会制定的元数据标准。这一标准确立的核心元素较少,能够让用户在最短的时间内查询到所需要的数据信息。核心元素能够说明现有数据的种类、数据信息、数据范围、与其他应用的作用,以及获取更多信息的位置等。核心元数据共分为九类三十二个元素:数据集中、展示、数据时间、数据状况、访问和浏览情况、数据品质、联系信息、元数据时间、元数据附加内容。除此之外,核心元数据还要制定了数据格式,使用指南,以方便用户查找信息。
4元数据表达方式的分析
美国联邦地理数据委员会的数字化地理空间元数据内容标准元数据信息单元是元素、实体(包括复合实体)和字集。元素是元数据的基本信息单位,元数据实体由元数据元素组成,元数据实体、元素则构成复合实体,最终部分元素、简单或者复合元数据实体组成元数据子集,元数据的组成结构从小到大排列为,元素、实体(复合实体)、子集。元数据是利用巴克斯诺尔范式进行表达的,巴克诺斯尔范式可以定义常规语言元素和属性标准语法,在确定复合实体和其他元素、实体间的联系的时候,采用类似于数学等式的关系将标识符和表达式用等号连接起来,以此来表表达式产生标识符这一进化关系。这一规则公式代表了各种符合的意义,从数学角度可以解释为,A=B+(C)表示A由B和可选项C构成,A=3{B}5表示A由B重复3到5次而成,子集、实体、元素之间的关系可以用元素比实体进一格的办法来表达,美国的数字化地理空间元数据内容标准利用这种方式可以清晰的表达数据实体和元素之间的各种关系,但是它也只是包含了标准化当中元数据和元素的定义,并没有规定数据的格式,有时候用元数据元素分层缩排来表示,有时候用编号系统表示,这就使得元数据使用起来并不简洁。为了解决这一问题,建立了空间数据信息交换网络,利用比较统一的SGML、Z39.50和其他协议来表示,可以更加灵活的执行元数据。ISO/TC211的元数据标准利用了图表和数据字典相融合的表达方式,清晰的表示了元数据内容之间的各种关系。数据字典可以详细的解释元数据的内涵,图表则是面向对象的统一建模语言UML静态结构图、ISO借口定义语言,在图表当中信息单位是包、类和属性。数据字典当中元数据的信息单元是子集、实体以及元素,这一标准说明了图表和字典当中的对应关系。因为静态结构图准确的解释了元数据的语义和句法结构规则,制定了标准的描述数据信息的方法和格式,通过辅助设计软件可以精确的表达数据元素关系,检查元数据设计的整体性和统一性,所以ISO/TC211的元数据表达方式对全世界各个行业的数据管理和服务产生了重要的影响。
5元数据网络管理模型分析
当下比较流行的元数据管理系统模式可以分为:集中式数据管理体系和分散式数据管理体系。集中式数据管理体系就是所有的元数据都聚集在一个元数据管理站点上,数据集元数据是通过数据制造者免费上传的,数据的使用者可以通过当下的数据管理站来进行访问好查询元数据。这一模式比较有代表性的就是英国地理数描述目录,这一机构的数据来源于国家制图机构。这种模式的优点就是使用者可以迅速的查找元数据,工作效率很高,当然缺点也很明显,就是这一模式分裂了这一管理系统和其他网络元数据体系的链接,导致这一体系的元数据数目较少,在数据信息的更新和维护方面就取决于元数据的上传者,元数据信息不能及时的更新,提供的数据有可能出现错误。分布式元数据管理体系就是要设立一个元数据网络交换的核心连接点,使用者可以在这一连接点进行元数据的查询,而对于元数据的供给者和元数据的数据制造者,则需要设立分节点,保存各种元数据的信息,然后将核心连接点和分节点联系起来。元数据的使用者不能直接访问数据的制造者,只能通过核心连接点来访问数据信息,进行元数据的查询。这一模式的代表性机构就是美国空间数据交换网络,它将用户、服务器内容、数据库服务器进行了分离。通过网关根据数据信息的类型、数据信息覆盖位置等条件构成元数据的查询界面,用户通过网络进行查询,核心连接点通过用户信息向分节点进行传输,然后在将内容反馈到用户浏览的页面当中。这种模式的优点在于能够增加元数据的数量,减少核心连接点对元数据的更新负担,缺点在于元数据的查询速度较慢,影响使用者的查询效率。
6元数据传输各式的统一
虽然当前已经制定了一些元数据的标准,但也只是确定了元数据的内容、含义、类别、组成结构等特征,但是这还不能满足元数据的使用要求,制订元数据标准的目的是为了元数据的查找和检索,了解数据信息和内容,因此必须要注重元数据的传输标准,以此为基础来设计元数据的管理体系,从而达到对元数据的搜寻、修改、更新维护和查询检索。在DOS环境下和ARC/INFO环境下,美国诞生了很多元数据录入和编辑的软件,澳大利亚也开发类似的软件,这些元数据软件都是为了便于自身的查询需求,符合各自制定的元数据标准的。但是各个元数据录入软件的数据格式却不相同,有的是文本格式,有的是HTML格式,还有的是关系型数据库格式,虽然方便了用户,但是在元数据的修改和维护方面成本很高,所以要制定统一的元数据转化标准,方便网络上的元数据交换。美国和澳大利亚建议更改统一的后缀格式,例如,将SGML/HTML的统一转换成XMLDTD或者是XMLSchema,将表格改编成ASCII的格式。这种方式优点在于有利于建设元数据索引和能够在不同地区的互联网当中进行元数据的查询。
7元数据管理平台设计和实现
7.1功能流程设计
功能流程设计需要满足元数据生命周期的要求,当前大多数公司单位都是分散式的数据管理体系,数据比较分散,需要采集多元数据并且简化数据的存储体系。可以将TSV(三层阶梯式图)引用到元数据管理体系当中,在元数据导入配置方面,可以利用悬挂点配置的方式,在任务采集的起始阶段可以配置相应的悬挂点(类似分支点),建设元数据的查询树,在数据源配置方面要表明数据源的类型、衔接数据、账户情况等,还要进行测试观察后续问题。为了更好的完善元数据的管理体系,保持元数据地图的完整性,需要对元数据进行完备的采集,采集方式又分为手动采集和自动采集。手动采集是对用户要求的数据库进行单次采集,自动采集则额外的配置采集时间和采集周期。
7.2元数据的浏览
将配置好的悬挂点体现在元数据的树状结构当中,以形象的结果提供给用户,基于TSV的思想元数据树需要具有三层以上的结构,首先是系统,其次是各系统数据库,再者是各数据库的下属表。在库级元数据方面需要展示各个表名和创立的时间,在表级元数据方面需要双击查看该表的详细信息,包括字段、约束、索引、键、视图等,在下拉菜单当中可以检索相应的元数据信息。在字段级元数据方面包括字段名、字段类型、字段解释、所属的表和库,前三项属于特点描述,后两项是定义描述,这样能够方便对字段进行分析和定位。
7.3元数据的构架设计
元数据管理体系的技术构架主要是对所有信息数据的筛选,来确定那些信息可以纳入元数据管理体系,以此来构建三级视图。技术构架的信息主要包括五个方面,即:数据源层、数据收集层、数据保存和管理层、应用帮助层、登录管理和用户信息等。数据源层主要就是提供数据信息,数据收集层主要是理清各类数据关系方便元数据的管理。
关键词: 交通管理数据挖掘平台
中图分类号: N37文献标识码:A
一、引言
目前公安交通机关为方便交通管理业务的开展,创建了四个基本数据库:道路交通事故信息数据库、驾驶员(即驾驶证)管理信息数据库、交通违法行为信息数据库、车辆登记管理信息数据库,当前交通管理部门的应用系统、平台均以此四个基本数据库为基础获取各类信息。数据库自创建以来经过几十年数据的存储,已积累了海量的交通相关数据,随着车辆和驾驶人增多以及相关业务的复杂化,数据更是成爆发式增长。这些数据已成为交通部门的重要的数据财富。
然而面对大量数据,显然已不能再满足于只是简单地查询和修改数据,而是进一步希望能够发现数据之间的潜在关系,并随着现实中交通管理中“人、车、路、环境”和谐发展的迫切期望以及缓解交通堵塞、预防交通事故的职责所在,交通管理部门急切地希望通过快速处理这些数据获得进一步有利于科学管理的决策依据。特别是以往的交通管理规律常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具,即使当前的专家系统技术,通常这种系统依赖于用户或交通管理领域专家人工地将知识输入知识库,因此这一过程可能会产生偏差和错误,并且耗时、费用也高。如何才能对大量数据进行分析,发现数据之间的潜在联系,为交通管理提供自动决策支持呢,运用数据挖掘技术从交通管理数据库中寻找知识发现给交通管理部门带来了希望。
在这些海量交通数据中存在着大量的有着潜在关联和规则的数据,因此将数据挖掘技术中的关联规则算法应用在交通领域,通过关联规则挖掘发现交通数据之间的潜在关系,为交通管理提供自动决策支持有着重要的意义。本文设计了一个交通管理数据挖掘平台方案,并对平台架构和挖掘流程进行了详细分析和讨论。
二、交通管理数据挖掘平台架构
在交通数据库中,所涉及的违章信息、驾驶员信息、机动车信息比较繁琐。交通数据的特点是:交通数据库的核心业务表较多、表的定义复杂、表中的数据量大、表数据的实时更新速度快。数据间的潜在关系和规则未被发现和利用,目前的处理还是停留在见到的统计报表,没有智能性的分析处理。这些交通的原始数据对于交通管理决策支持有限,需要设计一个基于数据挖掘的交通管理数据挖掘平台对交通数据进行有效的挖掘和分析,对交通决策提供有力的支持。图1给出了我们所设计的交通管理数据挖掘平台框架,该平台主要由三部分组成:数据仓库模块、数据分析处理模块和接口与会话管理模块。
1、数据仓库。在辅助决策方面,数据仓库能为其提供高质量、纯净、集成的数据,从而极大地提高决策支持系统的性能与信息分析能力,因此,数据仓库业已成为进行数据分析与挖掘的基础平台。构建交通信息数据仓库是本系统结构的核心,其实现形式包括:数据采集与ECTL(数据抽取、转换和装载)、数据仓库管理系统、元数据管理系统三部分。本系统采取星型模型建模,其中,主题是其基本组成单位,每个主题由多个事实表和维表组成,而一个事实表可以关联多个维表,构成一个以事实表为中心的星型结构,多个星型结构共同组成一个主题。在建模过程中,考虑到智能交通领域涵盖范围广泛,要求数据仓库具有很强的可伸缩性:既可以集成智能交通领域交通流采集系统、信号控制系统、电视监控系统、违章取证系统、公路车辆监测系统、122接处警系统、GPS车辆定位系统、可变情报板显示系统等各个应用系统提供的交通信息,又可以针对特定应用系统。
图1 交通管理数据挖掘平台框架
2、数据分析处理模块。在数据仓库基础上直接采用的智能化分析技术主要有:联机分析处理、数据挖掘和知识发现技术。联机分析技术的主要功能是进行多维数据分析和生成报表,专门用于支持复杂的分析操作,侧重对高层管理人员和决策人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员。本模型将数据仓库中建立的多维逻辑视图直接映射到数据立方体结构上,以方便对预计算产生的数据进行快速索引,当数据集稀疏时,采用稀疏矩阵压缩技术提高存储效率。通过对数据立方体(DataCube)进行下钻(Drill-down)、上卷(Roll-up)、切分(SliceandDice)以及旋转(Pivot)等操作,实现不同角度、不同层次的数据分析,例如:对交通负荷时空分布信息运用联机分析技术处理,通过切片、切块、旋转细剖低级别的详细数据和统揽较高级别的概括性数据,快速地响应查询。数据挖掘与知识发现技术是从海量数据中抽取隐含的、潜在的有用知识的过程。许多专家学者倾向于把数据挖掘视为知识发现过程中的一个步骤,在本系统模型中,为强调这两种技术各自特点和侧重点的差异,将它们分别列出。知识发现的基本步骤为:第一步,数据的准备;第二步,数据挖掘;第三步模式评估;如果评价人员不满意,重复执行上述步骤,否则,转下一步;第四步,知识表示。
3、接口与会话管理模块。该模块通过可视化技术,提供易于被用户理解和使用的,具有智能纠错、自我学习的界面系统,并提供自然语言和人类思维方式与计算机之间进行转换的功能。当系统在产生相应的决策后,该模块可以按照有关智能交通应用子系统的指令格式生成相应的指令供决策者直接调用。
三、交通管理数据的挖掘流程
交通数据挖掘的过程大致上可分为五层:底层为交通管理数据库,包括违章信息库、驾驶员信息库、机动车信息库等等,在这些库里存在许多交通信息,直接对这些数据进行挖掘是不现实和不可取的,因此,构建了上一层主要是数据预处理层,这一层是对交通数据库进行适当的有选择的筛选和处理,将少量主题相关和用户感兴趣的数据提取出来组成二维表,然后在此基础上得到第三层概化后的数据,在这一层上我们可以利用这些概化的数据构建我们的数据仓库。对交通数据的具体挖掘就是在这一层上进行的,最上面两层是知识发现的过程,通过具体挖掘之后的得出的模式和分析后找到对于交通决策有效的模式。图2给出了交通管理数据的挖掘过程。
图2 交通数据挖掘流程图
参考文献
[1] 朱建秋,数据挖掘平台及其关键技术研究[D],上海:复旦大学博士学位论文,2002.5.
关键词信息技术;主数据;管理系统;应用实践
随着企业信息技术的飞速发展,迎来了互联网+和大数据时代。在享受信息技术为企业带来好处的同时,企业的数据量也在急剧膨胀,数据是企业管理的基础信息,而实施企业资源计划(EnterpriseResourcePlanning,简称ERP)、产品数据管理(ProductDataManagement,简称PDM)、制造执行系统(ManufacturingExecutionSystem,简称MES)等信息系统,主要的问题就是数据管理。主数据管理的核心是数据的标准化,而其主体则是主数据[1]。数据可分为基础数据和业务数据,基础数据包括物料、客户、供应商、价格、采购信息记录、物料清单(BillofMaterials,简称BOM)、货源清单、工艺路线、配额、检验计划等主数据。而业务数据是企业运行当中所发生的动态数据,如采购订单、生产订单、销售订单、派工单等,是由业务人员根据业务的需要建立的数据,是实时的数据。基础数据是静态数据,它为业务数据的建立提供基础信息,是各种信息系统运行的保障。在基础数据中,物料主数据是采购、生产、销售、财务等多个部门的数据基础,它与价格、采购信息记录、BOM、货源清单、工艺路线、检验计划等主数据相关联(见图1),是各种主数据的检索依据,物料主数据数据量大,单独管理起来困难。因此,建立统一主数据管理体系对企业基础数据的管理具有非常重要的意义。主数据管理系统的开发可以有效地对主数据编码进行统一管理,迅速提高产品数据的维护效率,保障并推动主数据管理的顺利实施。以中国石油集团济柴动力总厂(简称济柴)主数据管理系统为例,详细介绍编码原则、功能范围、功能实现等方面内容,讨论主数据管理系统在企业中实施与应用。
1制定主数据编码管理的原则
主数据编码是唯一标识主数据的代码,通常用字符串(定长或不定长)或数字表示。主数据编码也是计算机系统对物料的唯一识别代码,类似每个公民的身份证号[2]。它用一组代码来代表一种主数据。主数据编码必须是唯一的,以物料编码为例,一种物料不能有多个物料编码,一个物料编码不能有多种物料,如不能保证物料的一致性,随着数据的不断增加,“一物多码”现象日趋严重,造成PDM、ERP、MES等系统信息的重复和堆积,将影响各信息系统之间作用的发挥,甚至导致信息系统实施的失败。企业不断地在发展,随着规模的扩大,产品的增加,其物料也会随之迅猛的增加,物料编码规则一旦制定就必须具有相对的稳定性,一般需要保证系统运行十年以上,所以主数据编码系统管理要坚持的原则为:1)唯一性:物料编码的唯一性,就是一物一码。同一物料在系统中只有一个名称,不能不同部门对同一物料有不同的名称。在主数据编码系统中,针对产品的图号、物料描述等进行排重(排除重复),如同一产品分不同的采购类型,又可以分成采购件、自制件,分别给码,确保了物料编码在系统中的唯一性。2)稳定性:企业不断发展,规模扩大,产品的增加,其物料也会随之迅猛的增加,物料编码规则一旦制定就必须具有相对的稳定性,一般需要保证系统运行十年以上,因为在各信息系统运行过程中,重新进行编码规则的调整存在极大的系统风险。3)实用性:主数据编码的制定以实用为宗旨,采用计算机自动生成的流水码,以“7”开头的9位编码,如“700000001”,简单、易用可扩展性强。4)准确性:提高物料数据的准确性,物料的领用、发放、请购、跟催、盘点、储存、保管、记账等一切物料管理事务性的工作均通过物料代码查核,物料管理较容易,准确率高,不会发生物料名称混乱的情况。
2主数据管理的功能范围
主数据编码管理涉及企业的技术、采购、生产、销售、财务等多个部门。主要功能为:1)任务提醒和共享数据管理:使运维人员及时了解最新的应该完成的任务,并实现共享信息的及时等管理。2)任务流程管理:运维人员的各种任务查询及执行,包括任务流程的建立、待办任务、经办任务、急需完成任务的查询及执行、未执行任务的关闭等。3)主数据运维管理:主数据运维系统主要管理五大类主数据,即物资编码(简称Z050)、主产品编码(简称Z051)、企业零配件级自有物料(简称5703)、客户、供应商。这五大类主数据要实现编码申请、编码反馈、视图收集、视图反馈等各任务流程的创建、查询。4)系统设置:实现任务流程的维护及对各运维人员的权限的设置。
3主数据管理的实现
主数据管理系统的各类主数据维护包括编码申请、反馈及各种视图的收集、接收、导入系统等业务流程的管理,见图2。
3.1编码申请管理
编码申请管理主要是处理Z050、Z051、5703、客户、供应商这五大类主数据的编码申请业务,主要包括编码申请编辑、编码申请管理等功能。编码申请人员在系统中的编码申请编辑里按照申请模版填写申请文件,并发送到主数据管理系统负责人,负责人在中国石油天然气集团公司(简称集团公司)MDM平台(MasterDataManagement主数据管理平台)申请到编码,反馈后发送给申请人,其中Z050、Z051、客户、供应商主数据编码由运维人员通过主数据管理平台提交到集团公司MDM平台,由集团公司下发编码,5703由主数据管理系统自动生成编码。在编码申请管理功能中,通过指定时间段、年度、季度、月度内查询编码申请文件,查看编码申请的状态。编码申请管理还提供编辑修改,指定的单据发起、审批、退回任务,并逐级进行审批等功能。
3.2视图收集管理
视图收集主要是为了各业务部门能够使用各种主数据,把主数据维护到相应的视图下,主要包括采购视图、会计视图、物料需求计划(MaterialRequirementPlanning,简称MRP)视图、销售视图、质量视图,客户和供应商主数据视图还需要收集济柴下属个公司视图等,视图收集管理分两种情况,一种是通过编码申请文件自动下达形成视图收集文件,另一种是通过编辑手工增加的视图收集文件。视图收集管理也提供了发起、审批、打回视图收集文件,查看视图收集流程审批任务等功能。
编码器管理主要是针对5703类型的编码处理,在5703编码器内按照指定的编码规则形成5703类型的编码,形成编码后在5703编码器处看不到5703申请文件的记录,而在5703编码器管理功能可以看到并进行管理。可以查看、编辑5703编码器内形成的编码,同步5703申请文件内的编码,形成5703的编码反馈文件。形成编码反馈文件后可以在编码反馈管理进行管理5703编码器形成的反馈文件。5703是针对企业产品零部件的主数据,它指企业主产品上的零部件,如曲轴、连杆等。5703编码的申请流程是由各相关单位5703物料编码申请人按申请模版填写申请文件,发送到主数据管理系统5703负责人,主数据管理系统5703负责人接到申请,在系统中产生编码,反馈后发送给申请人,同时要将该反馈文件整理成视图收集文件。其中,外购件发送给采购、会计、生产、销售、质量部门视图负责人,收集采购视图、会计视图、物料需求计划视图、销售视图、质量视图。自制件发送给会计、生产、销售、质量部门视图负责人,收集会计视图、MRP视图、销售视图、质量视图。视图信息到位后,运维人员整理成导入文件,导入到信息系统中,该物料的使用部门就可以开始这些物料的各业务操作。
4主数据编码与各信息系统的集成
主数据管理系统可以为PDM、ERP、MES等各种信息系统数据集成提供前提条件。一般它们的数据的传递方式分为两种,一种是从PDM系统到ERP系统再到MES系统,即在数据由上而下的流转过程中,上游为下游提供数据,逐级传递,保证数据的统一性;另一种方式是以ERP系统为主要数据源,其他信息系统从ERP中读取物料编码,通过主数据管理系统,生成各种主数据视图,再把各种视图导入到ERP系统中去,使其他系统获取编码。济柴采取的是第二种方式,在主数据管理系统中生成新的物料编码,然后把编码通过系统自动分发到各个业务部门收集基础数据的视图,如会计、生产、销售、采购等视图,视图收集上来通过系统形成视图导入模板再导入到ERP系统中,形成各种可用数据,PDM、MES等信息系统通过与ERP系统集成的接口获取所需数据。通过系统集成实现了主数据的统一管理。
5济柴主数据管理系统的应用效果
济柴主数据管理系统是自行开发辅的编码系统,采用PowerBuilder9.0(快速可视化面向对象的开发工具)作为开发平台,Oracle10(关系数据库管理系统)作为数据库管理系统,它具有良好的兼容性、真正的可编译性和较强的安全性,开发灵活,效率高,界面友好。主数据管理系统具有易用性的特点,它定位为辅工具软件,界面精简、方便操作,可以减少手工重复操作,提高工作效率。经过一段时间的运行,产生的效果为:1)缩短编码申请周期:原来的编码申请是由MDM负责人统一分配编码,申请周期长,不能满足企业的生产要求;济柴自行开发的主数据编码申请平台可由核心运维组自行控制,申请周期大大缩短。2)降低编码重复率:原来负责分配编码的MDM负责人对企业产品不十分了解,编码的排重工作做得不够到位;济柴自行开发的主数据编码申请平台特别增加编码的排重程序,该程序从济柴的实际出发,使编码的重复率大大降低。3)提高新编码数据维护效率:原来新编码反馈后,完全由人工通过复制、粘贴对各相关视图数据进行收集、转换和导入;济柴自行开发的主数据编码申请平台特别增加各视图数据的自动生成程序,对当天的新编码自动处理,大大提高了数据维护的效率。
6结束语
通过对主数据进行系统化的规范和管理,济柴建立起了一套完整的企业数据管理体系,为业务的运作提供强有力的支撑。主数据管理系统的正式运行克服了以前编码管理的各项弊端,大大提高了产品数据管理的效率,降低物料编码的重复,缩短物料编码申请的周期,提高新编码的相关数据维护的效率,将企业内各种数据资源进行整合,实现了数据的集中化管理,提高了企业数据维护的效率,保障了企业生产的正常运行,为企业节省了大量的人力及物力去管理物料,使企业的管理水平迈上新的台阶。
参考文献:
[1]和轶东,张怡,曹乃刚.SAPMDM主数据管理[M].北京:清华大学出版社,2013:1-3.
1云计算简介
1.1概念
云计算是通过将大量计算分布到分布式计算机上,实现虚拟化的计算机网络系统,使得数据的计算运行与互联网类似,能够按照需求访问资源和系统。但是云计算并非通过本地计算机或远程服务器进行计算,而是像计算机网络内部一样实现分布式处理计算,这种方式就好像电厂集中供电模式,将低成本的运算单元组织在一起,能够大幅度提升计算能力和数据处理能力。云计算的这种计算模式对用户完全透明,用户只需要向系统提交自己的要求,云计算软件和平台会自动进行处理,用户不需要了解云计算的具体方法就能够实现快速、高效的大数据处理。
1.2结构
云计算是借助虚拟技术,将大量分布服务器上的资源整合起来,然后根据用户需求进行分配和处理,是一个虚拟的、庞大的计算机网络辅助系统。因此其体系结构也十分复杂,可以大体上分为用户、服务要求、管理系统和服务器集合等四个部分。用户提出服务要求,然后由管理系统向服务器集群发出请求并整合和接收反馈,然后以一个完整的形式将结果反馈给用户,形成一个完整的虚拟计算机网络处理结构。
1.3特点
云计算具有虚拟、高效、资源共享度高等基本特点,同时,目前由于云计算技术还没有完全成熟,大部分企业和个人使用云计算技术需要付费。云计算是一种虚拟概念的计算,也就是说其计算过程并不是通过实际的物理方式实现的,因此不仅能够实现大量数据的运算,也能够提高资源之间的共享度,同时这种分布式处理方式也更大地保证了数据的保密性和安全性。重要数据大量分布在所有分布式终端中,不能简单地从一台终端中提取,提高了数据的保密性,并且如果某台终端处理机出现问题,也不会影响其他终端,极大地提高了数据的安全性,使得大量数据的保存管理成为可能。
2云数据管理技术类型简介
云计算是对海量的、分布性的数据进行计算处理,因此对于数据的管理要求很高,采用的数据管理技术必须能够高效地管理海量数据,于是云数据管理技术也随着云计算的广泛应用而出现,并且目前已经成为众多企业和研究机构研究的重要课题。目前已经存在了许多不同的云数据管理技术,这些云数据管理技术各有特点,但是都以不同的方式实现了对海量数据的有效管理。
2.1GFS技术
GFS技术即谷歌文件系统,是一种为谷歌云计算技术提供数据管理的系统。在这种技术中,所有资源文件以一种库文件的形式存在,并且有系统提供给用户一个专用的程序访问接口,用户提出请求后,由一个逻辑上唯一的管理者对整个库文件进行调度和统筹管理。这种文件系统管理技术不仅能够为谷歌云计算提供海量数据的存储管理,同时也可以进行云计算,满足各种用户要求,目前GFS技术已经成为云数据管理技术的主要技术之一,并且得到了非常广泛的应用。2.2BigTable技术BigTable技术也是谷歌开发的一种数据管理技术,这种技术是建立在谷歌文件系统的基础之上,通过将大量数据组织在一张虚拟的表格中进行管理。这种技术将云数据组织在一张巨大的表格中,从而实现数据的结构化管理。在使用时能够根据要求更加快速地进行数据查找和处理,合理进行资源的分配。这种方式比起文件系统更能够实现数据的架构化,对于结构化云数据的管理会产生更好的效果,取得更高的管理效率。
2.3Dynamo技术
Dynamo技术是一种分布式存储系统,具有数据库和分布式Hash表的特征,以分布式Hash表作为基本存储结构和理念,实现数据在环中的均匀存储形式。这种技术的主要特点是提供了三个参数:N、R、W,技术规定,有N个副本,如果有R个读取一致就可以认为是读取成功,如果有W个写入成功就认为是写入成功,即系统不要求N个全部读取或写入成功,只要能够保证R+W大于N,就能够确保数据的一致性,这种技术增加了数据读取的复杂性,但是降低了数据写入的复杂程度,实现了更加高速的存储管理。
3云数据管理技术特点分析
3.1提供可靠的数据存储管理
云数据管理技术尽管各有特点,但总体都采用了分布式存储管理的思想。这种数据存储管理方式能够为企业提供海量数据的存储管理,同时能够极大地提高数据的保密性和安全性。同时,云数据管理技术一般都具有较高的容错性,大量分布式服务器的支持也可以实现对数据的错误分析和报告,避免因失误产生的数据错误。云数据管理技术最大限度地降低了人为管理因素对数据管理的影响,从而更好地提升了数据管理的可靠性。
3.2实现数据的并行处理和分析
云数据管理技术是将数据进行分布式处理,尽管在逻辑上看来许多云数据管理技术是将数据整合到了一个统一的机构中,但事实上数据是分布存储在大量分布式服务器上,在对数据进行处理时,就可以按照用户的要求从各个服务器中调取数据。在这种技术支持下,就能够有效实现数据的并行处理,系统根据用户要求自动检索分析用户需求,迅速缩小范围,锁定用户关键词,迅速对用户命令做出处理和反馈。同时,多个用户如果提出同一要求,也能够迅速通过这种管理技术实现信息共享,将同样的信息返回不同的用户终端。云数据管理技术还能够根据用户提供的关键字对数据进行初步筛选和分析,节省用户的分析时间,对于需要进行大量数据分析的企业来说可以极大地提高工作效率。这种强大的数据提供和分析处理能力正是云数据管理技术得到广泛研究和应用的主要原因之一。
4云计算和云数据管理前景展望
4.1云计算技术发展前景
云计算技术目前正处于快速发展阶段,不论是个人、企业还是国家都十分重视云计算技术的研究和创新。同时,随着更多的“云”概念的提出,云计算也被赋予了更多的功能和含义,大数据等概念的提出也为云计算带来了新的发展方向。国际社会已经有越来越多的专家学者研究出了更多创新的云计算技术,并且提出了概念含义更加广泛的云计算概念。国内对于云计算的研究也正日益火热,科研机构也在进行新技术的研究,国内个人和企业也逐渐了解了云计算的概念和特点,并且有更多的企业单位开始运用和研究云计算技术。可以说,云计算技术发展前景大好,并且很可能会成为未来一段时间内计算机研究和应用的重点方向。
4.2云数据管理技术的发展
伴随着云计算概念和技术的更新,云数据管理技术也必然要随之更新,云数据管理技术是为了给云计算提供强大可靠的数据存储管理支持,为云计算技术提供数据基础,因此其发展也会随着云计算技术的需求而不断改善。在目前的发展趋势看来,正有着许多新技术和新思想不断涌现,不同概念和云数据管理概念的结合创造出来更多的云数据管理技术。目前云数据管理技术发展趋势正倾向于将不同学科、不同领域的概念与之相结合形成新的管理技术,这种发展不仅能够促进云数据管理技术的创新,也加强了云技术与其他学科技术的结合发展,促进了不同技术的融合与共同发展。
5结束语
关键词:汽轮机 数据管理 开发
诜⒌绯е?汽轮机是最为重要的基础设备之一。并且,汽轮机是在非常长的周期中,一直不停地高速运转。在一些外界和自身因素的影响下,会出现一定的故障,给企业带来极大经济损失。目前,我国对于汽轮机的数据管理与监测中,也引进了相对先进的数字化系统。这些数据管理与监测系统,多是通过下位机的模式进行运转。所采用的下位机可以进行相关的数据收集工作,通常将下位机设置在汽轮机的监测现场。而上位机则对所收集的数据加以分析与管理,同时对汽轮机运行中的故障进行判断,通常将上位机设置在监控中心。这种采用上位机与下位机的运行方式,数据管理与监测系统与被监测的汽轮机依旧采取一对一的方式进行配置,也不便于对系统进行集中式的管理,无法真正发挥出数据管理与监测系统的功能。另外,采用传统方式进行数据管理与系统的监测,几乎均是基于文件系统的数据管理方式,在数据管理过程中,无法实现实时的共享数据。对于数据的查询时,也相对复杂与繁琐。而对汽轮机进行故障的判断与分析,是要依据非常多的现场实测数据来完成的,只有收集到了实时、真实的数据,才可以对信号加以处理与分析,最后准确地对故障进行判断。所以,基于此,研发了基于Windows操作系统以及数据库技术的数据管理及实时监测系统,以实现对汽轮机运行时的数据进行实时收集、分析、监测与处理。
1 系统的构成
在此系统之中,能够同时对不同的汽轮机组进行数据的收集、管理与监测,其整体的结构图如图1所示。
其中A/D板和相应的监测用主机通过ISA槽相连接,每一个A/D板收集对应汽轮机运行时的数据,同时完成对收集数据的转换工作。其能够同时管理与监测汽轮机的数量,可以依据主机之中ISA槽数量来进行调整。不同的汽轮机,能够依照所需进行监测的内容,例如:汽轮机的转数、轴径、向振动、瓦振、热工参数以及胀差等,而随时进行调整。
2 系统所具有的功能
2.1 智能化的数据信息采集功能
在此系统之中,能够依照不同的汽轮机所拥有的运行状况,而使用各异的数据信息采集方法,以完成对不同汽轮机的数据采集工作。能够达到16通道信号同步的进行整同期、等速间隔等不同的数据信息采集方式,并且系统之中还安装有能够调节拐点的抗混跟踪滤波装置,可以完成对相关振动信号的32倍频采集工作。每一次单个通道能够采集512、1024或者2048点。
2.2 状态监测功能
通过棒状图形以及数字的形式,来直观呈现出不同通道所收集的实时在线数据信息,能够实时地在线反映出不同汽轮机设置的测点、不同测点的运行状态、轴芯轨迹等相关内容。并且,当汽轮机发生异常波动时,还可以及时发出声、光等报警信号。
2.3 实时数据的分析以及诊断功能
对不同的汽轮机启动与停止以及正常运行过程中的相关数据,通过频谱方法加以分析,并得出相应的频谱图像、瀑布图像等,对不同汽轮机实时的运行情况加以全面诊断。同时,将发生故障时的相关数据传输至“黑匣子”之中,便于以后更加全面、细致地进行分析,可以更加精确判断出转子质量出现的失平衡、不对中以及裂纹等各种易出故障。同时,可以分析得出不同故障所发生的原因,给出相应解决方案。
2.4 数据管理功能
在该系统之中,所包含的数据库有实时数据库、启动数据库、停机数据库以及历史数据库等4个数据库,拥有一样的关系结构组成,即时间,1-m号振动测量点数据值,1-n号热工测量点数据值。并将时间信息当成是数据库关系结构之中的主键,可以通过时间数据来对不同的记录进行识别。若是汽轮机处于正常的工作状态,系统则会按设定的时间,对波形数据信息进行储存。而若是汽轮机处于异常工作状态,系统则会对每一组的波形数据信息进行储存。时域波形数据库之中,关系结构是时间,1-m号振动波形数据信息。在上述关系结构之中,同样将时间数据信号当成是主键,可以通过时间数据来对不同的记录进行识别。在汽轮机的运行过程中,会对出现的异常情况进行实时的数据信息记录。在汽轮机运行异常记录数据库中,关系结构为时间,测量位置名称,异常数据值。数据管理系统在设定的时间间隔会对开量及关量,进行数据信息的记录,其数据库关系结构为时间,测量位置名称,动作之前所具有的状态,动作之后所具有的状态。
2.5 趋势以及报表分析和输出功能
对汽轮机的运行实时监测数据分级划分与管理,并分析每1小时、每1天以及每1月的趋势。同时,做出日报表以及月报表。能够通过图形以及报表等各种形式,对信息进行输出。另外,用户还能够对系统再次进行开发,从而更好适应现场各种的需求。
3 系统的硬件
3.1 传感装置
应当依照不同测量数据信号所具有的特征,而选择适宜的位移、加速度、压力、电流等不同种类与型号的传感装置。
3.2 A/D转换板
所采用的A/D转换板,应当能够实现16通道慢变信号以及16通道快变信号的相关数据信息的收集工作。在慢变信号的每一通道之中,都设置上光电隔离装置。所采用的A/D转换装置具有的精度是12bit±(1/2)LSB,所具有的转换时长是2μs。
3.3 监测主机
此系统之中,所采用的监测主机是标准的工业控制计算机,设备可以实现无故障使用高达4万个小时以上。
4 系统的软件
在此系统之中,完成了相应的组态化参数设定,不仅对工厂的运行参数、汽轮机运行参数以及不同通道的相关设置,而且系统中的监测模块以及数据库模块等均能够进行动态的组态设定。所以,此系统可以更容易再次的扩容,同时具有较强的适应能力。
5 结语
该汽轮机数据管理以及监测系统,不仅涉及的结构相对简洁,同时拥有较高的技术水平,可以更好适用于汽轮机的数管理与实时监测工作之中。现在此系统已被应用于汽轮机的实际数据管理工作之中,其所具有的可靠性及准确性都能够达到相应的要求,为企业的安全生产提供了有力保障。
参考文献
【关键词】试验数据管理;TDM;动态建库;Web页面自动生成;海量数据导入
一、背景
试验是产品研发、生产制造、直至维修保障过程中必不可少的重要技术手段,对于产品的性能、寿命、质量以及成本方面都起着至关重要的作用。试验技术和试验管理水平的高低,是一个企业或科研单位核心竞争力的重要体现。经过多年的投资建设,我国在高科技产品的试验及测试设备条件上取得了明显的改进,随着近年来高科技产品在性能上的要求不断提高,科研生产任务日益繁重,与之对应的试验任务的种类、数量和复杂程度也在不断增加。现有的试验管理手段和技术手段,已经明显不能满足需求。突出表现为试验测试数据与数据管理之间的不匹配。由于缺少先进适用的试验数据管理手段,导致科研单位对试验数据的维护和使用都非常困难,数据的完整性、一致性、安全性和可用性也难以保障,更无法进一步挖掘出埋藏在试验数据当中的知识。试验数据管理问题正在成为影响科研效率的新的瓶颈,严重制约了高科技产品的科研生产和创新发展。
在试验数据管理方面的问题主要表现在以下几个方面:(1)试验数据分散独立;(2)试验信息缺乏完整性;(3)试验缺乏标准化管理;(4)试验信息缺乏完整的管理体系;(5)试验过程及试验数据之间缺乏集成;(6)试验数据的安全性缺乏整体部署;(7)数据利用率低;(8)试验数据很难在设计、仿真部门利用。在这种背景下,TDM系统应运而生。TDM是Test Data Management的缩写,其中文含义是试验数据管理。作为产品生命周期管理(PLM)的重要组成部分,TDM系统通过建立企业内部权威的试验数据资源库,把企业所有的试验数据和所有与试验相关的信息和业务流程进行统一管理,成为企业提高科研水平、缩短科研周期、降低科研经费的源动力。
二、试验数据管理面临的挑战
我们已经认识到了试验数据管理工作的重要性,但是真正开展试验数据管理工作却不是一件容易的事情,我们面临着许多困难和挑战。
1.试验易变性。试验具有易变性特点。在试验数据采集过程中,每次试验的采集通道数目是变化的,每个通道采集的数据量也是变化的。另外,设备改造、试验室扩展、试验环境变化等因素会带来试验设备、试验台架、试验仪器、数据种类等的变化。因此,传统的静态数据库结构是无法满足这种数据的存储需求的。
2.试验数据量大。随着科技的发展和试验重要性的提升,试验的时间越来越长,比如:飞机发动机连接件的疲劳试验超过1年;试验采集的通道数越来越多,有的模态试验通道数高达10000个;试验设备采集速度越来越快,对于微波试验而言更有高达1Mbps的仪器设备;试验过程也越来越复杂。因此,试验产生的数据量呈几何数量级增长,这给试验数据管理带来了很大的难度。
3.试验数据种类繁多。目前,在国际和国内市场上试验设备种类多样,并且没有国际统一的数据格式标准。在试验单位存在大量不同的试验设备的情况下,试验采集的原始数据种类也是多种多样的,试验数据之间的格式差异很大,试验数据管理并非易事。
三、试验数据管理系统关键功能
1.动态建库。允许用户任意定制自己所需的数据库模型,包括数据表、数据视图、数据校验规则和约束条件等内容,满足用户多种需要,如:调整数据库结构、组织和查找试验数据、增加数据校验的条件和规则等,适应用户不断变化的试验业务需求。
2.海量数据导入。提供数据导入功能,从各种格式的海量试验数据文件中快速提取目标数据并且导入数据库中。由于试验数据量很大,导入性能是一个关键指标,一般应该达到在3G/小时以上。
3.Web页面自动生成。在数据库模型设计完成后,TDM系统会自动生成完整的Web门户来供试验人员访问,提供数据录入、修改、删除、查看、上传、下载等常用操作。而且,在用户根据业务变化而修改数据库模型时,TDM系统可以自动调整Web门户中的页面内容。这样就免除了二次开发带来的烦恼。无论试验数据发生何种变化或者用户产生何种应用需求,都不会妨碍试验数据管理工作的平稳有序的进行。
4.试验数据管理业务应用。TDM系统可以帮助企业客户搭建统一的试验数据管理平台,构造完整规范的试验业务系统。TDM系统可以实现的核心业务应用包括以下几个方面。(1)试验项目管理。提供完备的试验项目规划管理,包括试验设计、试验文件签转、试验任务管理、试验相关数据查询、试验任务统计和试验资源配置等管理功能。(2)试验流程管理。提供试验流程定制、试验流程执行、试验流程监控、历史试验流程查询和试验相关数据查询等功能,可以随时定制所需的工作流程,如试验准备工作流程、试验文档审批流程、数据质量控制流程等。(3)试验标准管理。具有相关试验标准(国标、国军标、行业标准及单位标准)的目录清单及文件管理功能,在试验过程中可以很方便地提取并查看相关标准文件,并可结合单位管理程序文件中确定的各种流程来进行流程设计。(4)试验资源管理。管理与试验相关的所有资源信息,主要包括试验设备、试验原料、试验环境数据、试验件信息、试验设备及测试设备量值溯源信息、试验人员信息、计量数据等。(5)试验数据管理.管理试验过程中采集到的所有数据以及手工录入的所有数据,包括原始测量试验数据、过程测量数据、试验结果数据、试验分析数据、异常数据、多媒体试验数据等。另外,试验任务书、试验大纲、试验报告等文档也是系统的管理目标。(6)数据模型管理。实现动态建库,允许用户动态建立及维护数据库模型,并能够灵活地定义数据之间的关联关系,定义多级数据校验条件和规则,并进行自动数据校验。(7)数据处理分析。提供数据分析绘图功能,能够实现各种常用的曲线图、柱状图、饼图、云图、等高线图等绘图方法;提供原始数据回放、曲线裁剪、图形缩放、数据截取、曲线求和等各种专业数据处理方法;提供算法集成功能,可以集成各种第三方算法和自己编制的算法;通过扩展机制,可以不断把所需的算法丰富到系统平台中,满足实际工作的需要。数据处理分析功能可以便捷定位数据并快速完成数据分析处理操作,提高工作效率。(8)数据挖掘和决策支持。提供数据挖掘功能,从大量的试验数据中抽取出潜在的有用信息、模式和趋势,在历史试验数据的经验基础上探索出新试验数据管理的前景。
TDM系统的应用可以带来试验管理的变革,保障试验数据的安全,实现多部门之间的数据共享和工作协同,提高试验数据管理水平和利用效率,保存和积累经验知识,充分挖掘试验数据的价值,改进和优化产品设计,提高设计质量。目前国际和国内的TDM市场尚处于起步阶段,部分行业的一些单位已经开始尝试建立TDM系统。尽管TDM市场的成熟尚需时日,但是TDM系统已经被各种行业的试验和设计单位所关注,TDM市场已经呈现出了蓬勃的朝气。
参考文献
关键词:云计算 云数据 管理技术
中图分类号:TP315 文献标识码:A 文章编号:1007-9416(2016)04-0000-00
云计算和云数据是提升信息传递和使用质量的重要技术,因此,在经济发展对信息资源依赖度较高的背景下,对云计算和云数据的相关技术进行研究,能够很大程度上提升我国经济建设水平。
1云数据管理技术的特点
1.1云数据可以提升信息存储的质量
云数据在进行管理的过程中,信息存储的程序较为完善,因此,大量的信息数据会通过分布式管理的方式完成储存,如果信息数据在利用的过程中需要进行快速的提取,则可以使用存储管理变革的方式对信息的管理方式进行完善。要根据信息数据的保密性特点,对信息的具体存储位置进行设置,因此,操作人员可以很好的利用云数据管理完成对信息具体收集情况的判定[1]。相比于传统的信息收集模式,云数据的信息收集能够对信息实施多重保护措施的添加,因此,云数据的包容性较强。另外,云数据还具备很强的信息容错功能,能够在较短的时间内,对大量错误的信息数据实施区分,并将信息数据进行错误报告,以便信息能够提升处理的可靠性。
1.2提升信息资源处理的效率
分布式处理是云数据处理的主要形式,因此,信息资源在处理的过程中,需要根据信息收集逻辑的状态进行质量的判定,因此,信息数据的处理活动需要通过数据收集的方式进行。在信息数据的处理过程中,各项信息资源可以使用统一的方式进行处置,因此,信息资源可以使用数据存储的方式对众多的信息资源进行控制[2]。在信息提取的过程中,信息资源可以按照存储状态的特点对提取流程进行规划,因此,信息资源的处理是提升信息提取效率的重要因素。
2云计算和云数据的相关技术
2.1云计算和云数据的GFS技术
GFS技术目前在云计算和云数据领域的应用较为广泛,此一技术依赖谷歌云计算的相关技术,对已经掌握的信息资源实施规范化管理,使相关信息可以实现管理技术的完善。在应用技术的选择过程中,资源文件可以作为云计算技术的应用基础,而相关信息资源的存储可以使用存储库的方式进行完善,因此,可以针对目前具备的信息系统的专有接口,对用户信息进行研究,使系统能够保证用户信息使用的准确。当云数据的使用一方对获取数据的需求进行输出时,可以针对已经具备的传输逻辑对管理团队的具体管理程序进行研究,使管理人员能够保证对信息库具备较高水平的控制[3]。要有针对性的对已经完成调查的数据库进行研究,以便不同种类的数据库可以通过用户的具体请求可以得到满足。在对云数据实施管理的过程中,可以利用谷歌系统的相关程序进行帮助,以便管理工作可以对大量的基础性信息数据实施完整的存储,如果信息系统可以更好的使用数据管理的模式进行大量数据的集中处理,则需要使用GFS技术进行管理程序的研究,使云数据的管理工作可以更好的实现应用技术的突破。因此,要根据云计算的相关技术,对需要进行使用的技术进行应用方案的规划设计,使技术的应用更加完整。
2.2云计算和云数据的big table技术
Big table技术同GFS技术具备一定的相似性,可以利用谷歌团队开发的其他技术,对数据管理的有关技术进行研究,因此,数据管理技术需要按照谷歌团队的文件资源进行管理系统的研发,如果能够将数量众多的信息实施集中处理,则可以利用表格制定的方式,对相关的谷歌文件进行调取,使技术的应用获得更多信息资源的支持。要使用制定虚拟表格的方式,对大量的信息数据实施处理,以便信息数据可以更好的在相同的范围内进行使用[4]。在云数据在调节过程中,可以通过数据查询的方式对数据进行处置,使信息数据的处置具备更高的合理性特点,要正确的选取文件处理方式,使具备相似性特点的云数据在处理的过程中能够更加完备。要提升资源分配的合理性,通过云计算的方式对多种多样的信息数据实施数据处理,提升云数据的处理效率。在进行云数据管理的过程中,可以利用数据管理的方法对管理活动的具体特点进行明确,以便数据的管理能够提升运行质量。
2.3云计算和云数据的dynamo技术
Dynamo技术是云数据管理领域使用较为频繁的数据,可以按照云数据的分布式特点,对已经存在的数据信息实施研究,使信息数据可以具备足够的分布式特征。可以通过表格制定的方式,对数据库实施存储结构的设计,使大量的信息数据能够通过数据库结构的调节实现数据完整性的提高。要利用大量信息数据的完整性特点,对数据存储的形式进行明确,以便信息数据的使用可以通过存储形式的改变完成对信息的控制。可以利用多种参数共用的方式进行数据存储方案的设定,使数据的存储技术可以得到更高水平的提升。要提前对需要使用的信息副本进行设计,以便信息资源可以在读取的过程中具备更强的针对性。要在信息资源读取完成之后,对已经解除储存的信息实施集中管理,以便信息能够在完成收集之后实现存储质量的提高。要在全部的信息资源读取完成之后,利用写入技术对系统的运行方案进行研究,使系统可以在读写程序完成之后进行云数据的整合,以便信息数据可以具备高度相似的特点。
3结语
云计算和云数据是信息处理的重要技术,深入的研究云计算和云数据的管理技术,能够使很多领域的信息处理水平得到大幅度的提高,因此,很多领域都已经加强了对数据管理工作的重视,并将云数据管理作为重要的科研内容。
参考文献
[1] 郑晓霞.浅谈云计算和云数据管理技术[J].电子制作,2014.
[2] 刘正伟,文中领,张海涛 等.云计算和云数据管理技术[J].计算机研究与发展,
2012.
[3] 刘德永.云计算和云数据管理技术[J].计算机光盘软件与应用,2013.
[4] 周傲英,金澈清,王国仁 等.不确定性数据管理技术研究综述.计算机学报,2009.
【关键词】自动监测;数据管理;浮标
1需求分析
海洋水质监测浮标数据管理系统功能需求包括对投放在海上的水质监测浮标的综合管理,制订实时监测数据质量控制程序,数据有效性评估和监测数据集的统计分析等。数据管理模块是整个系统的关键所在,是其他功能模块实现数据的存储、交换等工作的基础。而数据管理模块的设计与实现必须严格按照海洋监测相关规范、标准,最终构建一个集成、稳定、开放、可共享和可扩展的海洋环境资料数据仓库[1]。数据管理模块从数据集中实时获取海洋水质监测数据、集成数据安全控制、数据质量控制、数据统计分析、数据建模等功能,分别形成相互关联的数据集,在此基础上构建海洋环境资料数据仓库,为模型分析和数据产品提供强大的数据支撑。性能需求主要通过功能需求实现来体现,要求系统运行稳定,容错性强,界面友好,能够满足海洋水质数据监测、传输、接收、管理、查询、分析、预警、、存档等各方面的要求。系统各性能指标包括系统响应速度,平均无故障运行时间间隔等要求均需按照国家相关标准。
2设计与实现
海洋水质监测浮标数据管理系统采用浏览器/服务器(Brower/Server,简称B/S)和客户机/服务器(Client/Server,简称C/S)混合模式开发,基于C#、.NET开发环境,以MicrosoftSQLServer为数据库管理系统。本系统遵循以数据为重点、以提高数据管理、分析为目标的指导思想,对基础数据进行有秩序、科学的管理、展示和分析,讲究系统的先进性、实用性原则,标准化、规范化原则,高性能和稳定性原则,开放性、可扩展性原则,安全性、可靠性原则,经济和时效性等设计原则。海洋水质监测浮标数据管理系统的体系构架以“‘一体化’数据管理应用开发与集成框架”为核心来设计,实现海洋水质数据监测、传输、接收、管理、查询、分析、预警、、存档全过程管理。利用地理信息系统技术对浮标数据的统计和分析,以统一的方式对浮标和基础数据进行管理,在此基础上设计并实现海洋水质监测浮标数据管理系统。该系统可以实现了对浮标的多点、多传感器、长时间序列的关联存储、条件检索和动态展现,通过将浮标总表与浮标分表相结合,实现多层次、全方位的海洋水质数据管理功能,系统功能图[2]如图1所示。海洋水质监测浮标数据管理系统实现了登录、个人首页、地理信息、统计分析、数据表格、浮标管理、GPS信息、模型管理、系统运维九大模块,集成了数据安全控制、数据质量控制、数据统计分析、数据模型等功能,并为后续开发与完善提供了数据接口。
2.1数据安全控制
基于海洋水质监测浮标的数据的重要性与保密性,数据安全控制尤为重要。(1)加密传输数据在浮标端发出之前就需要对受保护的数据进行加密[3],即对客户端需要读取的数据在服务端先加密再发往客户端,客户端则对授权用户采用相应的解密措施,在客户端软件中实施解密。(2)存取控制实为授权机制,它规定某个范围的数据,在何种条件下,准许何种操作。对于数据库表的存取控制,一种方法是定义用户权限表,只有指定的用户才能进行相应的操作,如对数据库进行拥有、只读、只写、读写、删除等操作;另一种方法是对表定义访问权限。对于文件系统的存取控制,一种方法是控制文件的存取,另一种方法是置于与文件树关联的各级目录中。(3)口令保护即对已授权用户分配特定的口令。系统登录模块中有用户口令识别模块,通过对分配给用户的特定口令来识别并确认用户的访问权限,口令识别认证通过后用户才允许进入系统,且进入系统后根据不同权限的用户分配不同的操作权限。口令法的优点在于软件比较简单,缺点是口令本身保密性不强,而通过加密后再传送口令这一方法能有效的解决这一保密性问题。(4)日志管理系统全面采取日志管理监控机制。用户对数据的创建、浏览、修改、删除等都将被系统监控并记录,记录的详细信息包括时间、用户、用户IP地址、所进行的操作等。对数据备份也会生成相应的备份日志文件,以方便在数据恢复时准确掌握备份数据情况。(5)数据备份数据是系统的基础,任何情况下,保障数据的完整与安全都至关重要。完善的数据备份机制,是保障数据完整与安全的重要手段之一。考虑到管理业务的特点,本系统采用完全备份和增量备份组合的机制。每周一个备份循环,周日进行完全备份,其它工作日采用增量备份。另一方面,为防止一些不可抗拒的外来因素对数据备份存储介质带来永久性损坏而造成数据的损失,必须周期性的将数据备份文件复制到异地存储设备,以最大限度地保障数据安全。
2.2数据质量控制
海洋水质监测浮标的每一条数据入数据库之前,会通过数据校验模型、数据校正、异常值检测等一系列的质量控制程序,将数据结构不完整、数据异常、仪器故障等情况在数据状态一栏标注出来,以供进一步审核判断,保障数据准确可靠。(1)解析模型解析模型是接收模型的核心内容,接收模型主要为接收服务提供数据接收算法依据,包括接收字段的长度、接收频率、接收地址、有效性、接收次数及接收对应浮标等。接收模型可针对单个浮标多种协议单独设立接收规则。解析模型主要辅助数据接收模型中解析服务对接收的数据进行解析,能验证通讯包结构,验证数据解析配置,验证周期配置,修正公式校正等,并根据结果存入数据仓库的对应表中。解析模型可针对单个浮标多种传感器数据单独设立解析规则,如时间周期、编码对应等。解析模型的流程图[2]如图2所示。(2)异常值检测由于海洋环境明显的动态效应[4],海洋水质监测浮标所得到的数据存在着一定的异常率。核心问题是如何在数据入库的过程中实现异常值的自动检测,并正确地标记出异常值的位置,这就是所谓的异常值定位问题。本系统中异常值检测包括阈值检测和异常数据判断。阈值检测根据系统内已设置的监测参数数值上下限初步判断异常值。异常数据判断依据已制定的异常数据判断算法执行。譬如pH的异常数据判断,若某个pH数据与时间序列前10个数据和后面10个数据相比分别有8个以上的差值大于0.5,即标记为异常值。经过异常值检测后进入数据库的数据都已做标记,同时系统还具备了人工审核功能。对于标记出异常的数据在人工审核阶段可以对其进行再次的判定,若确认是异常值,在之后的一系列数据应用中此异常数据将被排除。
2.3数据统计分析
数据表格主要将各浮标数据及传感器的实时信息进行展现、导出、部署等,具体包含数据列表、数据报表、数据导出、数据补数、传感器状态和数据量统计功能。数据列表将各浮标及传感器的实时信息进行展现如图3所示。数据导出对数据列表中个数据执行导出动作,可按条件、范围导出。数据补数实现对漏发或异常数据的补发功能,补数功能支持时间段选择。补数功能主要由浮标管理员发起,通过系统将可视化命令转化为浮标指令下达至浮标。传感器状态模块记录传感器周期性状态,并实时展现。同时给出各状态的统计图、标准值并预警。数据量统计对数据仓库中的浮标数据量进行总体统计,包括对传感器的各项具体指标。数据统计分析是以实时数据接收、解析和处理后的海洋水质监测要素数据为基础,为用户提供数据查询、分析、显示、转换、导出等功能,实现信息数据从采集、传输到数据共享、利用和分析的过程。其中曲线图模块对浮标各传感器的监测参数有效值进行曲线图展现,如图4所示。数据统计模块对多个浮标的各监测参数有效值分别进行统计并展示,便于用户直观的查看并做出正确的判断。对报表统计结果可以进行导出。
2.4数据模型
数据模型是使用数据管理模块提供的海洋水质监测数据资料进行建模分析并对其发生状况进行评价及预警。该模块是利用先进的数据挖掘算法,如模糊聚类分析、支持向量机等,建立海洋水质评价模型、海洋水质要素预警模型等,分析海洋灾害发生时的特征、发生的原因并预测出海洋灾害即将发生的时间,实现海洋灾害特征要素的自动预警预报,为海洋相关部门提供可靠的、科学的依据。数据模型从建模开始就是在不断的更新过程中的,通过不断的验证以及反馈自动修正,确保数据模型的精确性和可用性。数据模型中提供了多种基础类的评价预警模型,也提供了相应的接口供用户修正数据模型。
2.5数据接口
对系统中已有的数据接口进行了显示和说明,可进行是否打开操作。数据接口除了在实施系统时现场开发的新接口外,系统还提供部分常用接口和说明供其他系统和用户调用。数据接口一般有数据底层交互接口,XML等通用文件交互接口,WebService网络交互接口和类库调用交互接口等多种方式,具体根据系统间可提供的交互度为基础选择最优方式进行数据对接。
3结束语
海洋水质监测浮标数据管理系统是海洋环境监测的核心信息系统之一,在系统设计实现过程中,综合考虑了系统架构、技术方案、软硬件设施、运维服务能力等方面,确保系统的高性能和低故障率。系统实现了登录、个人首页、地理信息、统计分析、数据表格、浮标管理、GPS信息、模型管理、系统运维九大模块,集成了数据安全控制、数据质量控制、数据统计分析、数据模型等功能,并为后续开发与完善提供了数据接口。基于国家对海洋水质监测高度的重视,监测浮标不断的规模化发展,数据管理系统也逐步发展成为能实时地、连续地、长期地、准确地提供监测区域内水质监测数据的海上在线监测网,实现了海洋水质监测由瞬时监测向连续监测,由定期监测到实时监测的跨越。在此基础上,今后将着力于构建海洋水质实时监测与动态评价体系,实现海洋水质评价由定性评价到定量评价,由单一学科评价到生态系统评价,由现状评价到趋势评价与预测的转变,开发建立符合监测海域环保、海洋开发利用、减灾、防灾需要的实测、预报及预警等评价信息产品,为海洋相关部门提供详实可靠的数据信息、科学的预报、预警信息,为海洋环境综合管理、海洋环境保护、海洋资源合理开发提供服务。
参考文献
[1]李俊.海洋环境在线监测及赤潮灾害预报系统研究[D].山东大学,2007:9-12.
[2]王瑞金.统一建模语言UML及其建模实例[J].计算机应用研究,2002,(8).
[3]何志强.近岸海域浮标实时监测系统设计概要[J].声学与电子工程,2014,(3):47-49.
科学数据管理办法第一章 总则
第一条 为进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好支撑国家科技创新、经济社会发展和国家安全,根据《中华人民共和国科学技术进步法》、《中华人民共和国促进科技成果转化法》和《政务信息资源共享管理暂行办法》等规定,制定本办法。
第二条 本办法所称科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。
第三条 政府预算资金支持开展的科学数据采集生产、加工整理、开放共享和管理使用等活动适用本办法。
任何单位和个人在中华人民共和国境内从事科学数据相关活动,符合本办法规定情形的,按照本办法执行。
第四条 科学数据管理遵循分级管理、安全可控、充分利用的原则,明确责任主体,加强能力建设,促进开放共享。
第五条 任何单位和个人从事科学数据采集生产、使用、管理活动应当遵守国家有关法律法规及部门规章,不得利用科学数据从事危害国家安全、社会公共利益和他人合法权益的活动。
第二章 职责
第六条 科学数据管理工作实行国家统筹、各部门与各地区分工负责的体制。
第七条 国务院科学技术行政部门牵头负责全国科学数据的宏观管理与综合协调,主要职责是:
(一)组织研究制定国家科学数据管理政策和标准规范;
(二)协调推动科学数据规范管理、开放共享及评价考核工作;
(三)统筹推进国家科学数据中心建设和发展;
(四)负责国家科学数据网络管理平台建设和数据维护。
第八条 国务院相关部门、省级人民政府相关部门(以下统称主管部门)在科学数据管理方面的主要职责是:
(一)负责建立健全本部门(本地区)科学数据管理政策和规章制度,宣传贯彻落实国家科学数据管理政策;
(二)指导所属法人单位加强和规范科学数据管理;
(三)按照国家有关规定做好或者授权有关单位做好科学数据定密工作;
(四)统筹规划和建设本部门(本地区)科学数据中心,推动科学数据开放共享;
(五)建立完善有效的激励机制,组织开展本部门(本地区)所属法人单位科学数据工作的评价考核。
第九条 有关科研院所、高等院校和企业等法人单位(以下统称法人单位)是科学数据管理的责任主体,主要职责是:
(一)贯彻落实国家和部门(地方)科学数据管理政策,建立健全本单位科学数据相关管理制度;
(二)按照有关标准规范进行科学数据采集生产、加工整理和长期保存,确保数据质量;
(三)按照有关规定做好科学数据保密和安全管理工作;
(四)建立科学数据管理系统,公布科学数据开放目录并及时更新,积极开展科学数据共享服务;
(五)负责科学数据管理运行所需软硬件设施等条件、资金和人员保障。
第十条 科学数据中心是促进科学数据开放共享的重要载体,由主管部门委托有条件的法人单位建立,主要职责是:
(一)承担相关领域科学数据的整合汇交工作;
(二)负责科学数据的分级分类、加工整理和分析挖掘;
(三)保障科学数据安全,依法依规推动科学数据开放共享;
(四)加强国内外科学数据方面交流与合作。
第三章 采集、汇交与保存
第十一条 法人单位及科学数据生产者要按照相关标准规范组织开展科学数据采集生产和加工整理,形成便于使用的数据库或数据集。
法人单位应建立科学数据质量控制体系,保证数据的准确性和可用性。
第十二条 主管部门应建立科学数据汇交制度,在国家统一政务网络和数据共享交换平台的基础上开展本部门(本地区)的科学数据汇交工作。
第十三条 政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心。接收数据的科学数据中心应出具汇交凭证。
各级科技计划(专项、基金等)管理部门应建立先汇交科学数据、再验收科技计划(专项、基金等)项目的机制;项目/课题验收后产生的科学数据也应进行汇交。
第十四条 主管部门和法人单位应建立健全国内外学术论文数据汇交的管理制度。
利用政府预算资金资助形成的科学数据撰写并在国外学术期刊时需对外提交相应科学数据的,论文作者应在前将科学数据上交至所在单位统一管理。
第十五条 社会资金资助形成的涉及国家秘密、国家安全和社会公共利益的科学数据必须按照有关规定予以汇交。
鼓励社会资金资助形成的其他科学数据向相关科学数据中心汇交。
第十六条 法人单位应建立科学数据保存制度,配备数据存储、管理、服务和安全等必要设施,保障科学数据完整性和安全性。
第十七条 法人单位应加强科学数据人才队伍建设,在岗位设置、绩效收入、职称评定等方面建立激励机制。
第十八条 国务院科学技术行政部门应加强统筹布局,在条件好、资源优势明显的科学数据中心基础上,优化整合形成国家科学数据中心。
第四章 共享与利用
第十九条 政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。
第二十条 法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录,通过在线下载、离线共享或定制服务等方式向社会开放共享。
第二十一条 法人单位应根据需求,对科学数据进行分析挖掘,形成有价值的科学数据产品,开展增值服务。鼓励社会组织和企业开展市场化增值服务。
第二十二条 主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。
第二十三条 科学数据使用者应遵守知识产权相关规定,在、专利申请、专著出版等工作中注明所使用和参考引用的科学数据。
第二十四条 对于政府决策、公共安全、国防建设、环境保护、防灾减灾、公益性科学研究等需要使用科学数据的,法人单位应当无偿提供;确需收费的,应按照规定程序和非营利原则制定合理的收费标准,向社会公布并接受监督。
对于因经营性活动需要使用科学数据的,当事人双方应当签订有偿服务合同,明确双方的权利和义务。
国家法律法规有特殊规定的,遵从其规定。
第五章 保密与安全
第二十五条 涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享;确需对外开放的,要对利用目的、用户资质、保密条件等进行审查,并严格控制知悉范围。
第二十六条 涉及国家秘密的科学数据的采集生产、加工整理、管理和使用,按照国家有关保密规定执行。主管部门和法人单位应建立健全涉及国家秘密的科学数据管理与使用制度,对制作、审核、登记、拷贝、传输、销毁等环节进行严格管理。
对外交往与合作中需要提供涉及国家秘密的科学数据的,法人单位应明确提出利用数据的类别、范围及用途,按照保密管理规定程序报主管部门批准。经主管部门批准后,法人单位按规定办理相关手续并与用户签订保密协议。
第二十七条 主管部门和法人单位应加强科学数据全生命周期安全管理,制定科学数据安全保护措施;加强数据下载的认证、授权等防护管理,防止数据被恶意使用。
对于需对外公布的科学数据开放目录或需对外提供的科学数据,主管部门和法人单位应建立相应的安全保密审查制度。
第二十八条 法人单位和科学数据中心应按照国家网络安全管理规定,建立网络安全保障体系,采用安全可靠的产品和服务,完善数据管控、属性管理、身份识别、行为追溯、黑名单等管理措施,健全防篡改、防泄露、防攻击、防病毒等安全防护体系。
第二十九条 科学数据中心应建立应急管理和容灾备份机制,按照要求建立应急管理系统,对重要的科学数据进行异地备份。
第六章 附则
第三十条 主管部门和法人单位应建立完善科学数据管理和开放共享工作评价考核制度。
第三十一条 对于伪造数据、侵犯知识产权、不按规定汇交数据等行为,主管部门可视情节轻重对相关单位和责任人给予责令整改、通报批评、处分等处理或依法给予行政处罚。
对违反国家有关法律法规的单位和个人,依法追究相应责任。
数据激增带来的挑战
近年来,各种事务和交互所产生的数据呈现出大幅增长的态势,服务器、网络、机器、传感器、摄像头以及其他无数设备正在连续不断地捕获和生成数据,这是推升存储开支的主要因素。据IDC预测,2012至2017年期间,亚太地区(不含日本)在大数据存储上的开支将以42%的复合年增长率快速提升。这一增长的主要动力来自满足法规遵从以及不可预见的要求和未来分析的需要。
一般来说,企业的数据会分布在多个地点,除了本地外,还可能存储在不同的数据孤岛和第三方数据中心以及高度虚拟化的环境中,从而增加了数据管理的复杂性。因此,IDC建议企业,首先要制订一项有效的数据管理战略,并优化存储层,确保数据安全。企业应当考虑使用一个灵活、可扩展的数据管理解决方案,用以自动保护、恢复和归档数据,并对内外部IT资产实施基于策略的管理。
此次由CommVault委托IDC所做的报告是基于对500多名来自中国、韩国、澳大利亚、泰国、马来西亚、新西兰和新加坡等亚太国家的IT高管的调研,受访者涉及金融服务、电信、零售与批发、能源与公用事业等行业。值得注意的是,在500多名受访者中有100位来自中国,正如CommVault亚太区资深市场总监Daniel CF Ng所说,这一调查与中国市场息息相关。通过调查,IDC发现,中国的IT管理者们在对数据和商业分析重要性的认识以及所采取的行动上已落后于亚太区同行;同时,中国企业在保护数据、灾备恢复的具体行动上也明显滞后于亚太区。因此,IDC提出了数据中心的十大高效战略,包括虚拟化、现场合理化及整合、运营最佳实践、自动化工具和软件、数据中心重新设计、应用合理化、模块化数据中心建设、全生命周期管理和规划、基于Rack的电源和冷却系统改造、架构和技术革新。
推进智能数据管理
IDC调研发现,数据管理目前依然是企业面临的一大困扰,尤其是在大数据和云计算的背景下。大数据加剧了因数据量增加而导致的备份窗口不断缩小、备份周期越来越长的挑战,同时提出了有关数据的价值以及所有数据是否应被平等对待(即确定应该保留/放弃哪些数据、在何处存储数据)的问题。与此同时,随着亚太地区的企业将数据迁移至云端,因此,将更多地使用虚拟化和云端存储解决方案。IDC认为,这些解决方案应具有以下特征:端到端保护,数据应该得到保护,而且备份/恢复服务应同时支持虚拟化和云端的数据以及物理服务器上的数据;访问,应确保对重要数据资产的访问,无论它们的位置、规模和类型,数据访问应能服务于不断增多的用户,并满足日益提升的移动性要求;性能,应用性能和备份时间可能受到影响;对数据资产的控制,数据存放位置是企业最关注的一个问题,对活跃度较高和较低的数据提供保护至关重要。
CIO对数据管理的重要性非常清楚,在IDC的调查中,对于“数据备份与恢复解决方案最重要的特性是什么”问题,“能够管理和保护任何类型的数据”(41%)以及“一个允许用户通过一体化平台保护、管理和访问所有数据的端到端解决方案”(38%)成为被选择最多的项。CommVault中国区技术总监蔡报永对此表示,采用统一平台是CIO们普遍的需求,“大家希望打破原来传统的分离独立式的管理模式,采用单一的平台,并对所有的数据类型用单一的平台来管理,这样企业才能很好地预测未来数据管理的发展趋势,以及可以方便访问到想要访问的数据。”
那么采用统一平台的优势是什么?CIO们的答案依次是能够提升存储与网络优化水平,并节省成本;能够更好地防止数据丢失和泄漏;能够提高灾难恢复的效率和可靠性。对此,蔡报永介绍了一个中国用户的案例。一汽大众的信息系统中数据类型非常复杂,有结构化、非结构化、文件类型甚至设计文件等各种各样数据,传统的办法是采用不同的解决方案解决不同的数据和问题,使系统非常复杂。后来,他们采用了CommVault的Simpana平台后,整个数据管理效率大大提高,并使成本下降。“这不难理解,原来需要投资多套软件硬件,而现在只需要一套,并且对于数据的维护管理是全自动化的,不需要额外的人工参与。”蔡报永说。
调研结果(中国)
・26%的企业管理着50TB以上的数据;39%的企业预测,其数据将在2014年增长20%~50%。
・数据分布在不同的地点,58%的数据存储在本地数据库(比亚太区平均值高26%),28%的数据存储在本地数据中心,11%的数据存储在本地的多个站点(比亚太地区的平均值低)。
・中国企业存储在PC和其他终端设备中的数据比亚太区任何国家的企业都要多。
调研结果(亚太区)
・72%的受访者将数据的指数增长和复杂性视为最大的数据管理挑战。
・70%的高管表示,如果数据丢失,他们的财务或运营业务将受损最大。