时间:2023-02-05 22:55:39
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇企业数据存储方案,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
人们对数据存储备份一词并不陌生,然而对备份的真正内涵并不完全了解。在一般人脑海里,往往把备份和拷贝等同起来,把备份单纯看作是更换磁带、为磁带编号等一个完全程式化的、单调的操作过程。其实不然,因为除了拷贝外,还包括更重要的内容即管理。备份管理包括备份的可计划性,磁带机的自动化操作、历史记录的保存以及日志记录等。事实上,备份管理是一个全面的概念,它不仅包含制度的制定和磁带的管理,而且还能决定引进备份技术,如备份技术的选择、备份设备的选择、介质的选择乃至软件技术的挑选等。
有些人往往也把双机热备份、磁盘阵列备份以及磁盘镜象备份等硬件备份的内容和数据存储备份相提并论。事实上,所有的硬件备份都不能代替数据存储备份,硬件备份只是拿一个系统、一个设备等作牺牲来换取另一台系统或设备在短暂时间内的安全。若发生人为的错误、自然灾害、电源故障、病毒侵袭等,引起的后果就不堪设想,如造成所有系统瘫痪,所有设备无法运行,由此引起的数据丢失也就无法恢复了。事实证明,只有数据存储备份才能为人们提供万无一失的数据安全保护。
随着网络应用规模的扩张和计算机应用的深入、企业数据存储量呈爆炸性增长,企业用户的存储系统日益庞杂,存储管理的成本也在大幅上升。数据备份、灾难恢复和存储资源管理等存储理念正在得到用户的接受,网络存储也逐渐得到更广泛的应用。目前市场上的存储产品主要有磁盘阵列、磁带机与磁带库、光盘库等,其中磁带设备以其技术成熟、价格低廉、产品线齐全、使用方便等优点占据了存储市场的重要地位。
企业数据存储的三种方式
在企业刚刚建立初期,用户的数据规模并不大,存储需求也很简单,只是要把相关数据存放在某一地方即可。而存放数据的最终目的不仅是为了能够安全保存,还必须保证数据可以随时被调用。我们最早都是采用一种称之为“DAS(Direct Attached Storage,直接外挂存储)”存储方式的一种方案。这种存储方案的服务器结构如同PC机架构,外部数据存储设备(如磁盘阵列、光盘机、磁带机等)都直接挂接在服务器内部总线上,数据存储设备是整个服务器结构的一部分,同样服务器也担负着整个网络的数据存储职责。DAS这种直连方式,能够解决单台服务器的存储空间扩展、高性能传输需求,并且单台外置存储系统的容量,已经从不到1TB,发展到了2TB,随着大容量硬盘的推出,单台外置存储系统容量还会上升。此外,DAS还可以构成基于磁盘阵列的双机高可用系统,满足数据存储对高可用的要求。从趋势上看,DAS仍然会作为一种存储模式,继续得到应用。
NAS(Network Attached Storage,网络附加存储)方式则全面改进了以前低效的DAS存储方式,它是采用独立于PC服务器,单独为网络数据存储而开发的一种文件服务器。NAS服务器中集中连接了所有的网络数据存储设备(如各种磁盘阵列、磁带、光盘机等),存储容量可以较好地扩展,同时由于这种网络存储方式是NAS服务器独立承担的,所以,对原来的网络服务器性能基本上没什么影响,以确保整个网络性能不受影响。它提供了一个简单、高性价比、高可用性、高扩展性和低总拥有成本(TCO)的网络存储解决方案。
SAN(Storage Area Network,存储域网络)与NAS则是完全不同,它不是把所有的存储设备集中安装在一个专门的NAS服务器中,而是将这些存储设备单独通过光纤交换机连接起来,形成一个光纤通道的网络,然后这个网络再与企业现有局域网进行连接,在这种方案中,起着核心作用的当然就是光纤交换机了,它的支撑技术就是Fibre Channel(FC,光纤通道)协议,这是ANSI为网络和通道I/O接口建立的一个标准集成,支持HIPPI、IPI、SCSI、IP、ATM等多种高级协议。在SAN中,数据以集中的方式进行存储,加强了数据的可管理性,同时适应于多操作系统下的数据共享同一存储池,降低了总拥有成本。
选择合理数据存储方案
企业存储应用的体系结构主要有DAS、NAS和SAN三种模式,三种模式从体系架构的逻辑上看,有明显的区别。一个企业存储具有以下几方面的要求: 性能、安全性、扩展性、易用性、整体拥有成本、服务等等。由于企业用户的存储系统构建并不是一蹴而就的事情,会经历从单机迈向网络化存储的过程,因此就存在DAS、NAS和SAN三种存储方案供企业用户进行不同的选择。
1. 选择DAS方案
DAS直连式存储依赖服务器主机操作系统进行数据的I/O读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统I/O等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20%~30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。这种方案主要在早期的计算机和服务器上使用,由于当时对数据存储的需求并不大,单个服务器需要的存储能力就可以满足日常数据存储需求,因此在低档网络应用中相当普遍。
2. 选择NAS方案
NAS作为一个网络附加存储设备,NAS设备内置优化的独立存储操作系统,可以有效、紧密地释放系统总线资源,全力支持I/O存储,同时NAS设备一般集成本地的备份软件,可以不经过服务器将NAS设备中的重要数据进行本地备份,而且NAS设备提供硬盘RAID、冗余的电源和风扇以及冗余的控制器,可以满足保证NAS的稳定应用。
NAS设备主要用来实现在不同操作系统平台下的文件共享应用,与传统的服务器或DAS存储设备相比,NAS设备的安装、调试、使用和管理非常简单,采用NAS可以节省一定的设备管理与维护费用。NAS设备提供 RJ- 45 接口和单独的IP地址,可以将其直接挂接在主干网的交换机或其他局域网的Hub上,通过简单的设置(如设置机器的IP地址等)就可以在网络即插即用地使用NAS设备,而且进行网络数据在线扩容时也无需停顿,从而保证数据流畅存储。
NAS数据存储方案是基于局域网而设计的,按照传统的TCP/IP协议进行通信,面向消息传递,以文件的I/O方式进行数据传输。在LAN环境下,NAS已经完全可以实现异构平台之间的数据级共享,比如Windows NT、Linux、Unix等平台的共享。基于这种种原因,NAS存储方案对于企业来说的使用和维护成本就相当低,完全可以由现有网管员担当。
3. 选择SAN方案
由于SAN是通过一个单独的通常是基于光纤通道的SAN网络把存储设备以及服务器相连,如此当有海量数据的存取需求时,数据完全可以通过SAN网络在相关服务器和后台的存储设备之间高速传输,对于LAN的带宽占用几乎为零,而且服务器可以访问SAN上的任何一个存储设备,提高了数据的可用性。在对性能和可靠性要求较高的场合,采用先进的SAN数据存储网络,可以使数据的存储、备份等活动独立在原先的局域网之外,从而将减轻LAN的负载,保证原有网络应用的顺畅进行; 同时SAN网采用光纤传输通道,可以得到高速的数据传输率。
SAN方案简化了管理和集中控制,这对于全部存储设备都集中在信息中心,是非常有现实意义的。SAN将企业的存储和服务器平台分开,可以实现24 x 7不间断的系统可用性和集中管理,在这个平台的基础上,还可以应用一套统一的灾难恢复解决方案,同时可经济高效地扩展存储环境。因此SAN非常适用于非线性编辑、服务器集群、远程灾难恢复、因特网数据服务等多个领域。
企业数据存储的发展趋势
关键字:“数字湖南”;DAS;NAS;SAN;虚拟化存储
0 前言
地理空间框架是“数字湖南”的核心、重要基础与支撑。而地理空间框架由地理信息数据组成;因此,解决了地理信息数据的存储问题,也就解决了“数字湖南”数据的存储问题。地理信息数据的主要特点是:数据量庞大且增长迅速;数据格式繁多且不易转换;数据安全性要求高。为满足以上要求,地理信息数据的存储必须做到:足够的数据存储容量;较高的数据传输效率;兼容异构平台;可充分利用局域网内各种存储设备,减少数据多重拷贝;简化数据备份与管理,提高数据备份、恢复效率;最重要的是高可靠的数据安全特性。
为了更好地管理快速增长的地理信息数据,需要对“数字湖南”数据中心的网络存储系统进行统筹规划;考虑未来技术发展趋势和快速增加的数据量,应以满足“十二五”期间的数据存储管理需求为目标,进行数据中心网络存储方案设计。本文在研究当前存储主要技术、发展趋势以及地理信息数据存储现状的基础上,制定了“数字湖南”数据中心的内网数据网络存储方案。
1 当前主流存储技术
目前,应用较多的网络化存储系统主要是表1所列的三种:
从表1可以看出,只有SAN较适用于地理信息数据的存储。
虚拟化存储和云存储是未来存储技术的发展方向。存储虚拟化是为存储用户提供统一的虚拟存储池;即将品牌、级别不同且分散的存储产品统一到一个(或几个)大的存储池下,用户看见的不再是孤立的、分散的系统,而是一个统一的整体;它方便用户更好地使用存储资源,提高存储资源利用效率。虚拟化存储是提高网络存储系统可管理性的核心技术之一,也是目前研究的热点。目前主要有以下三种虚拟化存储技术:
由表2可见由于基于主机和基于存储的方法对初建者吸引力最大;但兼容性差。基于路由器或交换机的方法更为适合于互操纵性要求高的企业;前者具有更高可扩充性。
目前,云存储由于安全性远远达不到地理信息数据的保密要求,故不予考虑。
2 数据中心数据存储方案设计
现以某地理信息中心为例设计数据存储方案。
2.1 数据中心数据存储需求
该中心2001年建成了采用DAS方式连接的数据存储系统,数据容量为1.5TB。虽然数据存储系统经过几次升级扩容,存储容量扩大到10TB以上,但仍为DAS连接;无法满足中心的数据存储备份需求。主要存在以下问题:存储总容量太小;数据的安全性、一致性和完整性面临多方威胁;存储资源浪费现象严重;网速太慢。
因此,数据中心数据存储系统建成后,应具备如下性能:数据容量60TB;采用易管理、省投资、可扩展的集中化存储架构;较高的存储备份速度;较好的可管理性;高可靠性;完善的灾难恢复计划;连续地提供数据查询、检索和分析、计算的功能。
2.2 存储技术选型
通过第2节的分析已确定了SAN技术比较适合地理信息中心的数据存储备份,下表对IP-SAN与FC-SAN两种技术进行了一般性比较。
从表3中可以看出FC-SAN目前比较适合地理信息数据存储。
从第2节中已知基于交换机的虚拟化技术与其他虚拟化技术相比具有较高的安全性、易使用、设备便宜,较好的互操作性,较易实现故障接替等优点,故采用FC-SAN+基于交换机的虚拟化存储构成池化存储是该地理信息中心的最佳数据存储方案。
2.3 数据存储架构
数据存储结构拓扑图如下:
3 方案评价
该方案的特点是:
1.采用基于交换机的虚拟化存储;采用了性价比较高的硬件设备,故成本较低。
2.存储网络采用了FC-SAN,传输速率较高。
3.采用了虚拟化存储技术,整个存储系统整合为一个存储池,设备利用率高。4.采用了合理的RAID技术,提高了磁盘容错能力。
4 不足之处是没有备份和容灾。
综上所述,该方案提供了一个可行的高性能、任务关键性数据存储中心环境。
“私有云”是针对处于防火墙内的有限人群提供托管服务专有计算网络架构,其优点是:构筑在防火墙后,数据安全性较高、服务质量稳定,不影响现有IT管理的流程,大大降低了成本。 随着云存储技术的不断发展,未来“数字湖南”数据中心数据架构存储可以考虑采用“私有云”方式。
参考文献:
[1]时成阁,《网络存储导论》[M],华东大学出版社,2007-1.
【关键词】网络数据;存储备份系统;解决方案
随着社会的发展,科技水平的提高,网络技术应用于各个领域,同时网络结构也趋于复杂,从而影响着网络数据的安全与共享。网络数据存储备份系统要不断完善与发展,才能适应社会发展的需求。本文将通过对DAS、NAS与SAN技术的分析与研究,提出网络数据存储备份系统的解决方案。
一、DAS、NAS、SAN技术的概况
(一)DAS、NAS、SAN技术的涵义
DAS即直接附加存储或磁盘阵列,DAS将直接连接在服务器或客户端的数据存储设备上,它的中心为服务器,通过服务器或客户端实现存储,主要是由硬件组成的。NAS即网络附加存储,NAS具有特殊性与独立性等优势,它是一种专用的数据存储服务器,它具备独立的系统软件,从而保证存储的优化,同时其具有共享功能,能够提供跨平台的文件。NAS的中心为数据,通过存储设备和服务器的分离,实现了对数据的集中管理,进而利于宽带的高效释放。SAN即存储局域网,SAN是一种共用的、高速的专用存储网络,其存储设备主要分布在服务器的末端。SAN是一种专用的高速光纤网络,其光纤通道是由PRID陈列连接形成的,同时SAN的架构需要专用的光纤交换机与集线器[1]。
(二)DAS、NAS、SAN技术的比较
关于DAS与NAS技术的比较主要表现在以下几方面:在安装方面,DAS的安装相对复杂,一般情况下需要两天时间;NAS的安装相对便捷,通过独立安装,在十分钟左右便可以完成。在文件共享方面,DAS不具备跨平台文件共享的功能,因此,各个系统平台的文件存储需要分别进行;NAS具备跨平台文件共享的功能,因此可以实现文件共享。在操作系统方面,DAS不具备独立的存储操作系统,其应用依赖于服务器或客户端,因此,DAS极易造成网络的瘫痪与数据的丢失;NAS具备独立的存储操作系统,从而能够保证其宽带的释放,利于网络的正常运行。在存储数据结构方面,DAS的数据存储模式相对分散,因此,不利于网络管理人员的管理,同时也增加了维护的费用;NAS的数据存储模式相对集中,因此,其便于网络管理人员对数据的集中管理,其维护的成本也相对较少。关于NAS与SAN技术的比较主要体现在以下几方面:在设计理念方面,NAS拥有专用的数据存储设备,同时可以直接联网,是一项独立的系统存储平台;SAN需要存储在局域网,不具备独立的设备。在安装方面,NAS安装十分便捷,即插即用;SAN的安装需要在服务器或存储设备上添加光纤网卡。在文件共享方面,NAS具备跨平台文件共享的功能,因此可以实现文件共享;SAN具有独立的数据存储池,因此,不同系统平台的数据可以在同一存储设备中进行存储。在存储距离方面,NAS可以满足长距离、不同区域数据存储的需求;SAN的存储距离由光纤传输距离决定,因此,SAN可以进行短距离的数据存储。
二、网络数据存储备份系统的解决方案
网络数据存储备份系统采用NAS存储技术,其具有以下特点:网络快,其网络访问为双千兆以太网;容量大,其容量为4U高度和10颗热插拔的硬盘;实现了文件共享,并可以跨平台、跨主机;安全性,其具有权限安全管理功能,并能够对系统进行全天候的监控。
(一)NAS的系统存储
在E-mail存储方面,其系统存储完全能够满足万人用户的需求,NAS在E-mail存储中其容量可以达到200GB。在光盘数据下载方面,NAS的数据传递可以满足100个并发的需求。
(二)NAS的系统安装与维护
在硬件安装方面,NAS的系统安装可以保持原有网络不变,将其连接到网络的交换机上,在连接电源便实现了安装;在软件安装方面,NAS的系统安装可以在局域网的服务器上进行安装,在软件运行后,NAS将被自动搜索,再打开设置窗口,便可以对NAS进行设置。同时,NAS系统中可以安装防病毒的相关软件,进而保证其数据的安全性[2]。
(三)本方案的优点
本方案有众多的优点,主要优点如下:
应用了负载均衡技术,NAS根据并发量的不可控性,应用了负载均衡技术,从而数据的读取由负载均衡软件控制,并提升了并发访问的速度。
NAS自身的优势,如:安全性、便捷性与扩展性等,NAS可以即插即用,其安装十分便捷,其管理不需要专业的人员,在应用过程中,减轻了服务器的负荷,保证了网络的高效,其安全性与共享性能够保证数据的安全,即便网络存在故障。
具有较快的响应与较多的并发用户。NAS的独立性与优化性,主要体现在其系统存储平台的独立与存储操作系统的优化,从而NAS利用网络数据传输率的提升,利于用户响应时间的降低。在并发用户较多的情况下,NAS的性能愈加突显,它能够满足较多的并发用户的需求。
实现了跨平台的文件共享。NAS的跨平台文件共享,节约了用户的费用,可以对不同文件格式的资料进行存储,同时也可以在不同的系统上对数据进行访问。
同时具有便捷性与安全性。NAS在安装与维修方面十分便捷,不仅不需要辅助的软件,还不需要网络服务的停止,并且在安装时,不需要改变网络架构,进而利于用户投资与成本的控制。NAS可以保证数据的完整性与安全性,主要是将源数据变成了日志文件,从而利于文件系统的恢复[3]。
总结:综上所述,网络数据存储备份系统的完善直接关系着系统数据的安全,文中分析了DAS、NAS、SAN存储技术,其中NAS技术具有诸多的优势,因此,网络数据存储备份系统解决方案中运用了NAS技术,形成了跨平台的网络数据存储系统,这一方案具有实用性、可靠性与扩展性等,不仅控制了成本,还提高了网络的性能。
参考文献:
[1]赖晨捷.华能太仓电厂数据存储备份系统解决方案探讨[J].电力技术,2010,2(04):26-27.
调查显示
中小企业购买需求增加
然而,IBM却在此时再度发力中低端市场,正式启动了将辐射40多个城市的2009 IBM企业信息架构全国巡展。IBM希望通过该巡展与其合作伙伴和客户共同探讨应对当前信息化挑战的一体化信息架构解决之道。与此同时,IBM利用其在IT领域的整体优势,为中小企业客户定制了六个中小型信息系统解决方案,以满足不同类型企业的新兴存储需要。
IBM此次巡展首要着力点就在中小企业市场。IBM系统与科技事业部大中华区系统存储部总经理侯淼介绍说,2009年上半年整体市场回暖,很多市场调查报告都显示中小企业客户购买需求增加。IT系统中日益增多的设备和飞速增长的非结构化数据都对中小企业的信息架构提出了全新的挑战。很多中小企业决定着手解决信息存储方面的诸多问题,而且他们不只希望获取单纯的存储技术,而是希望获得融汇了业务和IT洞察力的综合信息系统解决方案。
找准市场需求
对症下药
席卷全球的国际金融危机难免给各行各业带来影响,但是这并不代表市场需求减少,IT厂商关键是要找准市场需求,对症下药。IBM针对中小企业在此阶段对信息保留和信息高可用方面的典型需求,充分发挥自身在IT领域的整体技术优势,为中小企业客户提供了6款融合服务器、存储、软件等多种元素的特色解决方案,基于存储向客户交付独特的系统整合价值。
中型数据保护及备份方案:采用DS4000或DS5000作为核心数据存储,利用IBM带库和备份软件实现自动的数据保护,利用一站式方案解决数据存储建设中的在线数据和离线数据存储问题;
小型数据快速备份及恢复方案:利用Tivoli Storage Manager(TSM) FastBack,配合 DS3000/DS4700,确保主站点与灾难恢复站点之间的数据安全转移,可对任何类型数据损失进行即时恢复,并消除了备份窗口、手工备份/还原过程及远程办事处对磁带的使用,实现了灵活的扩展和统一的管理;
数据中心系统高可用解决方案:由Power和System x服务器与存储构成,采用服务器集群加双存储的高可靠结构;
高性能计算环境下的高性能存储:由x86集群、高性能I/O服务器、高性能SAN存储阵列与带库、TSM备份系统、并行文件系统及x86登录服务器构成,可确保优异的持续带宽、集中的SAN存储系统及统一的并行文件系统和数据管理策略;
存储系统整合解决方案:由DS4700/DS5000配以SVC(存储虚拟化)构成,凭借SVC的卓越性能,可实现高速的存储访问及强大的存储整合能力;
存储全系统融合方案:利用DS5000、N系列或Diligent重复数据删除软件及8Gb SAN交换机,成就高性能的存储系统,满足企业在容量、性能、稳定性和安全性要求的同时,确保未来的存储需求,并可交付全面的数据备份和灾备功能以及法规遵从能力。
此外,IBM力求从多方面帮助中小企业降低成本:首先,在初期购买价格上给予更多优惠,部分软件支持免费;其次,通过产品创新为企业节能省耗,如DS5000系列集成了灵活的主机接口、第二代XOR引擎、8Gbps光纤控制器,并可支持多种磁盘驱动器,成为目前中端市场最为灵活的存储系统。
360度渠道拓展
此次巡展,IBM不仅新推出6款组合解决方案,还匹配了全面的渠道支持计划和区域覆盖策略,推动合作伙伴将IBM的创新存储价值带给客户。
关键词:在线备份;异地容灾;数据保护
中图分类号:TP309.3文献标识码:A文章编号:1009-3044(2008)36-2918-03
The Research and Application on Remote Backup of Financial System
GAO Ning
(Financial department,JiuJiang university,Jiujiang 332005,China)
Abstract: In the course of building Accounting informationization,how to take full advantages of colleges resources,how to build Disater and Backup System which is in accordance with the facts of the college,how to keep the business consistency and the data integrality then improve the service level of the college informationization.In this paper,introduced the disater and backup system about the long-range data storage、data backup、data recovery and so on,and given Disater and Backup Systemwhich is matched with the finacial system for our college.
Key words: online backup; disaster recovery; data protection
1 异地备份的意义
近十年来,互联网技术及其应用极大的推动了我国企业和组织机构的信息化普及,企事业单位内部的信息系统建设已初具规模,包括企业员工的PC、服务器到数据中心。伴随而来是的在信息化过程中,大量的办公文档、设计文档、电子邮件、数据表等都储存在计算机系统上,而且这些数据维系着整个企事业单位的运营,数据的价值对企事业单位而言已经成为企业最重要财产。从右边一项调查数据可以看出,存储在计算机系统上的数据面临着种种威胁,异地备份容灾的已突显其出重要性。特别是在美国9.11事件以后,重要信息数据的异地备份保护更是引起了大家的广泛关注。我们国家即于2005年颁布了《重要信息系统数据灾难恢复指南》,并在2007年成为国标。
虽然近年来数据备份的重要性得到了大部分企业管理者及IT管理者的认识,但由于国内信息化发展比国外晚,大部分公司,特别是高校对数据备份还未有效的重视。然而由于不少企业并没有真正意识到容灾备份的重要性,对灾难性事件对企业的影响准备不足,当数据丢失的意外事件发生时后悔莫及。尽管在信息化程度较高的地区,部份公司内部的数据备份方案得到实施,然而这只是解决了公司数据安全的一部分,并没有解决公司数据在本地的一些威胁,如:计算机被窃、发生意外火灾等公司本地的数据意外破坏。不管是已经有无实施数据备份项目的公司,异地备份都是解决数据安全的重要部分。
2 异地存储备份系统介绍
异地存储备份系统主要预防不可抗拒或不可预知的事件带来的数据不可用性,可将灾难造成的数据不可用性减到最小,即当灾难发生时,异地存储备份系统保证:
1)数据在远程场地存有完全一致和可用的拷贝,数据延迟时间控制在可接受的时间之内;
2)应用可以在远程现场及时运行。
由上可知,异地存储备份系统的核心就在于在异地将灾难化解:一是保证数据中心的数据安全;二是保证业务的连续性。异地存储备份系统的关键技术包括网络技术、存储备份技术、数据复制和应用的远程切换技术。
异地数据存储备份有很多种类型,从业务不间断级别来分析,异地存储备份方案有冷异地存储备份、温异地存储备份和热异地存储备份三种类型。
一般来说,异地存储备份应用的要求越高、异地存储备份距离越远,实现异地存储备份方案的成本也越高。根据系统需求和投资情况,最终选择了基于广域网的温异地数据存储与备份方案。
数据存储与备份
温异地数据存储备份主要有两种实现方式,一种基于硬件的远程数据镜像和复制;另一种是基于软件的远程数据镜像和复制。
基于硬件的数据镜像和复制是通过磁盘阵列控制器来获得主、副存储子系统之间同步/异步数据镜像的能力。其优点是对主机的资源占用很小,能保证业务正常运行下的I/O响应;缺点是占用大量的磁盘阵列资源,降低存储设备的性能,而且仅能实现数据的远程复制,对于应用的切换还需要软件来实现。另外,这种方法比较依赖硬件环境,就是说在异地站点要配置和本地站点相同的硬件才能完成异地存储备份功能,成本相对较高。
基于软件的数据镜像和复制是通过软件形式实现的数据异地存储备份方法。现在有许多公司都有这种基于跨平台存储管理软件的异地存储备份解决方案。基于软件的数据镜像和复制不依赖于存储硬件,中心可以灵活地选择任何厂家的磁盘阵列,便于保护投资。同时,其设备管理简单、价格相对硬件实现更为便宜、两个现场间的距离不限、主机资源占用也不大。
3 系统灾难备份/恢复体系设计
灾难备份/恢复方案可以满足用户对于计算机系统、数据的最高保护要求,保证即使发生断电,火灾等严重灾难时,用户业务也可以7x24小时的连续运行,同时确保业务数据在主中心和备份中心得到及时的更新,保证用户数据最大的完整性。
通过进行重要业务数据的远程同步实现用户重要业务数据的远程异地存储,为实现业务系统的远程正常运作奠定坚实的基础;容灾系统的关键就是远程生产数据的自动复制,由于用户的应用均为基于数据库的联机事务处理(OLTP)业务系统,所以业务数据远程复制的关键就是确保数据库数据的完整性、连续性,实时性和可恢复性。基于现有情况,根据容灾需求,我们主要考虑以下灾难备份/恢复方案:
通过最新存储产品磁盘阵列,可以实现主数据中心和备份中心的操作系统、文件系统、数据库、应用程序的实时远程拷贝复制。主、备中心磁盘阵列本身就可以通过阵列上的微处理器完成数据的实时同步功能,将灾难发生时关键数据的损失降至最低,而且不需要主机干涉或占用主机资源,可以做到灾难发生的同时实现应用处理过程的恢复。
图1 惠普公司XP阵列
1) 磁盘阵列容灾方式结构简介
目前HDS在高端存储有个产品:USP和NSC1这两个产品目前被两大服务器厂商HP和SUN所OEM和销售,是业界稳定性和性能最高的存储产品主数据中心和备份数据中心的结构基本一致:采用HDS系列磁盘阵列作为中心存储,所有主机通过光纤与磁盘阵列相连。磁盘阵列上运行TrueCopy容灾软件。主中心与备份中心之间的磁盘阵列物理上通过两条光纤通道直联,采用磁盘阵列上的容灾软件TrueCopy做到两地数据实时同步。两套磁盘阵列之间数据一致性依靠磁盘阵列本身的专用软件来完成,完全不依赖主机系统,也不影响本地应用的响应速度。
此方案最大的优势就是对主机应用完全透明,所有数据复制工作由磁盘阵列硬件层完成,不需修改应用,而且可以保证大量数据复制的性能。由于磁盘阵列数据复制原理是利用磁盘远程镜像功能,所以可以保证主数据中心关键业务数据和备份中心关键业务数据的完全一致,而且容灾系统实现起来非常简便。还可以充分利用现有服务器设备,实现应用系统和重要数据的灾难恢复功能。由于容灾距离,用户环境和业务需求也十分适合于使用磁盘阵列实现存储硬件层的灾难备份恢复方案。而这种容灾方案的主要限制就是由于在磁盘一级进行数据复制,对应用系统完全透明,所以相比应用层和数据库层的容灾方式,复制的数据量较大,对光纤数据链路传输质量和传输带宽要求较高。
2) 基础设施
① 在硬件平台方面,从网络带宽、主机处理能力、SAN存储性能等各个方面强调高配置,为系统高性能打下了坚实的基础;
② 在系统平台的配置方面,强调系统平台自身的先进性和系统配置、整合方面的不断优化。如:ORACLE RAC集群的配置、WebLogic集群的配置、连接池的优化配置、采用数据分区技术、数据库配置参数优化等等;
③ 最后强调运用先进的测试手段,来验证系统的高性能。
3) 应用架构
针对“学校备份中心”的特点,结合目前最新的构造复杂信息系统的技术,“学校备份中心”应该采用目前成熟和先进的多层架构体系,从而使系统具有很高的性能及扩展性。
4) 数据存储
数据存储采用成熟的存储局域网技术( SAN),满足高性能存储需求和扩展性的需求。SAN的最大特点就是可以实现网络服务器与存储设备之间的多对多连接,而且这种连接是本地的高速连接。SAN架构的优势在于:强大的扩展性、多种存储设备的集中和新架构支撑下的新型数据应用方式。
5) 备份容灾建设的关键技术
容灾系统主要包括数据保护和应用切换两大方面,其中最基础也是最重要的是数据保护部分。下面是几种主要的数据保护技术。
需要保护的数据包括各种业务数据以及重要的历史数据等,一般为数据库数据。除了要将这些数据存放在高可用的存储设备上之外,最重要的是这些关键数据应该在异地之间保持一致,以使灾难发生后,系统可以尽快恢复。
在实际的容灾系统中,由于系统的环境不同,安全性要求不同以及采用的软硬件产品不同,数据复制过程中的工作机制也不尽相同。概括地讲,数据复制地工作机制主要包括同步和异步两种。
同步远程镜像是指通过远程镜像软件,将本地数据以完全同步的方式复制到异地,每一本地的I/O事务均需等待远程复制的完成确认信息,方予以释放。同步镜像使远程拷贝总能与本地机要求复制的内容相匹配。当主站点出现故障时,用户的应用程序切换到备份的替代站点后,被镜像的远程副本可以保证业务继续执行而没有数据的丢失。但它存在往返传播造成延时较长的缺点,只限于在相对较近的距离上应用。
异步远程镜像保证在更新远程存储视图前完成向本地存储系统的基本I/O操作,而由本地存储系统提供给请求镜像主机的I/O 操作完成确认信息。远程的数据复制是以后台同步的方式进行的,这使本地系统性能受到的影响很小,传输距离长,对网络带宽要求小。但是,许多远程的从属存储子系统的写没有得到确认,当某种因素造成数据传输失败,可能出现数据一致性问题。为了解决这个问题,目前大多采用延迟复制的技术,即在确保本地数据完好无损后进行远程数据更新。以异步为数据复制手段,其切换时间相对同步复制较长但却是防范灾难范围更广泛的异地远程灾备模式。
4 结束语
综上所述,此方案的优势就是对主机应用完全透明,所有数据复制工作由磁盘阵列硬件层完成,不需修改应用,而且可以保证大量数据复制的性能。由于磁盘阵列数据复制原理是利用磁盘远程镜像功能,所以可以保证主数据中心关键业务数据和备份中心关键业务数据的完全一致,而且容灾系统实现起来非常简便。还可以充分利用现有服务器设备,实现应用系统和重要数据的灾难恢复功能,确保了系统和数据的安全,保证了学校系统正常运行。
参考文献:
[1] 金崇英.在线备份和异地容灾软件的设计与分析[J].计算机应用与软件,2008,8(25).
[2] 盖国强.循序渐进Oracle数据库管理、优化与备份恢复[M].北京:人民邮电出版社,2007,1.
云存储兴起
自亚马逊首次推出简单存储服务(S3)存储目录(Storage Bucket)以来,一些科技公司一直在关注如何把更常见的数据类型存储在云端。存储目录可以在成本、访问以及可扩展性这三个方面提供独特的功能。存储目录包含有存储对象,用户可以借助一种可高度扩展、与位置无关的HTTP协议,通过网络实现对存储对象的访问。然而在形式上,存储目录技术与企业存储完全不兼容,它不仅需要一种外来存储协议,还需要其对延迟和不稳定的性能有很强的容忍性,这对主流的企业应用来说完全行不通。
这种情况为存储厂商带来了机会,不过挑战也随之而来。最早的云存储公司希望利用存储目录的模式,以云的独特功能来应对IT挑战。乍一看,这似乎是很容易完成的任务,但是这需要在两方面进行重大改进:一方面是将传统基础架构和云连接起来,另一方面是充分利用云,改善数据和应用程序的访问。由此产生了第一代基于云的存储方案,包括专用应用软件、协作解决方案、备份解决方案、数据归档,以及连接云的存储设备(这种硬件可以临时使用本地存储来缩短延迟,并使用云的外来存储协议实现传统存储的访问功能)。
与云集成的企业存储
目前,如何将云与企业核心应用的主数据结合起来,还没有得到人们的重视。由于这些数据是企业中最宝贵的无形资产,因此对于它们的存储也有着更苛刻的要求,想利用彼此特性不相容的云来满足这些要求,无疑困难重重。
与云集成的企业存储作为一类新的技术,有望解决云访问特性和企业存储需求不一致的问题。其办法是先提供企业级主存储,然后,利用云计算技术使这种主存储具有一些独有功能,其应用范围绝不只是增加容量这么简单。事实上,云会从根本上改进每一项存储功能,并且扩展存储功能和存储深度。
虽然乍一看,这种存储可以很简单地连接到云(见图1),但其实它要复杂得多。新型技术可以对数据存储每个字节的放置进行优化,然后借助云所具备的随时随地访问、安全以及近乎无限扩展的特性,从而增加主存储的持续性以及功能性。
相比以往连接到云的硬件和软件,本地存储系统对存储的每字节数据,将具有更加全面的管理功能,而不是纯粹在充当一种缓存或传输设备。本地存储系统会以最佳方式存储数据,并且不断进行优化,使高度活跃的数据存放在系统的高速存储系统中(见图2)。
CES应对存储生命
周期的挑战
CES将会对存储方法带来重大而深远的影响,云和主存储系统的集成,使主存储系统能为物理资源有限的设备、系统或数据中心带来前所未有的功能和数据管理应用。这样可以大幅减少甚至消除迁移和处理存储数据的需求。
企业中的数据和信息管理的生命周期可能极长,再加上需要对数据做一些必要的处理,因此,整个过程既复杂又费钱。生命周期始于主存储系统,可能牵涉许多不同的独立的存储系统和技术,在企业中造成完全孤立的IT系统,如备份、归档和灾难恢复。对于这些独立的IT系统和存储孤岛,云带来了新的机会,有望降低其复杂性和拥有成本。不过就算拥有新的技术,每个IT系统仍然是独立的孤岛,仍然面临着巨大的成本挑战。这使得数据生命周期的管理需要付出极高的成本(见图3)。
把云和数据的主要创建源结合起来是个不错的方式,这样可以在数据创建时操纵每个部分的业务数据,从而消除这些孤立的系统,达到节省成本、把云集成技术推到主存储市场前沿的目的。这种解决方案究竟能够解决什么样的数据问题?以下是几个例子:
保留 数据一旦创建,就可以保留起来,用于归档和合规;然后,在合适的时候将数据传送到云端,不需要另外的应用软件、存储设备和IT流程。同时,所有数据在一个整合的访问点,可确保可视性和可访问性。
保护 用于数据保护的数据副本(快照和克隆)可以迁移到云端,从而实现对主数据的保护。通过利用将快照自动放置在企业内部、云端或者两者兼有的功能,CES阵列能提供具有多重优点的备份,比如长时间、低成本、全球分散、内部可访问等,而且不需要传统的备份磁带和异地磁带。此外,基于市面上现有的解决方案,不管从内部副本恢复数据,还是从外部副本恢复数据,其速度都比传统的本地和异地恢复快得多。
灾难恢复 在“保护”、“保留”的同时,主数据仍可定期与云同步,以便创建异地副本;如果方法得当,异地副本可以永久取代原本复杂的灾难恢复技术,摈弃磁带和物理传输,并且提供主存储库,其中的恢复数据可以从任何地方访问。这样可以充分利用高度虚拟化的托管型灾难恢复,从而节约大量传统备份基础设施。
这些例子并非轻而易举就能成立,但其优点则可以大幅改变数据存储和管理的方法,并且把多种技术精简为只需要一个数据存储和管理阵列。
CES的核心要求
虽然CES在创新和产品差异化方面还需改进,不过交付CES的需要注意以下几点。尽管每项功能单独看起来似乎很简单或很普通,但是这些功能的有机整合将会在数据存储方面带来巨大的突破,(如图4)。
为主存储而生
CES是为确保主存储的性能和高可用性而设计的。与以往一样,主存储必须包括双控制器,这种模式专为不间断操作、企业组件和冗余吞吐量而设计。此外,如今追求性能是创新的原动力,用户一方面需要高I/O介质(固态硬盘),还要求出色的缓存方案,以便不断提供最佳性能,同时能够自动对数据分层并迁移到磁盘,以便最大限度地减小存储成本。
天生就有主存储功能
另外,CES要有最先进的主存储功能,它们需要完全集成在阵列里。这类功能包括内部阵列虚拟化(可以降低复杂性,把所有磁盘汇集成易于使用的单一存储资源)、自动精简配置、快照克隆技术、灵活复制以及企业级管理和可视性。目前连接到云的存储设备往往过于依赖云连接,这类系统并不能提供随时可用的主存储功能。
力求阵列之外的创新
最后,交付CES绝不仅仅是让云成为存放非活跃数据的地方。云需要独特的集成,不具实力的厂商也许能提供额外容量,但是它们根本无力改进和扩展阵列,以处理复杂的生命周期问题。创新的集成将不仅能够实现容量扩展,还能够提供简易的、随时可用的备份,无缝的异地数据保护,随时随地的灾难恢复,以及不被运营商绑定的、开放的、全面的性能和容量优化。这些功能的组合将使得单一个物理设备就能跨越物理边界,满足数据存储生命周期的所有要求。
CES将是来自云的最有影响力的存储技术。它必将解决数据中心中最复杂的存储任务,其中除了更换或添加主存储阵列外,对基础架构不会有太多的改变,CES还将有望大幅改变存储的总体拥有成本,并引发创新。但是厂商是否注意整合企业内外的数据,并使用云和企业存储这个组合来应对数据管理生命周期的挑战,长远来看将关系到厂商能否取得差异化的优势。
链接
CES相关厂商
目前只有少数几家厂商真正在交付CES方面有所突破,不过有几家厂商已经开始往CES方向稳步前进。在各大厂商中,惠普的3PAR在这方面走得比较靠前。不久前,3PAR的团队CloudAgile计划,致力建立创新的云合作关系。HDS最近也进军CES领域,它将收购的BlueArc(网络附加存储即NAS)和Panasas(向外扩展的文件存储)与日立内容平台(Hitachi Content Platform)联系起来。但是对各大厂商来说,仍有大量工作要做,当然也有大好机会。这些传统厂商已迈出了第一步,即把各自的主存储与自家的“私有云”集成起来,预计下一步将是与公共云集成。
人们通常认为数据存储是成本最低的IT开销之一。随着磁盘价格的猛跌,以及支持大规模部署的新存储网络技术和差异化成本的多层存储技术的出现,数据存储的性价比已经达到了一个非常理想的程度,但是存储消耗总量的增速却抵消并且超过了单位成本的降幅。
赛门铁克数据中心基础包括Veritas NetBackup、Veritas Storage Foundation、Veritas Server Foundation和Veritas i3应用性能管理等解决方案,它们取代了以往保护关键信息和应用并确保它们可用性所需要的几十种不同的工具。
为什么需要改进存储管理?
现在许多企业数据中心和存储网络所面临的情况是由多种因素导致的。由于业务和法规的要求,企业关键信息是以几何级速度增长,并且通过电子邮件、电子商务和电子系统不断涌入数据中心,而这种情况预计在未来还将持续下去。
对于不断增加并被存储的企业数据流必须进行管理。存储的数据量越大,需要进行的管理、资本费用以及运营开支也就越多。随着存储成本在企业的IT资本和运营开销方面的影响越来越显著,企业正寻找方法来尽可能减少这些因素。
现在的企业网络架构一般都是由分散和移动系统构成的异构网络,并且采用了多层存储架构。大多数数据中心的设备都来自多家UNIX厂商,并且有更多的数据中心采用了Linux和Windows两种操作平台。该领域的企业正在寻找新的工具和最佳实践来减少它们存储网络的成本和复杂性。
Veritas Storage Foundation包括了Veritas Volume Manager、Veritas File System、和Veritas CommandCentral Storage。Veritas Storage Foundation核心包括了一个名为VxFS的文件系统,并集成了名为VxVM的数据存储管理器/存储虚拟系统。
Storage Foundation是一种管理企业存储的高性能、可扩展的工具集,它可以在所有主流UNIX平台上提供一个共享的用户接口。这些UNIX平台包括:Solaris、HP-UX、AIX和Linux (RedHat 和 SuSE)。
存储基础管理服务器
存储基础管理服务器(Storage Foundation Management Server,简称SFMS)是一种改变存储管理的免费技术。通过结合SMFS和Storage Foundation,IT企业可对其存储环境拥有前所未有的可视能力和控制能力。
通过单独、安全和基于WEB的平台,IT企业可以查看跨应用程序、服务器和存储资源的独特资源。
CIO负责管理运行Storage Foundation的服务器,可以通过安全的、基于WEB的用户界面迅速查看企业中是否有应用程序面临威胁(比如:磁盘故障、复制链接问题、路径故障)。管理员可以迅速修复这些问题(所有恢复工作都通过同一个控制台)并且消除对企业造成威胁的隐患。
集中存储和数据管理:虚拟化
对于连接到服务器的在线存储访问,VxVM数据存储管理器通过两种方式进行控制:一种是直接进行控制,就像对磁盘驱动那样;而另一种方式是则是作为逻辑单元(简称:LUN),比如存储网络上的磁盘阵列。
通过与主操作系统中的适配卡和设备驱动的协同工作,VxVM组织这些设备的模块存储并以类似磁盘驱动的虚拟存储设备与上一级进行交互。
由VxVM表示的虚拟存储设备在文件系统和实用程序看来就像是类似磁盘驱动的模块存储设备。这种类似磁盘驱动的数据存储设备具有很大的优势,因为几乎所有的存储实用程序、文件系统、数据库管理系统都可以处理存储在磁盘驱动上的数据。通过像磁盘驱动那样的工作,应用程序和数据管理系统便可使用这些存储设备,而无需投入额外精力或者进行任何修改。
多层存储功能
Storage Foundation的动态存储分层(Dynamic Storage Tiering,DST)功能可以允许IT经理将时间较为久远、或者不经常使用的信息转移到便宜的存储层中,而无需改变用户或者应用程序访问这些文件的方式。
关键词:计算机;网络存储;发展方向
中图分类号:TP333 文献标识码:A 文章编号:1006—8937(2012)23—0095—02
1 网路存储技术简介
①DAS(Direct Attached Storage,直接附加存储)技术。在企业开始时,用户的存储规模和要求都不大,只是把相关的数据存储在一个特定的地方。不仅数据存储的最终目标是能够安全保存,而且还必须保证数据可以随时调用。DAS的直接连接,可以解决单台服务器的存储空间扩展,高性能传输的需求,和一个单一的系统外部存储容量引进大容量硬盘,一个单一的外部磁盘存储系统容量将上升。此外,DAS还可以构成一个以高可用性磁盘阵列为基础的双机系统,以满足数据存储的高可用性要求。在网络带宽足够的情况下,服务器本身成为数据I/O的瓶颈。之前绝大多数存储系统都属于这种类型。
②NAS(Network Attached Storage,网络附加存储)技术。NAS的方式全面改善了以前低效的DAS存储,它是独立于PC服务器、文件服务器,单独为网络数据存储。 NAS是一个集中的存储,易于管理和维护。NAS技术分开数据处理,处理和存储数据的设备已经不再是一个主机的附属物,成为网络中的一个独立的实体存在。这种存储技术,存储设备由于不直接与服务器连接,存储容量是很容易扩展的,因而NAS具有良好的灵活性和可用性。但其主要缺点是:增加网络流量,成为用户传输数据的瓶颈。
③SAN(Storage Area Network,存储域网络)技术。SAN是一种新型的数据存储技术。它是传统SCSI技术与网络技术相结合的产物。具有高可扩展性,可管理性和容错好处。SAN技术能有效地克服以上两种技术的功能缺陷,以实现企业数据存储的高可靠性,高可扩展性和高度集中性。加强数据管理,降低总成本。存储设备已经不再是一个私人设备和网络接入到任何存储设备的主机,所以在网络上的主机可以通过主机总线适配器(HBA)访问。SAN技术不仅提供大容量存储的数据,还可以缓解大量的数据传输。SAN对企业网络数据存储局域网的影响,已成为一种必然趋势。
④虚拟存储技术。要形成一个大容量的内存在使用虚拟存储、存储器和外部存储器,这种技术被称为虚拟存储。虚拟存储技术迄今为止没有统一的标准,其虚拟化存储的拓扑,主要表现在两个方面:对称与不对称。对称式虚拟存储技术是虚拟存储控制设备与存储软件系统,交换设备集成为一个整体,内嵌在网络数据传输路径。非对称虚拟存储技术是指虚拟存储控制设备独立于数据传输路径。虚拟存储既克服物理设备的局限性,又具有物理设备在高性能、高可用性、充分利用等方面的优势,因此该技术也得到了广泛的应用。
2 不同网络存储技术的选择
DAS这种技术已经比较原始,存储系统是计算机系统的一部分,大多以存储设备形式出现。此方案使数据相互隔离,容易形成数据岛屿。NAS和SAN与传统网络存储技术相比而言,无论是从网络传输带宽、数据共享性还是从存储容量的可扩充性、数据的一体化和安全性等方面来说,其优越性是不言而喻的。所以,现在众多的用户在对其存储技术进行选择时,其首选已经不再是DAS了。
①选择NAS技术。如图1所示NAS设备主要用于不同的操作系统平台下的文件共享应用,NAS作为一个网络附加存储设备,可以是有效的,紧密的释放系统总线资源,全力支持I/O存储。与传统的服务器或DAS存储设备NAS设备安装、调试、使用和管理非常简单相比,使用NAS可以节省一定的设备管理成本。应用NAS存储技术的企业,维护成本低,使用可以发挥现有网络优势。NAS比较适合中小型企业的数据存储。
②选择SAN技术。如图2所示,SAN通常是基于光纤通道SAN网络存储设备和服务器连接到这样一个大的数据访问需求,数据通过SAN网络之间的服务器和后端办公存储设备。局域网的带宽消耗几乎为零,而且服务器可以访问SAN上的任何存储设备,数据具有可用性。性能和可靠性要求应用场合使用先进的SAN数据存储网络、数据存储、备份和原有的局域网络,这将减少网络负荷,以确保现有网络顺利应用无关的其他活动。SAN网络采用光纤传输通道,高速数据传输速率。因为以上特点,SAN非常适用于服务器集群,远程灾难恢复,互联网数据服务等领域。
③选择虚拟存储技术。虚拟存储技术提供了更好的存储资源管理方案不同类型的存储设备,可集中管理和使用,保护用户以前购买的存储设备。存储技术可以用来解决浪费的存储空间,它集成了多种分布式的存储空间,形成一个连续寻址的逻辑存储空间,打破了单个物理磁盘的容量限制。存储池自动重新分配数据和高效的快照技术降低容量需求,并极大地提高存储资源利用率。
3 网络存储未来的发展方向——云存储
云存储是未来计算机网络存储的发展方向。顾名思义,云存储是伴随着云计算应运而生的。云存储这种商业模式共享了服务器的数量,大大提高了其服务的使用率。以下讨论了云存储所应用的相关技术。
①应用存储技术、网络宽带技术。可以通过应用存储技术来减少云存储中服务器的数量、数据传输链路。从而使系统建设成本的降低,其可以减少单点故障和性能瓶颈服务所造成的系统故障,可以减少,并最终以确保整个系统高效,稳定运行。是可以存储应用程序、服务器和存储设备的集合。宽带不仅关系到速度,但也有一些相关技术,例如协议、通信技术,半导体技术和网络技术。分布在全国和世界的云存储系统,用户通过宽带接入设备来连接云存储。为了获得足够的数据带宽,真正享受到云存储服务的网络带宽用户,他们必须有足够的发展。
②存储网络化管理技术、存储虚拟化技术。存储虚拟化允许多个存储设备,以实现统一管理,部署和监控的目标。在虚拟云存储环境,用户的存储设备的详细信息和物理位置是透明的。虚拟存储统一通过云来实现统一管理,用户感知、查询许多不同的信息资源和服务。
③集群技术、分布式文件系统。云存储系统是由多个不同的存储设备,通过集群技术,分布式文件系统技术来实现,可提供同类服务,可以提供数据访问的性能。
4 结 语
随着计算机系统和网络的不断发展,计算机网络存储的方式也越来越多。文章对网络存储的技术进行相关的讨论,并且分析了相关存储技术所应用的情形。云存储以其在扩展性、高效性、安全性等方面的优势,将成为未来网络存储的发展趋势。所以文章也对云存储进行了相关的讨论。
关键词:数字图书馆;信息数据;安全;存储
中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)14-3226-02
数字图书馆是未来图书馆发展的方向,也是一个国家和地区文化科技的知识宝库,随着数字图书馆建设的不断加快,全方位信息服务水平的不断深入,信息数据资源不断增多,馆藏信息数据的安全保护也提升到了一个新的高度。
信息数据安全保护有两层方面的含义:一是数据自身的安全保护,主要是指采用现代加密算法对数据进行主动保护,如数据保密、数据完整性、双向身份认证等。二是数据存储的安全保护,主要是采用现代先进的信息存储手段对数据进行主动保护,如通过磁盘阵列、数据备份、异地容灾等手段保证数据的安全。数据自身的保护是一种被动的防护,必须基于可靠的加密算法与安全体系来进行,而数据存储的防护是一种主动的防护措施,是将数据本身或者其中的部分以及全部内容在某一点的状态以特定的格式保存下来,以防数据源出现丢失或毁灭等其他各种原因不可用时,可及时准确的将数据备份内容进行恢复的技术。
1数据安全保护技术的现状
在说明现状之前,请看二个真实的例子:
1)2007年5月,蓝色巨人IBM遭遇了一起令人尴尬的数据丢失事件,一批存有IBM员工和客户账户信息等敏感信息的数据备份技术磁带在运送到纽约西切斯特郡过程中意外丢失后又神秘消失了,由于其中只有一部分磁带对信息进行了加密处理,因此剩余磁带中的信息都面临随时泄露的风险,这就迫使IBM不得不在当地报纸刊登广告,希望有人能归还这些磁带。
2)2008年初,瑞典公共图书馆Stockholm的一台电脑上发现了一个带有军方机密信息的U盘,其中包括Improvised Explosive De? vices(简称IED,一种可在安全距离有效地引爆起获的简易爆炸装置)和阿富汗国内地雷分布等数据信息。随后该U盘被人交给了瑞典国内发行量最大的晚报《Aftonbladet》,并由后者移交给了相关政府机构。
这两起案例虽不涉及图书馆行业,但其中的危害还是让我们认识到单纯的数据存储保护不能够完全的保证系统数据源的安全,即时已经备份了的数据也会面临安全性问题。数据存储保护的最终目的就是快速、准确的将信息恢复至某一时刻的状态,犹如时光机器,可以将信息的历史状态完全记录并进行回放,无疑是一剂可以随时服用的“后悔药”。但是,一旦这剂“后悔药”别人也能服用甚至被销毁,那么数据存储保护技术还能保护你的数据吗?
结合数字图书馆来说,馆藏信息数据主要分为三类:一类是馆内信息,包括历史沿革、馆藏图书机读目录等。二类是自建信息,包括科研信息收集库、馆内读者个人信息、资源服务跟踪信息等。三类是购买信息,包括各种电子资源等。就目前所知的的解决方案,大体可以分为物理保护与逻辑保护两种形式:1)物理保护主要确保存储备份的介质在储存与运输时时的完整性与可靠性。2)逻辑保护主要指备份数据不会被解密,不会被非法的、非授权的访问读取。数据备份技术加密是也解决方法的另一种途径,但在执行数据备份技术任务时会对客户端的性能造成影响,通常在30%~50%之间,因此后台加密技术只有在多核CPU普及后才获得了长足的发展。
2图书馆信息数据保护之道:备份、容灾走向融合
在云平台、智能共享愈演愈烈之时,未来图书馆信息数据将怎样发展?诸多解决方案供应商均了对未来发展趋势的预测,除了云平台、虚拟化以及大数据等热门词汇毫无悬念地位居其中之外,数据容灾首次得到专门"对待",预测的结果表现出了现有数据备份方式将会改变,简单化保护管理将成为未来数据灾难备份技术的重要发展趋势。
我们认为,未来的所有产业都将基于信息技术,产业的核心动力在于信息技术的发展,产业随着信息技术的量变或质变而变化。结合到图书馆行业,笔者认为未来的图书馆更多的是数字图书馆,实体的纸质图书馆将仅限于城市内综合馆的一部分,信息化的数据资源将是图书馆内容的主体,数据信息将越来越重要,相应地,对灾难备份方案的要求和重视程度也越来越高。如果因为灾备方案的缺失,硬件故障致使整个系统宕机,长时间无法恢复,所有图书信息服务业务被迫停止,急需查找的资料或书籍而连不上本地区数字图书馆,进而影响到决策或某项商业活动,所造成的危害根本无法用数字去衡量。
但由于成本方面和技术普及需要时间等客观因素,目前采用的备份方案或只能够备份数据,或只能够备份系统,更有的是仅仅只针对某些应用程序的备份,灾难来临需要数据恢复时又需要备份方案中配套的专门恢复软件,当需要多个备份方案同时进行时就造成了相关资源和经费的浪费并增加了数据管理的复杂性。2012年2月1日,根据Acronis 2012年全球灾难复原指数(Disaster Re? covery Index, DRI)显示,全球仍有32%的中小企业采用3种或3种以上的备份、容灾解决方案。无独有偶,笔者在与图书馆同行交流当中了解到甚至有同时使用4、5种备份、容灾解决方案的。
众所周知,数据备份的目的是为了恢复,而最关键的步骤也是恢复。然而这么多种的灾难备份解决方案,却没有增加数字图书馆在遭遇数据灾难时恢复的信心。由于要从多种不同的备份环境中恢复需要的数据非常繁琐,图书馆行业甚至是所有相关产业都迫切希望能够拥有一种能够在各种物理平台、各种数据库、多种虚拟以及云端平台环境中使用的“通用恢复平台”。
面对这种需求,有的数据灾难恢复方案商已经开始有所研究,主要方法是在“通用恢复平台”上集成多种备份恢复技术,已优良的用户界面和傻瓜式的操作来以降低管理的复杂性。如一些方案商提出了灾难备份恢复一体融合的理念,戴尔在它推出的以“流动数据架构”为核心的智能数据管理解决方案实际上就是“存储备份容灾一体化”的雏形:“流动数据架构”通过以“适合的地点、适合的时间、适合的成本、适合的数据”,为客户优化存储基础架构,更智能的数据管理策略提供有力的帮助。戴尔认为现有的数据存储有五大问题:1)存储架构缺乏灵活性,扩展成本居高不下。2)存储架构效率低下,存储性能和容量浪费惊人。3)数据保护成本昂贵。4)维护和管理成本等隐性成本偏高。5)信息监管成本越来越大。针对这些问题,当然主要的是存储上的问题戴尔提出了通过流动数据来帮助用户实现高效IT和降低存储成本。在“流动数据构架”中,通过使用内容感知的重复数据删除技术,帮助用户实现存储数据的压缩,在存储空间不变的情况下,最大化的利用存储容量。而虚拟存储技术则是一个在虚拟环境下的高效存储技术,能够使用户的存储效率最大化。利用自动分层技术则能帮助用户实现数据的自动化存储问题,它能自动分辨出高使用率数据和低使用率数据,实现高低数据之间的自动流动,让信息数据可在主存储、备份及容灾系统之间自动流传。
当然在这方面有所成就的不止戴尔一家,包括国际厂商的惠普、EMC,国内厂商的浪擎、清华等都加强了在存储和灾难备份方面的一体化整合,包括服务器、网络以及存储的灾备一体化融合解决方案层出不穷,简单化管理、智能化、自动化必然是数据信息保护行业的大势所趋。
然而,就目前国内中小数字图书馆经费和技术条件的实际情况,对那些服务对象为综合大馆的以硬件为基础的一体化灾难备份恢复解决方案只能“望洋兴叹”。在这种情况下,部分方案提供商以其敏锐视角开始为这部分用户提供了单纯利用软件来对数据信息进行备份的方案,以能够确保服务中断后可最大限度的快速恢复,例如SIMPANA软件,它是Comm Vault一体化信息管理(Sin? gular Information Management)软件套件的品牌名称,它提供了数据保护、归档、复制、资源管理和搜索模块,并利用统一的一套源代码无缝的结合在一起,能共享相同的服务功能。再如爱数的云落地战略,它的核心就是云计算平台,它直观的展示了“一个中心,多个基本点”的思想。平台战略以Tx3系统中心为中心,多业务应用节点为基本点,战略的核心是Tx3云平台,目前的业务应用节点包括爱数备份软件、爱数备份存储柜、爱数AnyShare等应用产品。总的来看,这些方案提供商就是围绕着云平台在进行软件活动,提供“软件即服务”的功能,用户可根据自己的实际需求灵活添加功能模块,这就是云计算中的“按需付费”。
3数字图书馆云时代需要更高级的业务连续性与数据保护
云计算是什么?这个答案众说纷纭,我的理解是云计算实际就是资源服务,是一种把在单独各个机房的各种资源整合到一起,并能通过互联网提供给更多的人使用的一种新技术,这个资源包括服务器的运算资源、存储空间资源、软件资源和数据信息资源。使用的人不需要知道服务器在哪里、空间在哪里、软件安装在哪里、数据信息存储在哪里,在任何地点、任何时间只要有互联网就能够使用,用专业的话就是提供:更低的成本,更快速的交付,更多样性的服务,它不是特定的技术,而是一种服务理念,是通过按需弹性扩展和用户自助服务实现IT服务的便捷性和自动化。
因为云计算有着这么多的优异特点,很多企业都构建了自己的“私有云”,而数字图书馆行业也逐步开始在构建自身的“私有云”,因此如何在云时代实现数据的备份和恢复,在各种“私有云”之间实现异地容灾,都是新一代数字图书馆构建时要考虑的重要问题。
目前,较为有效的云环境数据安全解决方案还不多,调研报告显示,云计算以及云端的数据安全发展大致分为三个阶段:首先是准备阶段,该阶段主要进行的是新技术的储备和新概念的推广,相关解决方案和商业运行模式尚在接触、摸索中,用户对云的认知度较低,大多持观望态度;其次是起步阶段,该阶段内一些较成熟的案例逐渐显露,用户对云的了解和认可程度也在不断提高,逐渐有新的方案提供商介入进来,根据自身的理解,涌现出大量的多种各样的解决方案;第三是成熟阶段,云的相关产业链和行业生态链基本成型,各提供商解决方案开始趋于成熟稳定,用户通过云计算取得良好的效果,并成为信息系统不可或缺的组成部分。而现在我们认为刚刚进入准备阶段,各种解决方案尚在摸索,不过其中不乏其佼佼者,比如国内信息安全厂商椒图科技近日就在北京召开了JHSE安全云解决方案会,首次向外界公布了椒图科技在云计算方面的安全理念,并着眼于云计算基础架构平台建设提出了体系化的安全云解决方案,再如总部在北京的全球信息安全解决方案的领先供应商SafeNet也了一个应用在云计算网络应用模式上的数据安全方案,通过该方案,组织机构可确保“云”模式下敏感数据的安全。还有飞康CDP的持续数据保护方案,该方案针对“云”模式下的数据提出了以数据持续保护、系统快速恢复、备份和容灾一体的解决方案。这些方案都对数据信息的灾备有一套自己的做法,其飞康CDP的连续保护技术最具特色,主要特点是:
1)在整个数据的生命周期过程中都能提供强有力的保护,它不仅仅是保护数据,还保护数据环境和系统;
2)该技术在使用过程中对云环境的基础架构没有影响,对已有的系统架构也没哟改变的要求;
3)提供了一套全面灾难防护手段,能够防范各类逻辑方面和物理方面的灾难,确保能够实现本地云环境的全面恢复;
4)具有开放式架构的特点,能够兼容大多的云存储设备;
5)在数据恢复时,具有可以人工选择数据恢复某一个项目的技术;
6)在云端环境下,主机可以做到全天连续备份;
7)具有多种复制策略(连续复制模式、压缩模式、基于时间增量模式、基于数据增量模式等策略可以单独使用也可以组合使用);
8)轻易实现从私有云、公有云环境的本地持续数据保护及不同地域间的云平台环境的的云飘移。
总的来说,在当今不断变化的“云”环境下,只有经过验证的解决方案才能够提供精细、持续的安全保护控制,用户希望能够充分利用“云”的优势,而不必以牺牲安全为代价,云的普及离不开数据安全,保证系统与数据安全势必任重道远。
4数字图书馆的数据保护任重道远
数字图书馆的数据安全包含的内容很多,该文仅仅是从存储角度来论述一个数字图书馆数据信息的保护方式,其他的如网络攻击方面,有人员管理方面等没有进行论述,这些也是数据保护的一个重要内容。总的来说如何进行数据保护不仅仅是图书馆工作者所思考的问题,也是IT行业共同关注的问题。因此数字图书馆数据保护建设要统一考虑,长远规划,保证技术的先进性和可扩展性,在技术上要适应新的网络动态变化,建立适应的安全保障体系,同时要加强安全管理,增强馆员的安全意识,这样才能保证数字图书馆顺利发展。
参考文献:
[1]刘正伟.海量数据持续数据保护技术研究及实现[J].计算机研究与发展,2012(S1).
[2]中小企业数据备份、容灾走向融合[I].微电脑世界,2012(3).
[3]梁晓欢.数据库安全、虚拟化和云计算——现代IT领域数据保护所面临的三大关键技术挑战[J].电脑与电信,2011(4) .
[4]马骁宇.企业数据保护和存储安全解决方案[J].科协论坛:下半月,2011(8).
[5]宋爱林.高校图书馆公共机房数据保护综合方案研究[J].图书馆界,2010(1).
[6]田全红.浅析新一代数据保护策略在云计算时代的应用[J].甘肃科技,2011(17).
操作型BI可提高报表、分析、与信息的速度,从而做出更快的操作型决策并采取行动。对操作型事务或需求做出业务响应的时间通常被称为“行动期”。行动期可以是几秒钟,几分钟或者几个小时,这依赖于业务需求。因此,一般考虑的大多是操作型“适时”(right-time)商业智能,而非操作型实时(real-time)商业智能,因为对给定的业务进程而言需要确定合适的行动期,而不是尽可能将行动期减少到接近实时。
操作型适时商业智能进程
操作型适时商业智能进程主要分为四类:适时数据集成、操作性商业智能报表、操作型商业智能绩效管理(BI-PM)和决策自动化。
1、适时(Right-time)数据集成
适时数据集成是企业数据集成架构中的一个组件。该架构包含了数据集成应用、机制、技术与服务,提供联合的一致的企业范围的商业数据视图。该架构中的适时组件收集用于操作型商业智能应用分析的可执行的商业事件。
数据集成有三个主要的集成机制:数据合并,数据联合与数据传播。数据集成可以采用其中一种或多种。
数据合并――数据合并是从多个源系统捕获数据并将这些数据集成到单一的长期的目标数据存储中,如数据仓库。目标数据存储包含高潜伏期的数据,典型的用于战略与战术BI进程。这些数据通过批处理方式的数据集成应用而建立,它以计划好的一定的时间间隔从源系统中提取数据。在数据合并期间,可能会通过数据转换机制对数据进行重新格式化、转换、清洗。随着源系统中的数据出现变化,变化数据捕获机制可能会被使用以使这些更新体现到目标数据存储中。抽取、转换与加载(ETL)就是一种支持数据合并的技术。
数据联合――数据联合对一个或多个源系统提供一个单一的虚拟视图。当商业应用事务向这个虚拟视图提交查询请求时,数据联合引擎从相关的源系统中检索数据,并将它集成到虚拟视图中,进行查询,同时将结果发送到提出请求的商业应用。顾名思义,数据联合总是从源系统中按照需求进行数据的检索。当数据从源数据文件中进行检索时,需要完成必要的数据转化。企业信息集成(EII)是一种支持联合方式进行数据集成的技术。Sybase Avali就是其中一种产品,它提供EII方式的数据联合。
数据传播――数据传播应用将数据从一个系统拷贝到另一个系统。这些应用通常是在线操作,将数据“推送”到目标方,也就是说,它们是时间驱动的。源系统的更新或其他事件可以同步或异步传播到目标系统。同步传播要求源系统与目标系统在同一个物理事务中同时更新。不论使用哪种同步类型,数据传播保证数据向目标方的发送。这种保证是数据传播的一种核心的独特的特征。多数同步数据传播技术支持在数据源与数据目标之间的双向数据交换。企业应用集成(EAI)与企业数据复制(EDR)是支持数据传播的两种技术。EAI驱动的Sybase RepConnect与EDR驱动的Sybase Replication Server(复制服务器)是支持数据传播的两类产品的例子。
数据集成应用所采用的方式依赖于商业与技术需求。应用可能联合使用数据集成机制与技术,也就是说,一个使用混合方式的数据集成解决方案包含几种数据集成机制是相当普遍的。
2、操作性商业智能报表
许多企业一直在做操作型报表。然而,由于数据源不断增加,企业生成统一及时的操作型报表的困难也在增加。数据联合与EII 技术可以在此有所作为,为多个分散的数据源提供一个单一的虚拟视图。对操作型商业智能报表应用而言,数据看起来有一个单一的数据存储,但实际上它们仍然存储在原始的源系统中。EII服务器的作用就是访问不同的数据源以满足基于虚拟业务视图的联合查询。
一种常用的解决操作型商业智能报表的源数据质量问题与性能负荷的方法是将详细的BTx数据通过适时数据集成合并到操作型数据存储(ODS)中。使用ODS,在任何时候都可以进行批处理、在线与即席操作型报表,而不会直接影响操作型应用的性能。它也提供一个单一的集成的操作型数据的视图,允许数据被清洗、转换为更易使用和阅读的格式。另一种解决方案是将BTx源数据传播到第二个同样的拷贝。复制拷贝通常是一个实时拷贝,因此除用于操作型商业智能报表之外,也可被用于灾难恢复。当然,该方法的问题就是,不能支持源数据的清洗与转换,因此不能处理那些必须通过多个分散的数据存储生成报表的情况。而最终将使用哪种方法将由商业与技术需求来决定。可以肯定的是一个企业的数据集成架构应该支持所有三种方法。
3、操作型商业智能绩效管理(BI-PM)
除了就商业运行生成报表之外,商业用户也希望监测并分析那些操作以识别操作型事务,防范操作型问题,以及评估每日业务趋势。这些任务由操作型商业智能绩效管理(BI-PM)来支持实现。
BI-PM应用,从简单的商业绩效的图形化显示,到复杂的由方法学驱动的显示实际绩效与计划绩效对比的记分卡都有。多数操作型BI-PM应用努力为各级经理与用户提供易于使用的图形化显示,而不是提供为商业分析员使用的复杂的记分卡。一些操作型图形显示通过对操作型结果与数据仓库的趋势数据进行比较,或者对操作型结果与已经由最佳商业实践所定义的商业规则进行评估,而将度量显示置入到商业环境中去。
除了生成图形显示或记分卡之外,操作型BI-PM进程也可以对用于分析的操作型应用所提交的动态查询进行处理。欺诈监测、风险管理与客户市场营销就是这些需要在在线BTx进程运行期间从分析进程得到快速响应的应用的例子。在多数情况下,分析型进程要求处理大量的数据。分析呼叫数据记录与网络报警等的电信应用就是此种类型的应用。金融与银行也是通常需要在操作型进程中分析大量数据的商业领域。
4、决策自动化
由操作型BI报表与绩效管理应用生成的报告与度量可能以桌面或移动设备上可交互的图形显示的形式通过电子邮件或打印的报告到商业用户。问题是,各级经理与用户常常没有时间或技能去访问、分析这些信息并基于此做出行动。因此决策自动化在此被引入以解决该问题。
决策自动化有多种形式,主要的形式有四种:一是BI警告。BI应用自动比较操作型BI度量与用户定义的商业目标与规则。基于这种比较,应用可能发送一个警告给商业用户,提醒他们可能存在一个潜在的问题或一个需要采取动作的问题。该警告可能通过图形显示、呼叫器、移动设备或电子邮件发送给商业用户,这取决于该问题的紧迫性以及用户当时所使用的接口类型。二是BI引导的分析与程序。提供了对警告的扩展,对提出警告的商业问题提出额外的支持信息。三是BI驱动的建议,自动评估警告、商业问题或商业需求,就解决该情形所需的行动给出建议。四是BI驱动的决策,评估警告或商业问题并自动采取行动修复这个问题。
操作型BI环境
操作型BI环境主要有三个组件:首先是数据集成服务组件,提供适时数据集成。其次是数据管理服务组件,存储、管理、处理商业信息与操作型智能。第三是分析服务组件,支持操作型BI报表、操作型BI绩效管理与决策自动化。数据集成服务组件必须与IT系统的企业数据集成架构全面紧密的集成,这样,数据集成机制、技术、服务与产品才可以标准化。一个有效的集成基础架构是操作型BI项目成功的一个关键因素。数据管理服务组件支持传统的商业智能方式,数据从源系统流入到操作型数据存储(ODS)或者企业数据仓库(EDW),然后进入一个或多个数据集市以进行更详尽的分析。在操作型BI中,ODS及其下面的数据集市可以达到相当大规模,也可以承担高度复杂的分析。
对一个大规模的阶段性存储、ODS或数据集市中的数据进行处理和分析,是一些新型的BI硬件与软件技术关注的方向。这些技术各式各样,可能包含BI与数据仓库工具、BI加速器、专门的数据库技术等等。不论如何,所有这些技术的目标都是一致的――提高BI进程的性价比。这些提高使对新的操作型BI项目的判断变得有所不同。判断这些技术的价值需要详尽的评估,也可能会进行概念验证的基准测试。Sybase IQ就是这种技术之一。
Sybase 操作型BI解决方案
作为全球最大的致力于信息管理和信息移动技术的企业级软件公司,Sybase始终为新一代Business Intelligent(BI)提供核心的解决方案,所提供的产品与专业服务可将数据转化为信息、知识与智慧,以使企业提高市场份额,减少客户流失。同时,Sybase还与其它领先的BI供应商缔结合作伙伴关系,为各类行业市场提供完整的BI解决方案,包括金融、政府、通讯、医疗卫生以及零售等行业。本文将对Sybase 操作型BI解决方案(Operational BI)进行评述,目的不是要提供一个深入的产品指南,而是对解决方案的主要特征进行概述,同时介绍Sybase是如何支持操作型BI环境的。
1、数据管理服务组件
Sybase可提供操作型BI数据管理与数据集成。它不仅开发了管理BI信息的产品,还开发了数据库设计产品。Sybase IQ与Sybase PowerDesigner则是其中两个关键的产品。
Sybase IQ
Sybase操作型BI解决方案的基石是Sybase IQ关系型数据库系统。该产品于1995年从Expressway收购而得,从那时起,它就稳步赢得客户的青睐。对高性能的BI信息管理能力的需求使得该产品更加引人关注。今天,全球使用Sybase IQ的客户超过750家。
Sybase IQ与传统的关系型数据库最关键的不同之处就是,它是专门为高性能的分析型进程设计的。该性能通过存储数据的方式:列存储,而不是传统关系型数据库中的行存储而获得。
Sybase IQ列存储模型提高了性能,因为查询中检索的只是列,从而减少了系统I/O。通过为每一个列的访问分配线程,允许进行并行的查询,而进一步提高了性能。这对涉及到多个列的复杂查询尤其有利。列存储模型的另一个好处就是它允许极高效率的数据压缩。例如,西班牙Telefonica管理着70TB的原数据,它们存储到Sybase IQ中,只有15TB。同时,他们发现,查询的运行速度比传统的解决方案能快到200倍。
从BI应用外部来看,Sybase IQ数据库跟其他的关系型数据库并没什么两样。该产品支持标准的SQL,提供各种功能如存储过程、函数等。应用接口支持ODBC、JDBC、OLEDB、Web 服务器。运行环境包括Linux、Windows、Unix等。Sybase IQ数据库的非结构化数据选项支持存储大型二进制对象,比如文本与多媒体数据等。
另外,Sybase还提供了一个可选的Sybase IQ Multiplexing功能,允许一个单一的Sybase IQ数据库被多个计算机节点共享。这进一步提高了大型数据库与工作负载的性能与可扩展性,服务器、处理器、硬盘可以按照需要加入到该配置中。该解决方案支持传统供应商如HP、IBM、Sun等公司提供的硬件与操作系统软件。
Sybase PowerDesigner
Sybase PowerDesigner是一个行业领先的企业模型工具,他将商业分析与数据库设计加入到传统的软件生命周期。它联合使用了大量的建模机制。包括业务进程建模、数据建模、基于对象的UML建模、以及XML建模。它支持主要的行业开发环境如JAVA、Eclipse、,而且支持超过60个关系型数据库产品包括Sybase IQ、IBM DB2、Oracle、Microsoft SQL Server等。
PowerDesigner提供了一个元数据管理功能,支持需求管理、影响分析、文档、数据映射、SOA驱动的项目的综合管理、基于角色的安全等等。它通过团队协作,以及将商业需求同商业与数据模型进行联结和同步的功能强化了商业与IT的结合。
2、数据集成服务组件
Sybase支持数据集成机制中的数据联合和数据传播方式。即Sybase Avaki EII支持数据联合,Sybase Replication Server支持数据传播。而数据合并与ETL则由Sybase第三方合作伙伴如Business Objects、IBM Ascential与Informatica提供支持。
Sybase Avaki EII
Sybase Avaki EII是Sybase公司于2005年5月通过收购Avaki公司而获得。就像其他EII产品,Sybase Avaki EII提供了一个分散数据的虚拟商业视图。对于BI应用,使用一个虚拟视图,分散的数据看起来是存储在一个单一的SQL关系型表中。当应用基于该视图提交一个SQL语句时,EII服务器访问与操作适当的数据源,组合成一个查询结果集,将结果集返回到应用。EII Server将SQL 进程智能地分配到源系统中,以减少需要从给定的源系统中检索的数据量。
Avaki EII支持的数据源包括纯文本文件(包括XML、NFS等)、关系型数据库、商业应用(例如JCA、Web服务器、或由iWay Software等公司提供的第三方连接器)。
该产品包含了有别于其他竞争对手的特征:
・服务视图,随时可用,它包含支持更深入的数据转换与分析的嵌入式程序逻辑。除了Sybase 提供的服务视图之外,开发人员可以使用JavaScript编写他们自己的视图。服务视图与SQL视图使用基于Eclips的Avaki Studio开发工具进行管理。
・Avaki EII集成框架允许服务视图与外部应用如数据质量与ETL工具、定制的代码等等进行交互。
・一个集成的缓冲工具允许结果提前预存(基于管理员定义的参数),以提升查询性能・Sybase Avaki EII提供了一个有价值的EII功能,可以直接被BI报表与分析型应用使用,或者与Sybase IQ数据库配合使用时由Sybase IQ应用使用。
Sybase Replication Server
Sybase Replication Server支持数据变化从源系统到目标系统的数据传播。在Sybase 操作型BI环境中,目标系统将会是Sybase IQ信息管理环境。其他目标系统包括那些Sybase RepConnect与EnterpriseConnect支持的系统。RepConnect 允许数据变化传播到消息产品而EnterConnect支持第三方数据库系统。
对非结构化数据进行存储,除了考虑易用性、性能和安全因素以外,还要考虑与智能挖掘相关技术相结合。
大数据要求用户不仅要对传统商业智能软件进行改造,还要对企业已有的业务系统基础架构进行改造。
大数据面临的最大挑战是大规模、实时的关联性分析。对于存储来说,高吞吐、低延迟的要求会越来越高,内存、闪存的重要性也会越来越高。
中国石油研究院总工程师赖能和表示:“我们拥有9万个CPU、25PB存储。在油气勘探数据处理方面,我们面临的主要挑战是数据量和计算量非常大,数据来源单一,处理流程非常复杂,单个文件的容量就达100TB。我们对存储的投资已超过了服务器。”
中国的大数据应用已经起步。记者采访了金融、互联网、教育、制造等行业的一些敢于“吃螃蟹”的用户。
精准营销效果佳
大数据最先从互联网行业兴起,互联网企业在大数据应用方面的一些成功经验值得其他行业借鉴。以携程旅行网(CTRIP)为例,它的大数据应用目前正处于快速发展阶段,已经在很多方面进行了有益尝试,包括细化网站平台的流程,优化业务运营,支持业务成长的决策,解决部分传统方法难以解决的具体问题。携程旅行网高级副总裁、研发中心总经理叶亚明(Eric Ye)给记者举了两个例子:在饭店推荐和航班查询方面,携程就利用其数据精细化工具来计算业务的投资回报率(ROI);携程还通过机器学习的方法识别用户,进一步改善针对用户的推荐结果,解决“查询不到匹配酒店”等难题。
利用大数据为企业决策提供支持或者实现精准营销是企业中常见的大数据应用。东方航空公司就是一例,它开展大数据研究和应用已经有很长时间,并且采购了大数据一体机专门解决大数据的相关问题。目前,东方航空公司的大数据应用主要集中在营销业务领域,包括渠道分析、航线分析、航班后期走势分析、航线上客速度分析等。在东方航空公司,大数据处理和分析的益处显而易见,它能提供更准确、更实用、更全面的数据分析和展现,形成统一的营销数据分析门户,更好地为东方航空公司营销的各个环节提供决策支持,使精准营销成为可能。
中国传媒大学高性能计算中心主任鲁永泉博士和他的团队近年来一直致力于打造中国首个动漫产业的云平台,并且已经了VSO虚拟工作室平台。此平台集虚拟工作室、动漫渲染、在线交易等众多功能于一身,是真正能够落地的动漫云平台。据鲁永泉介绍,他们已经将大数据用于动漫云平台,平台的主要功能是对动漫云的用户行为进行分析,为运营人员制定更加精确的营销和服务策略提供支持。
追求高性价比
为满足大数据的应用需求,存储平台究竟应该如何搭建呢?不同行业的用户针对不同应用会进行不同的搭配。携程已经建立了一个具有一定规模的Hadoop集群,其大数据应用就基于此集群。“为这个集群选择相应的存储方案时,我们综合考虑了I/O吞吐性能、性价比、计算密集型还是存储密集应用型等诸多因素。”叶亚明介绍说,“目前,我们标准的存储配置是基于SATA硬盘,配合JBOD、数据倾斜调整、机架感知等可靠技术的应用,实现存储和计算的优化。面对一些特殊应用,我们还会采用不同的内存存储,如HBase节点中的内存比例会稍高,而Hive/PIG等节点中的内存比例则有所调整。”
东方航空公司对于大数据存储的要求很明确,不仅要性能卓越,可扩展性强,还要实现安全保护,能够实时响应,实现负载均衡等。东方航空公司下一步将考虑引入对非结构化数据的处理。针对非结构化数据的存储,东方航空公司除了会考虑易用性、性能和安全性等因素以外,对于与智能挖掘相关的技术也十分关注。东方航空公司选择大数据解决方案秉承的原则是:业务驱动,信息技术引领,追求更高性价比。
目前,南华期货股份有限公司在大数据方面的应用还不够深入,但数据的采集和积累是其一直坚持在做的重要工作。南华期货积累的数据主要包括两年以上的全市场逐笔Tick行情数据、近10年的主力合约分钟数据、全部客户的交易和结算数据、详细的网络访问日志等。“我们的大数据应用主要集中在针对高端客户的数据服务和有针对性的交易指导方面。接下来,我们还会依托实时交易数据分析,向客户推送有针对性的咨询服务等。”南华期货股份有限公司总经理助理顾松表示。
谈到大数据对存储的需求,顾松表示,核心需求主要体现在容量、可靠性和速度三方面。针对不同的应用,上述三个需求重要性的排序也会有所变化:比如在逐笔Tick行情数据处理中,重要性的排序是可靠性、容量、速度;在网络访问日志中,重要性的排序为容量、速度、可靠性。顾松特意强调了存储可扩展的重要性:“当前,我们为每个应用都估算了具有一定冗余的存储容量,所以可扩展性的重要性并没有凸显出来。不过随着应用的发展和后续数据迁移、备份需求的增加,存储的可扩展性和重复数据删除等技术就会显得更加重要和必要。”
长安汽车股份有限公司副总裁马军最想找的是懂算法的人,希望依靠更先进的算法实现数据的自动抽取,从而提升数据采集和分析的效率。他认为,公司现有的存储平台不会成为瓶颈。
鲁永泉也表示,其动漫云平台对存储没有特别的要求:“大数据意味着大存储,而能够满足大数据需求的存储,比如HDFS等的设计理念不再强调单个存储的可靠性,而是强调利用建立副本等软件的方式来确保数据的安全。至于性能方面,大型分布式系统的单个存储节点的性能高一点固然很好,但其实对整体性能的影响不大,反而需要在网络优化方面多下些功夫。”
容量、性能同步扩
华为跨界到IT领域,其重要的资本就是在网络领域多年积累的自主研发能力和过硬的产品品质,而华为最擅长的无阻塞交换网络技术也让华为在服务器、存储和大数据解决方案的开发中显得游刃有余且特色鲜明。华为OceanStor 9000大数据存储系统在标准性能评估机构SPEC的SPECsfs2008基准测试中再次刷新记录,其性能领先友商产品3倍多。参与测试的华为OceanStor 9000的配置为100个节点,在NFS网络共享协议环境下的性能达到5030264 IOPS,位居业界第一。同时,OceanStor 9000的横向扩展架构保证了系统的线性扩展能力,在不中断业务的情况下,每增加一个新节点,容量和性能即可线性增长。
关键词:会计电算化信息系统;数据结构;优化
一般而言,会计数据的存储必须遵守五大原则,即存储共享设计原则、存储集约化原则、存储规范化原则、存储完整一致性原则和安全性原则,以下通过对会计记账凭证存储结构的设计方案分析,研究如何充份合理地运用数据存储规范化技术来优化会计数据储存结构。在会计电算化的总账系统中,记账凭证一般包括凭证号、制单日期、摘要、科目名称、借方金额、贷方金额、附件、制单、审核、记账等项目,根据以上记账凭证的输入格式,对记账凭证文件的数据结构进行分析:
一、记账凭证文件的数据存储结构设计分析
上述这种结构属于第一范式的关系,它和手工记账凭证的项目基本是一一对应的,该结构中的关键字是凭证号和科目名称,而且每一个字段都是不可分割的。但是,从这个案例也可以看出一些不足之处,凭证文件中的这一个经济业务属于一借多贷,这张会计凭证经填写完保存后,包含若干条记录,对于每一条记录而言,要么是借方金额,要么是贷方金额,不可能存在同时有借方金额和贷方金额的记录,所以,每一条记录的借方金额或者贷方金额字段总是有一个字段是空的,对于数据存储空间来说就相当于每一条记录要浪费12B的存储空间,则就这一张凭证八条记录就要浪费96B存储空间。可想而知,当系统中的凭证越多,记录越多,那么浪费的存储空间就越大。为了减少存储空间的浪费,可以对该方进行改进,将每条记录中的“借方金额”和“贷方金额”字段合并为一个字段,叫做“金额”,并在“金额”这个字段上增加一个“借贷标志”的字段,以此来表示金额的借贷方向。
二、记账凭证文件数据存储结构设计的改进
从上面例子可以看出,每一条记录都不再存在空值字段,而且每一条记录的“借贷标志”和“金额”两个字段共占14B,而之前没有改进结构中,每一条记录的“借方金额”和“贷方金额”两个字段共占24B,经过改进后的方案每一条记录就节约了10B空间,整个例子中的这张会计凭证在数据库中的八条记录就节约了80B空间,那么整个会计电算化系统中存储的凭证越多,数据库中节约的存储空间就越大。上述改进后的结构已经相对优化,但是仔细分析就会发现依然存在不足,改进后的数据存储结构虽然不存在空字段了,都有却还有很多存在重复记录值的字段,如凭证号、制单日期、摘要、附件张数、制单、审核、记账等都是重复的值,这样的设计结构还不能满足第二范式的要求,像有些非主要的属性就并不完全是依赖于其主码的,比如“摘要”依赖于“凭证号”。所以,还能对该方案进行最终的整改。
三、记账凭证文件数据存储的最终结构设计
经过对改进后的结构分析可知,在记账凭证文件中,每张记账凭证都存在两种内容,一种是只有每张凭证都存在一个制单日期、凭证号、附件张数等固定的内容,另一种是每张凭证都存在会计科目名称、摘要、金额等却是非固定的内容。这样一来我们就可以将会计凭证文件里的内容分成两个类:一类是“凭证固定内容文件”,用来存放每一笔与经济无关的内容,如凭证号、制单日期、附件张数、制单、审核、记账等,另一类文件是“凭证变化内容文件”,用来存放第一笔与经济业务之间存在对应关系的内容,如科目名称、摘要、借贷标志、金额等,这样一来,会计凭证文件的结构可最终设计如下:1.凭证固定内容文件.记账凭证文件名称:JZPZGD.DBF,各数据字段如下表1所示:2.凭证变化内容文件。记账凭证文件名称:JZPZBH.DBF,各数据字段如下表2所示:在最终的结构设计中可以看出,对于会计凭证的固定内容文件来说,每一笔经济业务只对应一条记录;而对于凭证变化内容文件来说,每一笔经济业务要同时对应多条记录,即一笔经济业务会涉及到多少会计科目就对应多少条数据记录,两类文件能过“凭证号”作为关联字段建立数据联系。这种采用两类文件形式来存放记账凭证的数据结构设计,其优点是具有很大灵活性,可以表示不同的会计分录形式,可以是一借一贷的简单分录,也可以是一借多贷或一贷多借的复合分录,同时还可以节约存储空间。上述所研究的方案凭证文件里列示的字段都是最基本字段,在实际工作中,会计信息文件所要列示的字段文件远远要多于最基本的字段,通常需要保存更多的信息,如支票号、结算单据号、外币的金额、汇率、数量、单价、部门代码等各种辅助核算信息,虽然要保存的信息比较多,但其原理是一样的,只需要增加若干字段,使得凭证文件能最大限度的保存会计核算和管理所需的信息就可以了。
四、结语
在进行会计电算化信息系统的关系数据库设计时,在结构设计分析时必须进行关系的规范化设计,规范化的过程是逐步消除关系模式中不合适的函数依赖过程,尽量简化依赖关系,使数据库模型中的各个关系模型达到某种程度的分离,提高存储效率。
参考文献:
[1]李伟,朱卫东.若干会计数据存储问题及对策研究.中国管理信息化,2008.
[2]付荣彪.会计电算化系统设计及实现.吉林大学,2008.
[3]李毅波.数据结构与算法学习系统的设计与实现,中南大学,2012.