时间:2023-05-30 10:44:18
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据仓库,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:数据库,数据仓库,数据处理
1.数据仓库的定义
数据仓库的英文名称为Data Warehouse,简写DW。W.H.Inmon。我们把它的定义为:数据仓库是一个数据 集合,它的特点是:用于支持管理决策时它是面向主题的,集成的,相对稳定的,能够反映历史变化的。从数据仓库的概念上我们可以从两个方面理解,一方面,数据仓库是用来支持决策的,主要面向分析 型数据处理,这一点有别于企业现有的操作型数据库;另一方面,数据仓库对多个异构的数据源进行有效集成,在集成后又按照主题重新进行了组合,并且包含历史数据,尽管如此,却一般不再修改其存放在数据仓库里的数据。
2.数据仓库的特点
(1)面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统
之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。。
(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数
据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时
发生变化。数据仓库的数据主要供企业决策分析只用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新。。
(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,以对企业的发展历程和未来趋势做出定量分析和预测。
3.数据仓库的结构
如上图所示,整个数据仓库系统包含五个层次:
(1)数据源层。是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。。
(2)数据导入层。是数据在进入数据仓库前的一个临时存放区,通过数据调度工具将业务系统传送过来的数据表、文本文件等加载到临时存放区。
(3)数据服务层。是整个数据仓库系统的核心。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
(4)应用服务层。应用服务层的功能主要是建立多维数据集、进行OLAP分析、生成各种静态报表并以WEB方式提供各种功能的查询分析。
(5)用户层。根据对数据仓库需求的不同,数据仓库的用户可以分为普通用户、技术用户、高级管理用户这三类。不同用户对数据仓库访问的需求层次以及复杂度都是不同的,简单的需求是访问一些固定的静态报表和查询分析,复杂的可以通过前端展现的工具生产一些灵活、动态的即席查询报表,以满足业务部门一些临时的、迫切的报表需求。
4.相关的网站和论坛:
(1)数据仓库之路 dwway.com/html/news.html
(2)MyDWBImydwbi.com致力于打造最专业的中文数据仓库,商务智能社区
(3)商业智能和数据仓库爱好者bihuman.com/
(4)数据挖掘研究院 chinakdd.com/
5.研究和商业机构
(1) 北京大学移动通信数据仓库联合实验室
2006年5月由中国移动、北京大学、亚信集团联合建立,该实验室”是全球容量最大的数据仓库分析系统实验室,也有效的整合了三方得优势资源。中国移动通信目前构建了目前国际上最大的数据仓库系统,联合实验室的建立,既能推动中国移动自身数据仓库系统建设,也能明显推动数据仓库技术向纵深发展。
(2)中国人民大学数据仓库和商务智能实验室
2004年5月由中国人民大学和全球著名的数据仓库厂商NCRTeradata联合建立。该实验室承担了国家863计划、国家自然科学基金重点项目、教育部重点项目等国家重大科研任务。借助于NCRTeradata的优势技术,双方将通过密切的合作,共同开发具有中国行业特色的数据仓库和商务智能应用软件。
(3)北京汉端科技有限公司
北京汉端公司是一家专门从事商业智能信息化服务的企业,从1996年就开始专业做数据仓库,它在数据仓库领域是相当专业的,在这可以接触到最前沿的数据仓库技术。
(4)上证所金融创新实验室
2006由上海证券交易所成立,该实验室的数据全部来源于数据仓库系统。 上证所在推出金融新产品时,都曾通过数据仓库平台进行过测算和验证。通过实时数据仓库技术,为上证所的经营、监管、创新和服务决策提供数据支持,极大的提高了监管的效率和服务的性能,能够更好地服务市场和监管市场。
参考文献:
1伍小荣 伍庆华 数据仓库技术的研究现状和未来方向 [期刊论文] 现代电子技术2002(6)
2.向海华 数据库技术发展综述[期刊论文] 现代情报 2003(12)
3.王泽明浅谈数据仓库技术 [期刊论文] 计算机应用与软件2001-01-15
4.黄庆普 剖析数据仓库技术 [期刊论文] 华南金融电脑2003年11期
5.刘立波 数据仓库技术的研究与应用[期刊论文] 计算机工程与应用2002(15)
关键词:数据仓库;数据挖掘;决策树
中图分类号:TP391 文献标识码:A 文章编号:16727800(2013)002009904
0 引言
数据仓库与数据挖掘是近年来刚刚兴起并逐步发展起来的一门新兴交叉学科,它把对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,并提供决策支持。此门学科涉及到许多领域的知识,包括数据库技术、人工智能技术、数理统计、可视化技术、并行计算、机器学习等,汇集了多门学科的知识并在综合运用这些学科知识的基础上产生出新的知识和方法。此门学科的应用主要在于构建企业的决策支持系统,此系统正是目前帮助企业提高自身竞争力的重要手段。
在数据仓库与数据挖掘学科中涉及了许多概念、设计方法及诸多挖掘算法,本文将就其中的一些内容结合SQL Server Analysis Service应用实例加以阐述与说明,以加深对理论的理解,并逐步掌握此门学科所提供的更多技术。
总体来讲,构建一个企业的决策支持系统主要有两个阶段,第一个阶段是创建企业的数据仓库,第二个阶段是在数据仓库的基础上进行数据挖掘。这两个阶段的工作相辅相成,数据仓库是基础,数据挖掘是在数据仓库之上的高层应用,两者需要整体规划、分步实施。下面分别就这两部分内容结合实例加以阐述。
1 数据仓库的规划与设计
数据仓库是一个面向主题的、集成的,时变的、非易失的数据集合,支持部门管理的决策过程,数据中的每一个数据单元在实践上都是和某个时刻相关的。数据仓库也被看作是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储整个组织的历史数据,这些数据会影响到这个组织和企业的多个方面。数据仓库的特点是:数据常常来自于多个数据源;其存放模式一致;驻留在单个站点;数据已经清理、变换、集成与装载并定期刷新;数据量巨大。
数据仓库构建方法同一般数据库构建方法最大的不同在于数据仓库的需求分析是从用户的决策问题入手,其目的是直接针对问题的主题,而一般数据库系统是以事务处理为出发点。下面结合具体实例说明数据仓库的设计步骤。
1.1 确定用户需求,为数据仓库中存储的数据建立模型
通过数据模型得到企业完整而清晰的描述信息。数据模型是面向主题建立的,同时又为多个面向应用的数据源的集成提供了统一的标准。
例如:FoodMart是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析1998年进行的所有销售业务数据。该公司现在急需进行销售方面的数据分析,以找到一些潜在规律来促进销售业务的进一步拓展从而扩大销售渠道、加大销售量、提高销售利润、增强公司竞争力。该连锁店销售的产品总体上被分为若干个大类,细节上分为若干个小类;客户广泛分布于不同地区、不同国家。该连锁店在销售信息管理系统中长期保存并不断更新着产品、产品分类、商店、销售、促销、客户等记录表,依次为:产品表(PRODUCT)、产品分类表(PRODUCT_CLASS)、商店表(STOR)、1998年销售记录表(Sales_fact_1998)、促销表(PROMOTION)、客户表(CUSTOMER)等。
FoodMart连锁店保存并不断更新的数据库是事务处理型数据库,其结构是面向应用而设计的。要进行数据挖掘就必须建立面向主题的数据仓库,为了进行1998年销售方面的数据挖掘,要设计的数据仓库必须以1998年销售数据为主题,辅之以日期、产品、产品分类、商店、促销、客户等其它数据信息。具体来讲,即创建以1998年销售为主题的数据仓库,采用星型/雪花模式构建事实表。
1.2 分析数据源,完成数据仓库的设计工作
基于用户的需求,着重于1998年销售主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。1998年销售事实表包含5个维表和3个度量。这5个维表分别是日期、客户、产品、促销和商店维表,3个度量分别为销售金额、仓储成本、销售单位。考虑到将来要根据顾客的年收入情况进行顾客会员卡种类方面的数据分析,另外增加了年收入维度(yearly income,取自于customer表)。为便于分析挖掘出有关时间因素的信息,特增加了时间表time。
1.3 生成物理的数据仓库,并从各种源系统中获取数据装入数据仓库中 在SQL Server Analysis Service manager中建立物理的数据仓库可以通过ODBC数据源方式指定原有数据库,再通过Microsoft OLE DB Provider for ODBC进行连接的方式完成原有数据库到数据仓库的映射。运用SQL Server Analysis Service manager提供的功能建立数据仓库的多维数据集,指定此数据仓库的度量值与维度,至此数据仓库建立完毕。其中纬度与度量值如图2所示。
2 数据挖掘
数据挖掘(Data Mining)又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简言之,数据挖掘就是从海量数据中提取隐含在其中的有用信息和知识的过程。数据挖掘可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。数据挖掘的方法是建立在联机分析处理 (On Line Analytical Processing,OLAP)的环境基础之上的。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP 的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。
数据挖掘工作是在完备地建立了数据库、数据仓库等数据集的基础上进行的,典型的数据挖掘系统结构如图3所示。
整个数据挖掘过程主要可分几个阶段,依次为:问题定义、数据预处理、数据挖掘以及结果的解释和评估。
2.1 问题定义
问题定义就是要清晰地定义出业务问题,确定数据挖掘的目的。对于FoodMart连锁店来说,它的问题定义就是:FoodMart连锁店的市场部想增加客户满意度和客户保有率,于是实行了创造性的方法以达到这些目标。
其方法之一是对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。
为了重新定义会员卡方案,市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。
2.2 数据预处理
最初为数据挖掘所准备的所有原始数据集通常都很大,它们当中存在许多脏数据。造成脏数据的原因主要源自于收集与传送过程的错误、滥用缩写词以及不同的惯用语、重复记录、数据输入错误、拼写变化、不同的计量单位、过时的编码、集成时的空值与丢失值以及不同的数据源等。脏数据主要有以下一些表现形式:
(1)数据不完整。表现为:感兴趣的属性缺值;缺乏感兴趣的属性;仅包含聚集数据等。例如:CUSTOMER表中的LNAME=“”
(2)数据噪声。即包含错误的属性值或存在偏离期望的孤立点值。一个属性的值与事实完全不吻合的情况,例如:CUSTOMER表中的在家子女数num_children_at_home=200
(3)数据不一致。数据不一致表现为多种情况,比如:同样的属性在不同的结构里使用不同的名字,例如:name、xm;不同数据使用的计量单位不同,例如:100(美元)、100(美分);数据不允许为空的地方数据为空等。
如果在脏数据上进行数据挖掘将很可能导致错误的判断甚至完全相反的分析结果,也就是说,没有高质量的数据就没有高质量的挖掘结果。由于决策质量依赖于数据质量,因此需要在数据挖掘之前进行数据预处理,以保证数据仓库内包含的是高质量的、一致的数据。所谓数据预处理其实就是对数据仓库中的数据进行提取、清理、转换,从而保证数据的高质量,具体来讲包括以下几种操作:
(1)数据清理(data cleaning)。就是去掉数据中的噪声,纠正不一致;填写空缺值,平滑噪声数据,识别、删除孤立点。例如:将CUSTOMER表中的在家子女数num_children_at_home=200的记录值删除掉或填入平均值1。
(2)数据集成(data integration)。将多个数据源中的数据合并存放在一个统一的数据存储(如数据仓库、数据库等)中,数据源可以是多个数据库、数据立方体或一般的数据文件。
(3)数据变换(data transformation)。即数据的标准化与聚集,将数据变换成适于挖掘的形式。例如:属性数据可以规范化,使得它们可以落入某个小区间。
(4)数据归约(data reduction)。数据归约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。数据归约主要通过数据聚集(如建立数据立方体)、维归约(如删除不相关特性)、数据压缩(如最短编码)、数字归约(用较短的表示替换数据)、概化(去掉不用的属性)等方法完成。例如,对于FoodMart连锁店的数据挖掘来讲,CUSTOMER表中的address1、address2、address3、 address4这4个属性与挖掘目标无关,所以可以将它们删除掉以节省空间和时间。
2.3 选择挖掘模型,进行数据挖掘
根据数据挖掘的目标和数据的特征,选择合适的挖掘模型,在净化和转换过的数据集上进行数据挖掘。
FoodMart连锁店的工作设想是:对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。
对于这个工作预期,决定采用决策树的数据挖掘方法进行客户群的分析。所谓决策树,就是在对数据进行决策分类时利用树的结构将数据记录进行分类,其中树的一个叶结点就代表符合某个条件的属性集,根据属性的不同取值建立决策树的各个分支,随后递归地构造每个子节点的子树。由于决策树结构简单便于人们认识与理解,以及决策树不需要额外的数据训练,因此,决策树是数据挖掘中常用的一种分类方法。
本实例采用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。按照以下步骤完成“决策树”挖掘模型:
(1)将要挖掘的维度(事例维度)设置为客户;
(2)将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息;
(3)选择人口统计特征列表(婚姻状况、年收入、在家子女数和教育程度),算法将据此确定模式;
(4)处理训练模型,浏览决策树视图并从中读取模式。
经过处理后,挖掘模型浏览器展现出一棵深度为3、宽度为8的决策树,此浏览器将根据用户对树中不同分支节点的选择显示出相应的统计信息。
例如,选择根节点“全部”顾客的方框后显示信息如图4所示。
在图中可以看到数据挖掘的结果:将客户按照年收入的不同分为8个区段(类),涉及的客户总数为7 632人,通过直方图可以直观地看到办理金、银、铜、普通卡的比例。
选择年收入在$30K-$50K的范围框后,挖掘模型浏览器的显示信息如图5所示。
年收入在此范围内的客户共计1 362人,其中办理金、银、铜、普通卡的数量和比例通过合计及直方图可以一目了然。
其它选项依此类推。
对年收入在$150K以上的范围节点进行进一步分级(显示其子节点),选择已婚节点后显示信息如图6所示。
其它选项依此类推。
2.4 解释模型结果分析
针对FoodMart商店的举措,对挖掘模型浏览器的显示结果进行研读后得出这样的结论:年收入越高的顾客办理金卡、银卡的比例越高,收入越低的顾客办理普通卡和铜卡的比例越高。在高收入的顾客中,已婚者办理金卡的比例最高,单身者办理银卡的比例最高。在较低收入的顾客中,在家子女的人数少于两人的办理铜卡的比例较高,多于两人的办理金卡的比例较高。具体数据值及比例值可以从挖掘模型浏览器中得到。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。
3 结语
企业要建立自己的决策支持系统就必然要应用数据仓库、数据挖掘技术,企业应根据自身要求合理建立特定主题的数据仓库,在此基础上还要结合实际问题选择相应的挖掘模型,从而得到最有价值的挖掘分析结果,以利于企业的经营发展。
参考文献:
在大数据(Big Data)时代,随着技术的发展,数据仓库已包含提取、清洗、集成数据并将数据交付给决策者的完整生态系统,包括提取-转换-加载 (ETL) 和商业智能 (BI) 功能。数据仓库在捕获所有形式的企业数据,以及在其后准备这些数据供全企业决策者使用的过程中,起到非常广泛的作用。
大数据与数据仓库的异同
大数据时代的到来,确实对传统的数据仓库认知产生了重大的影响。什么是大数据?大数据的“大”实际上并不是最令人关注的特征。大数据是很多不同格式的结构化、半结构化、非结构化和原始数据,在某些情况下看起来与过去 30 年来我们存储在数据仓库中清一色的标量数字和文本完全不同。从另外一个角度来讲,小数据比较简单,有比较成熟的技术应对它。大数据是多种类型数据的组成,需要使用多种技术对待它。每一个识别和监测它的手段和方法是不一样的。
然而,很多大数据不能使用任何类似 SQL 这样的工具进行分析。对于企业及应用来说,数据仓库应用更加有效。两者并不形成替代,特别是银行业等行业里面,更多的是互为补充。
数据仓库的技术特点
被称为数据仓库之父的BillInmon在其著作《(Building the Data Warehouse))一书这样描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化(Time Variant)的数据集合,用于支持管理决策。可以从两个层面对数据仓库的概念进行理解,一是数据仓库是面向分析处理的,主要用来支持决策制定;二是数据仓库包含历史数据,是对多个异构的数据源数据按照主题的集成,它的数据相对固定,不会经常改动。
面向主题的:数据仓库的数据都是按照一定的业务主题进行组织的,面向主题体现在数据仓库的建设中,而且还包含在业务数据分析和存储上。
集成的:数据仓库中的数据来自各个不同的分散数据库中,它并不是对源数据库数据的简单拷贝,而是按照划分好的主题和数据分析要求,经过数据抽取、清理、汇总和整理等步骤,消除源数据中的错误和不一致的数据,保证数据仓库中数据的正确性和可用性。所以,它是整合集成的。
相对稳定的:数据仓库的稳定性体现在它的非易失性上,由于数据仓库是面向分析的,其中的数据是从业务数据中加载过来的历史数据,所进行的主要操作是查询和分析,供决策分析使用,所以其修改和删除操作很少,只需要定期的增量加载,所以具有相对稳定特征。
反映历史变化:数据仓库必须能够不断地捕捉业务系统中的变化数据,记录企业生产过程的各个阶段的信息,以满足决策分析的需要,所以必须实时地把新变化的业务数据追加到数据仓库中去,通过数据随时问变化的研究和分析,可以对企业的发展历程和未来趋势做出定量分析和预测。
选择实施方法
企业级数据仓库的实现通常有两种途径:一种是从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反应企业全貌的企业级数据仓库;另外一种则是从一开始就从企业的整体来考虑数据仓库的主题和实施。前一种方法是各个击破,投资少、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其他的主题和部门扩充往往非常困难。而后一种方法恰恰相反:投资大、周期长,但是易于扩展。
以哪种方法进行实施,主要取决于各个行业和客户的实际情况。如电信和银行业,采用第二种方法比较可行,这是因为这两个行业业务发展变化快,为了能够适应将来的变化,整个数据仓库架构必须是可扩展的和易于维护的。如果只是基于部门级的需求去设计,将来肯定无法适应变化。如果重新设计,势必造成前期投入的浪费。对其他一些行业,如制造业和零售业,本着“急用先行”的原则,可以先从某一局部入手,慢慢扩展为数据仓库。
从技术上讲,以部门需求作为主要考虑因素建立的系统,它的数据量不会太大,会影响对将来数据膨胀风险的正确估计,当数据集市扩展到企业范围的时候,由于原有技术无法支撑新的数据规模,会造成数据装载和数据分析速度的降低,甚至达到不可用的地步。企业级的数据仓库会涉及更多的额业务系统,只有充分研究各业务系统,才能了解如何对不同格式、不同标准、不同接口的数据进行集成。
当然,对于第二种方法,也不是说把摊子铺的越大越好。合理的做法是“统筹规划,分步实施”。根据业务需求,把业务的主要方面都涵盖进去,确定彼此之间的联系;对于次要的需求,可以预留一些接口,以备将来细化。否则,如果整个调研周期拖得太长,等进入实施阶段,业务又发生变化,不得不重新修改设计,同样会造成浪费。
所以,先搭建好一个易于扩展且稳定的架构,在此基础上逐步实施,是一个兼顾长远发展与合理投入的最佳方式。此外,分步实施还可以减少风险:前一阶段的经验教训可以为下一阶段提供有益的借鉴,从而使得数据仓库的建设不断完善,不断发展。
结合先进技术 从业务需求出发
和其他的应用系统相比,数据仓库对于需求分析和系统设计等前期工作要求更高,其重要性也更加突出。可以说,分析和设计阶段决定了数据仓库最终的失败。因为需求不明确、设计不合理造成的根本性缺陷是以后实施阶段所无法弥补的。因此在分析和设计阶段,对相关的业务部门和技术部门要进行详细的调研,在用户和开发人员之间的迭代和反馈是必须和重要的,它决定了数据仓库最终的成功与否。
由于数据仓库是面向业务分析的,所以最主要的需求应该从业务部门获取和收集,因为数据仓库最终是要服务于业务部门的。需求抓的不准,导致将来将无法解决业务部门的问题,这个数据仓库项目就是失败的,技术再先进也没有用。这是衡量数据仓库成败与否的唯一尺度。
实施的过程中,最好能够把行业专家的经验,与企业现有的需求进行整合,以期得到一个更加全面的需求范围,有利于适应将来业务的变化和扩展。
从技术角度来讲,必须建立一个可伸缩、可扩展、高性能的数据仓库平台,才能为将来不断的完善、不断发展打下一个良好的基础;由于数据仓库项目要涉及多个业务系统,数据量非常庞大,所以本身的投入也是很大的,在保证系统高效稳定的前提下,尽量降低成本是非常重要的。
相关链接
数据仓库的类型
根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:操作型数据库(ODS)、数据仓库(Data Warehouse)和数据集市(Data Mart)。
操作型数据库(ODS)
既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与 DW 相比较,ODS 有下列特点:ODS 是面向主题和面向综合的;ODS 是易变的;ODS 仅仅含有目前的、详细的数据,不含有累计的、历史性的数据。
数据仓库(Data Warehouse)
此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。
关键词:数据仓库; 设计; 数据模型; 数据采集; 应用案例
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2015)05-0025-02
1 引言
数据仓库的设计是指导数据体系建设,打破信息孤岛,实现企业信息数据共享的重要环节。它能够实现应用与数据分离,实现数据从部门到企业的提升,建立数据转换为价值的体系,让数据发挥出企业核心资源的效用,从而最终实现数据的增值[1]。
随着企业快速发展与各类信息化系统建设的深入开展,某发电集团出于自身对于信息化发展的需求,按照企业信息化规划所确定的“顶层设计、统一规划”和“试点先行、分步实施”的建设原则,开展了数据仓库系统方案和数据体系规范的设计工作。这其中所涉及的核心和关键环节在这里与大家展开研究和探讨。
2 数据仓库的设计
2.1 数据仓库设计的总体要求
数据仓库是在企业应用系统建设基础上,为了进一步挖掘数据资源、为了决策支持需求而建设。它实现跨层级的数据抽取和共享。将企业各个应用系统的数据进行统一抽取,实现跨层级应用系统的数据抽取和共享[2],它为企业上层的BI应用提供数据源。数据仓库作为BI系统的数据输入源,其作用是提供不同分析主题的数据模型和数据统计,确保企业层面数据的完整和统一。
某发电企业的数据仓库项目作为一期试点建设,项目设计的重点要求考虑如下:
1)搭建可线性扩展、高性能、易管理的数据仓库平台。由于数据仓库的基础性和稳定性,通过项目搭建全企业统一的数据仓库平台,其建设不仅需考虑企业本期数据采集的数据存储量,还应重点从数据仓库未来的发展定位与要求来考虑搭建方案。
2)设计全面、合理、稳定的数据仓库模型。数据仓库数据模型是数据仓库建设的核心工作之一,数据仓库中各层级(整合层、汇总层)的逻辑数据模型和物理数据模型,应满足企业基于数据主题的数据存储需要。
3)以分析模型作为需求驱动,设计实用、清晰合理的数据集市多维模型。基于数据仓库数据模型,以分析模型作为需求驱动,设计试点业务域的数据集市数据模型,使其具备实用、清晰合理的特点,并能在建设过程中不断验证、完善、优化与拓展,满足业务分析与设计的需要。
4)以企业已建的数据总线平台为手段实现相关数据主题的数据采集与共享服务。数据仓库建设主要目的为满足数据共享与综合分析需求,核心内容为数据资源,项目建设重点就必须以企业数据总线平台,实现系统间的数据集成工作。同时,借助数据总线平台的应用集成功能,实现数据共享的服务化管理。
2.2 总体架构设计
企业数据仓库设计建设应体现“数据与应用分离、数据为应用服务”的理念,基于开放性与先进性、活性与可维护性、可扩展性与可伸缩性、安全性与可靠性、可用性和容错能力、准确性与实时性、易用性和完整性等原则开展数据仓库的总体架构设计。
1)总体架构
数据仓库的总体架构是数据体系总体框架内细化设计,是整个企业的数据仓库总体架构,它包括支撑平台层、数据源层、数据集成层、数据存储层、数据管理层、数据应用层、数据展现层共七层,以及数据安全保障体系、数据标准规范体系。
其中数据存储层的设计根据企业的实际情况设计为三个部分组成,包括了操作型数据存储层(ODS)、数据仓库层(DW)、数据集市层(DM)。DW作为所有分析功能的单一数据源。ODS身兼二职,一方面保持与源系统的业务数据同步以满足一些实时性应用的数据需求,另外作为数据加工区为仓库提供数据加工服务。DM作为最终的前端分析、报告提供支持数据集市的数据是面向最终应用的,比如财务分析。数据集市的数据基于数据仓库之上进行汇总加工而成[3]。
2)技术架构
根据企业对数据仓库的实际应用分析技术架构设计采用分布式计算架构、基于MPP结构的并行计算数据库系统进行数据仓库平台构建。
技术架构中展示层将采用“富客户端”技术,减轻服务器的负担,无刷新更新页面,提高用户体验,方便用户操作。
控制层负责接收来自于展示层的请求,验证请求的数据,调用相应的业务逻辑进行数据处理,并将处理结果返回给展示层。包括了数据验证、日志处理、安全认证、权限验证、缓存处理、流量控制等功能。
业务处理层接收控制层传来的指令,负责加工和处理业务数据,如果处理成功则更新数据存储内容,如果处理失败则回滚事务,并将处理结果返回给控制层。
企业信息系统层是系统正常运行的基础模块,系统采用统一权限管理,统一消息管理,统一工作流平台,统一日志管理,统一报表平台等。
2.3数据模型设计
数据模型是数据仓库的核心,一个完整、灵活、稳定的数据模型对于数据仓库的成功起着重要的作用。数据模型设计一般遵循统一规范化原则、可扩展性原则和高效性原则开展。在这部分的设计中我们按照以下思路来开展:
1)遵循数据模型设计方法论。在数据仓库及数据集市模型设计中,通过对企业业务的详细分析与理解,针对业务特点,我们选用了维度建模方法,设计了合理的分析维度表和事实表模型。
2)立足企业的现有信息化环境。数据仓库是管控的基础,而数据模型是决定数据仓库质量的关键因素。数据模型必须以实际需求为牵引,满足管控功能要求,从而支撑决策分析、经营管理、综合管理与专业生产管理的需求。
3)实现项目阶段目标。数据仓库当期选取财务主题分析为本期项目实施切入点,就应该详细分析了财务主题的业务需求,对主题进一步细化并设计相应的维度分析模型。
基于这些分析主题域建立相应的维度分析模型。在建模中,就可以确定ODS模型存贮的数据,其中如图3的财务分析域主要来自财务主题域的分析成果。
2.4数据管理体系设计
数据管理体系包括管理目标、管理内容、管理环节、保障体系、管理工具五方面内容。本设计的核心内容是数据质量、数据安全、数据标准、基础数据管理,从组织、标准、规程、技术四个方面构建完整的数据管理体系,对数据采集、传输、存储、应用全生命周期进行管理。
图4 数据管理体系设计图
数据管理内容包括数据安全管理、数据质量管理、数据标准管理和基础数据管理四部分内容。其中,图4中数据标准管理是为全面加强企业数据管理,适应全公司数据集中管理与应用的需要,要结合企业数据管理需求,制定数据管理规范和技术技术标准。企业数据安全管理应该是整个企业信息化安全体系的一个组成部分,在整体安全体系规划下建设数据安全系统。数据安全管理主要包括安全管理体系、安全架构、认证管理、容灾备份管理等内容。
2.5数据采集与应用集成实践
系统集成与数据采集是数据仓库建设的核心工作内容,与数据填报共同组成数据仓库数据收集的通道。通过对企业数据集成现状的分析和数据采集与实施需求的理解,此次数据采集与实施的设计思路是以需求为驱动,充分考虑利用统一数据总线平台现有资源,沿用企业数据标准,并采用闭环的采集流程设计,满足该发电企业数据仓库建设中的数据集成需求[4]。
通过业务系统分析,近年来,该发电企业先后建设了综合计划、综合统计、股权管理、对标管理等业务管理系统,使得业务管理与信息技术的融合不断深化;同时还开展了集团ERP系统、主数据管理系统、燃料管理系统等信息系统的实施与应用。
根据数据仓库建设要求,系统集成主要实现数据集成和应用集成,其中数据集成主要实现各业务系统与数据仓库之间的数据交互,包括数据仓库从业务系统采集业务数据、业务系统从数据仓库获取其他行业或业务域的共享数据、分析系统从数据仓库获取分析数据;应用集成主要实现各业务系统之间直接进行数据交互的场景,即实现各组织层级应用系统之间的业务流程数据交互。
3 结论
总之,企业数据仓库作为企业信息化的基础技术平台,是在企业应用系统建设基础上,为了进一步挖掘数据资源、为了决策支持需求而建设。在其设计中应充分围绕项目的业务需求分析、数据模型需求分析、功能需求分析和性能需求分析等方面开展。以实现以实际企业业务需求为导向,搭建企业数据仓库,充分挖掘与发挥数据应用价值,构建横向融合、纵向贯通的应用集成体系,最终为企业实现全面的综合分析系统建设奠定坚实的数据基础。
参考文献:
[1] 李於洪. 数据仓库与数据挖掘导论[M]. 北京: 经济科学出版社, 2012.
[2] 袁文礼. 基于数据仓库技术设计与实现的科技数据管理系统[J]. 电脑知识与技术, 2014(10).
关键词:数据库 数据仓库 决策支持系统
数据仓库(Data Warehouse)是在当前已存在大量数据库的前提下,为了进一步分析数据而产生的。本文通过调查当前高校的实际情况,尝试提出一套成熟、低价、高质的部署方案,用以提高数据仓库架设的成功率并减少相应的投资,从而提高当前高校师生信息的管理与评判效率。
一、高校部署数据仓库的意义与目的
当前高校的各个部门,几乎都需要相应的数据库保存师生的各类信息数据。而高校引入数据仓库技术,可以加强对教师工作的考核评估,以及对学生成绩的管理分析。高校数据仓库的架设主要实现以下目的:
1.从不同种类的数据源收集数据。当前高校各部分数据储存混乱,难以整合,数据仓库的建立可以支持从这些不同的数据源收集数据,加以管理。
2.能够有效地获取当前和历史数据。数据仓库不但可以对当前数据进行分析,对于长期储存的历史数据同样可以进行有效的管理。
3.建立人性化的决策支持系统(Decision Support System)。数据仓库的建立是为了对数据进行分析,所以数据仓库是高校建立有效的决策支持系统的基础。
二、高校数据仓库结构设计
为降低高校数据仓库架设的风险,应选用成熟的数据仓库基础结构,使用Sybase IWS (Industry Warehouse Studio)可提供完善的解决方案。根据当前高校机构设置情况,数据仓库的架设结构如图1所示。高校数据仓库架设的是以数据仓库技术为基础,以BI和DSS工具为手段的一整套解决方案,其结构主要应由以下三部分组成。
1.数据源。将当前高校各部门繁杂无序的数据利用一定方法提取、整合,再结合未来高校发展的需要建立数据库逻辑模型,然后在此基础上构造物理模型。
2.数据管理分析(DW、BI、DSS)。这部分是数据仓库的核心,采用并行处理的关系数据库管理系统,对集成的数据进行分析处理。
3.用户访问。这部分为可交互的前端图形用户界面,用户可根据职务授予不同的访问权限,对数据仓库中的信息进行调取。
由于当前高校所需的数据管理任务没有大型企业的复杂,所以在硬件层面的投资不必过大,可以使用一台IBM小型机作为应用服务器和WEB服务器。开发软件方面,由于采用Sybase IWS平台,可使用Power Designer对当前高校所需的管理信息系统进行分析设计,结合PowerBuilder数据库设计软件来达到缩短开发时间和优化系统的目的。
三、高校数据仓库架设可行性评估
虽然数据仓库的建立对高校管理决策有着十分重要的意义,但在架设初期为了明确实施方案、避免盲目投资,应对以下几个方面进行规划评估。
1.数据整理搜集。数据仓库最终能否成功架设并成为高校决策的有利工具,取决于能否完整搜集整理当前繁杂的用户数据。推荐使用执行效率较高的Star Schema数据设计思路,对数据表进行重新划分。
2.系统安全性。作为高校信息系统的一部分,数据仓库的安全性也是必须重视的一个关键点。最终用户需要建立分级机制,以便实现不同的操作权限。
3.投资与回报。数据仓库的架设不单是IT技术方面的问题,也需要精确的控制投资预算,才能够确保项目不会因为资金使用不当等问题而最终流产。
总之,数据仓库的架设使高校能够快速步入信息化轨道,有效提高校内决策的效率与准确性。本文通过对数据仓库技术的分析,阐述了一套高效的、低成本的高校数据仓库架设方法。需要说明的是,在实际架设过程中仍会遇到很多不可预见的问题,这就需要对现实情况中的高校数据结构进行更详细地分析规划,最大限度地降低数据仓库部署风险。
参考文献
近年来,随着信息化建设的不断推进,农信社已经积累了大量的历史数据,但是这些数据却被埋藏在计算机系统中未被加以利用,存在“数据丰富,信息贫乏”的数据囚笼现象。随着大数据时代的到来,如何充分挖掘和运用好这些规模庞杂、充满价值的海量数据,成为农信社能否在大数据时代获得核心竞争力的重要课题。
路径探析:数据仓库破解数据管理难题
“大数据”时代,将海量数据管理好、运用好,将是农信社面临的重大考验。而数据仓库的六项价值“能快速、及时、方便、准确而安全地访问整合过的数据”恰恰符合大数据时代要求。数据仓库是支持管理决策过程的、面向主题的、集成的、动态的、连续的数据集合。它不是数据的简单堆积,而是从容量庞大的业务处理型数据库中抽取数据,并将其清理、转换为新的存储格式,即根据决策目标将存储于数据库中对决策分析所必需的、历史的、分散的、详细的数据,经处理转换成集中统一的、随时可用的信息。
从目前农信社的信息建设及数据管理现状看,建设数据仓库具有重要的现实意义。
第一,有助于了解自身的经营状况。农信社高效、安全经营的前提和基础就是其决策者对自身经营状况有一个全面的了解和认识。数据仓库系统为我们及时、准确、全面地掌握自己的资产负债数量及其分布、头寸调度情况、信贷资产分布情况、客户的信用情况等,提供了必须的服务手段和有力的技术支撑。
第二,有助于进行市场细分,进而开发新产品,拓展新市场,获得“深度效益”。对农信社而言,客户就是资产,客户就是价值,客户就是发展的源动力。分析客户个性化需求,提供满意的客户服务,是提高市场占有率、获得最大利润的关键。然而如何将我们拥有的百余万客户进行细分,从而设计大量定制化的产品或服务呢?只有通过以客户为中心的决策支持系统,才能使用科学的方法实现个性化服务。建设数据仓库后,系统中存放着每一位客户同银行往来的详细的历史交易明细数据,对客户有统一的规划,能帮助我们以科学的手段快速地分析、模拟和预测客户的个性化需求,进而设计符合客户需求的产品或服务。
第三,有助于经营管理和决策支持。任何企业经营管理方案的确定和未来战略决策的产生,都要以对现实的分析和对未来的预测为基础,都要以准确的数字为依据。借助数据仓库系统,能进行不同业务产品的盈利性分析和风险性分析,因此数据仓库系统为商业银行提供了综合不同运行平台上的业务数据,并结合外部信息汇集在一起萃取出银行策略的途径。建设银行从2005年开始启动数据仓库建设,至2012年已完成第五期项目工程建设。建行的数据仓库系统数据模型整合了63个源系统数据,部署运行了50多个独立应用服务,并向20多个下游系统提供数据支持。通过建设数据仓库,建行整合了全行数据资源,建立统一的数据质量监控体系,为全行客户分析、监管合规、财务绩效、运营管理、风险管理提供了有力的支撑。
第四,有助于科学配置各类资源。利用数据仓库系统,农信社可以有效地对内部的各种资源(如人力资源、网点资源、产品资源、物质资源等等)进行科学调配,以尽可能地达到资源的最优化配置,使现有资源发挥出最大的效能。例如,我们可以根据网点每日的业务量及业务种类,合理配置人员、柜台数量、ATM数量等。可以通过数据模型分析每台ATM设备的投放效益,结合历史数据分析制定ATM设备备付金的存放额度,优化提高备付金利用率。
付诸行动:农信数据仓库的建设路径
建设数据仓库是一个长期的、持续的过程,不可能一蹴而就,需要在合理的整体规划和科学的体系架构基础上,分阶段分步骤地实施。例如广发银行启动大数据实施战略之后,先请咨询公司进行了为期9个月的数据标准化咨询项目,对全行的数据标准进行规划、梳理并初步建立数据管控框架体系,为后续的数据仓库建设扫清障碍,铺平道路。
农信社数据库建设首先要确立阶段划分原则:一是确立以业务价值为导向的原则。建设数据平台的根本目的是为了业务发展更加顺畅,信息更加透明,管理更加精细,而不是为了建平台而建平台,因此每个阶段都必须包含其业务价值。二是确立从技术导向转变为业务导向的原则。数据平台的初期,涉及大量的基础技术平台的搭建,而中期必须转变这种状态,以业务应用、专题集市为主要建设内容。三是确立“养育数据”原则。数据平台数据的积累包括两个方面:深度(时间的积累)、广度(数据源的积累),需要按重要程度,分批接入数据平台。
一是通过批量的方式从生产系统数据库抽取数据,通过数据模型的整合,消除分布在不同系统间的数据冲突,并从企业级角度构建数据唯一视图;二是通过一次性的加工,根据整体业务需要,对数据进行汇总并计算出指标,为所有营运系统提供一致化的所有数据,既避免了各营运系统的重复计算,减少整体的处理时间,也保证了各个营运系统指标的一致。三是基础数据平台通过批量总线从所有生产系统的数据库抽取数据进行加工处理,也通过批量总线向营运系统提供加工结果数据。
关键词:数据仓库;水文数据;逻辑模型;价值挖掘
水文数据在水利行业数据中占有重要位置,它通过水文测验收集各种水文要素的原始记录,经过统一的标准和规格,整理成简明、系统的水文数据及数据库。新世纪以来,水文遥感、水文示踪、地理信息系统和云计算等新技术的快速发展,为深入挖掘水文时间、空间变化规律提供了技术可能。借助于神经网络、决策树方法、统计分析方法等,再配合前端数据可视化技术,让我们可以有目的、有组织地去发现水文数据内在的规律和价值,提供面向主题的快速数据分析、预测预报等功能,实现支持决策和服务社会的目标。
1需求分析
水文数据按决策、服务对象和适用范围可分为通用数据库和专用数据库,原始实测数据是基础。通用数据库主要存储历年基本水文数据,如简单加工数据、资料整编后的数据等,为社会各行业和其他用户提供基础服务。专用数据库主要存储实时数据、二次加工处理和分析计算数据,为政府、水利专业和特定用户提供服务,如水文情报预报专用库、工程水文计算专用库等。水文原始实测数据本身难以满足复杂多样的水文决策和服务需求,需要充分利用数据挖掘技术对水文数据进行分析和发现,提取出在水资源管理、防灾减灾等经济社会科学发展方面有用的信息。
1.1洪水周期性
洪水由自然和人为因素共同作用形成,洪灾是我国发生频率高、危害范围广、对国民经济影响最为严重的自然灾害,亦是威胁人类生存的十大自然灾害之一。以贵州省遵义市为例:2015年汛期共出现暴雨过程18次,造成12个县(市、区)77个乡(镇)遭受不同程度的洪涝灾害,受灾人口12.6656万人,损坏房屋226间,农作物受灾面积8.471万亩,直接经济损失12888.305万元。面对洪灾造成的巨大损失,只有了解洪水、掌握洪水、利用洪水,才能把损失降到最低。通过对洪水周期性的研究,从水文序列数据中找出洪水重复出现的概率和路径,进而对洪水进行预测预报预防。
1.2水文相似性
水文相似性是指找出与给定序列最接近的其它水文序列。找出与给定序列相似的所有数据序列称为子序列匹配,找出彼此间相似的序列称为整体序列匹配。查找水文序列相似性就是要在水文序列中,找出各类相似的子序列。可用于洪水过程预测、环境演变分析、水文过程规律分析等方面,最为直接的支持决策应用,如:防汛指挥中“当前洪水相当于历史上哪一次洪水?”。
2水文数据仓库模型设计
2.1总体结构
水文数据主要表现为水文时间序列,水文数据仓库由水文时间序列元数据集合而成,按对象的主题要求形成水文基本数据层,随时间变化转为历史数据,通过对历史水文数据集合进行分析,建立单一或者一组模型,由所建立的模型对新数据集合的可能行为做出预测预报。水文数据仓库模型设计采用三层结构体系,由仓库数据库服务器、OLAP服务器和前端客户层组成。
2.2逻辑模型
基于星形模式组织的多维数据模型适用于面向预测预报的水文数据模型,水文数据仓库包含1个事实表(即一个大的中心表)和5个维表(即附属表)。事实表中包含时间、行政区划、流域、河流、地理信息5个维表和降雨量、水位、流量、水温、含沙量等属性。其中,每个维表包含1组由底层映射到一般高层的属性概念,如行政区划维表由属性省、市、县形成一种层次,即:省-市-县;地理信息维表由属性地形、地貌、地质形成一种层次,即:地形—地貌—地质。水文数据仓库星形逻辑模型如图2所示。建立逻辑模型后,其中的水文数据是随着时间变量动态变化的,降水量、水位、流量、水温等会有不同的变化,实际操作中,可根据不同预测预报模型的应用需求,采取不同的数据分析方式。若对河道来水量进行预报,就要重点考虑水位、流量等属性在空间维度上的变化情况,以及河流上游、下游一定距离间的水位、流量相关关系,建立对应函数关系。若做中长期水文预报,就要对各水文测站的历史数据在多层次的时间维度上,根据所建立的回归分析函数,选择合适的预报因子进行分析。若对降雨径流过程进行预报,就需要对流域的全面属性,如降雨、径流量、地理信息等在时间维度和属性维度上进行多维立体分析,得到模型对应函数关系,确定计算参数,进行计算和验证。
2.3创建数据仓库
2.3.1元数据库
在水文数据仓库中,定义仓库对象的水文监测数据就是元数据。在水文时间、空间信息中用于描述水文数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征。由目录信息和详细信息两个层组成。
2.3.2创建水文数据仓库
数据库水文数据仓库数据库可以在关系数据库中按照通用的建立数据库的方法进行创建。把水文数据仓库数据库中设计的表创建好,数据类型依据原始数据库中的各个表和字段的数据类型设置。将从业务系统或外部系统中获得的数据,转换和清洗成数据仓库需要的格式和形态,并在规定的时间内装入数据仓库。
2.4水文数据分析
水文数据通过联机分析处理可以用不同的格式组织和提供数据,以满足水文数据分析的需求。基于多维数据模型,通过分析对象主题来对数据进行组织,并根据需求添加不同的数据集市的数据。其结果可以作为简单数据挖掘的结果,也可以作为深度数据挖掘需要的预处理数据集合。
3结语
由于水文数据量大,影响预测的因素多,相比传统的水文预测方法,数据挖掘技术可以智能地从大量的、不完全的、有噪声的、模糊的数据中提取出有用信息,建立起误差小、精度高的水文预测模型。利用数据仓库从历史数据中挖掘水文现象所隐含的价值,完全可以满足水文决策和服务的需求,但是水文数据仓库模型的应用也需要我们在实践中反复的试验和验证,根据河流的不同特性,找到符合实际的参数设置,最终得到接近真实的预测预报结果。
参考文献
[1]艾萍,宋海波,冯鹏.一种支持水文信息组织数据仓库的模型[J].信息技术,2013,27(07),27-30.
[2]尹涛,关兴中,万定生.数据挖掘技术在水文数据分析中的应用[J].计算机工程与设计,2012,33(12),4721-4725.
【关键词】港口 数据仓库设计
数据仓库是一个新的概念,数据仓库的设计能够明确任务的主题,对港口的数据进行统一全面的概括,保证数据的更新、可靠。能够实现当前与历史数据的联机处理以及报表处理,依据不同的角度对数据进行分析,明确数据中的隐藏信息,使港口经营管理决策能够有科学的依据。
1 港口数据仓库概述
对港口的业务流程进行分析主要是对港口数据仓库的概念模型进行明确,这对于港口数据仓库建设的效果有着至关重要的影响。港口生产是港口企业生存发展的重要活动,处于核心位置,因此港口数据仓库的实施要先从港口生产开始。
1.1 分析生产业务
港口生产主要是为了提高港口人力、设备的使用效率,高效、安全、优质的实现陆运以及航运网络中的货物以及旅客的转运。
1.2 分析数据源
港口生产业务是多个部门进行开展的,不同部门有各自的数据库,在港口信息化建设快速发展的今天,数据库中数据数量逐渐增多,面对大量的、复杂的数据,如果不能科学高效的利用,就会使得信息资源被浪费,进而造成数据灾难,为了更加科学合理的使用港口数据资源,需要明确港口的具体情况,建立完善的港口数据仓库,实现数据的获取、储存以及输出工作。港口的原始数据主要有业务数据以及遗留的数据,这些数据被保存在信息管理系统的数据库中和单独的平面文件中。数据仓库设计中,需要明确其关键技术以及目标,实现多维数据模型,为管理层提供科学的决策依据。
2 港口数据仓库设计分析
2.1 明确任务主题
在港口管理人员看来,工作中关心的主要维度和指标有时间、地点、货物号、船号、货主号、货物的重量、吞吐量、金额、以及交易的次数等。在明确数据仓库主题以及模型构建过程中需要以这些内容作为出发点,详细了解管理人员的需要以及港口业务的流程,明确港口数据仓库的运营分析、客户分析、船舶进出港分析、货物进出港分析、设备资产管理等主题。其口的经营是港口工作中最基本的活动,也是各项分析工作开展的前提和基础,因此本文主要以经营分析主题进行数据仓库的设计。
2.2 建立数据模型
进行港口数据仓库设计建设一般需要3级数据模型的方法,主要有概念模型、逻辑模型以及物理模型。这3级数据模型分别与数据仓库中的信息包图设计、星形图设计以及物理数据模型设计相对应。
首先是设计概念模型,也就是分析需求,在和用户的交流中,了解建立数据库的数据源,使建立后的数据模型容易被理解,并且能够实现数据的查询以及映射,能够为数据仓库使用者的决策提供依据。根据当前港口生产的实际情况,需要数据仓库能够提供一定的功能,主要有比较分析不同时间、地点、货主的生产情况;交易中,哪些货主以及货物的数量大,并且港口获利较多;货主通常使用何种船只、运输的货物种类以及存放地点等。
数据仓库具有多维性,原有的数据流程图已经不能满足分析的需要,而超立方体的直观性不强,数据的采集以及表示都有一定的难度。因此可以使用信息包的方法进行多维数据的表示,根据用户需要建立信息包,通过二维表格对信息需求的多样性进行表示。
其次是设计逻辑模型,完成了信息包表的建设后,需要将信息包表转化为星形图。首先对指标实体进行定义,主要包括数据和逻辑指标。星形图中的数据指标是信息包图中的指标对应,信息包表中,不同维度的最低级类别能够被归入逻辑指标中,得到的数据、逻辑指标共同组成了星形图中的指标实体。然后是维度实体,与信息包图中的维度对象相对应。设计完指标以及维度实体后就需要对二者的关系进行设计,他们是一对多的关系。
最后是设计物理模型,上述工作完毕后,需要对数据仓库中的事实表以及维度表的物理结构及关系进行明确。
逻辑设计后的星形图能够更加便利对物理数据结构进行定义,实现指标实体与维度实体向事实表以及维度表的转化。事实表主要包括星形图中心的指标量和星形图角上的维度实体中的主码值。不仅要建设物理数据结构,还需要明确数据标准,了解命名的约定,其数据种类、限制条件等。定义实体,星形图能够对面向主题的数据仓库的共享实体进行明确,对其属性进行完整定义。还需要明确实体的特征,有值的长度、种类。
3 数据仓库的生成
完成数据仓库模型建设后,就需要将原有的信息数据导入到数据仓库中,利用数据转换服务实现异种数据源之间的转化,进行数据的抽取、处理以及装载。依据主题从原始数据库中抽取出与主题相适应的数据,对于不一致的数据要进行转变,达到数据仓库的统一规定,并将数据按照数据仓库的格式进行载入。
4 结束语
在长期的信息化作业中,港口企业积累了大量的数据,怎样将这些数据转化为实用的知识,作为管理人员的决策依据就是当前需要解决的重要问题,数据仓库的设计与建设能够为港口企业的发展提供良好的环境氛围,充分挖掘数据了解潜在内容,促进港口企业实现良好的发展与进步。
参考文献
[1]韩蕾.数据仓库和OLAP在港口物资管理中的应用[J].电脑知识与技术,2014,18:4117-4120.
[2]黄晓颖,李亚芬,王普.基于数据仓库的学科建设决策支持系统的设计[J].计算机工程与设计,2010,23:4995-4998.
[3]刘益江,毛宁,陈庆新.一种评估数据仓库设计质量的方法[J].计算机技术与发展,2012,09:161-165.
作者简介
叶艳霞(1983-),女,河北省廊坊市人。硕士学位。现供职于天津港信息技术发展有限公司。
关键词 数据仓库;OLAP;数据分析;决策
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2013)19-0063-01
当下信息技术快速发展,用户对于信息处理的需求越来越高,这些主要包括的是基于数据库技术的迅速发展以及当前社会对于数据库管理系统的广泛应用。在这样一个基本情况下人们希望对其进行高层次分析,以便于激增数据背后隐藏着的许多重要信息,以便更好地利用这些数据,更好的利用这些数据达到不同的目的,于是数据仓库技术和OLAP技术就应运而生了。
1 数据仓库OLAP特征
1.1 数据仓库的基本特征
1)数据仓库面向主题。笔者所说的数据仓库是从整体、全局的角度来衡量的,这些主题在企业中是有相关的关联作用的,和以往传统的操作型系统进行相关的对比,这样的作用在一个完整的企业或组织中固有的业务主题下,是作为处理的主体来运行执行的,我们所知的传统的操作型系统是就针对组织与此相关一段时间内的业务中,统计以及分析的工作相对而言,其主要的作用是围绕应用和针对具体业务的各个方面设计和解决问题的,这是一个相对于比较科学的方法和相关途径。
2)数据仓库的非易失性。在一般的数据仓库中,数据主要是从事务操作型数据中依次抽取出来的,这样的做法反映了在早期的一段时间内历史相关性的数据,而其本质就是基于快照的统计和不同时间点相关的数据库快照集合以及综合和重组,所以在进行处理时一旦事务操作型的相关数据进入数据仓库,我们所能做的就是只要数据没有超过数据仓库的数据存储期限,我们对此一般不对数据进行更新操作,只进行简单的查询工作。
1.2 OLAP的基本概念
OLAP是指分析人员、执行人员或者管理人员对信息数据有深刻认识的相关工具,它保证访问过程的迅捷性,并且可以访问各种可能的数据信息;除此之外,访问手段的交互性以及访问数据的相关一致性支持复杂的分析操作工作,其使用优势是操作侧重决策支持,并提供直观的查询结果,数据仓库系统的主要应用OLAP的特征可以概括为多维性、分析性、快速响应性、共享性和信息性。
1)OLAP的多维性。多维性一直是OLAP的关键属性,然而事实上,笔者认为,多维法人分析性是分析企业对于相关数据的最有效也是最安全的方法,甚至可以说是OLAP的核心所在;这只要是由于系统必须提供对相关数据进行分析的多维分析,这就包括了对多重层次维和层次维完全的支持性工作。
2)OLAP的可分析性。OLAP的系统的连接可以直接接到其他外部分析的工具上,如在现实生活中的意外报警等。笔者认为其如果可以使用户在工作中无需编程就达到可以定义新的专门计算,并且将其进一步作为分析参考的一部分,就可以使用户理想的方式给出适合自身的报告,这个报告能处理与应用有关的任何逻辑分析和统计分析,这样用户就可以在OLAP平台上进行简单、易懂的数据分析,并且得到最终结果。
2 浅析数据仓库与OLAP的关系
数据仓库进一步发展是伴随着信息化不断普及产生,随之而来的就是OLAP的进一步发展,OLAP作为一种在功能上多为查询和分析的工具,是数据仓库功能上的进一步发展,而支持管理中决策的过程就是建立数据仓库的目的,所以基于在数据仓库中的大量数据得以有效利用的很重要的保障;OLAP的出现无疑解决了这一问题,也是OLAP和数据仓库两者具有不同概念的基本分析点,但是在事实上这二者又是密不可分的,数据仓库是一个大规模的数据库,其包含了企业所有的历史的数据,这样的数据库主要的用途是在企业在决策中提供分析和支持的数据,而OLAP技术则是在数据仓库的基础上进行联机的技术性分析,中途运用联机分析和可视化工具对于相关数据进行迅速的评价,将复杂的查询结果快速的反馈给查询用户,帮助他们做出正确的决策,而数据仓库是侧重于管理和储存主要用于决策主体,OLAP则是进行数据分析并且是多维性的,所以,笔者认为,OLAP和数据仓库可以有效结合,以便于解决更多的问题。
3 基于数据仓库的OLAP的核心技术
3.1 OLAP维和度量
笔者运用一个简单实例进行阐述,在这里我们先假定某个个体商店,我们都知道有一些在商业上常见的因素就会影响他的销售业务和利润的额度,举一些例子:如商品的品牌、进货的月份等;在这里对于某一常见的商品,通常在一定情况下也许他只是想知道该商品在各大商场以及各个时间段的具体销售情况,这样的情况可能是针对于对某一特定的商店,可能商家想知道的是各商品在各段时间的具体销售的基本情况,商家迫切的需要决策的相关信息支持来帮助制定相关具体的销售政策,这里,特定的商店以及特定的时间和特定的产品都是笔者所说的维;由此推出的维有自己固有的相关属性:在进行决策支持时这些属性是非常有用的。
3.2 MOLAP以及ROLAP技术
1)ROLAP技术。在一次简单的查询操作中,用户和分析人员可以应用存储在维表中的用户习惯描述也就是元数据,来说明一个查询需求,这样做的好处是可以获得查询对象的事实值以及对数据的多维描述;和数据对应维上的维成员,并且在这种ROLAP模式中而这种需求可被ROLAP依靠维表转换成维的代码或值,完成用户的最终需求以及对于数据信息请求。
2)MOLAP及时。笔者在这里介绍的OLAP系统在具体实施实现时,这种OLAP系统就是基于多维的,如果采用多维数据库存储OLAP显示数据,即我们所说的MOLAP。我们介绍的多维数据库可在此系统中直观地表达当前现实世界中多点对多点的关系。
4 结束语
当前,世界经济一体化的趋势越发明显,随着跨领域产业和跨国公司的出现,传统的数据库操作技术已不能满足企业决策主题的需求,因此企业决策所需要的信息量会越来越大,所需要处理的信息量也会越来越大。而当前的OLAP技术正好具有这样一个灵活分析的功能,能够直观的进行数据操作和分析,并且还具有结果可视化表示等突出优点,这样的技术有利于帮助用户迅速做出正确的判断,使用户在进行大量复杂数据的分析变得轻松而高效,从而为企业的决策支持提供很多服务以及平台。因此,笔者认为有效的构建和使用数据仓库以及OLAP技术能为企业做出科学决策提供更优越的平台。
参考文献
[1]华冠萍.数据仓库、数据挖掘及OLAP之两两关系[J].福建电脑,2007(8).
为了屏蔽各种源系统的差异性,该系统设计并实现了经营分析系统与数据源系统(如BOSS系统)间的接口。同时,依据实体-关系建模理论,遵照第三范式,设计并实现了中国移动经营分析系统数据仓库底层实体-关系逻辑数据模型,对经营分析系统中的指标进行了重新梳理,从而避免了歧义的产生,同时构建了数据质量管理体系。
两种系统各司其职
中国移动经营分析系统分为每级经营分析系统和分级体系管理两个部分。
每级(一级和二级)经营分析系统建设主要包括:ETL子系统、数据仓库子系统、OLAP和数据挖掘子系统、与源系统接口子系统、指标子系统和逻辑模型子系统等。分级体系管理包括一级与二级经营分析系统间的接口管理、数据质量控制体系等内容。接口管理方面对有关的抽取数据内容给出了详细的定义和描述,数据质量控制体系则给出了有关的详细数据定义口径,并给出了一些数据质量运算方法。
六大创新
该经营分析系统主要创新点如下:
1.首次提出了分级式数据仓库理论 针对移动通信数据规模大、变化快的特点,中国移动提出并实现了分级式数据仓库体系结构,设计了分级式数据仓库的构建方法,并解决了相关的技术、业务难题。
2.建设了世界上最大的数据仓库系统 基于分级式数据仓库理论,中国移动建成了世界上最大的数据仓库,目前容量约为842TB。
3.国内首次设计并完成了面向移动通信行业的数据仓库逻辑模型 移动通信数据包含了来自计费、客服、网管等各类异构数据资源的复杂数据,这些复杂数据之间还包含着繁琐的业务逻辑关系。针对移动通信数据资源和业务逻辑关系的特点,中国移动提出了面向移动通信数据仓库的统一建模方法,并在经营分析系统中实现了统一建模机制。
4.国内首次大规模采用了OLAP、数据挖掘等先进技术 根据经营分析系统数据的特点,中国移动把数据仓库划分为客户、账务等主题域。同时紧密结合目前的市场经营活动和市场部门的需求,选定了客户分析等九大经营分析主题。这些经营分析主题反映了目前中国移动通信市场上比较有代表意义的经营分析业务的需求,也提供了比较丰富的业务应用。
5.国内首次提出并实现了数据仓库的数据质量管理体系 在结合移动通信数据特点的基础上,针对数据质量的过程性特点,提出有针对性的数据质量保障方法,提出了在分级数据仓库系统中数据质量的管理流程,并从业务统一和方便实现的角度,提出了进行实际的数据质量检查时所应遵从的原则。
6.国内首次建立了数据仓库建设、应用体系 在国内首次大规模地应用了数据仓库技术,构建了完整的抽取、转换和加载(ETL)、存储、分析、挖掘过程,并建立了完整的业务应用体系。
经营分析系统从2001年开始规划,2003年底建成世界最大的数据仓库,提高了标准化程度,统一了逻辑模型和指标解释;丰富了分析手段,包括报表分析、即席查询、OLAP分析和数据挖掘分析。截至到2005年7月1日,全国31个省市有9648个用户在使用经营分析系统,年访问量约为4,399,388人次。
收获颇丰
中国移动经营分析系统实现和应用的主要分析功能如下:
1.关键指标展示 宏观反映企业整体运营情况,使移动公司决策层能够及时了解并把握企业生产经营的最新整体情况,从而准确高效进行科学分析和决策。
2.客户分群 客户分群是深入了解客户、提供针对的基础。
3.市场分析 为中国移动市场人员开展市场活动提供基于多种方法与手段之上的数据依据。
4.客户服务分析 综合展现中国移动客户服务各方面的素质。
5.营销分析 为各公司的市场营销决策提供有力的支撑。
6.财务账务分析 清晰展现中国移动的运营收入与支出情况,追踪中国移动收入的主要来源和成本的主要去向。
7.数据业务分析 综合展现新兴数据业务市场的发展变化情况。
8.综合统计分析 系统都能够以灵活的方式提供自定制模型、辅助定制模型或方法的综合分析。
经营分析系统在各个方面体现了比较显著的效益和成果。
1.降低成本 例如经营分析系统中的重入网分析,浙江省温州2月份就可以节约成本113.8935万元。推广到全国,可节约成本约130000万元。
2.增加收入 在经营分析系统的用户离网分析方面,仅山西移动客户离网分析一项就可增加收入26880万元,推广到全国,每年可增加收入约800000万元。
3.社会效益 中国移动经营分析系统提供了灵活的OLAP分析和挖掘方法,提高了企业市场营销人员的日常工作效率,从而提高了企业核心竞争力;提高了企业决策速度,从以前的一个月决策周期提高到现在的一周;改善了营销模式,使市场得到全面深入开发,促进了企业的快速发展,并且提高了客户服务质量,增加了客户满意度,增加了社会效益。
中国移动的经营分析系统是国内第一个大规模建设数据仓库的典型案例,带动了国内一批系统集成商、业务开发商和应用咨询厂商的发展,填补了国内在数据仓库大规模建设方面的技术空白,促进了国内数据仓库技术、OLAP技术和数据挖掘技术的发展,极大地推动了中国在数据仓库方面的信息化水平。
数据仓库技术在电信运营商中的应用
随着市场竞争的加剧,电信运营商迫切需要加强企业自身的管理水平,提升市场竞争力。而电信运营商的信息化过程,无疑对于提升企业的管理水平奠定了重要的技术基础。通过信息化手段,能够对企业的内部管理和外部经营情况进行深入的了解,实现精细化的管理和营销工作。
与其他行业一样,电信运营商的信息化工作,也涉及到企业的方方面面,不仅包括ERP、CRM等内部管理体系,也包括外部的供应链管理、合作伙伴管理等内容。
电信运营商在信息化方面具有比较好的基础,国内电信运营商基本完成了对业务系统的电子化过程,例如移动通信运营商能够为用户提供基本的通话详单和账单等服务。而大量关于客户和产品方面的数据,为后续的信息化过程提供了基础。
电信运营商的这些信息,如果加以收藏和整理,将是一笔难得的宝藏,能够为企业的决策和市场经营提供有力支撑。
整体而言,企业的信息化管理过程中,数据管理是企业信息化管理的较高境界,因为数据涉及到企业生产、管理的各个方面,很多经营异常等问题都可以及时通过数据分析发现。而在信息化技术中,数据仓库技术是数据整理和分析的较好的技术。
1.对海量数据的整理提供了基本的方法
数据仓库提供了海量数据进行存储的基本方法,通过数据仓库逻辑模型的设计,对企业的数据资源进行了形式化的描述和整理,为企业业务应用奠定了基础。
2.引入了数据挖掘等数据分析技术,能够提供更深的分析
在数据仓库技术中,引入了OLAP、数据挖掘等分析性技术,提供了更深入的数据分析手段,可以比较深入地分析出企业运营的各种信息。
3.通过数据质量的提升,监控上游的各个源系统
在数据仓库系统中,会接收各个业务系统的数据,通过对这些数据的质量进行监控,就可以及时发现上游各个业务源系统的运营异常,提升企业的业务监控能力。
・新闻・
山东积极推进涉农信息共享
由山东信息化工作领导小组办公室、省信息产业厅主办,山东网通公司联合有关部门和单位共同承建的山东省农业与农村信息综合服务平台于7月24日正式开通。同时,先后斥资160多亿元的山东省村村通宽带工程取得重大突破,除极少数偏远地区外,山东将提前两年,于2006年底前全面实现村村通宽带。(山东省信息产业厅 韩旭东)
太极为大兴政府服务
近日,太极计算机股份有限公司中标大兴政府综合服务办公楼智能化改造工程。工程具体建设内容包括智能化系统总集成IBMS、综合布线系统、楼宇自控系统、综合安防系统等十余个系统及机房工程等总体规划、系统调试、软件开发等。 (郭莹)
地理信息技术论坛将召开
中国科学院主办、北京超图地理信息技术有限公司具体承办的“2006中科院地理信息技术自主创新论坛”将于9月召开,中国科学院将对我国地理信息技术自主创新历程进行全面的总结和回顾。 (郭莹)
远特通信推出FAX99电子传真
北京远特通信技术有限公司日前推出FAX99电子传真业务。使用该业务,用户可以通过电子邮件收发传真来取代传统的传真号码发传真,获得高效、节能、无纸化的办公环境。 (郝)
同方签约也门国际机场
近日,同方正式与也门萨娜国际机场签约,承接其新候机楼智能化工程,合同金额达2140万美元。(汪蔚)
三星搭建B2B商桥
前不久,在2006年三星全国行业商大会上,三星行业大客户部正式发表了行业商政策―“Power Partner Portal”系统,即三星B2B商桥。这是一个可以给商提供支持的在线即时沟通平台。 (汪蔚)
美的集团资金管理上台阶
日前,美的集团资金管理项目一期成功验收。该系统于2004年底由浪潮集团承建,涉及美的集团三级结算中心共20个结算部门,服务对象覆盖全部下属单位及集团财务部预算管理中心和融资管理中心。 (陈超)
[关键词] 数据仓库商业智能系统架构
一、引言
数据仓库在整个商业智能项目中起到核心的作用,就好比人的大脑,如果人没有聪明的,思维清晰的大脑,不可能做出明智的决定一样。由于数据仓库的设计决定着数据仓库是否能满足业务的需要和业务扩展的需要,所以数据仓库的设计成为整个商业智能项目中最为关键的过程。本文根据某制造型企业的信息化建设项目,论述项目实施过程中数据仓库的设计过程和需要注意的一些问题。
信息技术的高速发展为企业提高自身竞争力带来了巨大空间:信息技术不但使企业获取需要的信息,而且也促进企业对信息的再利用,以此营造企业的竞争优势。而商业智能是将企业运作中涉及到的数据有效的转化为信息、知识和智慧,通过适当的方式展现给决策者,以帮助企业提高决策能力和运营能力以增强企业核心竞争力。正是在这个背景下,企业决定实施商务智能。
二、商业智能项目概述
公司选用BusinessObject XI软件作为展现工具,数据仓库选用oracle 9i企业版(9.2.0.6),总体架构如下:
下面就以上的架构图进行简要说明:
1.源服务器。主要为企业内现有正在使用的业务系统,为数据仓库的主要的数据来源。包括BAAN的ERP系统,电子商务平台,SLIM4物流系统,包装系统,还有一些外部数据源。例如EXCEL表。
2.DW服务器(dataware)。DW服务器存储数据仓库的相关数据。根据数据特性的不同。有可以划分到不同的区域。采用oracle 9i企业版。操作系统采用HP UNIX。用关系表存放数据。
3.DI服务器(data intergrator)。整个的etl(转换,清洗,加载)功能可以划分为调度和具体实现。DI服务器完成etl调度功能以及一部分具体的实现。采用DI XI。操作系统采用Window 2000 server。
主要的功能为运行etl任务。
DI可以通过作业方式管理ETL工作,定时执行预定义的ETL作业。DI自带ETL调度服务。
我们可以DI服务器上设定etl各个任务运行的时间、运行的周期以及执行次序。然后根据可以预先设定的etl各个任务的流程、运行的时间、运行的周期以及执行次序,定期的自动地运行etl任务。
DI的各种配置信息都放在DI储备库中。DI储备库是一套数据,包括了工作流信息等。可以存放在某个关系型数据库上。
4.BO服务器(business objects)。BO服务器提供查询和分析服务。它从数据仓库中获取报表分析所需的数据,从为BO储备库中获取相关的。为不同的业务分析人员提供分析报表和多维分析功能。同时担负着用户权限管理、登录认证、文档管理等功能。采用BO XI 企业版。操作系统采用Window 2000 server。
BO的各种配置信息都放在BO储备库中。BO储备库是一套数据,包括了语义层、报表、用户、权限信息等。可以存放在某个关系型数据库上。
5.Web服务器。提供b/s结构的查看分析报表功能。由web服务器和java应用服务器构成。web服务器采用Aphace,提供了通过网页访问本系统的方式。
java应用服务器采用Tomcat,提供jsp处理能力。
在web服务器和java应用服务器部署有bo的前台java应用程序。
6.DI管理客户端。部署了DI的客户端程序:包括Data Integrator Designer、Repository Manager、Server Manager、Web Administrator等。
7.BO应用客户端。部署了DI的客户端程序:包括Designer、Desktop Intelligence等。
8.IE客户端。通过IE查看分析报表的客户端。
三、数据仓库的设计
1.数据仓库逻辑设计。本系统按ETL数据转换层次把数据仓库逻辑上设计为如下的层次:临时存储区、数据清洗区、数据转换区、基础数据区、星型数据区、数据中心。其中要注意的是一条数据的etl处理流向有必须经过的区域包括:临时存储区、基础数据区或星型数据区、数据中心。在其他的区域不一定存在。
(1)临时存储区。存放有源系统中刚抽取过来的数据。其中主要特点有:基于源系统数据结构的数据存储、仅含本次加载的数据、简单的数据装载、同个实体多套数据结构。
大部分来自每个源系统的数据文件在源数据区将对应惟一找到一个惟一属于自己的几乎相同的数据结构(1对1的关系),以保障源数据装载简单易行。
(2)清洗区。存放有对临时区经过了清洗的数据。其中主要特点有:基于源系统数据结构的数据存储、仅含本次加载的数据、简单的数据装载、同个实体多套数据结构、错误的数据经过了修正,例如修改错误的日期。
(3)基础数据区。基础数据区是整个系统的核心,存储来自各种源数据系统的数据(主要是当前数据及包含部分历史变更数据),具有统一的结构。以范式结构为主。可以提供查询。其中主要特点有:①单套数据结构。大部分来自数据转换区的实体在中央仓库区将对应唯一找到一个属于自己的数据结构(1对1的关系)。②数据结构和业务系统数据结构不同营销分析系统物理数据模型与业务系统数据模型的差异体现。③较复杂但具有共性、稳定性的转换规则。④性能一般。基础数据区的数据量大,操作复杂,关联动作多,是数据转换优化的重点。
(4)星型数据区。按星型结构组织的事实表的区域。包括了原子级别的事实表和聚集的事实表。原子级别的事实表的一行与基础区中的相关表中的一行对应,是最细粒度的数据。数据聚合就是对原子级别的事实表或基础区数据进行聚合计算形成聚合表。本区域设立的主要的目的是提高查询分析的速度。其中主要特点有:①按星型结构组织,即一个事实表跟若干个维表关联。②数据有冗余。
(5)存储过程。进行etl处理的相关的存储过程。
(6)数据中心。数据中心中的数据是从业务系统中抽取的,经过清洗的,仍按原业务系统中规则存储的操作型数据。
该数据中心建成后,数据应和业务系统中同步,新开发系统如果要在业务系统中取数据,将不再直接连接业务系统,而是连接到此数据中心上。数据中心中的数据抽取到数据仓库后所有数据仍然保留,不做删除。
2.数据仓库物理设计
(1)表空间设计。其中tce为temp(临时区),clear(清洗区),extract(转换区)。Basic为基础区,star为星型区,ods为数据中心。Tceidx为tce区的索引存放表空间。basicidx为基础区索引存放表空间,star为星型区的索引存放表空间。这样设计主要为了把逻辑意义的区分开,也为性能考虑可以在表名前加前缀作为区分表所在的区。其中数据库中所有的业务表全部放在一个用户下,以方便在各个区之间加载转换。
(2)归档设计。由于数据在数据仓库中频繁加载删除和插入等操作,如果选用归档模式会使数据库产生大量日志。如果归档将严重影响性能.而且数据仓库对数据恢复的要求不高。所以决定采用非归档模式。
(3)安全性设计。数据库中所有的业务表全部放在一个用户下,以方便在各个区之间加载转换。再建一个用户用于展现,对所有的业务表只有只读权限。
(4)备份恢复。这里采用每2天一次冷备份和一周一次逻辑备份。可以接受恢复两天前的数据,然后通过etl重新从源数据库中获取最新数据。
(5)参数设计。由于数据仓库经常删除、插入,很少更新的特点,相对一般业务系统,加大块的大小,增加preused和减少prefree。
四、结束语
以数据仓库和数据挖掘为基础的的建设是一个过程,并非一蹴而就。在这个过程中,业务需求和信息基础设施规划两者都不可或缺。这其中科学规范的项目实施也是关键。我们有理由相信,随着企业商务智能系统的实施与应用,企业竞争力将会大大增强。同时,随着市场经济的发展,商务智能系统在国内的应用也将越来越广泛。
参考文献:
[1]William H. Inmon著:数据仓库[M]. 机械工业出版社,2006,8
关键词:数据仓库;首都机场(BCIA);数据中心(DC);逻辑架构
中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2011) 15-0000-01
Beijing Capital International Airport's Data Warehouse
He Zhiwu
(Beijing Capital International Airport Co.,Ltd.Information Technology,Beijing100621,China)
Abstract:Based on industry definition and development of data warehouses,this paper,the capital's airport design ideas and data center functions to achieve a basic overview of the module.
Keywords:Data warehouse;Beijing Capital International Airport (BCIA);Data Center(DC);Logical framework
一、引言
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,研究和解决从数据库中获取信息的问题,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。数据仓库的特征在于面向主题、集成性、稳定性和时变性。而首都机场的数据仓库―我们叫做数据中心是在统一航空业务数据标准基础上,理清航空业务及相关信息管理制度与流程,补充缺失的运行数据,改善航空业务信息多头现状,提升航空业务数据质量,并为相关部门提供全面的航空业务信息实时监控与分析展现能力。
二、BCIA数据中心设计目标
数据中心(DATA CENTER,简称DC)的总体目标是在公司层面,统一规划建设面向公司各项业务的操作型数据库(OLTP)和分析型数据库(OLAP),建立一个高性能、稳定可靠,具有开放性、可扩展性的数据中心,完成应用系统的数据与决策支持有价值的外部数据的集中整合,保证数据一致性、准确性,提供辅助决策的全局数据视图。在此基础上通过数据分析技术,建立高效、易用、实用、灵活的面向主题的全方位、多层次的智能决策支持系统。数据中心是为BCIA信息管理平台提供完整、标准、统一、面向业务应用
系统和决策支持服务的数据基础平台。系统定位如下:(1)建立统一标准、规范的数据平台用于数据的集中、加工、汇总。(2)统一规划建设。(3)业务数据的查询、比对及分析。(4)充分考虑系统的可扩展性,提供高度开放的软硬件平台。(5)以数据中心为平台,为各级用户提供统一信息门户,实现信息访问的集成与统一。(6)满足对数据统一、标准、完整及更新处理性能和可靠性的要求。(7)支持管理和决策、面向主题的、集成的、与时间相关的、稳定的、持久的特性要求。
三、BCIA数据中心架构
基于业界通行的数据中心设计方法论,BCIA数据中心平台总体逻辑系统架构可划分为两个平台:数据中心平台(操作数据处理)、数据分析平台(分析数据处理),整体逻辑架构包括以下四个层次:数据采集层、数据整合层、应用分析层、信息展现层,实现对整个数据中心平台前后端所有部件、操作、流程管理。数据中心的四个层次的功能如下:
(一)数据采集层。抽取、采集来自BCIA业务系统的数据和其它外部数据源中的数据,提供原始数据的分离、清洗、转换等处理,最后加载到数据中心中,实现数据的整合与提炼。BCIA数据中心与传统的数据仓库系统有一个非常大的差异,BCIA数据源包括实时与非实时两部分数据。
(二)数据整合层。数据整合层包括两个层面:一方面为业务部门提供数据维护(包括数据补录、数据修正、数据校核)、数据交互、实时运行监控等服务;另一方面为整个BCIA提供面向主题的数据存储与管理环境,使系统能够提供高效、灵活的查询、统计和联机分析处理功能。在这一层采用关系型数据库技术,管理和生成分析应用所需的细节数据和各种粒度的汇总数据,形成企业级数据体系化环境,是数据中心平台的数据存储中心,所有来源于各业务系统的明细数据以及用于分析的集成汇总数据都存储在这里。为公司的数据应用,如运行、经营、市场分析、决策等提供数据基础。同时,我们采用多维数据库技术,建立BCIA数据中心平机分析处理(OLAP)平台,为满足复杂的多维分析及预测的需求,将分析所用的数据从关系型数据库中提取到多维数据库中。多维数据库中的分析用数据包括汇总数据、经过其他预处理的数据等,其数据结构与关系型数据库中明细数据的结构是完全不同的。这些数据是只读的,是为不同类型用户的分析、预测和决策需求服务的。
(三)应用分析层。该层集中了BCIA数据中心平台的所有主要应用部件,构成数据信息综合利用的引擎:如OLAP分析、数据展现、决策支持处理、报表定制与分发、模型管理等。
(四)信息展现层。通过企业信息门户,将应用分析层上构建的各类数据应用通过统一的平台展现给公司数据中心平台各类用户。同时提供数据分析结果的表达、共享与传递的功能,是信息服务的主要平台,主要包括信息展现与人机交互、信息等。
四、BCIA数据中心安全保障
从多方面综合考虑的系统安全架构,是一个能够从网络层到系统层,再从系统层到业务层的全方位的安全管理架构,从而满足系统的安全需求。对于数据中心平台的建设,从大的方面要结合BCIA企业安全体系的标准(如系统安全、网络安全等);从产品与应用级,建议数据中心平台安全架构应包括数据安全管理、数据仓库相关产品从后端安全管理、前端的安全集成、用户权限管理等几个方面。具体来说应包括以下各部分安全机制:
(一)底层安全:操作系统安全机制;数据库安全机制。
(二)后台应用安全:ETL应用安全机制;模型设计与模型管理安全机制。
(三)前端应用及数据管理安全:OLAP模型访问安全机制;报表查询安全机制;数据维护模块与运行监控模块数据安全机制;数据维护与运行监控操作安全机制;补录系统安全机制;集成Portal安全机制。