数据仓储,数据仓储是什么意思


(相关资料图)

各个组织每天都要捕获一些基本不可使用的数据,原因是无法很方便地访问、操作和呈现这些数据。在一个组织的各计算机系统上,有数十亿字节的数据基本上是“锁定”的。数据仓储技术定义了可以使该数据更容易访问的策略。

业内分析人士和系统供应商长久以来已经认识到有两种类型的信息系统:

作业系统 作业系统是指组织内将输入转换成输出而创造价值的系统。它接受输入,即:人、设备和材料,然后将其转换成能满足需要的商品或服务。这些系统用来处理日常的经营活动,如记帐、订单输入和库存管理等。这些系统维持企业运行。

信息系统 信息系统是以提供信息服务为主要目的的数据密集型、人机交互的计算机应用系统。人们使用这些系统来分析数据、作出企业管理决策和规划未来发展。这些系统通常是指“经理管理系统”。

这两个系统之间的重要差别在于,作业系统处理一组特定的数据(如库存),而信息系统则要涉及到从多种多样的相关信息源中提取有用的信息。信息系统从以下信息源访问和使用数据:

遗留数据系统 一个组织经过多年的收集而获得的数据的仓库。这些系统包括较早的大型机或小型计算机系统,这些系统运行的特定应用程序已经不容易从较先进的基于PC的应用程序中来访问了。

外部数据系统 这些系统位于组织外部,如Web服务器或订阅数据业务,它们提供了广泛的信息(如人口统计数据、经济趋势数据、产品数据等)。

作业数据系统 如前所述,作业数据是指由记帐和其他企业系统收集和生成的日常数据。

数据仓库可以视为一个三部分系统,其中,中间系统向终端用户安全地提供可用的数据。在中间系统的一侧是终端用户,一侧是后端数据存储区。数据仓库通常由以下几部分组成,D-12所示

图D-12 数据仓库结构分级系统/数据集市 从后端系统中选择的数据即存储在此,以供客户机访问。通常要以多种方式对数据进行清理和处理才能对其进行访问,这在后面将进行探讨。数据仓库可以包含多个数据集市,每个数据集市对应于公司的一个部门。尽管数据集市可存储从数据仓库提取的信息,但数据仓库常常是分阶段建立的,首先建立部门数据集市,然后将各个数据集市合并起来。

前端客户机 这些客户机是指使用基于PC的应用程序访问数据以供分析的终端用户。

中间件 中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/ 服务器的操作系统之上,管理计算资源和网络通讯。是连接两个独立应用程序或独立系统的软件。中间件可隐藏不同数据管理系统之间的差别,并使客户机可以容易地访问这些系统。执行中间件的一个关键途径是信息传递。通过中间件,应用程序可以工作于多平台或OS环境。

消息系统 数据仓库通常包含多个后端系统和多个客户机。一个消息系统就是一个传递系统,用来在整个数据仓库中传输请求和响应消息系统使用基础网络协议和设备传递信息。

元数据 元数据是描述数据仓库内数据的结构和建立方法的数据,这一点与图书馆的目录卡片包含图书相关的信息很类似。可将其按用途的不同分为两类,技术元数据和商业元数据。

从图D-12中可以看出,客户机可以访问存储在数据集市中的数据,尽管也可以直接访问遗留系统、作业系统或外部系统。但这种分级的方法有许多优点,其中包括安全性以及客户机对数据分析人员或数据管理员严格控制的数据的访问权。

关于数据仓库中的信息

数据仓库可以视为一个系统,该系统保存有来自遗留、作业或外部数据源的汇总信息。分级系统只存储最新的信息,仅供只读使用。所有数据更新均在作业系统上进行,而不在分级系统上进行。根据Prism Solutions(现在称为Informix),在数据仓库中有不同级别的汇总和细节,D-13所示。下面进行解释:

图D-13 数据仓储中的数据结构(经Prism Solutions许可)

较早的细节数据是指历史数据或遗留数据。

当前细节数据(通常为作业数据)是指最新的数据,该数据容量非常大,因此需要进行广泛的汇总以使其易于访问。

轻度汇总的数据是指数据库分析人员或其他一些进程已经从当前细节数据中提取出来的数据。

推荐内容