造价师/评估师培训:010-82146681

联盟会员/机构评定:010-82146682

业务合作咨询:010-82586972

E-mail:bscea@bscea.org

 

技术文章

如何度量数据仓库

点击:时间:2022-11-26
  从某种意义上讲,“数据类”的功能规模度量,也是数据管理的基础。
  数仓类软件应该如何度量规模?IFPUG早在2007年就给出了白皮书,这份内容放到现在来看,也不过时。
  下图是“数据仓库”的典型示意图,目前国内很多企业都有自己的数仓、数据湖、大数据的“架构”,我也看过、评估过很多,表面上各不相同,但是本质上基本如此。国内的企业一般喜欢说是xx层,例如:贴源层、接口层、整合层……。我在这里也借用了此说法,尽管这点与IFPUG的术语有点区别。
确定系统边界
  要做软件度量,前提工作之一:确定系统边界。图中的“紫红框线”是建议的系统边界。

  作为国际标准,IFPUG对系统边界有严格的定义;对划分边界有成熟的方法论。大家可以参考另一篇文章《边界与分区》。
  1、一般而言,对于数仓的主体——ODS(即:操作数据库,也称之为数据准备区、贴源层)与数据仓库(eDW)整合划分为一个系统边界。
  2、数据应用层(即:数据集市,Data Mart),可以是单独的一个系统;也可以根据使用的客户、开发团队的情况,而划分多个。例如:市场部有自己关于销售、客户等领域的集市;工程部也有自己的集市。
  3、展示层,一般是通过web技术来实现,展示为报表、大屏、首页等。分为两种情况:
  3.1、独立的展示层,可以访问多个数据仓库,则设置为独立的系统边界;
  3.2、只为一个数据仓库服务,且是数仓团队进行维护,则将其与数仓划分为同一个系统。
数据功能的识别
  本文主要就是在讲如何对“数据仓库”系统(包括了ODS+eDW)进行度量。
  首先,软件研发团队还是应该使用“维度模型”的方法,来建立数据模型。也是应该依次建立三个层次:概念模型、逻辑模型、物理模型。然而,我看国外的一些文章,他们经常批评——欧美的企业(无论是大小),能够如此执行的很少。
    对于数据建模本身,IFPUG还是比较推荐Bill Inmon范式;即星型的维度模型。
    一,在这个边界内,接入层(staging tables,缓存区,接入的原始表),本质与源系统的数据没有什么区别;用户也无法感知。所以里面的功能都不计数。此外,整个边界内的临时表、编码数据,遵守IFPUG 的规则也是不计数。
    二,ODS用来存储详细的交易数据,这里的数据主要是对源数据的加工,是用户可以感知的。因此可以根据数据加工的方法,计数为ILF或者EIF。
    三,对于数据仓库的数据功能计数,可以参考下表:

事务功能的识别
  事务功能的识别规则见下表:

结论
  我们做了众多的软件、数字化系统,目的就是为了要得到数据。数据仓库已经是众多企业必不可少的管理工具。
  数据仓库,表面上与业务处理类系统有很大的区别,尤其是数据建模领域。前者,主要是维度型;后者,主要是关系型。
  但是在进行度量的过程中,数仓还是坚持了IFPUG的规则:
  1、要明确规模度量的目的;
  2、要基于用户视角(user view)。
(北京软件造价评估技术创新联盟 罗翔)
相关新闻
 
关闭