浅谈数字仓库(六)——关于命名规范

仓库汇总目录号:

说说点仓(1)-什么是点仓?

浅谈仓库盘点(二)——传统仓库盘点与互联网仓库盘点

浅谈仓库盘点(三)——仓库盘点体系结构

浅谈数据仓库(4)-索引词典

谈谈数据仓库(5)——日期维度最重要的维度。

浅谈数字仓库(六)——关于命名规范

谈数据仓库(7)——谈数据治理

浅谈盘点仓库(八)——关于增量

谈几个仓库(9)-上下游协议

谈仓数(10)-任务笔记

换句话说,没有规则就没有方圆。在搭建数据平台的时候,在数据组内部,首先要制定各种规范,越早越好,不断监督大家是否按照约定执行。一旦让大家自由发挥,后期统一或者重构就会浪费大量的人力和时间。记住,这都是坑。

下面是我目前公司的一些经验分享。

按照惯例,几个仓库的构造是根据几个仓库的分层模型开发的。有的会按照业务线分层,在各自的业务线下重新分层,分别发展。

我用的是阿里云的MaxCompute,阿里云是一个数据平台,是阿里提供的一整套开发环境。用起来很方便,省去了自建平台的麻烦。MaxCompute中有一个项目的概念。一开始是打算按照层级模型的设计直接创建项目,但是因为某种原因,改成了按照业务条线创建项目。对于这个项目的名字,我们一定要想好。无论我们根据什么来设计,我们都需要仔细考虑并理解它。我们决定之后,就不应该改变,也不能改变。

忘了是不是叫《词源学》,就先写了,后来找了本书确认。词源属于数据仓库建设中的规范,属于元数据管理的范畴。哦,现在这都是数据治理的一部分了。

通常情况下,完整的数据仓库构建包括数据管理,但现在当涉及到数据仓库建模时,更多的是数据规范和数据管理。

先说我们的主角——词源。

我们在学习英语的时候,应该已经知道了词根,这个词是最简单,粒度最细的词。我们主要用它来规范中英文的映射关系。我们公司的部分业务是关于货架的。英文名是rack。rack是一个根,所以我们在所有的表和字段中都应该叫它rack,而不是别的。这就是词根的作用,用来统一名称,表达同一个意思。

指标体系中有很多“率”指标,可以分解为XXX+率,率可以叫率,所以我们所有的指标都叫XXX+率。

根可以用来统一表名、字段名、主题域名等。

一个表名需要通过它的名字来知道,你可以知道它是哪个业务域,为什么使用它,它是什么粒度的数据。

创建中间表时,请添加,如果想保留历史中间表,可以添加日期或时间戳。

指标的命名也参考了根,以避免相同的指标。10人有10种命名方式。

具体操作要结合公司实际情况尽快制定。

附件是我们之前在Ali DataWorks上的规范示例。