浅谈数字仓库(六)——关于命名规范
说说点仓(1)-什么是点仓?
浅谈仓库盘点(二)——传统仓库盘点与互联网仓库盘点
浅谈仓库盘点(三)——仓库盘点体系结构
浅谈数据仓库(4)-索引词典
谈谈数据仓库(5)——日期维度最重要的维度。
浅谈数字仓库(六)——关于命名规范
谈数据仓库(7)——谈数据治理
浅谈盘点仓库(八)——关于增量
谈几个仓库(9)-上下游协议
谈仓数(10)-任务笔记
换句话说,没有规则就没有方圆。在搭建数据平台的时候,在数据组内部,首先要制定各种规范,越早越好,不断监督大家是否按照约定执行。一旦让大家自由发挥,后期统一或者重构就会浪费大量的人力和时间。记住,这都是坑。
下面是我目前公司的一些经验分享。
按照惯例,几个仓库的构造是根据几个仓库的分层模型开发的。有的会按照业务线分层,在各自的业务线下重新分层,分别发展。
我用的是阿里云的MaxCompute,阿里云是一个数据平台,是阿里提供的一整套开发环境。用起来很方便,省去了自建平台的麻烦。MaxCompute中有一个项目的概念。一开始是打算按照层级模型的设计直接创建项目,但是因为某种原因,改成了按照业务条线创建项目。对于这个项目的名字,我们一定要想好。无论我们根据什么来设计,我们都需要仔细考虑并理解它。我们决定之后,就不应该改变,也不能改变。
忘了是不是叫《词源学》,就先写了,后来找了本书确认。词源属于数据仓库建设中的规范,属于元数据管理的范畴。哦,现在这都是数据治理的一部分了。
通常情况下,完整的数据仓库构建包括数据管理,但现在当涉及到数据仓库建模时,更多的是数据规范和数据管理。
先说我们的主角——词源。
我们在学习英语的时候,应该已经知道了词根,这个词是最简单,粒度最细的词。我们主要用它来规范中英文的映射关系。我们公司的部分业务是关于货架的。英文名是rack。rack是一个根,所以我们在所有的表和字段中都应该叫它rack,而不是别的。这就是词根的作用,用来统一名称,表达同一个意思。
指标体系中有很多“率”指标,可以分解为XXX+率,率可以叫率,所以我们所有的指标都叫XXX+率。
根可以用来统一表名、字段名、主题域名等。
一个表名需要通过它的名字来知道,你可以知道它是哪个业务域,为什么使用它,它是什么粒度的数据。
创建中间表时,请添加,如果想保留历史中间表,可以添加日期或时间戳。
指标的命名也参考了根,以避免相同的指标。10人有10种命名方式。
具体操作要结合公司实际情况尽快制定。
附件是我们之前在Ali DataWorks上的规范示例。