什么是维度建模？为什么数据仓库离不开它？

谈数据

2025-06-07 10:30

查看原文

粗标 | | 复

来源：数据集成与治理编辑：谈数据

全文共3790个字，建议阅读10分钟

搭建数据仓库的最终目标是让数据易存取效率高、指标一致且完整、适应强便于修改、提供决策依据……总之业务需求是第一位的。

这需要一开始就进行系统化的数据建模设计，否则数据仓库就成了“数据堆积场”，业务想用时寸步难行。

而在众多建模方法中，维度建模以其清晰的业务视角、高效的查询性能，成为支撑数仓分析应用的关键。

今天，我们就来聊聊：维度建模到底是什么？它在数仓建设中扮演了怎样的角色？又该怎么实现？

维度建模

维度建模是大师Kimball的观点，和关系型建模相反，维度建模通过增加冗余来增加查询速度，以分析决策的需求出发构建模型，将业务主题对应的多个实体冗余记录，将共有维度，变化缓慢维的属性抽出形成维度表。

简单来说，维度建模的本质就是：以分析需求为出发点，围绕业务过程组织数据，构建出既能高效查询，又易于理解的数据结构。

它关注的核心问题是：

如何让业务人员在面对数据时，能够“顺着业务逻辑”自然而然地提取想要的答案？
如何通过合理设计，避免复杂的多表关联，让查询性能始终保持流畅？

维度建模的四大优势

维度建模之所以成为数仓建设中的主流方法，核心在于它具备以下优势：

易理解：围绕业务自然分类，业务人员也能快速读懂模型。
查询高性能：通过简化表结构，减少多表关联，查询速度快。
灵活扩展：新业务增加时，只需扩展维度表、事实表，无需推翻原有架构。
易于维护：当需求变化时，可以局部调整而不是大规模重构。

维度建模的一般流程

通常，建设一套成熟的维度模型，保证模型既符合业务逻辑，又兼顾技术实现，大致需要经历以下步骤：

1、确定业务过程：定义数据仓库需要支持的核心业务事件，如下单、支付、运输等。

2、确定粒度：明确每条事实记录代表什么粒度，如一笔订单、一件商品。

3、确定维度：从业务角度识别出需要分析的各种维度，如客户、产品、时间。

4、确定指标（事实）：定义需要追踪的量化数据，如金额、数量。

维度建模在数据建模中的应用

维度建模并不是某一个孤立步骤，而是贯穿了从业务理解到系统落地的全过程，在数据建模的各个阶段都有所应用，具体体现如下：

1、概念模型（Conceptual Model）

在这个阶段，维度建模帮助我们理解和描述业务过程，确定主要的业务实体（即维度）和业务度量（即事实或指标）。

比如在建模一个销售过程时，我们会识别出：

维度：时间、地点、产品、客户
指标：销售金额、销售数量、利润

此时，我们并不关注详细的数据库设计，而是关注如何用“事实+维度”的方式，清晰表达业务过程和分析需求，建立一个高层次的业务视图。

2、逻辑模型（Logical Model）

当概念模型确定后，下一步进入逻辑建模阶段，在这一阶段，维度建模帮助把抽象的业务概念，转化为可以直接指导数据库设计的详细结构，包括：

为每个维度确定具体的属性（例如客户维度包含客户ID、姓名、地址、注册时间等字段）
定义每个指标的计算方法（如订单总金额 = 单价 × 数量）
设计维度表事实表的结构，并明确它们之间的关联关系（比如客户ID连接订单事实表和客户维度表）

这一阶段，很多关键的设计决策，比如是否需要退化维度、是否要做角色扮演维度，都会在这里落地。

3、物理模型（Physical Model）

完成逻辑建模后，最后进入物理建模阶段，在这个阶段，维度建模帮助我们实现数据仓库的物理设计，包括：

根据数据库平台（如 SQL Server、Oracle、MySQL 等），实际创建维度表和事实表
优化表结构，比如为常用查询字段建立索引，设置分区，提高查询性能
处理大数据量时的性能考量，如数据压缩、并行加载等

这个阶段的目标是建立一个可以实际运行的数据仓库。

可以看到，维度建模是一条贯穿始终的主线，从最初的业务抽象，到详细的数据结构设计，再到系统上线后的查询优化，维度建模始终围绕着两个核心：维度和事实，也是维度建模不可或缺的基石。

维度建模两大基石

在维度建模的体系中，数据不再是零散的表格和字段，而是被有组织地分为事实和维度两大部分：

事实（Fact）是业务世界中可量化、可度量的事件，比如一次订单、一笔交易。
维度（Dimension）是描述这些事实发生背景的信息，比如客户是谁、在哪一天、购买了什么产品。

通过这种方式，维度建模让每一条数据记录背后都带有完整的业务语义，既能支持复杂分析，又能保证使用体验的简洁直观。

事实表

事实表，顾名思义，用来存储各种可度量的业务事件。事实表由三部分组成：事实键作为每个事实记录的唯一标识符、外键作为相关维度表的链接、度量列作为定量数据。

事实表的主要特点：

量化数据：包含各种指标（度量），如销售额、订单数量、访问次数等。
外键关联：通过外键连接到对应的维度表，比如客户ID、产品ID、时间ID。
粒度明确：每一条记录都要清楚表示“我描述的是哪个层级的事件”，比如“每一笔订单”还是“每一个客户每天的汇总”。

维度表

维度表由主键和属性两部分组成，主键是每条记录的唯一标识符，属性是有关实体的描述性数据，例如产品名称或商店地址。

维度表的主要特点：

描述性属性：包含文本型、分类型的信息，如客户姓名、地区、产品类别。
业务友好：字段命名清晰直白，业务人员能一眼看懂。
更新频率低：大多数维度表是相对静态的，比如客户信息不会天天变。

以电子商务业务为简单例子，在这种情况下，一些维度可能是客户、产品和时间。

维度建模模型

在实际数仓项目中，最常见的三种维度建模结构，分别是：星型模型、雪花模型和星座模型，它们各有特点，适用于不同的业务场景。

1、星型模型（Star Schema）

星型模型得名于它的结构形态：一张中心的事实表，直接连接多张扁平的维度表，整体像一颗放射状的星星。

特点：

结构简单直观，维度表通常只保存一级属性，不做过多拆分。
查询路径短，JOIN次数少，查询性能高。
适合绝大多数以查询性能为优先的分析型场景，比如BI报表、实时大屏分析。

适用于高性能需求，直接关联事实表与维度表，可满足节省存储的需求，将维度表进一步拆分成子维度表。

2、雪花模型（Snowflake Schema）

雪花模型是在星型模型的基础上，对维度表进一步规范化，把重复信息拆分出去，形成多层关联结构，像一片片展开的雪花。

特点：

节省存储空间，数据冗余少。
结构更符合传统数据库三范式设计，字段依赖关系更清晰。
查询性能略低，因为需要多次JOIN才能拿全信息。

适用场景于维度信息复杂、层级深、更新频繁的情况，或存储资源受限、对规范性要求极高的传统数仓系统。

不过在大部分业务分析项目中，为了性能，通常不会主动选择雪花模型，除非有明确需求。

3、星座模型（Fact Constellation Schema）

当数据仓库规模扩大，仅靠一张事实表无法覆盖所有业务主题时，就会出现多个事实表共享部分维度表的情况，形成星座模型。

特点：

多个业务过程（事实表）共享统一的维度（如时间、客户）。
结构复杂度上升，但可以支持更大范围、更细粒度的分析需求。
是大型集团企业、跨部门数仓常见的架构演变方向。

维度建模是数仓的核心

数据仓库的核心目标是支持复杂的分析查询和提供业务洞察，而维度建模正是为这一目标量身定制的解决方案，其不可替代性体现在以下方面：

1. 极致的查询性能优化

预聚合设计：维度建模通过将事实表与维度表预先关联（如通过外键连接），减少查询时的实时计算量。例如，分析 “各地区年度销售额” 时，无需逐行计算，直接读取预聚合的维度分组结果。
适配分析型场景：传统 OLTP（事务型）数据库采用范式建模（如三范式），强调数据冗余最小化，但在面对海量数据的复杂分析（如多维度组合查询）时性能低下。维度建模通过反范式设计（允许适当冗余），将数据组织成 “宽表” 形式，大幅提升分析效率。

2. 业务友好的易用性

贴近业务视角：维度表直接对应业务人员熟悉的实体（如 “客户”“产品”“时间”），而非技术化的数据库表结构。例如，业务人员可直接通过 “时间维度” 筛选 “2023 年 Q4” 的数据，无需理解复杂的 JOIN 逻辑。
降低使用门槛：基于维度建模的数据仓库可直接对接 BI 工具（如 Tableau、Power BI），通过拖拽维度和度量值快速生成报表，无需编写复杂 SQL，提升数据分析的普惠性。

3. 灵活的可扩展性

维度扩展成本低：当业务新增分析维度（如 “渠道”“促销活动”）时，只需新增或修改维度表，无需大规模调整事实表结构。例如，在现有销售模型中添加 “渠道维度”，只需创建新维度表并关联到事实表，不影响历史数据。
支持数据集市扩展：数据仓库通常由多个 “主题域”（如销售、库存、客户）组成，每个主题域可独立构建维度模型，最终通过一致性维度（如统一的 “时间维度”）整合，形成完整的企业级分析体系。

4. 数据一致性的保障

统一维度定义：维度建模要求对同一业务概念（如 “客户 ID”“产品类别”）在全企业范围内使用唯一的定义和值域。例如，“时间维度” 中 “季度” 的划分必须全局一致，避免不同部门因定义差异导致的数据矛盾。
减少数据冗余冲突：虽然维度建模允许适当冗余（如在多个事实表中引用同一维度表），但通过一致性维度机制确保数据源头唯一，避免传统反范式模型中 “同一数据多处存储导致不一致” 的问题。

5. 历史数据的可追溯性

支持缓慢变化维度（SCD）：业务维度的变化（如客户地址变更、产品分类调整）需要保留历史记录。维度建模通过技术手段（如版本号、时间戳）追踪维度变化，确保分析时能准确关联历史数据。例如，分析 “2022 年产品 A 的销售额” 时，自动匹配当时的产品分类，而非当前分类。

<END>

据统计，99%的数据大咖都关注了这个公众号

👇

相关文章：

数据仓库的构建：分步指南

数据仓库指标体系搭建实战！

基于OneData体系的数据仓库建设！

数据仓库中的元数据管理！

数据仓库的数据质量管理规范