规范化原则简介

您现在已经学会了如何使用表、行、列来组织数据，以及如何使用主键和外键关联相关信息。这构成了关系模型的基础。然而，仅仅将数据放入表中并非全部。如何在这些表中组织数据对于创建高效可靠的数据库非常重要。组织不当会导致后续问题。

设想一个简单情况，我们将订单信息（包括客户详情）直接存储在一个 Orders 表中：

OrderID	OrderDate	CustomerID	CustomerName	CustomerEmail	ProductID	Quantity
101	2023-10-26	C8	Alice Smith	[email protected]	P5	2
102	2023-10-27	C8	Alice Smith	[email protected]	P12	1
103	2023-10-27	J4	Bob Johnson	[email protected]	P5	5

这里发现一个潜在问题了吗？Alice Smith 的姓名和邮箱（Alice Smith，[email protected]）在她下的每个订单都重复出现。这被称为数据冗余。初始时，多次存储相同的信息可能看起来无害，但这会造成几个问题：

空间浪费：尽管磁盘空间相对便宜，但存储冗余数据会不必要地增加数据库的大小。
更新异常：如果Alice更改了她的邮箱地址怎么办？您需要找到代表Alice订单的每一行并更新邮箱地址。如果您遗漏了一行，数据库就会变得不一致，包含关于Alice邮箱的冲突信息。
插入异常：您能添加一个尚未下订单的新客户吗？在这种表结构中，不能，因为您需要 OrderID 和 ProductID 才能创建一行。
删除异常：如果Alice只下了一个订单（例如订单ID 101），而您后来删除了该订单记录，您可能会无意中从整个数据库中删除Alice姓名和邮箱的唯一记录。

为了解决这些问题，数据库设计者使用一个称为规范化的过程。

规范化是一种系统化的组织关系数据库中列和表的方法，旨在最小化数据冗余并提升数据完整性。可以将其视为一套在数据库设计过程中使用的指南或规则，以确保您的数据库结构是逻辑且高效的。

规范化的主要目标是：

规范化通常涉及将包含冗余数据的大表分解（拆分）为更小、更集中的表。这些小表随后使用您之前了解的主键和外键关联起来。

将此方法应用于我们的例子，并非一个大型 Orders 表，我们可能会创建三个独立的表：

客户表：
- CustomerID (主键)
- CustomerName
- CustomerEmail
- (其他客户相关详情)
产品表：
- ProductID (主键)
- ProductName
- Price
- (其他产品相关详情)
订单表：
- OrderID (主键)
- OrderDate
- CustomerID (引用客户表的外键)
- (其他订单相关详情，如收货地址)
订单详情表： (用于处理每个订单的多个产品)
- OrderDetailID (主键) 或复合键 (OrderID, ProductID)
- OrderID (引用订单表的外键)
- ProductID (引用产品表的外键)
- Quantity

现在，Alice的姓名和邮箱仅在 Customers 表中存储一次。Orders 表使用 CustomerID 关联到她的记录。如果她的邮箱更改，您只需在一个地方（Customers 表）更新它。这种结构避免了冗余以及相关的更新、插入和删除异常。

数据库理论定义了规范化的多个级别，被称为范式（如第一范式 - 1NF、第二范式 - 2NF、第三范式 - 3NF等）。每个范式代表一套逐渐更严格的规则，以消除冗余和依赖问题。

对于这门入门课程，您无需记住每个范式的具体规则。需要把握的是，规范化是一种基本方法，通过策略性地将数据组织到相关表中，以减少重复并防止数据不一致，从而设计清晰、高效、可靠的关系数据库模式。它利用主键和外键的作用来维护这些结构良好表之间的关系。理解这个原则对于构建易于管理和长期维护的数据库非常重要。

参考文献

Lecture Notes: Relational Design and Normalization (Lecture 5), Prof. Robert Morris, Prof. Samuel Madden, 2010 (MIT OpenCourseWare) - 大学课程的数据库设计和规范化讲义，从学术课程的角度解释了这些原则。