选择数据库的考量因素

数据库有多种类型，主要是将数据组织成结构化表的关联式数据库（SQL），以及提供更高灵活性的各类NoSQL数据库。在构建应用或管理数据时，如何确定哪种数据库最合适？没有一种数据库是“最好”的；最佳选择在很大程度上取决于项目的具体需求。选择过程中需要考虑的主要因素在此处进行检查。

数据结构和模型

你的数据特性通常是最重要的决定因素。

高度结构化数据： 如果你的数据能够整齐地放入具有明确定义列和关系（例如客户记录、订单、金融交易）的表中，关联式数据库（SQL）通常是一个强有力的选项。如第2章所述，这些数据库通过模式、主键和外键在数据完整性和结构强制方面表现出色。例子包括PostgreSQL、MySQL、SQL Server和Oracle。
半结构化数据： 如果你的数据具有一定结构但又不符合严格的模式，或者结构在不同项之间有所不同（例如具有不同属性的产品目录条目、用户资料、内容管理数据），文档型数据库（NoSQL）可能更合适。像MongoDB或Couchbase这样的数据库通常以JSON或BSON等格式存储数据，允许每个记录（文档）内部具有灵活性。
简单键值查找： 当主要需求是基于唯一标识符（例如会话数据、用户偏好、缓存）极速检索值时，键值存储（NoSQL）效率很高。例子包括Redis和Memcached。它们的操作方式很像字典或哈希映射。
关系型数据： 如果数据点之间的连接和关系与数据点本身同样重要（例如社交网络、推荐系统、欺诈检测），图形数据库（NoSQL）就是为此目的特别设计的。Neo4j是一个常见的例子。
大规模写入密集型数据： 对于涉及需要快速写入且通常分布在多台机器上的大量数据（例如传感器数据、日志）的场景，列式家族存储（NoSQL），如Cassandra或HBase，可以提供高写入吞吐量 (throughput)和可扩展性。

扩展性需求

你预期有多少数据，以及你的数据库现在和将来需要处理多少流量（读和写）？

垂直扩展（向上扩展）： 这包括向单个数据库服务器增加更多资源（CPU、RAM、磁盘）。传统的关联式数据库在一定程度上垂直扩展表现不错，但这可能会变得昂贵且有物理限制。
水平扩展（向外扩展）： 这包括向数据库集群添加更多服务器，并将数据和负载分布到这些服务器上。许多NoSQL数据库在设计时就以水平扩展性为主要目标，这使它们可能更适合预期大规模增长或不可预测负载峰值的应用。尽管现代SQL数据库也提供水平扩展选项，但有时其实现可能比某些NoSQL替代方案更复杂。

考虑你的应用是读密集型、写密集型还是均衡型，因为不同的数据库类型和配置针对不同模式进行了优化。

一致性需求

每一次读取操作都返回绝对最新写入的数据，这有多重要？

强一致性（ACID）： 关联式数据库传统上优先保证强一致性，通常遵循ACID特性（原子性、一致性、隔离性、持久性）。这确保了事务可靠处理，并维护数据完整性，这对于银行或电商库存等应用十分必要。
最终一致性（BASE）： 许多NoSQL数据库优先保证可用性和分区容错性，而非即时一致性（通常由CAP定理概括，该定理指出分布式系统只能在一致性、可用性、分区容错性三者中完全保证其中两项）。它们通常提供最终一致性，这意味着如果没有新的更新发生，最终所有读取都将返回最后更新的值。这种模型（有时被称为BASE：基本可用、软状态、最终一致）通常适用于社交媒体动态或分析等应用，在这些应用中，数据传播的轻微延迟可以接受，以换取更高的可用性和扩展性。

确定你的应用绝对需要的一致性级别。选择比所需更强一致性的数据库可能会不必要地牺牲性能或可用性。

查询复杂度与模式

你将如何检索和分析数据？

复杂联接和聚合： 关联式数据库以SQL作为查询语言，通常在运行涉及多表联接（JOINs）和复杂数据聚合的查询方面表现出色。
简单查找/按键查询： 键值存储在基于单个键的极速查找方面表现出色。
文档内查询： 文档型数据库允许基于灵活文档内的字段进行查询。
关系遍历： 图形数据库针对遍历复杂的关系网络进行了优化。

考虑你将向数据提出的问题类型。如果你预见到需要复杂的、多表报告，SQL可能更受青睐。如果大部分访问是按ID简单检索或在单个记录内进行筛选，NoSQL选项可能更快、更简单。

数据库类型在常见特性上的比较。条形图越高表示相对优势或侧重越大。请注意，每个类别中的具体实现可能有所不同。

运维考量

实际考量也起作用：

团队专长： 你的开发团队是否有特定数据库类型或查询语言的经验？发挥现有技能可以加速开发。
生态系统和工具： 考虑该数据库的库、社区支持、文档和管理工具的可用性。成熟的关联式数据库通常拥有非常广泛的生态系统。
成本： 考虑许可成本（有些数据库是开源的，有些是商业的）、基础设施要求（托管、硬件）以及运维开销（管理、备份、专业技能）。云服务商提供托管数据库服务，可以简化运维，但有其自身的定价模型。

选择数据库需要权衡这些因素并了解其取舍。通常，“正确”答案并非显而易见，甚至可能涉及在大型系统中使用多种数据库类型（一种被称为多语言持久化的做法）来最佳地处理不同任务。目标是选择最符合你的特定数据、应用需求和运维能力的技术。

参考文献

Database System Concepts, Avi Silberschatz, Henry F. Korth, S. Sudarshan, 2019 (McGraw-Hill) - 本书提供关系型数据库、SQL和ACID等事务原理的基础信息。
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 本书讨论数据密集型系统的设计，涵盖数据模型、存储、一致性以及不同数据库类型的可伸缩性。
Brewer's conjecture and the feasibility of consistent, available, partition-tolerant web services, Seth Gilbert, Nancy Lynch, 2002 ACM SIGACT News, Vol. 33 (Association for Computing Machinery (ACM)) DOI: 10.1145/564585.564601 - 本文分析CAP定理，阐述分布式系统中一致性、可用性和分区容错性之间的权衡。