老大問我：“建表為啥還設置個自增 id ？用流水號當主鍵不正好么？”

作者：劉志航 2020-10-12 06:42:16

運維數據庫運維

在工作中，創建表的時候，DBA 也會審核一下建表 SQL，檢查是否符合規范以及常用字段是否設置索引。

[[345532]]

前言

" 又要開始新項目了，一頓操作猛如虎，梳理流程加畫圖。這不，開始對流程及表結構了。

我：吧啦吧啦吧啦 ……

老大：這個建表為啥還設置個自增 id ?直接用流水號(用戶號/產品號)當主鍵不就行了?

我：這個是 DBA 規定的，創建表 id、create_time、update_time 這三個字段都要有。《Java 開發規范》也是這么規定的。

小伙伴：(附和)是的，規定的是這樣的!

老大：流水號在你這是唯一索引吧?設置成主鍵，這樣就不用 id 了，還減少一次回表查詢?

我：…… (說的好像很有道理，咱也不敢說話。)

老大：既然他們規定了，那你回去查一下為什么要設計個自增 id ?

我：掏出小本本(回去查資料~)。"

1.建表規約

Java 開發手冊-嵩山版

在工作中，創建表的時候，DBA 也會審核一下建表 SQL，檢查是否符合規范以及常用字段是否設置索引。

CREATE TABLE `xxxx` ( 
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '自增主鍵', 
  `create_time` datetime(3) NOT NULL DEFAULT current_timestamp(3) COMMENT '創建時間', 
  `update_time` datetime(3) NOT NULL DEFAULT current_timestamp(3) ON UPDATE current_timestamp(3) COMMENT '更新時間', 
  PRIMARY KEY (`id`) USING BTREE, 
  KEY `idx_create_time` (`create_time`) USING BTREE, 
  KEY `idx_update_time` (`update_time`) USING BTREE 
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb4 COMMENT='表注釋';

所以在我使用的過程中，流水號都是單獨設置了一個字段，比如叫 trans_no，但是這次就遇到了疑問：trans_no 既然是唯一的，那為什么不直接用 trans_no 當做 id 呢?

下面開始通過查閱相關資料，一步一步的了解是為什么?

2.主鍵

什么是主鍵?

MySQL primary key

這段定義咱們主要關注最后一句：

" When choosing primary key values, consider using arbitrary values (a synthetic key) rather than relying on values derived from some other source (a natural key). "

意思是創建主鍵的時候盡量使用 MySQL 自增主鍵而不是使用業務生成的值當做主鍵。

主鍵的特征

簡而言之：

非空、唯一、少更改或不更改。

如何添加主鍵

可以在 create 創建表的時候指定，也可以使用 alter 語句后面添加主鍵，不過官方建議在創建表時就指定。

為什么要添加主鍵

主鍵可以唯一標識這一行數據，從而保證在刪除更新操作時，只是操作這一行數據。
索引需要，每個 InnoDB 表又有一個特殊的索引，即聚簇索引，用來存儲行數據。通常，聚簇索引和主鍵同義。

聲明主鍵，InnoDB 會將主鍵作為聚簇索引。
未聲明時，會在 UNIQUE 所有鍵列所在位置找到第一個索引，NOT NULL 并將其作為聚簇索引
未聲明且找不到合適的 UNIQUE 索引，則內部生成一個隱藏的聚簇索引 GEN_CLUST_INDEX，這個隱藏的行 ID 是 6 字節且單調增加。

3.索引

這里僅介紹 InnoDB 引擎，具體可以參考官方文檔，并且介紹的相對比較簡單。

索引的分類

聚簇索引：表存儲是根據主鍵列的值組織的，以加快涉及主鍵列的查詢和排序。在介紹主鍵時也對聚簇索引進行了介紹。

二級索引：也可以叫輔助索引，在輔助索引中會記錄對應的主鍵列以及輔助索引列。根據輔助索引進行搜索的時候，會先根據輔助索引獲取到對應的主鍵列，然后再根據主鍵去聚簇索引里面搜索。一般不建議主鍵很長，因為主鍵很長輔助索引就會使用更多的空間。

" 補充：

回表：先在二級索引查詢到對應的主鍵值，然后根據主鍵再去聚簇索引里面取查詢。

索引覆蓋：二級索引記錄了主鍵列和二級索引列，如果我只查詢主鍵列的值和二級索引列的值，那就不需要回表了。 "

索引的物理結構

InnoDB 使用的 B+ 數數據結構，根據聚簇索引值(主鍵/UNQIUE/或者自己生成)構建一顆 B+ 樹，葉子節點中存放行記錄數據，所以每個葉子節點也可以叫數據頁。每個數據頁大小默認為 16k，支持自定義。

圖：《MySQL 技術內幕 InnoDB 存儲引擎》

數據的插入

當數據插入時，InnoDB 會使頁面 1/16 空閑，以備將來插入和更新索引記錄。

順序插入(升序或降序)：會將索引頁剩余的大約 15/16 裝滿
隨機插入：只會使用容量的 1/2 到 15/16

在隨機插入中，會頻繁的移動、分頁，從而造成大量的碎片，并且使索引樹不夠緊湊。而使用順序插入的方式，則數據比較緊湊，有更高的空間利用率。

4.總結

Q&A

Q: 什么是回表和索引覆蓋?

回表：先在二級索引查詢到對應的主鍵值，然后根據主鍵再去聚簇索引里面取查詢。

索引覆蓋：二級索引記錄了主鍵列和二級索引列，如果我只查詢主鍵列的值和二級索引列的值，那就不需要回表了。

Q: 為什么要設置自增主鍵 id ?

可以唯一標識一行數據，在 InnoDB 構建索引樹的時候會使用主鍵。

自增 id 是順序的，可以保證索引樹上的數據比較緊湊，有更高的空間利用率以及減少數據頁的分裂合并等操作，提高效率。

一般使用手機號、身份證號作為主鍵等并不能保證順序性。

流水號一般相對較長，比如 28 位，32 位等，過長的話會二級索引占用空間較多。同時為了業務需求，流水號具有一定的隨機性。

結束語

本文主要通過查閱資料，了解為什么要設置一個和業務無關的自增 id 用來當做主鍵，很多內容比較淺顯，比如 InnoDB 的 B+ 樹，頁分裂及頁合并，插入過程等都沒有進行深入研究，有興趣的小伙伴可以更深入的研究下。

同時在建表時除了要設置一個自增 id 用來當做主鍵，小伙伴們在業務開發過程中是否也會遇到一種情況：用戶的注銷，數據的刪除等都是進行的邏輯刪除，而不是物理刪除。

本篇文章介紹比較簡陋，不足之處，希望大家多多指正。

相關資料

[1] MySQL 官方文檔：

https://dev.mysql.com/doc/refman/8.0/en/

[2] 《MySQL 技術內幕 InnoDB 存儲引擎》第二版

本文轉載自微信公眾號「劉志航」，可以通過以下二維碼關注。轉載本文請聯系劉志航公眾號。

責任編輯：武曉燕來源：劉志航

建表流水號 Java