Index là phương tiện rất mạnh để tăng hiệu năng thực hiện của câu
lệnh. Bài post này sẽ cung cấp một ví dụ cho bạn thấy bên trong SQL
Server sử dụng index để tăng hiệu năng như thế nào.
Ở đây tôi dùng database AdventureWork là database mẫu đi kèm với SQL
Server (bạn có thể dowload database này về và cài vào nếu chưa có sẵn).
Trước hết ta hãy dùng bảng Sale.Customer để tạo ra hai bảng mới là
Sale.Customer_noIndex và Sale.Customer_Index, đồng thời tạo 1 index trên
trường CustomerID cho bảng Sale.Customer_Index:
SELECT *
INTO Sales.Customer_NoIndex
FROM Sales.Customer
SELECT *
INTO Sales.Customer_Index
FROM Sales.Customer
GO
CREATE INDEX Idx_Customer_Index_CustomerID ON Sales.Customer_Index(CustomerID)
Nay ta có hai câu lệnh SELECT sau để truy vấn hai bảng:
-- #1
SELECT CustomerID, CustomerType
FROM Sales.Customer_NoIndex
WHERE CustomerID = 11001
-- #2
SELECT CustomerID, CustomerType
FROM Sales.Customer_Index
WHERE CustomerID = 11001
Hai câu lệnh này sẽ cho cùng kết quả, khác biệt duy nhất là câu lệnh
thứ hai truy vấn bảng Sales.Customer_Index có index trên trường cần tìm
(CustomerID). Ta sẽ xem hai câu lệnh trên được thực hiện như thế nào
bằng cách nhìn vào kế hoạch thực thi (execution plan) của chúng. Khi bắt
đầu thực hiện một câu lệnh, SQL Server lên một kế hoạch gồm các bước sẽ
tiến hành để thực thi câu lệnh đó, gọi là kế hoạch thực thi.Trên hàng
công cụ bạn hãy bấm vào nút “Include Actual Execution Plan”. Khi đó, mỗi
lần bạn chạy câu lệnh hệ thống sẽ vừa thực hiện câu lệnh vừa đồng thời
trả lại kế hoạch thực thi mà nó đã dùng để thực hiện câu lệnh đó.
Bạn hãy bôi đen câu lệnh thứ nhất và thực hiện nó, ở tab “Execution plan” hiện ra kế hoạch thực thi như thế này:

Như vậy ta thấy hệ thống sẽ thực thi câu lệnh bằng cách duyệt qua cả
bảng (table scan) và tìm ra các bản ghi thỏa mãn yêu cầu tìm kiếm. Thao
tác duyệt bảng có nghĩa là hệ thống cần phải đọc tuần tự từng bản ghi từ
đầu đến cuối để tìm ra kết quả. Trong trường hợp này, nó phải đọc toàn
bộ 19 185 bản ghi và tìm ra bản ghi có CustomerID=11011. Đây là một thao
tác rất chậm vì nó phải xử lý tất cả các bản ghi trong bảng. Nên nhớ hệ
thống sẽ không dừng lại khi nó tìm được bản ghi đầu tiên có
CustomerID=11011, vì nó không biết liệu còn bản ghi nào khác có giá trị
CustomerID tương tự hay không, cho nên để chắc chắn trả lại kết quả đầy
đủ hệ thống vẫn phải tiếp tục đọc các bản ghi còn lại. Ta có thể nhận
xét thấy chi phí của thao tác duyệt bảng tăng tuyến tính cùng với số
lượng bản ghi trong bảng (độ phức tạp là O(n)).
Giờ ta hãy thực hiện câu lệnh thứ hai, lần này kế hoạch thực thi sẽ như sau:

Lần này ta không thấy thao tác table scan nữa, mà thay vào đó là
index seek và RID lookup. Index seek là khi hệ thống có thể nhảy đến
được node trên cây index chứa khóa thỏa mãn yêu cầu tìm kiếm. Index là
một cấu trúc dữ liệu có dạng B-tree, nên nó rất thích hợp với các thao
tác tìm kiếm theo kiểu key=value, chỉ cần vài phép so sánh là
hệ thống định vị được node chứa khóa cần tìm. Node này chứa khóa (trường
được index, ở đây là giá trị của CustomerID) và RID là ID của bản ghi
tương ứng trong bảng (đây là giá trị nội bộ chỉ dùng bên trong hệ thống,
ta không truy cập được giá trị này). Vì thế bước tiếp theo là dùng RID
này để nhảy đến bản ghi tương ứng trong bảng (RID lookup) để lấy các
trường dữ liệu cần thiết. Với index seek, độ phức tạp giảm xuống thành
O(logn), một bước tiến vượt bậc so với table scan.
Ta có thể so sánh chi phí của hai câu lệnh trên bằng cách thực hiện cả hai cùng nhau:

Ta thấy câu lệnh thứ nhất chiếm tới 95% tổng chi phí, trong khi câu
lệnh thứ hai chỉ chiếm có 5%. Nói cách khác, index trên trường
CustomerID đã giúp cho câu lệnh thực hiện nhanh lên đến 19 lần. Index đã
giúp cho lượng dữ liệu hệ thống cần xử lý để tìm ra kết quả giảm xuống
đến mức tối thiểu, và điều đó đã tạo ra bước nhảy về tốc độ. Từ đây ta
rút ra một bài học quan trọng: Các trường thường được dùng trong mệnh đề
WHERE là các ứng cử viên đầu tiên cần được tạo index.