Q: Vì sao `LIKE '%deploy%'` không dùng được B-tree index? Giải thích cơ chế prefix scan của B-tree.

B-tree lưu giá trị column đã sort theo thứ tự từ điển. LIKE 'deploy%' xác định được range cụ thể trong B-tree: từ 'deploy' đến tiền tố kế tiếp — database seek thẳng đến điểm bắt đầu rồi đọc liên tiếp. Đây là range scan , rất nhanh. Với LIKE '%deploy%' , không có tiền tố cố định — pattern có thể match bất kỳ vị trí nào trong chuỗi. Planner không xác định được điểm bắt đầu trong B-tree, buộc phải scan toàn bộ index (hoặc table) từ đầu đến cuối. Cost tăng tuyến tính với số rows — trên 1M rows sẽ chậm hơn rất nhiều so với prefix scan.

Question 1

Vì sao `LIKE '%deploy%'` không dùng được B-tree index? Giải thích cơ chế prefix scan của B-tree.

Accepted Answer

B-tree lưu giá trị column đã sort theo thứ tự từ điển. LIKE 'deploy%' xác định được range cụ thể trong B-tree: từ 'deploy' đến tiền tố kế tiếp — database seek thẳng đến điểm bắt đầu rồi đọc liên tiếp. Đây là range scan, rất nhanh.

Với LIKE '%deploy%', không có tiền tố cố định — pattern có thể match bất kỳ vị trí nào trong chuỗi. Planner không xác định được điểm bắt đầu trong B-tree, buộc phải scan toàn bộ index (hoặc table) từ đầu đến cuối. Cost tăng tuyến tính với số rows — trên 1M rows sẽ chậm hơn rất nhiều so với prefix scan.

Question 2

"Phân biệt khi nào dùng LIKE

Accepted Answer

LIKE: pattern đơn giản, case-sensitive, có thể dùng B-tree với prefix. Autocomplete tên task bắt đầu bằng "deploy": title LIKE 'deploy%' Tìm file có đuôi .sql : filename LIKE '%.sql' ILIKE: giống LIKE nhưng case-insensitive, PostgreSQL-specific. Search email không phân biệt hoa thường: email ILIKE 'foo@%' Autocomplete tên người dùng bất kể cách viết hoa: username ILIKE 'admin%' Regex ~ / ~* : khi LIKE không đủ biểu đạt pattern. Task có tiêu đề bắt đầu bằng "deploy" hoặc "release": title ~ '^(deploy|release)' Task có chứa mã ngày dạng YYYY-MM-DD: title ~ '\d 4 -\d 2 -\d 2 ' FTS tsvector: khi cần semantic search, stemming, và xử lý ngôn ngữ tự nhiên. Tìm task liên quan đến "deployment" và "production" (bao gồm các dạng biến thể từ): 'to_tsvector(\'english\', title) @@ to_tsquery(\'deploy & prod\')' Search bài viết blog theo từ khóa với stopword removal: không match "the", "a" thừa.

Question 3

Bạn có B-tree index trên cột `email`. Query `WHERE LOWER(email) = 'foo@example.com'` chạy seq scan. Có 2 cách fix — liệt kê và so sánh tradeoff.

Accepted Answer

B-tree index lưu giá trị gốc của email , không lưu LOWER(email) . Khi WHERE clause có LOWER(email) , planner không biết cách ánh xạ ngược lại, nên bỏ qua index và chọn seq scan. Fix 1 — Dùng ILIKE: SELECT * FROM users WHERE email ILIKE 'foo@example.com'; PostgreSQL tự xử lý case-insensitive internally. Không cần sửa schema. Nhưng ILIKE là PostgreSQL-specific, không portable sang MySQL/SQLite. Và nếu không có expression index thì vẫn seq scan. Fix 2 — Expression index: CREATE INDEX idx_users_email_lower ON users(LOWER(email)); SELECT * FROM users WHERE LOWER(email) = 'foo@example.com'; Explicit và portable hơn — query rõ ràng dùng index nào. Nhưng cần thêm index (tốn storage, write chậm hơn một chút). Đây là pattern chuẩn cho mọi expression trong WHERE clause.

Question 4

`pg_trgm` GIN index giúp `LIKE '%x%'` nhanh hơn nhưng write chậm hơn B-tree 5-10 lần và storage lớn hơn 2-3 lần. Khi nào tradeoff này đáng đầu tư?

Accepted Answer

Đáng đầu tư khi: Read-heavy table: tỷ lệ SELECT cao hơn nhiều so với INSERT/UPDATE. Search box user-facing thường read-heavy. Substring search là core feature: không thể rewrite về prefix-only — ví dụ search box tìm task "có chứa bất kỳ từ nào". Dataset đủ lớn để seq scan gây vấn đề: trên 100k-1M rows, 800ms vs 8ms là sự khác biệt UX rõ rệt. Fuzzy tolerance cần thiết: người dùng thường đánh sai — "depoly" thay vì "deploy". Không đáng khi table nhỏ dưới 10k rows (seq scan vẫn nhanh), hoặc khi write throughput rất cao (ETL pipeline, event stream) mà GIN write penalty gây bottleneck thực sự.

Question 5

Ô search box của TaskFlow: input 'dep'. Autocomplete prefix và substring search có UX khác nhau thế nào? Mỗi loại dùng SQL pattern nào?

Accepted Answer

Autocomplete prefix ( LIKE 'dep%' hoặc ILIKE 'dep%' ): chỉ trả về task có tiêu đề bắt đầu bằng "dep" — "deploy staging", "deployment checklist". Task như "run deploy script" không xuất hiện vì "deploy" không ở đầu. UX giống Google omnibox — gợi ý nhanh, ít kết quả, phù hợp khi user biết đầu tên task. Dùng được B-tree index hoặc expression index trên LOWER(title) . Substring search ( LIKE '%dep%' với pg_trgm ): trả về mọi task có chứa "dep" ở bất kỳ vị trí — "run deploy script", "deep copy task", "deploy-to-prod". Kết quả nhiều hơn, phù hợp khi user không nhớ tên đầy đủ. Cần pg_trgm GIN index để không seq scan. Trong thực tế nhiều app dùng prefix autocomplete khi user đang gõ (low latency, dùng index) và chuyển sang substring hoặc FTS khi user nhấn Enter để tìm chính thức (chấp nhận latency cao hơn một chút).

Sổ điện thoại	SQL B-tree index
Sort theo tiền tố alphabet	Sort theo giá trị column từ nhỏ đến lớn
Tìm "Nguyen%" — mở trang N, đọc liên tiếp	`LIKE 'Nguyen%'` — range scan từ "Nguyen" đến "Nguyeo"
Tìm "%nguyen%" — đọc cả sổ	`LIKE '%nguyen%'` — không có tiền tố, phải scan toàn index
Không tìm được theo đuôi tên	`LIKE '%nguyen'` — B-tree không hỗ trợ
Sổ chỉ hữu ích khi biết chữ đầu	Index chỉ hữu ích khi pattern có prefix cố định

Use case	Recommend	Vì sao
Prefix autocomplete (biết chữ đầu)	`LIKE 'x%'`	B-tree prefix scan, nhanh
Prefix case-insensitive	`LOWER(col) LIKE 'x%'` + expression index	Same mechanism, thêm index
Substring chứa chuỗi	`pg_trgm` GIN	`LIKE '%x%'` slow, trgm nhanh
Pattern phức tạp (regex)	`~` hoặc `~*`	Khi LIKE không đủ biểu đạt
Semantic search (tokenize, stem)	FTS tsvector + GIN	Phân biệt nghĩa, không chỉ substring
Fuzzy, chịu lỗi đánh máy	`pg_trgm` + `similarity()`	Tìm "depoly" ra "deploy"

Pattern matching — vì sao LIKE '%x' kill index

1. Analogy — Tìm tên trong sổ điện thoại

2. Cơ chế B-tree prefix scan

3. 4 cấp pattern matching

3.1 LIKE — basic, case-sensitive

3.2 ILIKE — case-insensitive, PostgreSQL-specific

3.3 POSIX regex — `~` và `~*`

3.4 Full-text search — tsvector/tsquery

4. Decision tree theo use case

5. pg_trgm — giải bài toán substring và fuzzy

6. Pitfall — function trên indexed column

8. Deep Dive — Pattern matching

9. Tóm tắt

10. Tự kiểm tra

Chưa có câu hỏi