Question 1

Tại sao UNION ALL nhanh hơn UNION? Mô tả bước xử lý nào xuất hiện trong query plan của mỗi loại và chi phí nào được loại bỏ khi dùng UNION ALL.

Accepted Answer

UNION ALL chỉ là phép nối (append) — engine ghép thẳng output của các subquery lại mà không làm gì thêm. Không có bước sort hay hash. UNION = UNION ALL + bước dedupe: engine thêm một bước loại trùng (hash hoặc sort+unique) sau khi nối. Bước này phải đọc toàn bộ kết quả merged, xây dựng hash table (hoặc sort), rồi emit row unique — O(N) memory và O(N log N) thời gian với cách dedup dựa trên sort. Recommendation: luôn dùng UNION ALL trừ khi semantic yêu cầu dedupe. Nếu sau này cần dedupe, thêm vào sau dễ hơn optimize UNION chậm.

Question 2

"Viết query TaskFlow: 'User đã comment nhưng chưa bao giờ là assignee của bất kỳ task nào'. Dùng EXCEPT

Accepted Answer

Dùng EXCEPT: SELECT user_id FROM comments EXCEPT SELECT assignee_id FROM tasks WHERE assignee_id IS NOT NULL; Dùng NOT EXISTS: SELECT DISTINCT c.user_id FROM comments c WHERE NOT EXISTS ( SELECT 1 FROM tasks t WHERE t.assignee_id = c.user_id ); Plan khác nhau: EXCEPT thường dùng anti join kiểu hash hoặc sort+merge — phải xử lý cả hai tập (thường load vào memory). NOT EXISTS cho phép planner dùng index scan trên tasks(assignee_id) per user — nếu có index, planner chọn nested loop anti join với index scan ở nhánh trong. Trên bảng lớn với index tốt, NOT EXISTS thường nhanh hơn EXCEPT. (Mức độ tối ưu cụ thể tuỳ optimizer của từng engine.)

Question 3

Giải thích NULL semantics của set operations so với WHERE clause. Cho ví dụ tình huống `NULL` từ hai query INTERSECT nhau cho kết quả bất ngờ.

Accepted Answer

Trong WHERE clause: NULL = NULL → UNKNOWN (không match). Đây là SQL standard equality — NULL không bằng bất cứ gì kể cả chính nó. Trong set operations: NULL = NULL → TRUE (match) — giống behavior của DISTINCT. Hai row có cùng giá trị NULL trong cùng column được coi là "bằng nhau" cho mục đích dedup/compare. Ví dụ bất ngờ: -- comments.user_id co row NULL (user chua dang nhap) -- tasks.assignee_id co row NULL (task chua assign) SELECT user_id FROM comments -- co NULL INTERSECT SELECT assignee_id FROM tasks; -- co NULL -- Ket qua co chua NULL! -- NULL tu comments "match" NULL tu tasks trong set op -- Nhung trong WHERE: WHERE c.user_id = t.assignee_id -> NULL rows bi loai Fix: thêm WHERE user_id IS NOT NULL và WHERE assignee_id IS NOT NULL nếu không muốn NULL xuất hiện trong kết quả set operation.

Question 4

"Bạn cần build activity feed kết hợp comments

Accepted Answer

Tại sao UNION ALL thay vì JOIN: Ba loại event này có cấu trúc khác nhau (comments vs tasks) và mỗi row là một event độc lập. JOIN sẽ tạo ra Cartesian product không có nghĩa — ví dụ "comment X kết hợp với task Y" không phải là event thực tế. UNION ALL gộp 3 tập row cùng cấu trúc mà không tạo quan hệ giả tạo giữa chúng. Cũng không có duplicate cần loại bỏ — mỗi event là riêng biệt. ORDER BY và LIMIT: đặt ở ngoài cùng, sau tất cả UNION ALL clauses. ORDER BY event_at DESC LIMIT 50 — áp dụng lên toàn bộ merged result. Không thể đặt ORDER BY bên trong từng subquery trừ khi có LIMIT đi kèm. Index đề xuất: (user_id, created_at DESC) trên bảng comments ; (assignee_id, created_at DESC) và (assignee_id, updated_at DESC) trên bảng tasks . Mỗi subquery có thể dùng Index Scan với filter user_id = $1 , giảm từ Seq Scan toàn bảng xuống chỉ đọc các event của user đó.

Question 5

"Khi nào nên dùng INTERSECT thay vì JOIN để tìm phần chung? Cho ví dụ tình huống INTERSECT đọc rõ hơn JOIN

Accepted Answer

INTERSECT đọc rõ hơn JOIN khi: bạn muốn diễn đạt bài toán như một phép toán tập hợp thuần túy — "tìm user_id xuất hiện ở cả hai tập". Ví dụ: "user đã comment VÀ đã là assignee của task" — SELECT user_id FROM comments INTERSECT SELECT assignee_id FROM tasks đọc như đề bài, không cần nghĩ về điều kiện JOIN hay DISTINCT. Với người quen tư duy tập hợp, INTERSECT intent rõ hơn JOIN ... ON c.user_id = t.assignee_id . Khi nên rewrite thành EXISTS để tận dụng index: bảng lớn và có index trên join column (ví dụ tasks(assignee_id) ). EXISTS cho phép planner dùng Index Scan per user — nested loop với inner index lookup. INTERSECT thường dùng hash hoặc sort+merge trên cả hai tập, không khai thác index tốt bằng. Rewrite: SELECT DISTINCT c.user_id FROM comments c WHERE EXISTS (SELECT 1 FROM tasks t WHERE t.assignee_id = c.user_id) . Khi query plan cho thấy INTERSECT dùng Seq Scan + sort, đây là tín hiệu cần rewrite.

Question 6

EXCEPT ALL và EXCEPT khác nhau như thế nào về multiplicity? Cho ví dụ cụ thể với tập A = [1, 2, 2, 3] và B = [2, 3, 3, 4]. Khi nào dùng EXCEPT ALL trong thực tế?

Accepted Answer

EXCEPT dedupe cả hai tập trước khi so sánh, rồi trả các giá trị trong A mà không có trong B (tập, không có multiplicity): tập A dedupe = '[1,2,3]' , tập B dedupe = '[2,3,4]' → kết quả = '[1]' . EXCEPT ALL giữ multiplicity theo công thức max(count_A - count_B, 0) per giá trị: giá trị 1 xuất hiện 1 lần A, 0 lần B → còn 1; giá trị 2 xuất hiện 2 lần A, 1 lần B → còn 1; giá trị 3 xuất hiện 1 lần A, 2 lần B → max(1-2,0) = 0 → không còn; giá trị 4 không có trong A. Kết quả EXCEPT ALL = '[1, 2]' . Khi dùng EXCEPT ALL trong thực tế: hiếm — chủ yếu khi bạn cần tính "số lần xuất hiện trong A trừ số lần trong B" cho mục đích đối chiếu inventory hay audit log. Ví dụ: "sự kiện login mà chưa có sự kiện logout tương ứng" khi mỗi login/logout là một row riêng và cùng session_id có thể xuất hiện nhiều lần. Trong đại đa số use case thực tế, EXCEPT (không ALL) là đủ.

Phép toán	Vùng lấy	SQL
UNION	Toàn bộ A + B (đã dedupe)	`A UNION B`
UNION ALL	Toàn bộ A + B (giữ duplicate, đếm overlap 2 lần)	`A UNION ALL B`
INTERSECT	Phần chung A ∩ B	`A INTERSECT B`
EXCEPT	Phần riêng A (trừ phần chung)	`A EXCEPT B`

Set Operations — UNION, INTERSECT, EXCEPT

1. Analogy — Venn diagram 2 vòng tròn

2. Venn diagram — 4 phép toán tập hợp

3. UNION vs UNION ALL

4. INTERSECT — set giao

5. EXCEPT — set hiệu

6. ALL variant — ví dụ multiplicity rõ

7. Constraint — column count và type

8. Pitfall — ORDER BY scope và NULL semantics

9. Performance — rewrite thành EXISTS khi cần index

10. Applied — TaskFlow user activity feed

11. Deep Dive

12. Tóm tắt

13. Tự kiểm tra

Chưa có câu hỏi