Q: "Code MySQL `SELECT user_id

MySQL trước 5.7 (và chế độ non-strict sau 5.7) thực hiện partial GROUP BY : cho phép column không nằm trong GROUP BY xuất hiện trong SELECT list mà không cần aggregate. Khi user_id được group, MySQL tự chọn một giá trị title bất kỳ trong nhóm đó — không cam kết giá trị nào. Đây là silent bug : query chạy, trả kết quả, nhưng title có thể là của bất kỳ task nào trong nhóm. PostgreSQL theo chuẩn SQL strict: mọi column trong SELECT phải nằm trong GROUP BY hoặc được bọc trong aggregate function. Rule này đúng đắn hơn vì buộc developer phải khai báo rõ ý định — "tôi muốn title nào: một title cụ thể, hay gộp tất cả lại?" . Fix: -- Fix 1: them title vao GROUP BY SELECT user_id, title FROM tasks GROUP BY user_id, title; -- Fix 2: dung aggregate SELECT user_id, MIN(title) AS first_title FROM tasks GROUP BY user_id;

Question 1

Vì sao PostgreSQL planner biến `SELECT DISTINCT col FROM table` thành HashAggregate giống `GROUP BY col`? Implication gì về performance khi chọn giữa hai cách?

Accepted Answer

Về mặt logic, dedupe (loại trùng) và group-then-return-key là cùng một phép toán — cả hai đều cần gom các row có cùng giá trị lại và giữ một đại diện. PostgreSQL planner nhận ra sự tương đương này và biên dịch DISTINCT col thành cùng một HashAggregate node với GROUP BY col . Implication: không có lý do performance để chọn cái này hơn cái kia khi chỉ cần dedupe một column. Chọn theo semantic intent — DISTINCT nói rõ "tôi chỉ muốn dedupe", GROUP BY nói "tôi đang gom nhóm để tính gì đó".

Question 2

Phân biệt khi nào dùng DISTINCT vs GROUP BY. Cho 2 ví dụ TaskFlow cho mỗi loại.

Accepted Answer

Dùng DISTINCT khi chỉ cần dedupe: Danh sách user đã tạo ít nhất một task: SELECT DISTINCT creator_id FROM tasks — chỉ cần id không trùng, không cần đếm. Danh sách project có comment: SELECT DISTINCT t.project_id FROM tasks t JOIN comments c ON c.task_id = t.id — list project không trùng. Dùng GROUP BY khi cần aggregate hoặc HAVING: Số task mỗi user: SELECT assignee_id, COUNT(*) FROM tasks GROUP BY assignee_id — cần COUNT , không thể dùng DISTINCT . User có hơn 10 comment: SELECT user_id, COUNT(*) FROM comments GROUP BY user_id HAVING COUNT(*) > 10 — cần HAVING filter sau aggregate.

Question 3

Query 'SELECT DISTINCT u.* FROM users u, tasks t WHERE u.id = t.assignee_id' có thể trả về duplicate dù có DISTINCT. Vì sao? Fix thế nào?

Accepted Answer

Không — query này không trả về duplicate vì DISTINCT u.* dedupe toàn bộ row. Nhưng vấn đề là nó dùng sai cách : implicit cross join users, tasks tạo ra N row cho mỗi user (một row cho mỗi task của user đó), sau đó DISTINCT loại bỏ duplicate. Chi phí gấp N lần không cần thiết — database phải tạo ra Cartesian product rồi mới dedupe. Fix đúng ngữ nghĩa: dùng EXISTS để tránh sinh ra nhiều row ngay từ đầu: SELECT u.* FROM users u WHERE EXISTS ( SELECT 1 FROM tasks t WHERE t.assignee_id = u.id ); Hoặc dùng DISTINCT với explicit JOIN nếu cần join thêm columns khác. Nguyên tắc: khi thấy mình cần DISTINCT để "fix" kết quả, hãy hỏi tại sao có duplicate — thường là JOIN sai.

Question 4

Query 'SELECT DISTINCT ON (assignee_id) * FROM tasks ORDER BY assignee_id, created_at DESC' — tại sao column trong DISTINCT ON phải xuất hiện ở vị trí leftmost trong ORDER BY?

Accepted Answer

DISTINCT ON (assignee_id) hoạt động bằng cách: nhóm các row có cùng assignee_id , rồi giữ lại row đầu tiên của mỗi nhóm theo thứ tự ORDER BY quyết định. Để xác định "đầu tiên" trong mỗi nhóm, database cần sort các row trong nhóm trước — tức là sort theo assignee_id trước để gom nhóm, rồi sort theo created_at DESC để chọn row đầu. Nếu ORDER BY created_at DESC (không có assignee_id đầu tiên), database không thể gom nhóm theo assignee_id một cách hiệu quả vì rows đã bị sắp xếp theo thứ tự khác — PostgreSQL sẽ báo lỗi "SELECT DISTINCT ON expressions must match initial ORDER BY expressions" . Rule leftmost prefix đảm bảo planner có thể kết hợp grouping và row selection trong một lượt scan.

Question 5

"Code MySQL `SELECT user_id

Accepted Answer

MySQL trước 5.7 (và chế độ non-strict sau 5.7) thực hiện partial GROUP BY: cho phép column không nằm trong GROUP BY xuất hiện trong SELECT list mà không cần aggregate. Khi user_id được group, MySQL tự chọn một giá trị title bất kỳ trong nhóm đó — không cam kết giá trị nào. Đây là silent bug: query chạy, trả kết quả, nhưng title có thể là của bất kỳ task nào trong nhóm.

PostgreSQL theo chuẩn SQL strict: mọi column trong SELECT phải nằm trong GROUP BY hoặc được bọc trong aggregate function. Rule này đúng đắn hơn vì buộc developer phải khai báo rõ ý định — "tôi muốn title nào: một title cụ thể, hay gộp tất cả lại?". Fix:

-- Fix 1: them title vao GROUP BY
SELECT user_id, title FROM tasks GROUP BY user_id, title;

-- Fix 2: dung aggregate
SELECT user_id, MIN(title) AS first_title FROM tasks GROUP BY user_id;

Bảng chấm công	SQL
Danh sách nhân viên không trùng	`SELECT DISTINCT user_id`
Số ngày làm mỗi nhân viên	`SELECT user_id, COUNT(*)`
Intent: dedupe	`DISTINCT`
Intent: aggregate	`GROUP BY`
Cùng kết quả khi chỉ lấy column group	Plan giống nhau: HashAggregate
Khác nhau khi cần tổng hợp	`DISTINCT` không làm được `COUNT/SUM/AVG`

DISTINCT vs GROUP BY — cùng plan, khác intent

1. Analogy — "lấy danh sách" vs "gom nhóm để đếm"

2. Cùng plan, khác intent

3. DISTINCT ON — PG-specific superpower

4. Pitfall — DISTINCT * trên large table

5. GROUP BY — strict mode của PostgreSQL

6. Applied — TaskFlow scenarios

7. Deep Dive — DISTINCT semantics

8. Tóm tắt

9. Tự kiểm tra

Chưa có câu hỏi