Q: SUM(amount) trả NULL khi không có row nào khớp WHERE. Vì sao SQL thiết kế như vậy thay vì trả 0? Có 2 cách handle — nêu cả hai.

SQL thiết kế aggregate trên tập rỗng trả NULL vì NULL có ngữ nghĩa "không có thông tin" — khác với "tổng bằng 0". Nếu user_id 9999 không có payment nào, không thể biết tổng payment của họ là 0 hay là "chưa có dữ liệu". NULL phản ánh trung thực trạng thái "không có gì để tính". Trả 0 sẽ đánh đồng "không có payment" với "có payment nhưng tổng bằng 0" — hai trường hợp có ý nghĩa khác nhau. Cách 1: COALESCE — đơn giản nhất, đổi NULL thành 0 tại query level: SELECT COALESCE(SUM(amount), 0) AS total FROM payments WHERE user_id = 9999; Cách 2: Subquery hoặc LEFT JOIN với default — giữ nguyên NULL trong aggregate, handle ở application layer hoặc dùng COALESCE ở tầng SELECT bên ngoài. Hữu ích khi cần phân biệt "tổng 0" và "không có dữ liệu" trong business logic.

Question 1

FILTER clause cleaner hơn SUM(CASE WHEN ...) về mặt readability. Còn về performance — hai cách có khác nhau không? Tại sao?

Accepted Answer

Về performance, hai cách thực chất tương đương. PostgreSQL planner compile cả COUNT(*) FILTER (WHERE status = 'done') và SUM(CASE WHEN status = 'done' THEN 1 ELSE 0 END) thành cùng một execution plan — một lần scan, evaluate predicate per row, cộng dồn.

Sự khác biệt là readability và intent clarity: FILTER tách biệt rõ điều kiện khỏi phép tính aggregate, trong khi CASE WHEN trộn lẫn logic điều kiện vào biểu thức tổng hợp. Khi có 5 conditional aggregate song song, FILTER làm code gọn hơn đáng kể và ít lỗi đánh máy hơn.

FILTER còn hoạt động tự nhiên với mọi aggregate — AVG(...) FILTER (...), STRING_AGG(...) FILTER (...) — trong khi CASE WHEN phải được biến thể khác nhau cho từng loại aggregate.

Question 2

"Phân biệt COUNT(*)

Accepted Answer

COUNT(*) — đếm mọi row trong group, kể cả NULL ở bất kỳ column nào. Ví dụ: COUNT(*) trên bảng tasks của một project đếm tổng số task bao gồm task chưa được giao ( assignee_id IS NULL ). COUNT(assignee_id) — đếm row có assignee_id IS NOT NULL , bỏ qua NULL. Ví dụ: đếm task đã được giao người — task chưa có assignee không được tính. COUNT(DISTINCT assignee_id) — đếm số giá trị phân biệt khác NULL. Ví dụ: đếm bao nhiêu người khác nhau đang có task trong project — An được giao 5 task chỉ đếm là 1. Ba cái cho kết quả khác nhau khi: có row với assignee_id IS NULL (COUNT(*) khác COUNT(col)), hoặc một người được giao nhiều task (COUNT(col) khác COUNT(DISTINCT col)).

Question 3

SUM(amount) trả NULL khi không có row nào khớp WHERE. Vì sao SQL thiết kế như vậy thay vì trả 0? Có 2 cách handle — nêu cả hai.

Accepted Answer

SQL thiết kế aggregate trên tập rỗng trả NULL vì NULL có ngữ nghĩa "không có thông tin" — khác với "tổng bằng 0". Nếu user_id 9999 không có payment nào, không thể biết tổng payment của họ là 0 hay là "chưa có dữ liệu". NULL phản ánh trung thực trạng thái "không có gì để tính". Trả 0 sẽ đánh đồng "không có payment" với "có payment nhưng tổng bằng 0" — hai trường hợp có ý nghĩa khác nhau.

Cách 1: COALESCE — đơn giản nhất, đổi NULL thành 0 tại query level:

SELECT COALESCE(SUM(amount), 0) AS total FROM payments WHERE user_id = 9999;

Cách 2: Subquery hoặc LEFT JOIN với default — giữ nguyên NULL trong aggregate, handle ở application layer hoặc dùng COALESCE ở tầng SELECT bên ngoài. Hữu ích khi cần phân biệt "tổng 0" và "không có dữ liệu" trong business logic.

Question 4

JSON_AGG vs ARRAY_AGG vs STRING_AGG — khi nào dùng cái nào? Decision criteria.

Accepted Answer

STRING_AGG(col, sep) — khi consumer là người đọc hoặc hệ thống cần plain text. Ví dụ: hiển thị danh sách tag 'sql, postgres, aggregate' , ghi CSV, hoặc log. Output là string đơn giản, không structured. ARRAY_AGG(col) — khi consumer là PostgreSQL (array có thể dùng tiếp trong query với ANY , unnest , array indexing), hoặc khi cần danh sách ID để xử lý phía application dạng native array. PostgreSQL-specific. JSON_AGG(JSON_BUILD_OBJECT(...)) — khi consumer là REST API hoặc frontend cần structured data. Output là JSON array of objects, deserialize trực tiếp ở client. Thay thế được N+1 query pattern: lấy parents rồi per-parent query children. Decision criteria: cần structured object → JSON_AGG; cần PostgreSQL array → ARRAY_AGG; cần string thuần → STRING_AGG; cần portable cross-vendor → STRING_AGG (GROUP_CONCAT fallback MySQL).

Question 5

COUNT(DISTINCT user_id) chậm trên bảng 10M row. Nêu 2 alternative và tradeoff của mỗi cách.

Accepted Answer

Alternative 1: Subquery 2 stage SELECT project_id, COUNT(*) AS unique_users FROM ( SELECT DISTINCT project_id, user_id FROM tasks ) sub GROUP BY project_id; Ưu: kết quả chính xác 100%, không cần extension. Planner có thêm lựa chọn plan — đôi khi HashAggregate trên subquery nhanh hơn COUNT DISTINCT trực tiếp. Nhược: vẫn O(N) scan, lợi ích phụ thuộc planner version và data distribution. Không phải luôn nhanh hơn. Alternative 2: HyperLogLog approximate (postgresql-hll extension) -- Cai extension truoc: CREATE EXTENSION hll; SELECT project_id, hll_cardinality(hll_add_agg(hll_hash_integer(user_id))) FROM tasks GROUP BY project_id; Ưu: O(N) với constant memory per group, cực nhanh trên large dataset, sai số thường dưới 1%. Nhược: kết quả xấp xỉ không chính xác tuyệt đối — không dùng cho billing, audit, hoặc bất kỳ use case cần exact count. Cần cài extension. Module 9 của khoá này đề cập chi tiết hơn.

Pivot Excel	SQL aggregate	Kết quả
Đếm số đơn	`COUNT(*)`	Số row trong group
Tổng doanh thu	`SUM(amount)`	Tổng numeric
Doanh thu trung bình	`AVG(amount)`	Trung bình numeric
Đơn cũ nhất	`MIN(created_at)`	Giá trị nhỏ nhất
Đơn mới nhất	`MAX(created_at)`	Giá trị lớn nhất

Aggregate functions — COUNT/SUM + FILTER + STRING_AGG/JSON_AGG

1. Analogy — Báo cáo Excel per region

2. 5 core aggregate — COUNT, SUM, AVG, MIN, MAX

3. STRING_AGG / ARRAY_AGG / JSON_AGG — gom rows thành single value

4. FILTER clause — conditional aggregate

5. Pitfall — AVG integer truncation + SUM empty trả NULL

6. Pitfall — COUNT DISTINCT chậm trên large group

7. Applied — TaskFlow project analytics một query

8. Deep Dive — Aggregate functions

Liên kết khoá học khác

9. Tóm tắt

10. Tự kiểm tra

Chưa có câu hỏi