Q: "Vì sao window function giữ row trong khi GROUP BY collapse? Khi nào dùng window

GROUP BY gom nhiều row có cùng key thành 1 row per group — collapse là cơ chế cốt lõi để tính aggregate trên nhóm. Mỗi row trong kết quả đại diện cho cả nhóm, mất individual identity. Window function không gom row — mỗi row trong input vẫn xuất hiện trong output. Thay vào đó, engine tính thêm một giá trị cross-row (rank, aggregate của nhóm, lag/lead) và gắn vào từng row như một column mới. Dùng GROUP BY khi bạn cần 1 kết quả per group — tổng đơn hàng per tháng, số task per user. Dùng window khi bạn cần giữ row detail đồng thời biết vị trí của row đó trong nhóm — rank task trong project, so sánh doanh thu tháng này với tháng trước.

Q: Window function chạy ở vị trí nào trong SQL logical processing order? Điều này ảnh hưởng gì đến việc dùng window kết hợp GROUP BY?

Window function nằm trong SELECT — bước 5 trong logical order. Thứ tự đầy đủ: FROM (1) → WHERE (2) → GROUP BY (3) → HAVING (4) → SELECT với window (5) → ORDER BY (6) → LIMIT (7) . Vì window chạy sau GROUP BY, bạn có thể dùng window trên aggregate result: 'RANK() OVER (PARTITION BY project_id ORDER BY COUNT(*) DESC)' — COUNT(*) được tính xong ở bước GROUP BY trước khi window đọc giá trị đó. Hệ quả quan trọng: WHERE và HAVING không thấy window column — filter theo window result phải wrap subquery hoặc CTE. ORDER BY (bước 6) thấy window column và có thể sort theo rn hay bất kỳ alias window nào.

Q: "TaskFlow cần '1 query trả về task due gần nhất per assignee

Có thể viết 1 query với 2 window function khác nhau : SELECT DISTINCT ON (t.assignee_id) t.id, t.assignee_id, t.project_id, t.due_at, PERCENTILE_CONT(0.5) WITHIN GROUP ( ORDER BY t.due_at - CURRENT_DATE ) OVER (PARTITION BY t.project_id) AS project_median_days FROM tasks t ORDER BY t.assignee_id, t.due_at; Hoặc dùng ROW_NUMBER nếu muốn portable hơn: SELECT * FROM ( SELECT t.id, t.assignee_id, t.project_id, t.due_at, ROW_NUMBER() OVER (PARTITION BY t.assignee_id ORDER BY t.due_at) AS rn, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY t.due_at - CURRENT_DATE) OVER (PARTITION BY t.project_id) AS project_median_days FROM tasks t ) sub WHERE rn = 1; Hai window ( PARTITION BY assignee_id cho ranking, PARTITION BY project_id cho median) hoạt động độc lập trong cùng SELECT. PostgreSQL tính từng window một lần qua bảng.

Question 1

"Vì sao window function giữ row trong khi GROUP BY collapse? Khi nào dùng window

Accepted Answer

GROUP BY gom nhiều row có cùng key thành 1 row per group — collapse là cơ chế cốt lõi để tính aggregate trên nhóm. Mỗi row trong kết quả đại diện cho cả nhóm, mất individual identity.

Window function không gom row — mỗi row trong input vẫn xuất hiện trong output. Thay vào đó, engine tính thêm một giá trị cross-row (rank, aggregate của nhóm, lag/lead) và gắn vào từng row như một column mới.

Dùng GROUP BY khi bạn cần 1 kết quả per group — tổng đơn hàng per tháng, số task per user. Dùng window khi bạn cần giữ row detail đồng thời biết vị trí của row đó trong nhóm — rank task trong project, so sánh doanh thu tháng này với tháng trước.

Question 2

Vì sao 'WHERE rn = 1' sau 'ROW_NUMBER() OVER (...) AS rn' báo lỗi? Nêu 3 cách fix và tradeoff.

Accepted Answer

Logical processing order: WHERE chạy ở bước 2, trước SELECT (bước 5). Window function nằm trong SELECT — tại thời điểm WHERE chạy, column rn chưa được tính, chưa tồn tại. Fix 1 — Subquery: Wrap toàn bộ SELECT (bao gồm window) thành subquery, filter ở outer query. Universal, chạy trên mọi database hỗ trợ window function. Fix 2 — CTE: 'WITH ranked AS (...) SELECT * FROM ranked WHERE rn = 1' . Dễ đọc hơn khi query phức tạp; Module 8 của khoá này đi sâu CTE. Tương đương subquery về execution plan trên PostgreSQL. Fix 3 — DISTINCT ON (PostgreSQL-only): SELECT DISTINCT ON (project_id) ... ORDER BY project_id, due_at . Ngắn nhất cho top-1 per group nhưng không portable, không cho rank value trong kết quả.

Question 3

Phân biệt 'AVG(x) OVER (PARTITION BY p)' vs 'SELECT AVG(x) FROM t GROUP BY p' . Cho ví dụ output khác nhau.

Accepted Answer

'AVG(x) OVER (PARTITION BY p)' trả về mỗi row gốc kèm giá trị AVG của nhóm — số row output bằng số row input. Mỗi task giữ nguyên id , title và thêm avg của project. 'SELECT AVG(x) FROM t GROUP BY p' trả về 1 row per group — chỉ có project_id và avg , mất toàn bộ task detail. Ví dụ: 3 task của project 1 với my_days = 2, 4, 6 : Window: 3 rows, mỗi row có project_avg = 4.0 kèm id và title riêng. GROUP BY: 1 row, chỉ có project_id = 1 và avg = 4.0 . Dùng window khi cần so sánh từng task với trung bình nhóm. Dùng GROUP BY khi chỉ cần trung bình nhóm, không cần chi tiết.

Question 4

DISTINCT ON vs ROW_NUMBER + WHERE rn=1 — khi nào dùng cái nào?

Accepted Answer

DISTINCT ON — ngắn, đọc nhanh, tốt cho top-1 per group đơn giản. Nhược: chỉ PostgreSQL, không lấy được rank value (không biết đây là hạng mấy), không filter top-N với N vượt 1. ROW_NUMBER + subquery/CTE — portable hơn (mọi DB hỗ trợ window), lấy được rank value, dễ mở rộng thành top-N chỉ cần đổi WHERE rn = 1 thành WHERE rn <= 5 . Dùng khi cần: (1) top-N với N vượt 1, (2) cần giữ rank value trong output, (3) cần portable sang MySQL/SQL Server. Rule thực chiến: TaskFlow cần "task mới nhất per project để hiển thị" — DISTINCT ON đủ. Cần "top 3 task per project cho leaderboard" hoặc "rank của task trong nhóm" — dùng ROW_NUMBER .

Question 5

Window function chạy ở vị trí nào trong SQL logical processing order? Điều này ảnh hưởng gì đến việc dùng window kết hợp GROUP BY?

Accepted Answer

Window function nằm trong SELECT — bước 5 trong logical order. Thứ tự đầy đủ: FROM (1) → WHERE (2) → GROUP BY (3) → HAVING (4) → SELECT với window (5) → ORDER BY (6) → LIMIT (7) . Vì window chạy sau GROUP BY, bạn có thể dùng window trên aggregate result: 'RANK() OVER (PARTITION BY project_id ORDER BY COUNT(*) DESC)' — COUNT(*) được tính xong ở bước GROUP BY trước khi window đọc giá trị đó. Hệ quả quan trọng: WHERE và HAVING không thấy window column — filter theo window result phải wrap subquery hoặc CTE. ORDER BY (bước 6) thấy window column và có thể sort theo rn hay bất kỳ alias window nào.

Question 6

"TaskFlow cần '1 query trả về task due gần nhất per assignee

Accepted Answer

Có thể viết 1 query với 2 window function khác nhau : SELECT DISTINCT ON (t.assignee_id) t.id, t.assignee_id, t.project_id, t.due_at, PERCENTILE_CONT(0.5) WITHIN GROUP ( ORDER BY t.due_at - CURRENT_DATE ) OVER (PARTITION BY t.project_id) AS project_median_days FROM tasks t ORDER BY t.assignee_id, t.due_at; Hoặc dùng ROW_NUMBER nếu muốn portable hơn: SELECT * FROM ( SELECT t.id, t.assignee_id, t.project_id, t.due_at, ROW_NUMBER() OVER (PARTITION BY t.assignee_id ORDER BY t.due_at) AS rn, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY t.due_at - CURRENT_DATE) OVER (PARTITION BY t.project_id) AS project_median_days FROM tasks t ) sub WHERE rn = 1; Hai window ( PARTITION BY assignee_id cho ranking, PARTITION BY project_id cho median) hoạt động độc lập trong cùng SELECT. PostgreSQL tính từng window một lần qua bảng.

Bữa tiệc	SQL
Ban tổ chức gom bàn, báo tổng số người	`GROUP BY` — collapse nhiều row thành 1
Mỗi người ngồi tại chỗ, nhìn quanh bàn	Window function — giữ row, thêm cross-row metric
"Bàn A" thay vì từng tên	Aggregate result — mất individual identity
Rank trong bàn của mình	`ROW_NUMBER() OVER (PARTITION BY project_id ORDER BY due_at)`

Phần	Vai trò	Ghi chú
`PARTITION BY project_id`	Chia rows thành group theo project	Giống GROUP BY nhưng KHÔNG collapse
`ORDER BY due_at`	Thứ tự trong từng window	Quyết định rank, lag/lead, frame
(frame clause)	Phạm vi rows tính trong window	Mặc định hoặc chỉ định — bài 7 deep dive

#	Pattern	Function ví dụ	Use case
1	Ranking	`ROW_NUMBER`, `RANK`, `DENSE_RANK`	Top N per group, leaderboard
2	Aggregate over window	`SUM`/`AVG`/`COUNT OVER`	Row detail + group metric song song
3	Lag/Lead	`LAG`, `LEAD`	So sánh với row trước/sau
4	Frame (running/moving)	`SUM OVER ROWS BETWEEN`	Running total, moving average

Hàm	Tie handling	Ví dụ với tie
`ROW_NUMBER()`	Luôn unique, tie break tùy ý	1, 2, 3, 4
`RANK()`	Gap sau tie	1, 2, 2, 4
`DENSE_RANK()`	Không gap sau tie	1, 2, 2, 3

Window functions intro — OVER + PARTITION BY giữ row + tính cross-row

1. Analogy — Cửa sổ nhìn xung quanh

2. Cú pháp + cơ chế

3. So sánh window vs aggregate vs subquery

4. 4 use case — tổng quan

5. Pattern 1 — Ranking với ROW_NUMBER

6. Pitfall — WHERE rn = 1 không hợp lệ

7. Pattern 2 — Aggregate over window

8. Applied — TaskFlow leaderboard nâng cao

9. Deep Dive — Window functions

10. Tóm tắt

11. Tự kiểm tra

Chưa có câu hỏi