Question 1

"Vì sao ROW_NUMBER

Accepted Answer

ROW_NUMBER : gán số tuần tự unique cho mỗi row — tie break tùy ý theo thứ tự vật lý hoặc ORDER BY phụ. Kết quả: 1, 2, 3, 4 kể cả khi hai score bằng nhau. Dùng khi cần đúng 1 row per group (top-1 pick) và không muốn duplicate. RANK : row tie nhận cùng số, nhưng rank tiếp theo bị skip (gap). Hai người cùng hạng 2 → hạng tiếp là 4, không phải 3. Dùng cho Olympic medal, leaderboard cạnh tranh nơi gap phản ánh đúng "vị trí thực". DENSE_RANK : row tie nhận cùng số, không skip — 1, 2, 2, 3 . Dùng cho xếp loại học tập, category ranking nơi muốn thứ tự liên tục không nhảy số.

Question 2

Phân biệt LAG(col) vs correlated subquery 'WHERE created_at . Cái nào nhanh hơn và tại sao? , answer: ( LAG nhanh hơn đáng kể với bảng lớn. Engine tính window function qua 1 lần scan bảng, giữ trạng thái nội bộ (running value buffer) khi di chuyển qua partition — chi phí O(n log n) cho sort + O(n) cho scan. Correlated subquery chạy lại cho mỗi row — nếu bảng có 10,000 row, subquery chạy 10,000 lần. Ngay cả với index trên created_at , tổng cost thường O(n log n) per row, tổng O(n² log n). Ngoài performance, LAG đọc rõ ràng hơn: "giá trị của row trước trong partition này" — intent tường minh, không cần đọc WHERE condition để hiểu logic. )

Accepted Answer

LAG nhanh hơn đáng kể với bảng lớn. Engine tính window function qua 1 lần scan bảng, giữ trạng thái nội bộ (running value buffer) khi di chuyển qua partition — chi phí O(n log n) cho sort + O(n) cho scan. Correlated subquery chạy lại cho mỗi row — nếu bảng có 10,000 row, subquery chạy 10,000 lần. Ngay cả với index trên created_at , tổng cost thường O(n log n) per row, tổng O(n² log n). Ngoài performance, LAG đọc rõ ràng hơn: "giá trị của row trước trong partition này" — intent tường minh, không cần đọc WHERE condition để hiểu logic.

Question 3

Running total 'SUM(x) OVER (ORDER BY date)' không có frame explicit — output thế nào? Edge case nào cần chú ý?

Accepted Answer

Khi có ORDER BY mà không khai báo frame, PostgreSQL dùng default RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW — hành vi running total, mỗi row nhận tổng tích lũy. Edge case quan trọng: default là RANGE , không phải ROWS . Nếu có nhiều row cùng giá trị date (tie), RANGE xem chúng là cùng peer group và tính tổng đến cuối peer group — tất cả row cùng ngày nhận cùng cumulative value (tổng bao gồm cả các row tie). Dùng ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW để tính tích lũy từng row vật lý một, cho kết quả "bậc thang" thay vì "nhảy".

Question 4

Phân biệt ROWS BETWEEN 6 PRECEDING AND CURRENT ROW vs "RANGE BETWEEN INTERVAL '7 days' PRECEDING AND CURRENT ROW" khi data có gap ngày?

Accepted Answer

( ROWS BETWEEN 6 PRECEDING : lấy đúng 6 row vật lý trước current row, bất kể khoảng cách thời gian. Nếu data có gap (ngày 1, 2, 3 rồi nhảy đến ngày 10), moving average tính trên 7 ngày nhưng trải dài 10 ngày lịch — không đúng semantic "7 ngày liên tiếp". "RANGE BETWEEN INTERVAL '7 days' PRECEDING" : lấy mọi row có 'date >= current_date - 7 days' — đúng semantic "7 ngày lịch" dù data có gap. Ngày gap không có row

Question 5

Gap-and-island: vì sao "day - ROW_NUMBER() * INTERVAL '1 day'" cho cùng group_key với các ngày liên tiếp?

Accepted Answer

Với chuỗi ngày liên tiếp 2026-05-01, 02, 03 và ROW_NUMBER = 1, 2, 3 : Row 1: 2026-05-01 - 1 day = 2026-04-30 Row 2: 2026-05-02 - 2 days = 2026-04-30 Row 3: 2026-05-03 - 3 days = 2026-04-30 Mỗi ngày tăng 1 và ROW_NUMBER cũng tăng 1 → hiệu luôn là hằng số. Khi có gap (nhảy từ 05-03 đến 05-05), ngày tăng 2 nhưng ROW_NUMBER chỉ tăng 1 → hiệu thay đổi → group_key khác. Group by group_key tự nhiên tách streak.

Question 6

Frame default thay đổi với ORDER BY gây bug phổ biến gì? Defensive practice là gì?

Accepted Answer

Bug phổ biến: dev thêm ORDER BY id vào window vì muốn kết quả có thứ tự nhất quán, vô tình biến SUM(x) OVER (PARTITION BY p) (tổng toàn partition, mỗi row cùng giá trị) thành SUM(x) OVER (PARTITION BY p ORDER BY id) (running total, mỗi row giá trị khác nhau). Query không báo lỗi — kết quả sai silent. Defensive practice: Luôn khai báo explicit frame khi dùng aggregate window: ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING cho "tổng partition", ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW cho running total. Không thêm ORDER BY vào window nếu không cần thứ tự — chỉ ORDER BY khi logic phụ thuộc vào thứ tự (ranking, lag/lead, running). Test với dataset có tie hoặc nhiều row cùng ngày để verify behavior thực tế.

Question 7

TaskFlow cần 'longest streak ngày có task done per user'. Phác thảo thuật toán gap-and-island và window function nào cần dùng?

Accepted Answer

Dùng gap-and-island 3 bước: Aggregate per day per user: GROUP BY assignee_id, date_trunc('day', updated_at) để có 1 row per (user, day) — loại duplicate trong ngày. Tính group_key: day - ROW_NUMBER() OVER (PARTITION BY assignee_id ORDER BY day) * INTERVAL '1 day' — ngày liên tiếp cho cùng group_key , gap tạo group_key mới. Aggregate streak: GROUP BY assignee_id, group_key rồi COUNT(*) AS streak_length , MIN(day) , MAX(day) . Sort ORDER BY streak_length DESC . Window function cần: ROW_NUMBER() OVER (PARTITION BY assignee_id ORDER BY day) trong CTE. Không cần RANK hay LAG — gap-and-island chỉ cần ROW_NUMBER để tạo offset đều.

Kỳ thi	SQL Analytics
Xếp hạng trong phòng thi	Ranking per group (`ROW_NUMBER`, `RANK`, `DENSE_RANK`)
So với kỳ trước của mình	LAG/LEAD: period-over-period diff
Đếm dồn số thí sinh xong bài	Running total: `SUM OVER UNBOUNDED PRECEDING`
Trung bình 7 buổi gần nhất	Moving average: `AVG OVER ROWS BETWEEN 6 PRECEDING`

Tình huống	Nên dùng	Lý do
Lấy đúng 1 row per group (top-1, không tie expected)	`ROW_NUMBER`	Unique pick, tránh duplicate
Leaderboard Olympic (tie → cùng huy chương, skip số tiếp)	`RANK`	Gap sau tie phản ánh đúng "hạng Olympic"
Xếp loại học tập (tie → cùng loại, không skip)	`DENSE_RANK`	Không gap giữ thứ tự liên tục

Mode	Ý nghĩa	Ví dụ
`ROWS`	Offset vật lý theo số row	`ROWS BETWEEN 6 PRECEDING AND CURRENT ROW` = 7 row vật lý
`RANGE`	Offset theo giá trị của ORDER BY column	`RANGE BETWEEN INTERVAL '7 days' PRECEDING AND CURRENT ROW` = mọi row trong 7 ngày trước
`GROUPS`	Offset theo nhóm peer (cùng ORDER BY value)	`GROUPS BETWEEN 1 PRECEDING AND CURRENT ROW`

Window patterns — RANK + LAG/LEAD + running total + moving average

1. Analogy — 4 loại nhìn xung quanh

2. Pattern 1 — Ranking: ROW_NUMBER vs RANK vs DENSE_RANK

3. Pattern 2 — LAG/LEAD: so sánh với row trước/sau

4. Pattern 3 — Running total: cumulative SUM với frame

5. Pattern 4 — Moving average: frame N preceding rows

6. Frame clause — ROWS vs RANGE vs GROUPS

7. Pitfall — frame default thay đổi với ORDER BY

8. Pattern 5 (bonus) — Gap-and-island: streak liên tục

9. Applied — TaskFlow analytics dashboard

10. Deep Dive — Window patterns

11. Tóm tắt

12. Tự kiểm tra

Chưa có câu hỏi