Q: "Giải thích tại sao day - ROW_NUMBER() * INTERVAL '1 day' cho cùng giá trị hằng số với chuỗi ngày liên tiếp. Khi có gap

Chuỗi liên tiếp (2026-05-01, 02, 03) với ROW_NUMBER (1, 2, 3): Row 1: 2026-05-01 - 1 day = 2026-04-30 Row 2: 2026-05-02 - 2 days = 2026-04-30 Row 3: 2026-05-03 - 3 days = 2026-04-30 Ngày tăng 1 và ROW_NUMBER cũng tăng 1 → hiệu không đổi = hằng số = cùng island. Khi có gap (sau 05-03, nhảy lên 05-05, skip 05-04): Row 4: 2026-05-05 - 4 days = 2026-05-01 (≠ 2026-04-30) Ngày nhảy 2 (05-03 → 05-05) nhưng ROW_NUMBER chỉ tăng 1 (3 → 4) → hiệu thay đổi → giá trị mới → island mới. GROUP BY giá trị đó tự nhiên tách mỗi streak thành 1 nhóm.

Q: RANGE peer rows gây kết quả bất ngờ khi nào? Cho ví dụ cụ thể và cách fix.

RANGE peer rows gây bất ngờ khi data có duplicate value trên ORDER BY column . Với RANGE, các row có cùng giá trị ORDER BY được xem là "peer group" — tất cả được include vào frame cùng nhau. Ví dụ: 3 row có cùng created_at = '2026-01-01 10:00:00' , amount lần lượt 100, 200, 300. SUM(amount) OVER (ORDER BY created_at) -- RANGE default -- Row 1 (amount=100): sum = 100+200+300 = 600 (cong ca 3 peer vao cung frame) -- Row 2 (amount=200): sum = 600 (same) -- Row 3 (amount=300): sum = 600 (same) -- Row 4 (11:00, amount=50): sum = 650 Người viết thường expect running total "100, 300, 600, 650" nhưng thực tế nhận "600, 600, 600, 650" — bug silent, khó debug. Fix: dùng ROWS thay RANGE: SUM(amount) OVER (ORDER BY created_at ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) -- Row 1: 100, Row 2: 300, Row 3: 600, Row 4: 650 -- dung y

Q: "TaskFlow cần dashboard: 'Với mỗi user

4 CTE lần lượt: base : GROUP BY (assignee_id, day) → 1 row per (user, ngày) trong 30 ngày. islands : thêm grp = day - ROW_NUMBER() OVER (PARTITION BY assignee_id ORDER BY day) * INTERVAL '1 day' — island key. streaks : GROUP BY (assignee_id, grp) → count(*) AS streak_length , max(day) AS streak_end . current_streak : DISTINCT ON (assignee_id) lọc island có streak_end >= current_date - 1 → streak đang active. SELECT cuối: JOIN base tổng hợp total_done_30d với current_streak , thêm NTILE(4) OVER (ORDER BY total_done_30d DESC) AS activity_quartile . Dùng LEFT JOIN để giữ user không có streak active (current_streak = NULL). Pattern kết hợp: gap-and-island (ROW_NUMBER + GROUP BY grp) để tìm streak, NTILE trong SELECT cuối để tạo quartile — không cần CTE lồng nhau, mỗi CTE làm đúng 1 việc.

Question 1

Frame ROWS BETWEEN 6 PRECEDING AND CURRENT ROW vs RANGE BETWEEN INTERVAL '6 days' PRECEDING AND CURRENT ROW — kết quả khác nhau như thế nào khi data có gap ngày? Khi nào dùng cái nào?

Accepted Answer

ROWS BETWEEN 6 PRECEDING: lấy đúng 6 row vật lý trước current row, bất kể khoảng cách thời gian. Nếu data có gap (task ngày 1, 2, 3 rồi nhảy lên ngày 10), window vẫn lấy 7 row — nhưng trải dài 10 ngày lịch. Semantic là "7 data point gần nhất", không phải "7 ngày lịch". RANGE BETWEEN INTERVAL '6 days' PRECEDING: lấy tất cả row có giá trị date >= current_date - 6 days . Đúng semantic "7 ngày lịch" dù data có gap. Số row trong window có thể thay đổi — ngày nhiều task thì window có nhiều row. Khi nào dùng: cần "N ngày lịch gần nhất" (7-day moving average theo lịch, không phụ thuộc tần suất data) → dùng RANGE. Cần "N data point gần nhất" (7 lần đo gần nhất dù cách bao lâu) → dùng ROWS. Thực chiến: ROWS thường predictable hơn và phù hợp với hầu hết dashboard daily stats.

Question 2

Vì sao SUM(x) OVER (ORDER BY date) không phải full partition sum? Bug gì có thể xảy ra và fix như thế nào?

Accepted Answer

Khi có ORDER BY trong window mà không khai báo frame, PostgreSQL dùng default frame RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW — đây là running total , không phải full partition. Bug phổ biến: dev thêm ORDER BY date vào window vì muốn kết quả có thứ tự nhất quán, hoặc để "sort" — vô tình biến "tổng toàn partition" thành "running total". Query chạy không báo lỗi, kết quả sai silent và khó phát hiện. Fix 1 — cần full partition với ORDER BY: SUM(x) OVER (ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) Fix 2 — cần full partition, không cần thứ tự: SUM(x) OVER () -- bo ORDER BY hoan toan Fix 3 — thực sự muốn running total: khai báo explicit để intent rõ ràng: SUM(x) OVER (ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)

Question 3

"NTILE(4) ORDER BY done_count DESC trả quartile 1

Accepted Answer

Quartile 1 là top 25% — vì ORDER BY DESC đặt row có done_count lớn nhất lên đầu, và NTILE gán bucket 1 cho các row đầu tiên. Quartile 4 là bottom 25% (ít task done nhất). Nếu ORDER BY ASC thì ngược lại: quartile 1 là bottom, quartile 4 là top. Convention phụ thuộc ORDER BY direction — cần nhất quán trong codebase và document rõ ràng trong query comment. Khi không chia hết cho 4: NTILE phân phối row dư vào các bucket đầu. Ví dụ 10 row, NTILE(4): bucket 1 nhận 3 row, bucket 2 nhận 3 row, bucket 3 nhận 2 row, bucket 4 nhận 2 row. Row dư (10 mod 4 = 2) vào 2 bucket đầu. Không có bucket nào trống, kích thước bucket chênh nhau tối đa 1 row.

Question 4

PERCENT_RANK và CUME_DIST khác nhau như thế nào? Row nhỏ nhất và lớn nhất trong partition cho giá trị gì với mỗi function?

Accepted Answer

PERCENT_RANK = (rank - 1) / (total_rows - 1): Row nhỏ nhất: rank = 1, pct_rank = 0 / (n-1) = 0.0 Row lớn nhất: rank = n, pct_rank = (n-1) / (n-1) = 1.0 Partition có 1 row: denominator = 0 → pct_rank = 0 (special case) CUME_DIST = count(rows <= current) / total_rows: Row nhỏ nhất: cume_dist = 1/n — không bao giờ bằng 0 Row lớn nhất: cume_dist = n/n = 1.0 Ý nghĩa thực tế: PERCENT_RANK = 0.30 nghĩa là "row này đứng ở percentile thứ 30% trong distribution". CUME_DIST = 0.75 nghĩa là "75% row trong partition có giá trị nhỏ hơn hoặc bằng row này". CUME_DIST hữu ích hơn để trả lời câu "bao nhiêu % user có completion rate thấp hơn user này?"

Question 5

"Giải thích tại sao day - ROW_NUMBER() * INTERVAL '1 day' cho cùng giá trị hằng số với chuỗi ngày liên tiếp. Khi có gap

Accepted Answer

Chuỗi liên tiếp (2026-05-01, 02, 03) với ROW_NUMBER (1, 2, 3): Row 1: 2026-05-01 - 1 day = 2026-04-30 Row 2: 2026-05-02 - 2 days = 2026-04-30 Row 3: 2026-05-03 - 3 days = 2026-04-30 Ngày tăng 1 và ROW_NUMBER cũng tăng 1 → hiệu không đổi = hằng số = cùng island. Khi có gap (sau 05-03, nhảy lên 05-05, skip 05-04): Row 4: 2026-05-05 - 4 days = 2026-05-01 (≠ 2026-04-30) Ngày nhảy 2 (05-03 → 05-05) nhưng ROW_NUMBER chỉ tăng 1 (3 → 4) → hiệu thay đổi → giá trị mới → island mới. GROUP BY giá trị đó tự nhiên tách mỗi streak thành 1 nhóm.

Question 6

RANGE peer rows gây kết quả bất ngờ khi nào? Cho ví dụ cụ thể và cách fix.

Accepted Answer

RANGE peer rows gây bất ngờ khi data có duplicate value trên ORDER BY column. Với RANGE, các row có cùng giá trị ORDER BY được xem là "peer group" — tất cả được include vào frame cùng nhau.

Ví dụ: 3 row có cùng created_at = '2026-01-01 10:00:00', amount lần lượt 100, 200, 300.

SUM(amount) OVER (ORDER BY created_at)  -- RANGE default
-- Row 1 (amount=100): sum = 100+200+300 = 600 (cong ca 3 peer vao cung frame)
-- Row 2 (amount=200): sum = 600 (same)
-- Row 3 (amount=300): sum = 600 (same)
-- Row 4 (11:00, amount=50): sum = 650

Người viết thường expect running total "100, 300, 600, 650" nhưng thực tế nhận "600, 600, 600, 650" — bug silent, khó debug.

Fix: dùng ROWS thay RANGE:

SUM(amount) OVER (ORDER BY created_at
                ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
-- Row 1: 100, Row 2: 300, Row 3: 600, Row 4: 650 -- dung y

Question 7

"TaskFlow cần dashboard: 'Với mỗi user

Accepted Answer

4 CTE lần lượt: base : GROUP BY (assignee_id, day) → 1 row per (user, ngày) trong 30 ngày. islands : thêm grp = day - ROW_NUMBER() OVER (PARTITION BY assignee_id ORDER BY day) * INTERVAL '1 day' — island key. streaks : GROUP BY (assignee_id, grp) → count(*) AS streak_length , max(day) AS streak_end . current_streak : DISTINCT ON (assignee_id) lọc island có streak_end >= current_date - 1 → streak đang active. SELECT cuối: JOIN base tổng hợp total_done_30d với current_streak , thêm NTILE(4) OVER (ORDER BY total_done_30d DESC) AS activity_quartile . Dùng LEFT JOIN để giữ user không có streak active (current_streak = NULL). Pattern kết hợp: gap-and-island (ROW_NUMBER + GROUP BY grp) để tìm streak, NTILE trong SELECT cuối để tạo quartile — không cần CTE lồng nhau, mỗi CTE làm đúng 1 việc.

Hành động đọc nhật ký	SQL Pattern
Đánh số thứ tự từng trang	`ROW_NUMBER()` — bài 7 Module 3
Đọc 7 trang quanh trang hiện tại (cố định số trang)	Frame `ROWS BETWEEN 6 PRECEDING AND CURRENT ROW`
Đọc nhật ký 7 ngày quanh ngày hiện tại (cố định khoảng thời gian)	Frame `RANGE BETWEEN INTERVAL '7 days' PRECEDING AND CURRENT ROW`
Chia nhật ký thành 4 quý bằng nhau về số trang	`NTILE(4)`
Tính trang này nằm ở percentile thứ bao nhiêu	`PERCENT_RANK()` / `CUME_DIST()`
Tìm chuỗi ngày liên tiếp có entry / phát hiện ngày bị bỏ trống	Gap-and-island pattern

Mode	Offset theo	Khi data có gap ngày	Dùng khi
`ROWS`	Số row vật lý	Có thể trải dài nhiều tuần nếu data thưa	Cần N data point gần nhất
`RANGE`	Giá trị của ORDER BY column	Đúng semantic "7 ngày lịch"	Cần N ngày lịch gần nhất
`GROUPS`	Số nhóm peer	Phụ thuộc distribution giá trị	Cần N nhóm giá trị gần nhất

Cần	Pattern phù hợp
Aggregate per group, mỗi group cho ra 1 row	`GROUP BY`
Aggregate per group, giữ row chi tiết + thêm aggregate column	Window function
Top N per group	`LATERAL` hoặc Window + filter (bài 1 của module này)
Running total / moving average	Window function với frame clause
Streak liên tục / detect gap	Gap-and-island (window + GROUP BY)
Chia bucket percentile	`NTILE(N)` window function
Vị trí tương đối trong distribution	`PERCENT_RANK` / `CUME_DIST`

Window functions nâng cao — Frame clause, NTILE, PERCENT_RANK, Gap-and-island

1. Analogy — Đọc nhật ký công ty

2. Frame clause — ROWS vs RANGE vs GROUPS

3. Frame default — pitfall thường gặp

4. NTILE — chia bucket gần đều

5. PERCENT_RANK và CUME_DIST — vị trí tương đối 0-1

6. Gap-and-island — pattern then chốt

7. Window vs aggregate vs subquery — bảng quyết định

8. Pitfall — frame default và RANGE peer rows

9. Applied — TaskFlow streak + cohort report

10. Deep Dive

11. Tóm tắt

12. Tự kiểm tra

Chưa có câu hỏi

Function	Row nhỏ nhất	Row lớn nhất	Ý nghĩa thực tế
`PERCENT_RANK`	0.0	1.0	"Row này đứng ở percentile thứ mấy"
`CUME_DIST`	`1/total`	1.0	"% rows có giá trị nhỏ hơn hoặc bằng row này"