Question 1

`OFFSET 20000 LIMIT 20` chạy chậm. Giải thích cơ chế DB bên dưới theo từng bước. Tại sao có index trên cột sort vẫn không giúp được nhiều ở deep page?

Accepted Answer

PostgreSQL thực hiện ba bước: đầu tiên, bắt đầu index scan từ đầu tập kết quả (không nhảy vào giữa được); tiếp theo, duyệt và đếm bỏ qua đúng 20.000 row; cuối cùng, đọc 20 row tiếp theo và trả về. Chi phí thực tế là đọc 20.020 row để trả 20 row.

Index trên cột sort giúp tránh full heap scan — thay vì đọc toàn bộ bảng không theo thứ tự, PostgreSQL đọc index theo thứ tự đã sắp xếp. Nhưng bước "bỏ qua 20.000 row" vẫn phải duyệt đủ 20.000 entry trong index — index không có cách nào nhảy đến vị trí thứ 20.001 mà không đọc 20.000 entry trước đó. Nên index giúp ~10 lần nhưng vẫn O(N).

Khác biệt căn bản: index seek theo giá trị (WHERE id = 12345) là O(log N), còn index scan bỏ qua N entry (OFFSET N) là O(N). Keyset biến bài toán thứ hai thành bài toán thứ nhất.

Question 2

Tại sao keyset pagination cần composite cursor '(createdAt, id)' thay vì chỉ 'createdAt' ? Điều gì xảy ra nếu chỉ dùng 'createdAt' khi có 5 row cùng timestamp?

Accepted Answer

Nếu cursor chỉ là 'createdAt' và có 5 row cùng giá trị timestamp đó, điều kiện 'WHERE createdAt sẽ bỏ qua cả 5 row khi lấy trang tiếp theo — trang trước trả về 1 row trong số 5 row cùng timestamp, trang sau dùng timestamp đó làm cursor và bỏ luôn 4 row còn lại. Composite cursor '(createdAt, id)' giải quyết: điều kiện là 'createdAt . Điều này đọc "lấy row nào nhỏ hơn cặp (timestamp, id) theo thứ tự lexicographic" — duy nhất và xác định cho từng row. Nguyên tắc chung: cursor phải là tập cột tạo thành giá trị duy nhất cho mỗi row. Thực tế đơn giản nhất là dùng '(sort_column, id)' vì 'id' luôn unique. Nếu sort theo nhiều cột thì cursor cần tất cả cột đó cộng 'id' .

Question 3

'Slice ' nhanh hơn 'Page ' ở điểm nào? Với table 10 triệu row và request '?page=500&size=20'

Accepted Answer

'Slice ' nhanh hơn vì bỏ query 'COUNT(*)' thứ hai. Với table có nhiều JOIN hoặc WHERE phức tạp, COUNT có thể mất vài giây — Slice tiết kiệm toàn bộ chi phí đó. Cơ chế: Hibernate fetch 'size + 1' row, nếu tồn tại row thứ 'size + 1' thì 'hasNext = true' . Với '?page=500&size=20' trên 10 triệu row, 'Slice' không giải quyết được vấn đề chính. OFFSET = 10.000, DB vẫn phải đọc và bỏ qua 10.000 row trước khi trả 20 row. Chi phí data query vẫn O(N). Slice chỉ cắt được chi phí COUNT, không cắt được chi phí OFFSET scan. Kết luận: 'Slice' hữu ích khi COUNT là bottleneck (bảng có WHERE/JOIN phức tạp), không hữu ích khi deep page OFFSET scan là bottleneck. Cho 10 triệu row với deep page, cần keyset.

Question 4

Tại sao keyset pagination không hỗ trợ "nhảy thẳng đến trang 50"? Đây có phải hạn chế của Spring Data hay là hạn chế của cơ chế bên dưới?

Accepted Answer

Đây là hạn chế của cơ chế bên dưới, không phải Spring Data. Keyset hoạt động bằng cách lưu "vị trí đang đứng" dưới dạng giá trị dữ liệu (cursor). Để biết cursor của trang 50, bạn phải đã từng đứng ở cuối trang 49 và lưu lại cursor đó.

Không có cách tính cursor của trang 50 mà không duyệt qua trang 1 đến 49 trước. Đây là đánh đổi căn bản: keyset biến "vị trí" từ số nguyên (OFFSET) sang giá trị dữ liệu (cursor) — tốt cho sequential navigation, không tốt cho random access.

Trong thực tế, "nhảy trang" là UX pattern của admin table — nơi người dùng cần "đi thẳng đến trang 50". Với use case đó, Page<T> và OFFSET là phù hợp, chấp nhận giới hạn số trang tối đa (thường 100-500 trang). Còn với realtime feed, log viewer, hoặc infinite scroll, người dùng không cần nhảy trang — keyset là lựa chọn tự nhiên.

Question 5

TaskFlow có endpoint lấy danh sách project cho admin

Accepted Answer

Admin project list: dùng 'Page ' . Lý do: UX yêu cầu hiển thị "trang X/Y" và total count. Với 1.200 project, COUNT nhanh, OFFSET tối đa ~60 trang (size=20) — không có deep page issue. Chi phí 2 SQL chấp nhận được. Activity log realtime: dùng keyset với 'Window ' . Lý do đầu tiên là scale — 10 triệu row với OFFSET 200.000 sẽ timeout. Lý do thứ hai là data bias — activity insert liên tục, OFFSET sẽ gây lặp/bỏ sót row ở ranh giới trang khi data shift. Keyset dùng cursor anchor vào row cụ thể, stable với insert mới. Lý do thứ ba là UX — activity feed tự nhiên là "load more", không cần "nhảy đến trang 50". Implementation keyset cần composite cursor '(createdAt, id)' và index '(created_at DESC, id DESC)' . Encode cursor thành Base64 JSON để client không parse nội bộ và server có thể đổi format sau mà không breaking change.

	`Page<T>`	`Slice<T>`	Keyset / `Window<T>`
SQL chạy	2 (data + COUNT)	1 (data, fetch size+1)	1 (data, seek qua index)
Chi phí deep page	O(N) — scan N row	O(N) — vẫn OFFSET	O(log N) — B-tree seek
Biết total	totalElements, totalPages	Không	Không
Stable khi insert	Không — row mới shift trang	Không	Có — cursor anchor row
Nhảy trang random	Có	Có	Không
UX pattern	"Trang X / Y"	"Load more"	"Load more" / realtime feed
Phù hợp khi	Table nho, admin UI	Mobile scroll nhanh	Table lon, data bien dong

Pagination performance — OFFSET vs keyset, Slice bỏ COUNT

1. Scenario — deep page trong production

2. Cơ chế OFFSET — tại sao chậm tuyến tính

Keyset với Spring Data Window API (Spring Data 3.1 trở lên)

4. Slice — bỏ COUNT query, không bỏ OFFSET scan

5. So sánh ba chiến lược

6. Pitfall thường gặp

Liên hệ các bài khác

Tóm tắt

Tự kiểm tra

Chưa có câu hỏi