Question 1

"Với N = 1 tỷ record

Accepted Answer

Phase 1: 'R = ceil(1B / 100M) = 10' run — đọc toàn bộ dữ liệu 1 lần và ghi 10 run, tốn 2N I/O. Phase 2: 'ceil(log_10(10)) = 1' pass — merge 10 run cùng lúc với 'k=10' , đọc và ghi thêm 2N I/O. Tổng: '2 + 2 = 4' lần N. Nếu N = 1 tỷ record × 100 byte = 100 GB thì tổng I/O ~400 GB. Với SSD 500 MB/s tuần tự ~ 13 phút.

Question 2

"Vì sao min-heap k-way merge đúng — tại mọi bước

Accepted Answer

Invariant: heap chứa đúng một phần tử từ mỗi run — phần tử nhỏ nhất còn lại của run đó (vì run đã sorted, phần tử đứng đầu run là nhỏ nhất của run).

Mọi phần tử chưa ghi output thuộc về một trong k run. Phần tử nhỏ nhất toàn bộ phải là phần tử đứng đầu của một run nào đó. Heap giữ đúng k đầu run này → min của heap = min toàn bộ.

Khi pop và nạp phần tử kế của run đó, invariant được duy trì. Bằng induction, mọi pop đều lấy đúng phần tử nhỏ nhất.

Question 3

"Nếu tăng k từ 10 lên 100

Accepted Answer

Hai vấn đề chính: (1) Buffer mỗi run nhỏ lại — nếu RAM tổng cố định M, mỗi trong 100 run chỉ được M/100 buffer. Buffer nhỏ nghĩa là 'readNext()' phải đọc disk thường xuyên hơn, mỗi lần đọc ít byte → random I/O nhiều hơn → chậm hơn trên HDD. (2) File descriptor overhead — mở 100 file đồng thời tiêu tốn OS resource; nhiều hệ thống giới hạn số file descriptor mở đồng thời (ulimit). Postgres giới hạn k thực tế ~500. Điểm tối ưu thực nghiệm thường là 'k = floor(M / min_buffer_size)' với 'min_buffer_size' đủ lớn cho sequential read hiệu quả (thường 1–4 MB).

Question 4

Postgres báo 'Sort Method: external merge Disk: 256 MB' trong EXPLAIN ANALYZE. Điều gì xảy ra bên dưới và bạn có thể làm gì để loại bỏ disk spill?

Accepted Answer

Postgres đã thực hiện external sort vì 'ORDER BY' không vừa 'work_mem' . Cụ thể: nó chia data thành các run sorted, ghi ra temp file (256 MB trên disk), rồi k-way merge khi đọc ngược lại. Query chậm hơn in-memory sort đáng kể. Cách khắc phục: tăng 'work_mem' cho session bằng "SET work_mem = '512MB'" (hoặc lớn hơn tuỳ dataset). Nếu query quan trọng, tăng 'work_mem' trong 'postgresql.conf' cho role cụ thể. Lưu ý: 'work_mem' áp per sort operation per connection — đặt quá cao gây OOM nếu nhiều connection sort cùng lúc.

Question 5

Tại sao shuffle phase trong MapReduce tốn kém và được xem là 'bottleneck' của nhiều job?

Accepted Answer

Shuffle = distributed external sort qua network. Sau Map phase, mỗi mapper có output chưa sorted; Hadoop/Spark phải: (1) sort output của mỗi mapper (Phase 1 local); (2) gửi các partition qua network đến reducer tương ứng; (3) reducer k-way merge các sorted stream nhận được (Phase 2).

Bước (2) là bottleneck: network bandwidth thường chậm hơn disk nhiều lần; toàn bộ intermediate data phải đi qua mạng; nếu một reducer nhận quá nhiều data (data skew), nó trở thành straggler chặn toàn job. Đây là lý do các framework mới (Spark, Flink) cố tránh shuffle bằng broadcast join hay partition-aware join khi có thể.

Question 6

Replacement selection là kỹ thuật nào và nó cải thiện Phase 1 ra sao so với sort chunk cố định?

Accepted Answer

Replacement selection dùng heap size M thay vì sort chunk M cứng nhắc. Cơ chế: đọc M phần tử vào heap; khi ghi phần tử nhỏ nhất ra run hiện tại, đọc phần tử mới từ input — nếu phần tử mới lớn hơn phần tử vừa ghi, nạp vào heap tiếp tục run hiện tại; nếu nhỏ hơn, đánh dấu "chờ run tiếp theo".

Kết quả: với dữ liệu ngẫu nhiên, run trung bình dài 2M thay vì M (Knuth §5.4.1). Số run Phase 1 giảm một nửa → Phase 2 cần ít pass hơn. Postgres dùng variant này; với dữ liệu có độ sorted sẵn cao (nearly sorted), run có thể dài cả file — external sort degenerate về O(N log N) single-pass.

Question 7

"Nếu cần external dedup (loại bản sao) cho 50 GB log

Accepted Answer

Quy trình: external sort toàn bộ 50 GB theo key cần dedup, rồi linear scan kết quả — mỗi khi gặp record trùng với record trước, bỏ qua. Total: O(N log N) sort + O(N) scan.

Hash set O(N) average nhưng đòi O(N) RAM — với 50 GB data, bảng hash cần hàng chục GB RAM (overhead pointer, bucket), vượt khả năng. External hash (partition by hash, sort within partition) là hybrid nhưng phức tạp hơn.

External sort tận dụng sequential I/O hiệu quả và không đòi RAM O(N). Spark distinct() mặc định dùng external sort khi data spill; chỉ chuyển sang hash-based khi data vừa memory.

Tham số	Ý nghĩa
`N`	tổng số record (ví dụ 10 tỷ)
`M`	RAM chứa được tối đa bao nhiêu record (ví dụ 800 triệu)
`k`	số run merge cùng lúc trong Phase 2
`R = ceil(N/M)`	số run sinh ra sau Phase 1

Bước	Heap (giá trị, run)	Pop	Output	Nạp vào
Khởi tạo	2	—	—	—
1	2	(1,0)	1	(5,0)
2	0	(2,1)	2	(4,1)
3	0	(3,2)	3	(6,2)
4	2	(4,1)	4	(8,1)
5	1	(5,0)	5	(9,0)
...	...	...	...	...

k	ceil(log_k(13))	Tổng pass	Tổng I/O (×200 GB)
2	4	5	1000 GB
4	2	3	600 GB
8	2	3	600 GB
13	1	2	400 GB

External merge sort — sắp xếp vượt RAM

1. Mô hình bài toán và giới hạn I/O

2. Phase 1 — tạo sorted run

3. Phase 2 — k-way merge bằng min-heap

3.1 Trace k-way merge với k=3

4. Phân tích I/O — vì sao tăng k quan trọng

5. Ứng dụng thực tế

6. Pitfall

Pitfall 1 — Chọn k quá lớn, buffer mỗi run quá nhỏ

Pitfall 2 — Bỏ quên double buffering gây I/O stall

Pitfall 3 — Không xử lý run cuối nhỏ hơn M

7. Liên hệ các bài khác

📚 Deep Dive

Tóm tắt

Tự kiểm tra

Chưa có câu hỏi