Question 1

git diff hiển thị dòng '-' và '+'. Tại sao LCS của 2 phiên bản file lại tương đương với minimal diff?

Accepted Answer

LCS là tập hợp các dòng chung giữa 2 phiên bản — dòng không thay đổi. Minimal diff chính là tập dòng phải xoá (có trong file cũ, không trong LCS) cộng tập dòng phải thêm (có trong file mới, không trong LCS). Khi LCS dài nhất, phần nằm ngoài LCS (dòng thay đổi) nhỏ nhất — đó là minimal edit. Đây là lý do tại sao tìm LCS = tìm minimal diff: 2 bài toán là hai mặt của cùng một quan hệ bổ sung (complement). Nói cách khác: 'edit_distance = (n - LCS) + (m - LCS)' với n, m là độ dài 2 file. Tối thiểu hóa edit distance tương đương tối đa hóa LCS.

Question 2

"LCS DP có transition: nếu A[i]=B[j] thì dp[i][j] = dp[i-1][j-1] + 1

Accepted Answer

Khi 'A[i] != B[j]' , ta có 2 lựa chọn: bỏ qua 'A[i]' (dùng 'dp[i-1][j]' ) hoặc bỏ qua 'B[j]' (dùng 'dp[i][j-1]' ). Không có lựa chọn thứ 3 "bỏ qua cả 2 cùng lúc" vì đó sẽ là 'dp[i-1][j-1]' — nhưng 'dp[i-1][j-1]' luôn nhỏ hơn hoặc bằng cả 'dp[i-1][j]' và 'dp[i][j-1]' . Lý do: 'dp[i-1][j] >= dp[i-1][j-1]' vì xét thêm ký tự 'B[j]' không thể làm LCS ngắn hơn (ta có thể chọn không dùng nó). Vậy 'max(dp[i-1][j], dp[i][j-1])' đã bao gồm 'dp[i-1][j-1]' — không cần xét riêng.

Question 3

Myers algorithm có complexity O(n + m + D²) với D là edit distance. Tại sao nhanh hơn LCS DP O(n×m) đáng kể với file thực tế?

Accepted Answer

Với 2 phiên bản file thực tế (code, config, text), phần lớn dòng không thay đổi — D (số dòng thay đổi) rất nhỏ so với n và m. Ví dụ file 500 dòng, sửa 10 dòng thì D=10, n=m=500.

LCS DP cần xử lý toàn bộ bảng 500 × 500 = 250,000 ô dù chỉ 10 dòng thay đổi. Myers chỉ cần O(500 + 500 + 10² = 1100) — nhanh hơn hơn 200 lần trong trường hợp này.

Myers khai thác insight rằng "edit path ngắn = ít cạnh cost-1 = ít bước BFS". Trong khi DP phải điền mọi ô bảng bất kể D, Myers chỉ mở rộng đến depth D — và D nhỏ với file ít thay đổi là trường hợp thực tế phổ biến.

Question 4

Huffman coding đảm bảo prefix-free property. Tại sao property này quan trọng cho việc giải mã? Điều gì xảy ra nếu vi phạm?

Accepted Answer

Prefix-free đảm bảo không có mã nào là tiền tố của mã khác. Ví dụ: nếu a = "10" và b = "101", khi đọc bit stream 101... sẽ không biết đó là a rồi một bit nữa hay là b — mơ hồ.

Với prefix-free (mỗi ký tự là lá trong cây), giải mã đơn giản: đọc bit từ gốc, rẽ trái/phải theo bit 0/1, khi đến lá thì emit ký tự và quay về gốc. Không cần dấu phân cách giữa các ký tự — stream bit liên tục giải mã được 1-1. Vi phạm prefix-free → giải mã mơ hồ → không recover được dữ liệu gốc.

Cây Huffman tự nhiên là prefix-free vì mã = đường từ gốc đến lá, không đường nào là tiền tố đường khác (đường đến lá A không thể là đoạn đầu đường đến lá B).

Question 5

"gzip dùng LZ77 trước rồi Huffman sau

Accepted Answer

Huffman kém hiệu quả khi file có nhiều chuỗi lặp lại theo vị trí — ví dụ file log với timestamp pattern '[2026-06-16 10:23:45]' lặp lại hàng nghìn lần. Huffman chỉ nhìn vào phân phối ký tự đơn lẻ — nó không "nhận ra" chuỗi này lặp lại và không khai thác được redundancy đó. LZ77 giải quyết bằng backreference: khi thấy chuỗi đã xuất hiện trước đó trong window, thay bằng '(offset, length)' token. File log 10 MB có thể xuống 500 KB sau LZ77 (95% là chuỗi lặp), rồi Huffman nén thêm phân phối ký tự còn lại. Ngược lại: file binary ngẫu nhiên (entropy cao, ít lặp lại) thì LZ77 gần như không giúp được — Huffman cũng không nhiều vì phân phối ký tự gần đều. Đó là lý do nén file '.zip' của file '.zip' không nhỏ thêm.

Question 6

"HTTP/2 HPACK dùng Huffman table tĩnh precomputed trên thống kê HTTP headers thực tế

Accepted Answer

Ưu điểm của table tĩnh: client và server không cần trao đổi cây Huffman — tiết kiệm overhead truyền cây. Mọi connection đều dùng chung 1 table, giảm latency cho request đầu tiên. Table được tối ưu trên hàng triệu HTTP header thực tế → tốt cho trường hợp trung bình (headers thông thường). Nhược điểm: nếu ứng dụng của bạn có phân phối header đặc biệt khác trung bình (ví dụ header tùy chỉnh ít gặp), table tĩnh kém tối ưu hơn table động tính riêng. Table tĩnh cũng không thay đổi được khi HTTP traffic pattern thay đổi theo thời gian — phải chờ update RFC. HPACK chọn table tĩnh vì HTTP headers thường rất uniform ( 'Content-Type' , 'Authorization' , 'Accept' xuất hiện ở gần như mọi request) — lợi ích cố định table vượt nhược điểm kém linh hoạt cho hầu hết use case.

Ký tự	Tần suất	Mã Huffman	Số bit
`d`	6	`0`	1
`c`	4	`10`	2
`b`	3	`111`	3
`a`	2	`110`	3

Ứng dụng	Variant
ZIP, zlib	DEFLATE (LZ77 + Huffman)
PNG	DEFLATE cho pixel data (sau filter)
JPEG	Huffman cho AC/DC coefficient trong DCT
MP3	Huffman cho quantized frequency bands
HTTP/2, gRPC	HPACK/QPACK — Huffman cho HTTP headers
Mã Morse	Tiền thân thủ công: E=`.`, T=`-` (ngắn cho phổ biến)

	LCS / Myers diff	Huffman coding
Bài toán gốc	Dãy con chung dài nhất	Mã prefix-free chi phí tối thiểu
Subproblem	`dp[i][j]` = LCS của 2 tiền tố	Tần suất subtree tại mỗi node
Transition	match/skip từng phần tử	Gộp 2 node nhỏ nhất
Complexity	O(n×m) DP, O(n+m+D²) Myers	O(n log n) heap
Production	git diff, Unix diff, merge tool	gzip, PNG, JPEG, HTTP/2 headers
Đặc điểm	Tối ưu toàn cục (bảng 2D)	Greedy tối ưu (exchange argument)

Case Study: LCS trong git diff & Huffman trong gzip

Phần A — LCS trong `git diff` và Myers algorithm

1. Vì sao diff = bài toán LCS

2. LCS là DP cổ điển

3. Myers algorithm — git dùng gì thực tế

4. Tại sao cùng file đôi khi `git diff` cho kết quả "lạ"

Phần B — Huffman coding trong gzip/DEFLATE

5. Vấn đề: ASCII cố định 8 bit, lãng phí

6. Xây cây Huffman — greedy DP bottom-up

7. Đọc mã từ cây Huffman

8. DEFLATE — Huffman trong gzip thực tế

9. Ứng dụng thực tế Huffman ngoài gzip

10. Bảng so sánh 2 DP

Tự kiểm tra

Chưa có câu hỏi