Question 1

Vì sao query() lấy MIN qua các hàng thay vì AVG hoặc MAX? Tính chất nào của collision đảm bảo MIN là upper bound chính xác nhất?

Accepted Answer

Collision trong một hàng chỉ làm tăng giá trị ô — một ô 'table[i][j]' chứa tổng count của tất cả key ánh xạ tới bucket 'j' trong hàng 'i' . Do đó mọi ô đều ≥ count thật của 'x' . Lấy MAX sẽ chọn hàng bị collision nặng nhất — sai số lớn nhất. Lấy AVG trộn lẫn các mức collision khác nhau — không có guarantee lý thuyết rõ ràng. MIN chọn hàng bị collision ít nhất (ước lượng sát nhất). Với 'd' hàm băm độc lập, xác suất tất cả 'd' hàng đều bị collision nặng (dẫn đến MIN vẫn lớn hơn thật nhiều) là '(e/w)^d = e^(-d*(ln(w/e)))' — rất nhỏ khi 'd' vừa phải. Đây là lý do MIN vừa có intuition đúng vừa có bound lý thuyết.

Question 2

"Tại sao sai số của CMS luôn là over-count

Accepted Answer

Cơ chế: mỗi 'update(x)' tăng đúng 1 ô trên mỗi hàng — không bao giờ giảm ô nào. Khi query, MIN qua các ô đó luôn ≥ số lần thực tế 'x' xuất hiện (vì ô còn chứa count của các key khác bị collision). Không có cơ chế nào làm giảm ô của 'x' , nên under-count là bất khả. Hệ quả thiết kế: ứng dụng nên dùng CMS cho quyết định "mềm" (identify candidates, trigger alert) chứ không phải quyết định "cứng" (billing, SLA guarantee). Pattern an toàn: CMS lọc ứng viên vượt ngưỡng → verify bằng nguồn chính xác (DB, log) trước khi hành động. Với rate limiting, over-count chỉ làm chặt hơn — thường chấp nhận được về security.

Question 3

Cho ε=0.5% và δ=1%. Tính w và d cần thiết. Bộ nhớ tổng là bao nhiêu nếu mỗi ô dùng 8 byte?

Accepted Answer

'ε = 0.005' , 'δ = 0.01' . 'w = ⌈e / ε⌉ = ⌈2.718 / 0.005⌉ = ⌈543.6⌉ = 544' cột. 'd = ⌈ln(1/δ)⌉ = ⌈ln(100)⌉ = ⌈4.605⌉ = 5' hàng. Bộ nhớ: '5 × 544 × 8 = 21.760 byte ≈ 21 KB' . Chỉ 21 KB để ước lượng tần suất với sai số ≤ 0.5%·N với xác suất 99% — bất kể stream có bao nhiêu key distinct.

Question 4

Bloom Filter và Count-Min Sketch đều dùng multiple hash functions + mảng. Chỉ ra 2 điểm khác biệt kiến trúc và giải thích vì sao mỗi điểm dẫn đến câu trả lời khác nhau.

Accepted Answer

Điểm 1 — Kiểu ô lưu trữ: Bloom Filter dùng bit (0/1); CMS dùng số nguyên đếm. Bit chỉ nói "đã thấy hay chưa"; số nguyên nói "đã thấy bao nhiêu lần". Cấu trúc dữ liệu quyết định câu hỏi trả lời được — membership vs frequency. Điểm 2 — Phép đọc: Bloom Filter dùng AND qua tất cả bit ( chỉ trả về "có" nếu tất cả bit = 1 ); CMS dùng MIN qua các ô đếm. Với Bloom Filter, false positive = tất cả bit ngẫu nhiên đều là 1; với CMS, over-count = collision trên tất cả hàng đều xảy ra — cơ chế khác nhau dẫn đến đặc tính sai số khác nhau (false positive vs over-count).

Question 5

Conservative Update (CU) cải tiến CMS bằng cách chỉ tăng ô nào có giá trị nhỏ hơn query(x)+1 thay vì tăng tất cả d ô. Giải thích tại sao kỹ thuật này giảm over-count mà không làm kết quả trở thành under-count.

Accepted Answer

Ý tưởng: trước khi update, chạy 'query(x)' để biết ước lượng hiện tại 'f̂' . Chỉ tăng ô 'table[i][h_i(x)]' nếu nó nhỏ hơn 'f̂ + 1' . Những ô đã lớn hơn hoặc bằng 'f̂ + 1' là đang over-count do collision — không cần tăng thêm. Vì sao không under-count: phép query vẫn là MIN. Sau CU update, ít nhất 1 ô trong số 'd' ô sẽ được tăng (ô có giá trị nhỏ nhất = 'f̂' sẽ tăng lên 'f̂+1' ). MIN qua các ô vẫn ≥ count thật — tính chất upper bound bảo toàn. CU giảm tốc độ tăng của các ô bị collision nặng, nên MIN về lâu dài sát hơn giá trị thật.

Question 6

"Stream gồm 1 triệu sự kiện

Accepted Answer

Với w=100, mỗi hàng có 100 ô. 'A' xuất hiện 900.000 lần; 100.000 lần còn lại trải đều qua ~100.000 key khác. Mỗi ô trung bình bị collision thêm 1000 lần. Ô của 'A' trong mỗi hàng ≈ 900.000 + 1000 = 901.000 → query(A) ≈ 901.000, sai số ~1.000/1.000.000 = 0.1%.

Tuy nhiên, với ε = e/w = 2.718/100 ≈ 2.7% và N=1.000.000, bound lý thuyết cho phép sai số tới 27.000 — lớn hơn sai số thực tế nhiều. Điều này dạy: khi distribution skewed mạnh (1 key dominant), CMS thực tế tốt hơn bound lý thuyết cho key dominant đó; nhưng bound lý thuyết vẫn là guarantee đúng. Nếu muốn bound chặt, phải tăng w — không thể rely vào "distribution sẽ skewed" vì production data thay đổi theo mùa.

Question 7

"Trong ứng dụng rate limiting bằng CMS: mỗi IP là một key

Accepted Answer

Over-count nghĩa là ta chặn IP sớm hơn cần thiết (false throttle). Under-count nghĩa là ta cho phép qua khi đáng lẽ phải chặn (false pass). Về security, false pass nguy hiểm hơn false throttle — một IP tấn công DDoS lách qua rate limit gây hại hơn là một IP bình thường bị chặn nhầm vài giây. CMS phù hợp vì sai số theo hướng an toàn. Vấn đề tiềm ẩn: CMS không có cơ chế reset theo cửa sổ thời gian. Cần kết hợp với sliding window hoặc dùng 2 CMS luân phiên (swap mỗi nửa cửa sổ) để đếm trong phạm vi thời gian — nếu không, count tích luỹ mãi và mọi IP đều bị chặn sau đủ lâu. Kỹ thuật 2-CMS luân phiên là pattern chuẩn trong production rate limiting.

Bước	Phần tử	table[0] (h_1)	table[1] (h_2)
Khởi tạo	—	[0, 0, 0, 0]	[0, 0, 0, 0]
1	phone	[1, 0, 0, 0]	[0, 1, 0, 0]
2	laptop	[1, 0, 1, 0]	[0, 1, 0, 1]
3	phone	[2, 0, 1, 0]	[0, 2, 0, 1]
4	tablet	[3, 0, 1, 0]	[0, 2, 0, 2]
5	phone	[4, 0, 1, 0]	[0, 3, 0, 2]

Tham số	Ý nghĩa	Công thức chọn
`w` (width)	Kiểm soát sai số tuyệt đối	`w = ⌈e/ε⌉`
`d` (depth)	Kiểm soát xác suất vượt sai số	`d = ⌈ln(1/δ)⌉`
Bộ nhớ	Cố định bất kể số key	`d × w × kích_thước_ô`

Tiêu chí	Bloom Filter	Count-Min Sketch
Câu hỏi trả lời	"x có trong tập chưa?" (membership)	"x xuất hiện bao nhiêu lần?" (frequency)
Ô lưu trữ	Bit (0/1)	Số nguyên đếm
Loại sai số	False positive (nói có khi không)	Over-count (f̂ ≥ f thật)
Hỗ trợ delete	Không (bit không giảm được)	Chỉ với biến thể counter có dấu; delete phá vỡ bảo đảm over-estimate một chiều của CMS chuẩn
Ứng dụng chính	Cache miss avoidance, spam filter	Frequency estimation, heavy hitters

Count-Min Sketch — đếm tần suất xấp xỉ

1. Bài toán: tần suất trên stream

2. Cấu trúc Count-Min Sketch

3. Thao tác update và query

3.1 Update — tăng đếm

3.2 Query — ước lượng tần suất

3.3 Trace ví dụ nhỏ — `d=2, w=4`

4. Phân tích sai số

5. So sánh Bloom Filter vs Count-Min Sketch

6. Ứng dụng thực tế

7. Pitfall

Pitfall 1 — Nhầm CMS trả về giá trị chính xác

Pitfall 2 — Chọn `d` và `w` không dựa trên ràng buộc bài toán

Pitfall 3 — Dùng hàm băm không độc lập hoặc dùng chung seed

8. Liên hệ các bài khác

📚 Deep Dive

Tóm tắt

Tự kiểm tra

Chưa có câu hỏi