Q: Tại sao HyperLogLog dùng harmonic mean thay vì trung bình cộng của 2^M[i]? Cho ví dụ cụ thể cho thấy trung bình cộng bị lệch.

Giả sử m=4 bucket, cardinality thật là 1000. Ba bucket cho 'M[i] = 10' (ước lượng '2^10 = 1024' , hợp lý), nhưng 1 bucket tình cờ có 'M[i] = 30' (xác suất thấp nhưng có thể — '2^30 ≈ 10^9' ). Trung bình cộng: '(1024 + 1024 + 1024 + 10^9) / 4 ≈ 250 triệu' — sai 250.000 lần. Harmonic mean: '4 / (1/1024 + 1/1024 + 1/1024 + 1/10^9) ≈ 4 / (3/1024) ≈ 1365' — sai ~37%, chấp nhận được. Outlier '10^9' đóng góp '1/10^9 ≈ 0' vào harmonic mean, gần như không ảnh hưởng.

Question 1

Tại sao xác suất một hash ngẫu nhiên có ít nhất r leading zero bằng 1/2^r? Kết nối tính chất này với lý do R_max ≈ log2(n).

Accepted Answer

Hash function đều phân phối mỗi bit output như đồng xu công bằng (xác suất 0 hoặc 1 đều 1/2). Xác suất bit đầu = 0 là 1/2; xác suất 2 bit đầu đều 0 là (1/2)^2 = 1/4; tổng quát xác suất r bit đầu đều 0 = 1/2^r.

Kết nối với n: với n phần tử distinct, xác suất KHÔNG có phần tử nào đạt r leading zero = (1 - 1/2^r)^n. Hàm này giảm từ ~1 (khi n << 2^r) về ~0 (khi n >> 2^r) — "phase transition" tại n ≈ 2^r. Vậy R_max quan sát được gần bằng log2(n) — nhiều phần tử distinct hơn → leading zero dài hơn được quan sát.

Question 2

Tại sao HyperLogLog dùng harmonic mean thay vì trung bình cộng của 2^M[i]? Cho ví dụ cụ thể cho thấy trung bình cộng bị lệch.

Accepted Answer

Giả sử m=4 bucket, cardinality thật là 1000. Ba bucket cho M[i] = 10 (ước lượng 2^10 = 1024, hợp lý), nhưng 1 bucket tình cờ có M[i] = 30 (xác suất thấp nhưng có thể — 2^30 ≈ 10^9).

Trung bình cộng: (1024 + 1024 + 1024 + 10^9) / 4 ≈ 250 triệu — sai 250.000 lần. Harmonic mean: 4 / (1/1024 + 1/1024 + 1/1024 + 1/10^9) ≈ 4 / (3/1024) ≈ 1365 — sai ~37%, chấp nhận được. Outlier 10^9 đóng góp 1/10^9 ≈ 0 vào harmonic mean, gần như không ảnh hưởng.

Question 3

"Sai số chuẩn của HyperLogLog là 1.04/sqrt(m). Nếu cần sai số dưới 1%

Accepted Answer

Giải: '1.04/sqrt(m) → 'sqrt(m) > 104' → 'm > 10816' . Chọn m = 16384 (lũy thừa 2 gần nhất) → sai số = '1.04/sqrt(16384) = 1.04/128 ≈ 0.81%' . Bộ nhớ: '16384 register × 6 bit = 98304 bit = 12288 byte = 12 KB' . Đây chính xác là cấu hình Redis HyperLogLog — khớp với tài liệu Redis. Đếm đến '2^64 ≈ 1.8 × 10^19' distinct với 12 KB và sai số 0.81%.

Question 4

Redis có lệnh PFMERGE hợp nhất nhiều HyperLogLog key. Tại sao lấy max từng register đúng với toán học? Điều gì sẽ sai nếu dùng trung bình cộng?

Accepted Answer

'M[i]' của bucket i là leading-zero tối đa của tất cả phần tử hash vào bucket i. Khi merge hai tập A và B, bucket i của kết quả phải phản ánh leading-zero tối đa của A∪B vào bucket i = 'max(M_A[i], M_B[i])' . Đây là tính chất set union — max đúng với ngữ nghĩa union. Dùng trung bình cộng sai vì: nếu A có 'M_A[i] = 15' và B có 'M_B[i] = 5' , trung bình = 10 — thấp hơn max(A,B)=15, nghĩa là ước lượng thấp hơn thực tế (undercount). Union không bao giờ có cardinality nhỏ hơn từng tập con — phải dùng max.

Question 5

"Trong query planner của PostgreSQL

Accepted Answer

Ví dụ: bảng A có 1 triệu row, cột 'user_id' thực có 800.000 distinct value nhưng pg_statistic ước tính chỉ 8.000. Planner nghĩ selectivity của điều kiện 'a.user_id = b.user_id' cao (ít distinct → mỗi value match nhiều row hơn) → chọn nested loop join (tốt khi 1 bên nhỏ hoặc selectivity cao). Thực tế selectivity thấp (800K distinct → mỗi value match ~1.25 row trung bình) → nested loop O(n²) thay vì hash join O(n). Query từ vài giây → hàng giờ. Đây là lý do PostgreSQL chạy 'ANALYZE' để cập nhật statistics dùng HyperLogLog-variant, và tại sao 'default_statistics_target' ảnh hưởng đến query performance.

Question 6

"HyperLogLog và Bloom filter đều dùng hash để tiết kiệm bộ nhớ. So sánh hai cấu trúc theo: bài toán giải quyết

Accepted Answer

Bloom filter : membership query — "x có trong tập S không?". Lỗi: false positive (báo có nhưng thực ra không) với xác suất có thể cấu hình; KHÔNG có false negative (báo không thì chắc chắn không). Dùng khi: cache miss avoidance, dedup check, web crawler URL seen. HyperLogLog : cardinality query — "tập S có bao nhiêu phần tử distinct?". Lỗi: ước lượng lệch với sai số chuẩn ~1-2%; không phân biệt over/under estimate. Dùng khi: unique visitor count, distinct query analytics, query planner statistics. Chọn theo câu hỏi cần trả lời: membership → Bloom; cardinality → HyperLogLog. Kết hợp cả hai: Bloom filter kiểm tra "đã thấy phần tử này chưa" để tránh đếm lại, HyperLogLog đếm cardinality — một số hệ thống dùng cả hai song song.

Question 7

"HyperLogLog có hiệu chỉnh 'small range correction' bằng linear counting khi E Khi cardinality nhỏ ( 'n ), phần lớn bucket vẫn rỗng ( 'M[i] = 0' ). Estimator chính 'alpha_m × m^2 / Z' được thiết kế cho vùng trung bình — với nhiều bucket rỗng, harmonic mean bị kéo lệch bởi '2^(-0) = 1' từ các bucket rỗng. Linear counting (Whang et al. 1990) chính xác hơn cho vùng nhỏ: 'E = m × ln(m/V)' trong đó V là số bucket rỗng. Khi n nhỏ, V lớn, công thức này ước lượng chuẩn vì tương quan giữa số bucket rỗng và cardinality là tuyến tính trong log. Khi n tăng, V giảm về 0 và linear counting mất chính xác — chuyển sang estimator chính. Đây là lý do code thực tế (Redis, Java HyperLogLog library) có 3 vùng: small (linear counting), medium (main estimator), large (hash space correction). )

Accepted Answer

Khi cardinality nhỏ ( 'n ), phần lớn bucket vẫn rỗng ( 'M[i] = 0' ). Estimator chính 'alpha_m × m^2 / Z' được thiết kế cho vùng trung bình — với nhiều bucket rỗng, harmonic mean bị kéo lệch bởi '2^(-0) = 1' từ các bucket rỗng. Linear counting (Whang et al. 1990) chính xác hơn cho vùng nhỏ: 'E = m × ln(m/V)' trong đó V là số bucket rỗng. Khi n nhỏ, V lớn, công thức này ước lượng chuẩn vì tương quan giữa số bucket rỗng và cardinality là tuyến tính trong log. Khi n tăng, V giảm về 0 và linear counting mất chính xác — chuyển sang estimator chính. Đây là lý do code thực tế (Redis, Java HyperLogLog library) có 3 vùng: small (linear counting), medium (main estimator), large (hash space correction).

m (số bucket)	Sai số chuẩn	RAM (5 bit/register)
16	26%	10 byte
256	6.5%	160 byte
1024	3.25%	640 byte
4096	1.6%	2.5 KB
65536	0.4%	40 KB

HyperLogLog — đếm distinct xấp xỉ

1. Trực giác — leading zero và cardinality

2. Stochastic averaging — chia bucket

3. Harmonic mean và hiệu chỉnh

4. Độ chính xác — sai số chuẩn và bộ nhớ

5. HyperLogLog++ và sparse representation

6. Liên hệ các bài khác

📚 Deep Dive

Tóm tắt

Tự kiểm tra

Chưa có câu hỏi