Question 1

"Vì sao tags TEXT = 'urgent

Accepted Answer

1NF yêu cầu mỗi cell chứa đúng 1 giá trị scalar — không phải tập hợp hay danh sách. tags = 'urgent,bug' nhét nhiều giá trị vào 1 cell, vi phạm nguyên tắc atomic value.

Hậu quả filter: WHERE tags LIKE '%urgent%' phải scan toàn bảng (không dùng được index với leading wildcard), và gây false positive — urgently, urgentcare đều match. Không có cách chính xác để filter "chỉ tag urgent" mà không parse chuỗi phía application.

Hậu quả aggregate: "top 10 tag phổ biến" không thể làm bằng SQL thuần — phải đọc tất cả row, parse từng chuỗi trong application, đếm thủ công. Khi bảng có triệu row, không scale được.

Question 2

Phân biệt 2NF vs 3NF. Cho ví dụ vi phạm mỗi cái với schema TaskFlow và cách fix.

Accepted Answer

2NF vi phạm khi: có composite PK và non-key column chỉ phụ thuộc một phần PK. Ví dụ TaskFlow: nếu 'task_tags' có thêm column 'tag_color' — màu này chỉ phụ thuộc 'tag_id' , không phụ thuộc 'task_id' . PK là '(task_id, tag_id)' nhưng 'tag_color' chỉ cần 'tag_id' → partial dependency → vi phạm 2NF. Fix: chuyển 'tag_color' vào bảng 'tags' . 3NF vi phạm khi: có chain 'PK → A → B' qua non-key column. Ví dụ TaskFlow: nếu 'tasks' có thêm 'project_id' , 'project_name' , 'project_owner_email' . Chain: 'tasks.id → project_id → project_name' và 'project_id → project_owner_email' . 'project_name' không phụ thuộc trực tiếp 'tasks.id' mà qua trung gian 'project_id' → transitive dependency → vi phạm 3NF. Fix: tách 'projects' table riêng với 'project_name' và 'project_owner_email' .

Question 3

PostgreSQL hỗ trợ tags TEXT[] array với GIN index — vi phạm 1NF không? Khi nào ARRAY thực sự phù hợp trong PG?

Accepted Answer

Về mặt lý thuyết, 'TEXT[]' array vẫn vi phạm 1NF — một cell chứa nhiều giá trị, không phải scalar. Định nghĩa 1NF không thay đổi vì database hỗ trợ kiểu dữ liệu đó. Tuy nhiên, PG GIN index làm cho 'WHERE \'urgent\' = ANY(tags)' chạy nhanh, tránh được false positive, và tránh JOIN overhead. Về mặt practical, ARRAY có thể acceptable khi: (1) tags là attribute của object, không phải entity độc lập cần query riêng; (2) không cần count tần suất tag global; (3) write pattern đơn giản (luôn replace cả mảng, không update từng element). Mặc định: junction table khi tags cần aggregate, filter phức tạp, hoặc có thể trở thành entity (tag có màu, category, description). ARRAY khi tags chỉ là label đơn giản, không bao giờ query độc lập. Module 9 của khoá này deep dive JSON/ARRAY trong PG.

Question 4

4 anomaly (insertion, update, deletion, redundancy) — cái nào nguy hiểm nhất trong production? Cho ví dụ cụ thể.

Accepted Answer

Không có anomaly nào "tệ nhất" tuyệt đối — phụ thuộc vào business context. Nhưng trong production, update anomaly thường gây hậu quả âm thầm nhất vì dễ tạo ra inconsistent data mà không có lỗi rõ ràng.

Ví dụ: employees nhét department_name. Team HR đổi tên "Engineering" thành "Product Engineering" qua UI, chỉ update 70 trong 100 employee của department đó (bug trong batch update). Hệ quả: 70 employee thấy "Product Engineering", 30 thấy "Engineering" — cùng một department, hai tên khác nhau. Báo cáo headcount sai, export CSV cho payroll sai, dashboard bị split thành 2 department.

Insertion anomaly dễ thấy ngay (không insert được), deletion anomaly thường được phát hiện khi data đã mất. Redundancy tốn storage nhưng không gây sai data ngay. Update anomaly sinh ra inconsistent state tồn tại lâu dài mà không báo lỗi — nguy hiểm vì silent.

Question 5

"Always normalize to 3NF" vs "pragmatic — denormalize khi cần read performance". Quan điểm nào đúng? Tradeoff thực sự là gì?

Accepted Answer

Cả hai đều đúng trong context riêng. Mâu thuẫn chỉ xuất hiện khi áp dụng cứng nhắc không đúng hoàn cảnh.

3NF làm baseline: normalize đến 3NF trước — đây là trạng thái ít bug nhất, integrity tự nhiên nhất, dễ hiểu nhất. Hầu hết schema không cần vượt qua 3NF để hoạt động tốt.

Denormalize có chủ đích: khi profiling cho thấy JOIN cụ thể là bottleneck (đo được, không đoán), và denormalize giải quyết được vấn đề đó mà không sinh ra consistency bug mới. Ví dụ: giữ price_at_order trong order_items là denormalize có lý do — snapshot giá lúc mua, không phải lazy design.

Tradeoff thực sự: normalize tốt cho write integrity, denormalize tốt cho read performance. Không phải binary — thường có điểm cân bằng phụ thuộc read/write ratio, scale, và query pattern. Module 4 bài 4 của khoá này đi sâu vào quyết định này với ví dụ cụ thể.

Question 6

TaskFlow refactor tags TEXT sang junction table: 4 bước migration. Bước nào nguy hiểm nhất và cách phòng ngừa downtime?

Accepted Answer

4 bước: (1) Tạo bảng 'tags' và 'task_tags' . (2) Backfill data từ 'tags TEXT' sang junction. (3) Switch app code để đọc/ghi từ junction table. (4) Drop column 'tags' cũ. Bước nguy hiểm nhất: bước 4 — DROP COLUMN. Đây là thao tác không thể hoàn tác (không có down migration trong Prisma 7, và ngay cả nếu có, data trong column đã xoá). Nếu app code vẫn còn đường code nào đọc 'tasks.tags' , sẽ lỗi ngay sau DROP. Cách phòng ngừa: dùng expand-contract pattern — giữ column cũ song song với junction trong ít nhất 1 deploy cycle (hoặc 1 tuần nếu có rollback window). Trong giai đoạn chuyển tiếp: double-write vào cả column cũ và junction, đọc từ junction. Sau khi verify monitoring không có error từ column cũ trong N ngày, mới DROP. Module 11 của khoá này chi tiết pattern này với migration tooling.

Tủ hồ sơ	Database concept
1 ngăn, 1 loại tài liệu	1 cell, 1 giá trị scalar (1NF)
Mỗi tờ phụ thuộc đúng mã ngăn	Non-key column phụ thuộc toàn bộ PK (2NF)
Không chuỗi A→B→C nhồi nhét	Không transitive dependency qua non-key (3NF)
Tủ quá nhỏ, chia phòng riêng cho từng tờ	Over-normalize — overhead JOIN không cần thiết

#	Anomaly	Mô tả	Ví dụ TaskFlow
1	Insertion	Không thể insert data mới nếu thiếu data liên quan	Không thể thêm product mới khi chưa có order nào
2	Update	Thay đổi 1 fact phải update nhiều row	Đổi tên department → update mọi employee row
3	Deletion	Xoá data này vô tình xoá luôn data khác	Xoá order cuối → mất thông tin product
4	Redundancy	Cùng 1 fact lặp lại ở nhiều row	Tên product lặp ở mọi order_item

Normalization 1NF→3NF — refactor TaskFlow tags TEXT thành junction table

1. Analogy — Sắp tủ hồ sơ

2. 1NF — atomic value

3. 2NF — no partial dependency on composite key

4. 3NF — no transitive dependency

5. BCNF — một dòng

6. 4 anomaly khi không normalize

7. Pitfall — over-normalize

8. Applied — TaskFlow refactor tags TEXT sang junction table

9. Deep Dive — Normalization

10. Tóm tắt

11. Tự kiểm tra

Chưa có câu hỏi