✅ Data Quality & Testing: Đảm Bảo Dữ Liệu Sạch Trước Khi Phân Tích
“Garbage in, garbage out” – nếu dữ liệu bẩn, thì mọi báo cáo, dashboard và mô hình Machine Learning cũng chỉ cho ra kết quả sai lệch. Chính vì vậy, Data Quality & Testing là một bước bắt buộc trong quy trình Data Pipeline, đảm bảo dữ liệu được làm sạch, đúng chuẩn và sẵn sàng phục vụ phân tích. Bài viết này sẽ hướng dẫn bạn các kỹ thuật kiểm tra dữ liệu (validation), viết unit test cho pipeline và ứng dụng framework tự động hoá để kiểm soát chất lượng dữ liệu ở quy mô lớn.
Nội dung bài viết
1️⃣ Data Validation – Lọc rác từ sớm
Ý nghĩa: Kiểm tra dữ liệu ngay khi được nạp vào hệ thống (raw zone), trước khi đi sâu vào transform và load sang warehouse.
-
Các bước cơ bản cần validate:
-
Null check: Có cột nào bị rỗng bất thường không? (ví dụ
email
hoặcorder_id
không được null). -
Duplicate check: Loại bỏ trùng lặp, đặc biệt với dữ liệu khách hàng và giao dịch.
-
Outlier detection: Phát hiện dữ liệu bất thường như “ngày sinh năm 2099” hoặc giá sản phẩm = -1.
-
Schema mismatch: Đảm bảo cột và kiểu dữ liệu khớp với schema chuẩn.
-
-
Ưu điểm:
✔️ Phát hiện lỗi ngay từ đầu pipeline.
✔️ Tránh lan truyền dữ liệu bẩn xuống các tầng phân tích, gây “hiệu ứng domino”. -
Ví dụ thực tế:
-
Khi khách hàng upload file Excel, hệ thống có thể reject nếu thiếu cột “Phone Number” hoặc có 50% dòng để trống.
-
Khi gọi API, validate ngay
response schema
để đảm bảo có đủ trường bắt buộc.
-
2️⃣ Unit Test Cho Pipeline
Ý nghĩa: Pipeline dữ liệu phức tạp thường gồm nhiều bước transform (join, aggregate, format). Viết test cho từng bước giúp phát hiện bug logic sớm.
-
Nguyên tắc viết Unit Test:
-
Mock dữ liệu input/output để test từng hàm transform.
-
Định nghĩa kết quả mong đợi (expected output).
-
So sánh với kết quả thực tế để phát hiện sai lệch.
-
-
Ưu điểm:
✔️ Dễ dàng refactor pipeline mà không lo “vỡ logic”.
✔️ Giảm rủi ro khi deploy sang môi trường production. -
Ví dụ thực tế:
-
Test phép join giữa bảng Orders và Customers, đảm bảo khách hàng nào không tồn tại thì gán
Unknown
. -
Test việc chuyển đổi định dạng ngày:
"2025-01-01"
→"01/01/2025"
. -
Test công thức KPI như “Conversion Rate” để đảm bảo kết quả đúng khi input thay đổi.
-
3️⃣ Data Quality Framework & Automation
Ý nghĩa: Thay vì viết rule thủ công và check bằng tay, các framework giúp tự động hoá toàn bộ kiểm tra.
-
Nguyên tắc chính:
-
Completeness: Dữ liệu có đủ không? (ví dụ 100% đơn hàng phải có
order_id
). -
Uniqueness: Dữ liệu có trùng không? (ví dụ email phải là unique).
-
Validity: Dữ liệu có đúng định dạng không? (ví dụ số điện thoại phải đủ 10 số).
-
Consistency: Các bảng có khớp logic không? (ví dụ tổng doanh thu trong bảng
orders
khớp vớipayments
).
-
-
Framework phổ biến:
-
Great Expectations → dễ viết rule dạng Python, generate report HTML.
-
dbt tests → test schema ngay trong SQL model.
-
Monte Carlo, Soda, Bigeye → dùng cho monitoring production scale.
-
-
Ví dụ thực tế:
-
Thiết lập rule: “Nếu tỷ lệ null trong cột
email
> 5% thì gửi cảnh báo Slack”. -
Tạo dashboard giám sát chất lượng dữ liệu song song với dashboard business.
-
4️⃣ Lời Khuyên & Best Practice
-
Định nghĩa data contract: Chốt schema, kiểu dữ liệu ngay từ source (CSV, API, DB).
-
Áp dụng CI/CD: Chạy test tự động trước khi merge/deploy pipeline.
-
Theo dõi liên tục: Gắn alert khi tỷ lệ null/duplicate vượt ngưỡng.
-
Tài liệu hoá rule: Để cả team hiểu và áp dụng thống nhất, tránh việc mỗi người validate một kiểu.
-
Kết hợp Data Catalog: Tích hợp metadata, lineage để dễ trace khi dữ liệu lỗi.
💡 Insight: Đầu tư vào Data Quality từ sớm giúp tiết kiệm hàng giờ “debug dashboard” và tăng niềm tin của business vào dữ liệu.
📞 Hotline: 0352.433.233
📧 Email: cskh@mcivietnam.com

Các khóa học
- Mastering AWS : From Basics to Applications Specialized
- Data Engineer Track Specialized
- Combo Data Engineering Professional Hot
- AI & DASHBOARD – CHỈ 990K Hot
- Combo Python Level 1 & Level 2 Bestseller
- Business Intelligence Track Hot
- Data Science Track Bestseller
- Data Analyst Professional (Data Analyst with Python Track) Bestseller
- RPA UiPath Nâng Cao: Chiến Thuật Automation Cho Chuyên Gia Specialized
- RPA UiPath cho Người Mới Bắt Đầu: Thành Thạo Automation Chỉ Trong 1 Ngày Specialized
- Business Analyst Fast Track Bestseller
- Business Analyst Bestseller
Đăng ký tư vấn khóa học
*Vui lòng nhập số điện thoại của bạn
*Vui lòng nhập họ tên của bạn
*Vui lòng chọn giới tính
*Vui lòng chọn 1 trường