🧰 Data Wrangling & Feature Engineering – “Công Đoạn Vàng” Trước Khi Làm Model
“80% thời gian của Data Scientist là để chuẩn bị dữ liệu. 20% còn lại là để than vãn vì dữ liệu chưa sạch 😅”
Nội dung bài viết
1️⃣ Data Wrangling Là Gì? 🧼
Data Wrangling (còn gọi là Data Cleaning / Data Preprocessing) là bước làm sạch, chuẩn hóa và định hình dữ liệu để sẵn sàng cho phân tích hoặc modeling.
Dù bạn làm ML, BI hay AI agent thì chất lượng dữ liệu vẫn là yếu tố quyết định.
🧠 Mục tiêu:
-
Loại bỏ dữ liệu lỗi, thiếu, trùng lặp
-
Đảm bảo các biến đúng định dạng (date, numeric, category…)
-
Tạo ra dataset sạch, thống nhất, đáng tin cậy
💡 Ví dụ:
-
Chuyển cột
DoB
từ chuỗi"31-12-2001"
→ kiểudatetime
-
Loại bỏ khoảng trắng, chuẩn hóa tên cột
Customer ID
→customer_id
-
Gộp các bảng rời rạc thành một bảng phân tích chính
2️⃣ Feature Engineering Là Gì? 🧠⚡
Feature Engineering là quá trình tạo hoặc biến đổi biến số (features) để mô hình hiểu và học tốt hơn.
Đây là “nghệ thuật” biến dữ liệu thô → biến số hữu ích ✨
Một vài kỹ thuật phổ biến:
-
🧮 Encoding: Biến category → số (One-hot, Label Encoding…)
-
📊 Scaling: Chuẩn hóa dữ liệu số (MinMax, Standard…)
-
📅 Datetime Features: Tách ngày → năm, tháng, thứ, mùa…
-
🧠 Domain Features: Dựa vào kiến thức ngành để tạo biến mới (VD:
revenue_per_customer
,days_since_last_purchase
) -
🌀 Polynomial / Interaction Features: Tạo biến tương tác, biến bậc cao cho mô hình phi tuyến
📌 Đây là nơi Data Scientist tạo ra lợi thế mô hình mà không cần deep model khủng 😎
3️⃣ Quy Trình Chuẩn Cho Data Wrangling 🧱
Bước | Nhiệm vụ chính | Tool/Thư viện |
---|---|---|
1️⃣ | Load & khám phá dữ liệu | pandas, numpy |
2️⃣ | Xử lý missing values | pandas (fillna , dropna ), sklearn |
3️⃣ | Chuẩn hóa format, kiểu dữ liệu | pandas (astype , to_datetime ) |
4️⃣ | Loại bỏ/ghép dữ liệu trùng | pandas duplicated , merge , concat |
5️⃣ | Validate dữ liệu đầu ra | Great Expectations, pandera |
👉 Luôn viết script tái sử dụng được → tránh “chạy tay” mỗi lần 📈
4️⃣ Feature Engineering Patterns Phổ Biến 🧠
Pattern | Khi dùng | Ví dụ |
---|---|---|
Encoding | Category → số | Label Encoding Gender: M/F → 0/1 |
Scaling | Chuẩn hóa giá trị | MinMaxScaler cho các feature có thang đo khác nhau |
Extraction | Tách thông tin từ 1 biến | Date → Year , Month , Weekday |
Aggregation | Tổng hợp theo nhóm | Doanh thu trung bình mỗi KH |
Interaction | Biến tương tác | price * quantity |
📌 Đặc biệt, với dữ liệu Việt Nam: cần chuẩn hóa Unicode, không dấu, cột địa chỉ/phường/xã… trước khi encoding nhé 🇻🇳
5️⃣ Tool Stack Cho Data Wrangling 🧰
Mục đích | Tool phổ biến |
---|---|
EDA & Wrangling | pandas, numpy, polars, Dask |
Validate | Great Expectations, pandera |
Automation | Airflow, Prefect |
Feature Store | Feast, Tecton (production scale) |
🔥 pandas vẫn là “vua” cho hầu hết case học & MVP, nhưng nếu xử lý hàng trăm GB → chuyển qua polars hoặc Spark để tăng tốc ⚡
6️⃣ Case Study – Cleaning Data Bán Hàng 🧼🛍️
Bối cảnh:
Doanh nghiệp có 3 nguồn dữ liệu: POS, CRM và Excel thủ công → format khác nhau, tên cột lộn xộn.
Xử lý:
-
Mapping tên cột chuẩn hoá → snake_case
-
Merge 3 bảng theo
customer_id
-
Loại bỏ dòng thiếu
order_date
-
Tạo feature
days_since_last_purchase
để dự báo churn
Kết quả:
-
Dataset unified, không còn missing chính
-
Feature churn đơn giản giúp mô hình logistic đạt AUC 0.82 🔥
7️⃣ Best Practices 📝
-
🧠 Document everything — clean không có log là tự sát 😅
-
⚡ Pipeline hóa quy trình — tránh xử lý thủ công mỗi lần
-
🧪 Validate sau mỗi bước — tránh lỗi lan sang feature/model
-
👥 Chuẩn hóa naming conventions để teamwork dễ dàng
📝 Kết Luận
Data Wrangling & Feature Engineering chính là “đòn bẩy” giúp mô hình của bạn bứt tốc:
-
🧼 Dữ liệu sạch → Model hiểu đúng
-
🧠 Feature hay → Performance cao
-
⚡ Pipeline chuẩn → scale dễ dàng
👉 Làm chủ kỹ năng này = bạn đã có nền cực chắc để bước vào Modeling & MLOps 💪
📞 Hotline: 0352.433.233
🌐 mcivietnam.com
📺 youtube.com/@HocVienMCI
👥 facebook.com/groups/dataaivn

Các khóa học
- Mastering AWS : From Basics to Applications Specialized
- Data Engineer Track Specialized
- Combo Data Engineering Professional Hot
- AI & DASHBOARD – CHỈ 990K Hot
- Combo Python Level 1 & Level 2 Bestseller
- Business Intelligence Track Hot
- Data Science Track Bestseller
- Data Analyst Professional (Data Analyst with Python Track) Bestseller
- RPA UiPath Nâng Cao: Chiến Thuật Automation Cho Chuyên Gia Specialized
- RPA UiPath cho Người Mới Bắt Đầu: Thành Thạo Automation Chỉ Trong 1 Ngày Specialized
- Business Analyst Fast Track Bestseller
- Business Analyst Bestseller
Đăng ký tư vấn khóa học
*Vui lòng nhập số điện thoại của bạn
*Vui lòng nhập họ tên của bạn
*Vui lòng chọn giới tính
*Vui lòng chọn 1 trường