Trang chủ>  Blog >  Kiến thức chuyên môn >  KHÁM PHÁ TRAINING SET, TESTING SET VÀ VALIDATION SET TRONG PHÂN CHIA DỮ LIỆU

KHÁM PHÁ TRAINING SET, TESTING SET VÀ VALIDATION SET TRONG PHÂN CHIA DỮ LIỆU


Trong một bài toán Machine Learning, mỗi Data Analyst sẽ có những phương pháp, cách giải khác nhau dựa vào những mô hình khác nhau. Vậy, làm cách nào để chọn được mô hình thích hợp với bài toán bạn đang giải quyết? Việc đầu tiên cần làm chính là đánh giá mô hình dựa trên dữ liệu mới. Tùy thuộc vào tính chất của bộ dữ liệu như lớn hay nhỏ sẽ có nhiều cách để phân chia khác nhau. Thông thường, Data Analyst sẽ phân chia bộ dữ liệu thành 3 phần: Training Set, Test Set và Validation Set

  9,855 lượt xem

Nội dung bài viết

Trong một bài toán Machine Learning, mỗi Data Analyst sẽ có những phương pháp, cách giải khác nhau dựa vào những mô hình khác nhau. Vậy, làm cách nào để chọn được mô hình thích hợp với bài toán bạn đang giải quyết? Việc đầu tiên cần làm chính là đánh giá mô hình dựa trên dữ liệu mới. Việc đánh giá mô hình sẽ giải quyết được những vấn đề sau: mức độ thành công của mô hình, khi nào nên cập nhật mô hình,...Những bài toán khác nhau sẽ dựa vào tiêu chí khác nhau để đánh giá mức độ thành công của nó. Vì vậy cần phải xác định thứ tự ưu tiên của các tiêu chí cho việc đánh giá mô hình. 

Tùy thuộc vào tính chất của bộ dữ liệu như lớn hay nhỏ sẽ có nhiều cách để phân chia khác nhau. Thông thường, Data Analyst sẽ phân chia bộ dữ liệu thành 3 phần: Training Set, Test Set và Validation Set

GIẢI MÃ TRAINING SET, TESTING SET VÀ VALIDATION SET

1. Training Set là gì?

Training Set là là một tập dữ liệu dùng để huấn luyện cho mô hình của thuật toán Machine Learning. Đây thường là một tập dữ liệu có kích thước lớn, được dùng để training trong quá trình huấn luyện máy học.

Trong mô hình Hồi quy tuyến tính (Linear Regression), các điểm trong tập huấn luyện được sử dụng để tìm ra hàm số hay đường phù hợp nhất mô tả quan hệ giữa đầu vào và đầu ra của tập dữ liệu huấn luyện bằng cách sử dụng một số phương pháp tối ưu hóa như công thức nghiệm hoặc các thuật toán tối ưu gần đúng như gradient descent hay stochastic gradient descent. 

Training Set bao gồm input và output tương ứng, trong đó output thường được gọi là nhãn (label hoặc target). Các thuật toán nói chung sẽ tìm cách tối ưu sai số dự đoán trên tập huấn luyện này đến mức đủ tốt. Trong trường hợp overfitting sai số dự đoán của mô hình trên tập huấn luyện có thể rất thấp, thậm chí = 0%.

 

2. Testing Set là gì?

Nói một cách dễ hiểu, testing set là tập dữ liệu dùng để test sau khi máy tính đã học xong. Một mô hình máy học sau khi được huấn luyện, sẽ cần phải được kiểm chứng xem nó có đạt hiệu quả không. Mô hình máy học cũng vậy, sau mỗi quá trình huấn luyện, các mô hình này sẽ được kiểm chứng độ chính xác, nếu đáp ứng được yêu cầu thì là đạt, không thì cần phải xem xét lại. Và để kiểm nghiệm được độ chính xác của mô hình này, người ta dùng tập Testing set. Khác với Training set, Testing set chỉ gồm các giá trị input (TD, GC, YKNTK, TI, và RRCN) mà không có giá trị output (YDM).

=> Testing set là tập các giá trị input và được dùng để kiểm thử độ chính xác của những mô hình máy học sau khi được huấn luyện.

 

3. Validation Set là gì?

Trước khi nắm được Validation Set bạn cần tìm hiểu khái niệm Overfitting. Giống như training set, validation set cũng bao gồm các cặp giá trị input và output tương ứng. Tuy nhiên, input & output không dùng để huấn luyện trong quá trình máy học mà sử dụng để kiểm tra độ chính xác của mô hình máy học trong quá trình huấn luyện. Vậy sự khác nhau giữa công dụng Testing Set và Validation Set là gì ?  Testing được dùng để kiểm thử sau quá trình huấn luyện, còn validation set được sử dụng để kiểm thử trong quá trình huấn luyện. Chính vì vậy, thuật ngữ overfitting (hiện tượng mô hình dự đoán quá khớp với tập training set, dẫn đến dự đoán không hiệu quả đối với tập testing set.) cần phải nắm rõ trong quá trình sử dụng. Thông thường, người ta ngầm cho rằng Validation set mà có độ chính xác cao thì tập Testing set cũng có độ chính xác cao. Do đó, quá trình training chủ yếu dựa trên kết quả của tập Validation set chứ không phải tập training set.

=> Validation set là tập các giá trị input đi kèm với giá trị output và được dùng để kiểm thử độc chính xác của mô hình máy học trong quá trình huấn luyện.

Hy vọng bài viết này sẽ giúp các bạn hiểu được định nghĩa khái quát của 3 tập dữ liệu và cách phân chia dữ liệu phù hợp với từng bài toán. 

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


🏗️ Data Modeling & Architecture – Kỹ Năng “Chìa Khóa” Cho Dân Data 2025

Bạn có thể giỏi SQL, làm dashboard đẹp, build model xịn… nhưng nếu data model lởm, hệ thống sẽ sớm “toang”: Dashboard load 10 phút chưa xong Query join lỗi, lặp dữ liệu, không ra kết quả đúng Model ML train trên dữ liệu không chuẩn → dự báo lệch cả chục % 😵‍💫 Đây chính là lý do mà Data Modeling & Architecture đang trở thành kỹ năng “must-have” của mọi Data Analyst/Engineer/Scientist năm 2025.

🧠 Top Kỹ Năng Chuyên Môn Data 2025 – “Full Stack” Kỹ Năng Cho Dân Data Thời AI

2025 không còn là thời của “một kỹ năng duy nhất”. Doanh nghiệp đang cần những người làm Data đa năng, hiểu pipeline từ A–Z, biết vừa xử lý dữ liệu, vừa trực quan hoá, vừa hiểu AI đang làm gì. Dưới đây là bộ kỹ năng chuyên môn “xương sống” mà bất kỳ ai theo đuổi ngành Data đều nên nắm vững 🚀

Business Acumen – Vũ Khí Bí Mật Giúp Data Analyst Được Mời Vào Bàn Quyết Định

Bạn có thể viết SQL nhanh, làm dashboard đẹp – nhưng sếp vẫn chưa xem bạn như “cố vấn chiến lược”? 💡 Nguyên nhân: Thiếu Business Acumen – khả năng hiểu và nói ngôn ngữ kinh doanh. Đây là kỹ năng giúp bạn không chỉ trả lời “số là bao nhiêu?” mà còn giải thích “vì sao số quan trọng”. Kỹ năng này không chỉ giúp bạn giao tiếp hiệu quả với các bộ phận khác, mà còn là chìa khóa để bạn được mời vào bàn quyết định, trở thành một phần quan trọng trong chiến lược của công ty.

Các bài viết liên quan