Data Lake and Data Warehouse - Khóa Học Xây Dựng Và Quản Lý Hệ Th

Lịch học dự kiến diễn ra

Lớp:	DATA WAREHOUSE & DATA LAKE
Địa điểm:	224 Điện Biên Phủ, Quận 3, HCM
Thời gian học:	Thứ 2 - 19H00 - 21H30 & Thứ 6 - 19H00 - 21H30
Lịch khai giảng:	July 27, 2026
Thời gian kết thúc:	Aug. 28, 2026
Giảng viên dự kiến:	None

DWDL

Mastering Data Warehouse & Data Lake: From Basics to Applications

🚀 Data Lake & Data Warehouse
👉 Làm chủ hệ thống lưu trữ dữ liệu hiện đại – Xây dựng nền tảng dữ liệu phục vụ phân tích và báo cáo

Bạn muốn hiểu rõ cách tổ chức, lưu trữ và khai thác dữ liệu hiệu quả trong doanh nghiệp?

Khóa học này sẽ giúp bạn nắm vững kiến thức nền tảng → hiểu cách xây dựng và tối ưu hệ thống dữ liệu, đồng thời phân biệt rõ vai trò của Data Lake và Data Warehouse trong lưu trữ, phân tích và báo cáo.

5.0 (372)

Đối tượng

📊 Người muốn nắm vững kỹ năng xử lý và quản lý dữ liệu
Dành cho những bạn muốn xây dựng nền tảng bài bản về xử lý, tổ chức và quản lý dữ liệu để phục vụ học tập và công việc.

🛠 Người muốn nâng cao kỹ năng về công cụ và công nghệ dữ liệu
Phù hợp với những ai muốn mở rộng hiểu biết về xử lý dữ liệu lớn, quản lý dữ liệu và trực quan hóa dữ liệu để ứng dụng hiệu quả hơn trong thực tế.

💼 Người muốn ứng dụng Data Engineering vào công việc
Nếu bạn cần sử dụng các kỹ năng Data Engineering để phát triển các ứng dụng xử lý và quản lý dữ liệu hiệu quả, khóa học sẽ giúp bạn tiếp cận kiến thức theo hướng thực tiễn và dễ áp dụng.

🗄 Người muốn mở rộng kiến thức về hệ thống dữ liệu và cơ sở dữ liệu
Dành cho những ai muốn tìm hiểu sâu hơn về quản lý cơ sở dữ liệu, hệ thống lưu trữ, xử lý dữ liệu lớn và các quy trình liên quan đến quản trị dữ liệu.

🔄 Người muốn học thêm kỹ năng để chuyển hướng nghề nghiệp
Phù hợp với những bạn đang có nhu cầu bổ sung kỹ năng mới để chuyển sang các vị trí liên quan đến phân tích dữ liệu, quản lý dữ liệu hoặc Data Engineering.

🚀 Người muốn khám phá và phát triển chuyên môn trong Data Engineering
Khóa học phù hợp với những ai muốn học hỏi thêm về các công nghệ và kỹ thuật trong Data Engineering để mở rộng kiến thức và nâng cao năng lực cá nhân.

📈 Người muốn ứng dụng dữ liệu để tối ưu kinh doanh và tài chính
Dành cho những bạn muốn sử dụng kỹ năng xử lý và phân tích dữ liệu để hỗ trợ ra quyết định, tối ưu chiến lược kinh doanh và quản lý tài chính hiệu quả hơn.

👉 Từ hiểu dữ liệu nền tảng → từng bước làm chủ xử lý, quản lý và xây dựng hệ thống dữ liệu hiện đại.

Yêu cầu đầu vào

👉 Có kiến thức cơ bản về Python và SQL

💡 Nếu bạn đã từng làm quen với Python cơ bản và SQL cơ bản, bạn sẽ tiếp thu nhanh hơn và dễ dàng theo kịp các nội dung về Data Lake và Data Warehouse trong khóa học.

Bạn sẽ học những gì

🛠 Làm chủ các nền tảng và công cụ phát triển dữ liệu
Hiểu cách thiết lập và sử dụng các nền tảng quan trọng như Python, Hadoop và các công cụ liên quan trong hệ sinh thái dữ liệu.

📦 Nắm vững công nghệ xử lý dữ liệu lớn
Làm quen và ứng dụng các công cụ như HDFS, PySpark, Kafka để xử lý và quản lý dữ liệu lớn hiệu quả.

🔄 Thực hiện quy trình ETL bài bản
Biết cách trích xuất, chuyển đổi và nạp dữ liệu (ETL) để phục vụ cho nhu cầu lưu trữ, phân tích và khai thác dữ liệu.

🗄 Xây dựng và quản lý Data Warehouse, Data Lake
Hiểu cách tổ chức và vận hành các hệ thống lưu trữ dữ liệu hiện đại như Data Warehouse và Data Lake (Hive).

⚡ Tiếp cận kỹ thuật xử lý dữ liệu streaming
Nắm được cách áp dụng Spark Streaming trong xử lý dữ liệu theo thời gian thực, phù hợp với các bài toán hiện đại của doanh nghiệp.

🤖 Tự động hóa quy trình dữ liệu với Apache Airflow
Hiểu và triển khai Apache Airflow để tự động hóa các quy trình ETL, giúp tối ưu vận hành và quản lý pipeline dữ liệu hiệu quả hơn.

🔍 Xử lý và chuyển đổi dữ liệu giữa SQL và NoSQL
Nắm vững cách làm việc với dữ liệu trong cả hai môi trường SQL và NoSQL, từ đó linh hoạt hơn trong lưu trữ và khai thác dữ liệu.

👉 Không chỉ học công cụ – bạn sẽ biết cách xây dựng, xử lý và quản lý hệ thống dữ liệu hiện đại một cách thực tế và hiệu quả.

Nội dung khóa học

Buổi 1: Tổng quan về Big Data

Chủ đề:

Big data

Mục tiêu:

-Học viên nắm được các khái niệm cơ bản, các thuật ngữ trong big data cũng như Data engineer
-Quy trình làm việc của một Data engineer
-Tìm hiểu một số mô hình hệ thống dữ liệu phổ biến ở Việt Nam

Ứng dụng:

- Big Data là gì?
- Tác động của Big Data.
- Các khái niệm: xử lý song song, mở rộng quy mô và tính song song dữ liệu.
- Các công cụ Big Data phổ biến.
- Vượt qua sự cường điệu về Big Data.
- Các trường hợp sử dụng Big Data.
- Quan điểm về Big Data.

Case Study:

Thực hành: Phân tích tác động của Big Data đến ngành tài chính hoặc thương mại điện tử (ví dụ: quản lý rủi ro tín dụng của ngân hàng).

Buổi 2: Hệ sinh thái Hadoop

Chủ đề:

Hadoop

Mục tiêu:

- Học viên tìm hiểu về Hadoop
- Biết cấp lưu trữ xử lý dữ liệu trên Hadoop

Ứng dụng:

- Tổng quan hệ sinh thái Hadoop: HDFS, Hive, HBase, Spark.
- Hiểu cách hoạt động của MapReduce.
- Làm việc với HDFS: lưu trữ và truy xuất dữ liệu.
- Làm việc với HBase: quản lý bảng dữ liệu lớn.

Case Study:

Thực hành: Xây dựng và chạy một ứng dụng MapReduce để xử lý dữ liệu logs từ một website thương mại điện tử: shoppee, tiki..

Buổi 3: Apache Spark

Chủ đề:

Apache Spark

Mục tiêu:

- học viên nắm được cách xử lý dữ liệu rất lớn với Apache Spark

Ứng dụng:

- Tại sao nên sử dụng Apache Spark?
- Kiến thức cơ bản về lập trình hàm.
- Lập trình song song với RDDs (Resilient Distributed Datasets).
- Phân phối dữ liệu song song trong Spark.

Case Study:

Thực hành: Sử dụng PySpark để xử lý và phân tích dữ liệu giao dịch bán hàng của một công ty bán lẻ lớn (case: dữ liệu khách hàng từ chuỗi siêu thị).

Buổi 4: DataFrames và SparkSQL

Chủ đề:

SparkSQL

Mục tiêu:

-Học viên nắm được các cú pháp của SparkSQL
-ứng dụng SparkSQL vào xử lý try vấn dữ liệu

Ứng dụng:

- Giới thiệu về DataFrames và SparkSQL.
- RDDs trong lập trình song song và Spark.
- Catalyst và Tungsten.
- Quy trình ETL với DataFrames.
- Ứng dụng thực tế của SparkSQL.

Case Study:

Thực hành: Sử dụng DataFrames để thực hiện ETL dữ liệu khách hàng từ một hệ thống CRM lớn. Truy vấn dữ liệu khách hàng từ một dataset lớn bằng SparkSQL (case: phân tích dữ liệu khách hàng của một ngân hàng).

Buổi 5: Cấu hình môi trường và tối ưu hóa Spark

Chủ đề:

pySpark

Mục tiêu:

- Tìm hiểu kiến trúc apache spark
- tối ưu hóa môi trường trong spark

Ứng dụng:

- Kiến trúc Apache Spark và các chế độ cụm.
- Cách chạy ứng dụng Apache Spark và cài đặt cấu hình.
- Giới thiệu Spark trên Kubernetes.
- Giao diện người dùng Apache Spark.
- Giám sát và gỡ lỗi các công việc Spark.
- Hiểu về tài nguyên bộ nhớ và xử lý.

Case Study:

Thực hành: Cấu hình và chạy Spark trên Kubernetes để xử lý một dataset lớn từ cảm biến IoT. Giám sát hiệu suất ứng dụng Spark phân tích logs bán hàng online

Buổi 6: Tổng quan về Data Warehouses và Data Lakes

Chủ đề:

Data Warehouses và Data Lakes

Mục tiêu:

- Học viên tìm hiểu về Data Warehouses và Data Lakes
- Nắm được kiến trúc Data Warehouses và Data Lakes

Ứng dụng:

- Tổng quan về Data Warehouse, Data Marts và Data Lakes.
- Các hệ thống Data Warehouse phổ biến.
- Cách lựa chọn hệ thống Data Warehouse.
- Các khái niệm cơ bản về Data Lakes.

Case Study:

Thực hành: Thiết kế kiến trúc Data Warehouse cho một doanh nghiệp thương mại điện tử (case: xây dựng Data Warehouse cho một nền tảng như Lazada).

Buổi 7:Thiết kế và triển khai Data Warehouse

Chủ đề:

Data Warehouse

Mục tiêu:

-Học viên nắm được cách triển khai một Data Warehouse

Ứng dụng:

- Kiến trúc Data Warehouse.
- Mô hình hóa dữ liệu: Star Schema, Snowflake Schema.
- Khu vực trung gian (Staging Areas) và xác minh chất lượng dữ liệu.
- Nạp dữ liệu và truy vấn Data Warehouse.

Case Study:

Thực hành: Xây dựng một Star Schema cho hệ thống bán lẻ. Nạp dữ liệu vào Data Warehouse từ một hệ thống nguồn (case: dữ liệu bán hàng của siêu thị).

Buổi 8: Phân tích dữ liệu với Power BI

Chủ đề:

Power Bi

Mục tiêu:

-Học viên nắm được sử dụng power Bi để xây dựng báo cáo về hệ thống

Ứng dụng:

- Giới thiệu công cụ BI và phân tích dữ liệu (Power BI).
- Tạo báo cáo và bảng điều khiển.

Case Study:

Thực hành: Sử dụng Power BI để tạo một báo cáo động về báo cáo hiệu suất hoạt động của 1 hệ thống dữ liệu phân tích dữ liệu bán hàng và hiển thị các chỉ số KPI cho doanh nghiệp bán lẻ (case: chuỗi siêu thị).

Buổi 9: Spark ML và Machine Learning

Chủ đề:

Spark ML

Mục tiêu:

- Nắm được về cú pháp Spark ML
- các thuật toán ML cơ bản

Ứng dụng:

- Giới thiệu Spark ML.
- Các kỹ thuật: hồi quy, phân loại, phân cụm.

Case Study:

Thực hành: Xây dựng một mô hình phân loại khách hàng dựa trên dữ liệu hành vi mua sắm (case: phân loại khách hàng VIP của công ty bán lẻ lớn: AMAZONE).

Buổi 10: Dự án cuối khóa

Chủ đề:

Dự án cuối khóa

Mục tiêu:

Hoàn thành Dự án cuối khóa

Ứng dụng:

- Ôn tập và tổng quan dự án.
- Hướng dẫn làm bài tập cuối khóa

Case Study:

Thực hành: Thực hiện dự án hoàn chỉnh: xây dựng hệ thống ETL với Spark, phân tích dữ liệu giao dịch khách hàng, triển khai báo cáo trên Power BI với các chỉ số KPI từ một doanh nghiệp tài chính hoặc bán lẻ.

Tại sao khóa học tại MCI phù hợp với bạn

1. Lộ trình bài bản – bám sát thực tế công việc
Chương trình được thiết kế khoa học, theo trình tự logic và gắn với quy trình làm việc thực tế, giúp bạn tiếp thu kiến thức dễ dàng và nắm chắc từng phần học.

2. Giáo trình chuẩn quốc tế – kết hợp lý thuyết và thực hành
Nội dung đào tạo được xây dựng theo định hướng hiện đại, cân bằng giữa kiến thức nền tảng và thực hành qua các case study thực tế.

3. Giảng viên giàu kinh nghiệm thực chiến
100% giảng viên tại MCI là các chuyên gia tư vấn đến từ Big4 và các tập đoàn lớn tại Việt Nam, có chuyên môn sâu trong lĩnh vực lập trình và dữ liệu.

4. Hướng dẫn tận tay – rút ngắn thời gian làm chủ công cụ
Học viên được giảng viên đồng hành và hỗ trợ xuyên suốt, giúp nhanh chóng thành thạo các kỹ năng và công cụ quan trọng trong quá trình học.

5. Cam kết chất lượng – hỗ trợ học lại trọn đời
MCI cam kết chất lượng đào tạo và hỗ trợ học lại trọn đời miễn phí nếu bạn chưa nắm vững kiến thức.

👉 Không chỉ học lý thuyết – bạn sẽ được trang bị nền tảng và kỹ năng thực hành để ứng dụng hiệu quả vào công việc thực tế.

Đội ngũ giảng viên

Các khóa học liên quan

Data Engineer Track

4.9 (491)

Lịch học dự kiến diễn ra

Đối tượng

Yêu cầu đầu vào

Bạn sẽ học những gì

Nội dung khóa học

Tại sao khóa học tại MCI phù hợp với bạn

Đội ngũ giảng viên

Các khóa học liên quan

HỌC VIỆN CÔNG NGHỆ MCI

MCI Việt Nam

Chương Trình Đào Tạo

Phân tích dữ liệu (Data Analytics Track)

Khoa học dữ liệu (Data Science Track)

Kỹ sư dữ liệu (Data Engineering Track)

AI - Ứng dụng & Tự động hoá

IT Business Analyst (ITBA)

Hotline