Lịch học dự kiến diễn ra



Lớp: DWDL LEVEL 1
Địa điểm: 59 Cao Thắng, Quận 3, HCM
Thời gian học: Thứ 2 - 19H00 - 21H30 & Thứ 6 - 19H00 - 21H30
Lịch khai giảng: Jan. 10, 2025
Thời gian kết thúc: Feb. 10, 2025
Giảng viên dự kiến: Thulvm_DE
DWDL

Mastering Data Warehouse & Data Lake: From Basics to Applications

Khóa học Data Lake và Data Warehouse được thiết kế dành cho các bạn mong muốn trở thành chuyên viên kỹ sư dữ liệu, quản trị viên hệ thống và phân tích hệ thống dữ liệu, nhằm cung cấp kiến thức toàn diện về việc xây dựng, quản lý, và tối ưu hóa các hệ thống lưu trữ dữ liệu hiện đại. Khóa học giúp học viên hiểu rõ sự khác biệt và cách kết hợp giữa Data Lake và Data Warehouse để khai thác tối đa giá trị dữ liệu, từ lưu trữ, phân tích đến báo cáo.

5.0 (297)

Đối tượng

• Những bạn muốn nắm vững các kỹ năng về xử lý và quản lý dữ liệu.
• Những bạn muốn nâng cao kỹ năng và hiểu biết về các công cụ và công nghệ xử lý dữ liệu lớn, quản lý dữ liệu và trực quan hóa dữ liệu.
• Những bạn cần sử dụng kỹ năng Data Engineering để phát triển các ứng dụng xử lý và quản lý dữ liệu hiệu quả.
• Những bạn muốn mở rộng kiến thức về quản lý cơ sở dữ liệu, các hệ thống lưu trữ và xử lý dữ liệu lớn và hiểu về các công nghệ và quy trình xử lý dữ liệu để quản lý và điều phối các dự án liên quan đến dữ liệu.
• Những bạn có nhu cầu học thêm kỹ năng mới để chuyển sang các vị trí liên quan đến phân tích dữ liệu và quản lý dữ liệu.
• Những bạn khám phá và học hỏi thêm về các công nghệ và kỹ thuật trong Data Engineering để mở rộng kiến thức và kỹ năng cá nhân.
• Những bạn muốn sử dụng các kỹ năng xử lý và phân tích dữ liệu để tối ưu hóa các chiến lược kinh doanh và quản lý tài chính.

Yêu cầu đầu vào

-python cơ bản
- SQL cơ bản

Bạn sẽ học những gì

Hiểu và thiết lập các nền tảng phát triển dữ liệu như Python, Hadoop và các công cụ liên quan.
• Nắm vững khái niệm và sử dụng HDFS, PySpark và Kafka trong xử lý dữ liệu lớn.
• Thực hiện các quy trình ETL (Extract, Transform, Load) hiệu quả.
• Xây dựng và quản lý Data Warehouse và Data Lake (Hive).
• Áp dụng các kỹ thuật streaming dữ liệu với Spark.
• Hiểu và triển khai Apache Airflow để tự động hóa quy trình ETL.
• Nắm vững kỹ thuật xử lý và chuyển đổi dữ liệu giữa SQL và No-SQL.

Nội dung khóa học

    Chủ đề:

    Big data

    Mục tiêu:

    -Học viên nắm được các khái niệm cơ bản, các thuật ngữ trong big data cũng như Data engineer
    -Quy trình làm việc của một Data engineer
    -Tìm hiểu một số mô hình hệ thống dữ liệu phổ biến ở Việt Nam

    Ứng dụng:

    - Big Data là gì?
    - Tác động của Big Data.
    - Các khái niệm: xử lý song song, mở rộng quy mô và tính song song dữ liệu.
    - Các công cụ Big Data phổ biến.
    - Vượt qua sự cường điệu về Big Data.
    - Các trường hợp sử dụng Big Data.
    - Quan điểm về Big Data.

    Case Study:

    Thực hành: Phân tích tác động của Big Data đến ngành tài chính hoặc thương mại điện tử (ví dụ: quản lý rủi ro tín dụng của ngân hàng).

    Chủ đề:

    Hadoop

    Mục tiêu:

    - Học viên tìm hiểu về Hadoop
    - Biết cấp lưu trữ xử lý dữ liệu trên Hadoop

    Ứng dụng:

    - Tổng quan hệ sinh thái Hadoop: HDFS, Hive, HBase, Spark.
    - Hiểu cách hoạt động của MapReduce.
    - Làm việc với HDFS: lưu trữ và truy xuất dữ liệu.
    - Làm việc với HBase: quản lý bảng dữ liệu lớn.

    Case Study:

    Thực hành: Xây dựng và chạy một ứng dụng MapReduce để xử lý dữ liệu logs từ một website thương mại điện tử: shoppee, tiki..

    Chủ đề:

    Apache Spark

    Mục tiêu:

    - học viên nắm được cách xử lý dữ liệu rất lớn với Apache Spark

    Ứng dụng:

    - Tại sao nên sử dụng Apache Spark?
    - Kiến thức cơ bản về lập trình hàm.
    - Lập trình song song với RDDs (Resilient Distributed Datasets).
    - Phân phối dữ liệu song song trong Spark.

    Case Study:

    Thực hành: Sử dụng PySpark để xử lý và phân tích dữ liệu giao dịch bán hàng của một công ty bán lẻ lớn (case: dữ liệu khách hàng từ chuỗi siêu thị).

    Chủ đề:

    SparkSQL

    Mục tiêu:

    -Học viên nắm được các cú pháp của SparkSQL
    -ứng dụng SparkSQL vào xử lý try vấn dữ liệu

    Ứng dụng:

    - Giới thiệu về DataFrames và SparkSQL.
    - RDDs trong lập trình song song và Spark.
    - Catalyst và Tungsten.
    - Quy trình ETL với DataFrames.
    - Ứng dụng thực tế của SparkSQL.

    Case Study:

    Thực hành: Sử dụng DataFrames để thực hiện ETL dữ liệu khách hàng từ một hệ thống CRM lớn. Truy vấn dữ liệu khách hàng từ một dataset lớn bằng SparkSQL (case: phân tích dữ liệu khách hàng của một ngân hàng).

    Chủ đề:

    pySpark

    Mục tiêu:

    - Tìm hiểu kiến trúc apache spark
    - tối ưu hóa môi trường trong spark

    Ứng dụng:

    - Kiến trúc Apache Spark và các chế độ cụm.
    - Cách chạy ứng dụng Apache Spark và cài đặt cấu hình.
    - Giới thiệu Spark trên Kubernetes.
    - Giao diện người dùng Apache Spark.
    - Giám sát và gỡ lỗi các công việc Spark.
    - Hiểu về tài nguyên bộ nhớ và xử lý.

    Case Study:

    Thực hành: Cấu hình và chạy Spark trên Kubernetes để xử lý một dataset lớn từ cảm biến IoT. Giám sát hiệu suất ứng dụng Spark phân tích logs bán hàng online

    Chủ đề:

    Data Warehouses và Data Lakes

    Mục tiêu:

    - Học viên tìm hiểu về Data Warehouses và Data Lakes
    - Nắm được kiến trúc Data Warehouses và Data Lakes

    Ứng dụng:

    - Tổng quan về Data Warehouse, Data Marts và Data Lakes.
    - Các hệ thống Data Warehouse phổ biến.
    - Cách lựa chọn hệ thống Data Warehouse.
    - Các khái niệm cơ bản về Data Lakes.

    Case Study:

    Thực hành: Thiết kế kiến trúc Data Warehouse cho một doanh nghiệp thương mại điện tử (case: xây dựng Data Warehouse cho một nền tảng như Lazada).

    Chủ đề:

    Data Warehouse

    Mục tiêu:

    -Học viên nắm được cách triển khai một Data Warehouse

    Ứng dụng:

    - Kiến trúc Data Warehouse.
    - Mô hình hóa dữ liệu: Star Schema, Snowflake Schema.
    - Khu vực trung gian (Staging Areas) và xác minh chất lượng dữ liệu.
    - Nạp dữ liệu và truy vấn Data Warehouse.

    Case Study:

    Thực hành: Xây dựng một Star Schema cho hệ thống bán lẻ. Nạp dữ liệu vào Data Warehouse từ một hệ thống nguồn (case: dữ liệu bán hàng của siêu thị).

    Chủ đề:

    Power Bi

    Mục tiêu:

    -Học viên nắm được sử dụng power Bi để xây dựng báo cáo về hệ thống

    Ứng dụng:

    - Giới thiệu công cụ BI và phân tích dữ liệu (Power BI).
    - Tạo báo cáo và bảng điều khiển.

    Case Study:

    Thực hành: Sử dụng Power BI để tạo một báo cáo động về báo cáo hiệu suất hoạt động của 1 hệ thống dữ liệu phân tích dữ liệu bán hàng và hiển thị các chỉ số KPI cho doanh nghiệp bán lẻ (case: chuỗi siêu thị).

    Chủ đề:

    Spark ML

    Mục tiêu:

    - Nắm được về cú pháp Spark ML
    - các thuật toán ML cơ bản

    Ứng dụng:

    - Giới thiệu Spark ML.
    - Các kỹ thuật: hồi quy, phân loại, phân cụm.

    Case Study:

    Thực hành: Xây dựng một mô hình phân loại khách hàng dựa trên dữ liệu hành vi mua sắm (case: phân loại khách hàng VIP của công ty bán lẻ lớn: AMAZONE).

    Chủ đề:

    Dự án cuối khóa

    Mục tiêu:

    Hoàn thành Dự án cuối khóa

    Ứng dụng:

    - Ôn tập và tổng quan dự án.
    - Hướng dẫn làm bài tập cuối khóa

    Case Study:

    Thực hành: Thực hiện dự án hoàn chỉnh: xây dựng hệ thống ETL với Spark, phân tích dữ liệu giao dịch khách hàng, triển khai báo cáo trên Power BI với các chỉ số KPI từ một doanh nghiệp tài chính hoặc bán lẻ.

Tại sao khóa học tại MCI phù hợp với bạn

1. Lộ trình khóa học thiết kế khoa học, theo quy trình làm việc thực tế giúp bạn tiếp thu và nắm chắc kiến thức theo trình tự khoa học
2. Giáo trình đào tạo theo chuẩn Quốc tế kết hợp giữa lý thuyết và thực hành qua các case study thực tế
3. 100% Giảng viên tại MCI là các chuyên gia tư vấn tại Big4 các tập đoàn lớn tại Việt Nam, có chứng chỉ đào tạo nghiên cứu quốc tế trong lĩnh vực lập trình và dữ liệu
4. Giảng viên hướng dẫn tận tay giúp bạn thành thạo Python, Power BI, SQL trong thời gian ngắn nhất
5. Cam kết chất lượng đào tạo, miễn phí học lại trọn đời nếu chưa nắm rõ kiến thức

Đội ngũ giảng viên


Lê Võ Minh Thư

- Tốt nghiệp Thạc sĩ khoa học chuyên ngành Hệ thống thông tin
- Hơn 16 năm kinh nghiệm Quản lý dự án và giảng viên tại các trường đại học. Hiện tại đang làm việc và giảng dạy tại trường đại học FPT

Các khóa học liên quan