Lịch học dự kiến diễn ra
Lớp: | DWDL LEVEL 1 |
---|---|
Địa điểm: | 59 Cao Thắng, Quận 3, HCM |
Thời gian học: | Thứ 2 - 19H00 - 21H30 & Thứ 6 - 19H00 - 21H30 |
Lịch khai giảng: | Jan. 10, 2025 |
Thời gian kết thúc: | Feb. 10, 2025 |
Giảng viên dự kiến: | Thulvm_DE |
Mastering Data Warehouse & Data Lake: From Basics to Applications
Khóa học Data Lake và Data Warehouse được thiết kế dành cho các bạn mong muốn trở thành chuyên viên kỹ sư dữ liệu, quản trị viên hệ thống và phân tích hệ thống dữ liệu, nhằm cung cấp kiến thức toàn diện về việc xây dựng, quản lý, và tối ưu hóa các hệ thống lưu trữ dữ liệu hiện đại. Khóa học giúp học viên hiểu rõ sự khác biệt và cách kết hợp giữa Data Lake và Data Warehouse để khai thác tối đa giá trị dữ liệu, từ lưu trữ, phân tích đến báo cáo.
Đối tượng
• Những bạn muốn nắm vững các kỹ năng về xử lý và quản lý dữ liệu.• Những bạn muốn nâng cao kỹ năng và hiểu biết về các công cụ và công nghệ xử lý dữ liệu lớn, quản lý dữ liệu và trực quan hóa dữ liệu.
• Những bạn cần sử dụng kỹ năng Data Engineering để phát triển các ứng dụng xử lý và quản lý dữ liệu hiệu quả.
• Những bạn muốn mở rộng kiến thức về quản lý cơ sở dữ liệu, các hệ thống lưu trữ và xử lý dữ liệu lớn và hiểu về các công nghệ và quy trình xử lý dữ liệu để quản lý và điều phối các dự án liên quan đến dữ liệu.
• Những bạn có nhu cầu học thêm kỹ năng mới để chuyển sang các vị trí liên quan đến phân tích dữ liệu và quản lý dữ liệu.
• Những bạn khám phá và học hỏi thêm về các công nghệ và kỹ thuật trong Data Engineering để mở rộng kiến thức và kỹ năng cá nhân.
• Những bạn muốn sử dụng các kỹ năng xử lý và phân tích dữ liệu để tối ưu hóa các chiến lược kinh doanh và quản lý tài chính.
Yêu cầu đầu vào
-python cơ bản- SQL cơ bản
Bạn sẽ học những gì
Hiểu và thiết lập các nền tảng phát triển dữ liệu như Python, Hadoop và các công cụ liên quan.• Nắm vững khái niệm và sử dụng HDFS, PySpark và Kafka trong xử lý dữ liệu lớn.
• Thực hiện các quy trình ETL (Extract, Transform, Load) hiệu quả.
• Xây dựng và quản lý Data Warehouse và Data Lake (Hive).
• Áp dụng các kỹ thuật streaming dữ liệu với Spark.
• Hiểu và triển khai Apache Airflow để tự động hóa quy trình ETL.
• Nắm vững kỹ thuật xử lý và chuyển đổi dữ liệu giữa SQL và No-SQL.
Nội dung khóa học
- Buổi 1: Tổng quan về Big Data
- Buổi 2: Hệ sinh thái Hadoop
- Buổi 3: Apache Spark
- Buổi 4: DataFrames và SparkSQL
- Buổi 5: Cấu hình môi trường và tối ưu hóa Spark
- Buổi 6: Tổng quan về Data Warehouses và Data Lakes
- Buổi 7:Thiết kế và triển khai Data Warehouse
- Buổi 8: Phân tích dữ liệu với Power BI
- Buổi 9: Spark ML và Machine Learning
- Buổi 10: Dự án cuối khóa
Big data
Mục tiêu:-Học viên nắm được các khái niệm cơ bản, các thuật ngữ trong big data cũng như Data engineer
-Quy trình làm việc của một Data engineer
-Tìm hiểu một số mô hình hệ thống dữ liệu phổ biến ở Việt Nam
- Big Data là gì?
- Tác động của Big Data.
- Các khái niệm: xử lý song song, mở rộng quy mô và tính song song dữ liệu.
- Các công cụ Big Data phổ biến.
- Vượt qua sự cường điệu về Big Data.
- Các trường hợp sử dụng Big Data.
- Quan điểm về Big Data.
Thực hành: Phân tích tác động của Big Data đến ngành tài chính hoặc thương mại điện tử (ví dụ: quản lý rủi ro tín dụng của ngân hàng).
Hadoop
Mục tiêu:- Học viên tìm hiểu về Hadoop
- Biết cấp lưu trữ xử lý dữ liệu trên Hadoop
- Tổng quan hệ sinh thái Hadoop: HDFS, Hive, HBase, Spark.
- Hiểu cách hoạt động của MapReduce.
- Làm việc với HDFS: lưu trữ và truy xuất dữ liệu.
- Làm việc với HBase: quản lý bảng dữ liệu lớn.
Thực hành: Xây dựng và chạy một ứng dụng MapReduce để xử lý dữ liệu logs từ một website thương mại điện tử: shoppee, tiki..
Apache Spark
Mục tiêu:- học viên nắm được cách xử lý dữ liệu rất lớn với Apache Spark
Ứng dụng:- Tại sao nên sử dụng Apache Spark?
- Kiến thức cơ bản về lập trình hàm.
- Lập trình song song với RDDs (Resilient Distributed Datasets).
- Phân phối dữ liệu song song trong Spark.
Thực hành: Sử dụng PySpark để xử lý và phân tích dữ liệu giao dịch bán hàng của một công ty bán lẻ lớn (case: dữ liệu khách hàng từ chuỗi siêu thị).
SparkSQL
Mục tiêu:-Học viên nắm được các cú pháp của SparkSQL
-ứng dụng SparkSQL vào xử lý try vấn dữ liệu
- Giới thiệu về DataFrames và SparkSQL.
- RDDs trong lập trình song song và Spark.
- Catalyst và Tungsten.
- Quy trình ETL với DataFrames.
- Ứng dụng thực tế của SparkSQL.
Thực hành: Sử dụng DataFrames để thực hiện ETL dữ liệu khách hàng từ một hệ thống CRM lớn. Truy vấn dữ liệu khách hàng từ một dataset lớn bằng SparkSQL (case: phân tích dữ liệu khách hàng của một ngân hàng).
pySpark
Mục tiêu:- Tìm hiểu kiến trúc apache spark
- tối ưu hóa môi trường trong spark
- Kiến trúc Apache Spark và các chế độ cụm.
- Cách chạy ứng dụng Apache Spark và cài đặt cấu hình.
- Giới thiệu Spark trên Kubernetes.
- Giao diện người dùng Apache Spark.
- Giám sát và gỡ lỗi các công việc Spark.
- Hiểu về tài nguyên bộ nhớ và xử lý.
Thực hành: Cấu hình và chạy Spark trên Kubernetes để xử lý một dataset lớn từ cảm biến IoT. Giám sát hiệu suất ứng dụng Spark phân tích logs bán hàng online
Data Warehouses và Data Lakes
Mục tiêu:- Học viên tìm hiểu về Data Warehouses và Data Lakes
- Nắm được kiến trúc Data Warehouses và Data Lakes
- Tổng quan về Data Warehouse, Data Marts và Data Lakes.
- Các hệ thống Data Warehouse phổ biến.
- Cách lựa chọn hệ thống Data Warehouse.
- Các khái niệm cơ bản về Data Lakes.
Thực hành: Thiết kế kiến trúc Data Warehouse cho một doanh nghiệp thương mại điện tử (case: xây dựng Data Warehouse cho một nền tảng như Lazada).
Data Warehouse
Mục tiêu:-Học viên nắm được cách triển khai một Data Warehouse
Ứng dụng:- Kiến trúc Data Warehouse.
- Mô hình hóa dữ liệu: Star Schema, Snowflake Schema.
- Khu vực trung gian (Staging Areas) và xác minh chất lượng dữ liệu.
- Nạp dữ liệu và truy vấn Data Warehouse.
Thực hành: Xây dựng một Star Schema cho hệ thống bán lẻ. Nạp dữ liệu vào Data Warehouse từ một hệ thống nguồn (case: dữ liệu bán hàng của siêu thị).
Power Bi
Mục tiêu:-Học viên nắm được sử dụng power Bi để xây dựng báo cáo về hệ thống
Ứng dụng:- Giới thiệu công cụ BI và phân tích dữ liệu (Power BI).
- Tạo báo cáo và bảng điều khiển.
Thực hành: Sử dụng Power BI để tạo một báo cáo động về báo cáo hiệu suất hoạt động của 1 hệ thống dữ liệu phân tích dữ liệu bán hàng và hiển thị các chỉ số KPI cho doanh nghiệp bán lẻ (case: chuỗi siêu thị).
Spark ML
Mục tiêu:- Nắm được về cú pháp Spark ML
- các thuật toán ML cơ bản
- Giới thiệu Spark ML.
- Các kỹ thuật: hồi quy, phân loại, phân cụm.
Thực hành: Xây dựng một mô hình phân loại khách hàng dựa trên dữ liệu hành vi mua sắm (case: phân loại khách hàng VIP của công ty bán lẻ lớn: AMAZONE).
Dự án cuối khóa
Mục tiêu:Hoàn thành Dự án cuối khóa
Ứng dụng:- Ôn tập và tổng quan dự án.
- Hướng dẫn làm bài tập cuối khóa
Thực hành: Thực hiện dự án hoàn chỉnh: xây dựng hệ thống ETL với Spark, phân tích dữ liệu giao dịch khách hàng, triển khai báo cáo trên Power BI với các chỉ số KPI từ một doanh nghiệp tài chính hoặc bán lẻ.
Tại sao khóa học tại MCI phù hợp với bạn
1. Lộ trình khóa học thiết kế khoa học, theo quy trình làm việc thực tế giúp bạn tiếp thu và nắm chắc kiến thức theo trình tự khoa học2. Giáo trình đào tạo theo chuẩn Quốc tế kết hợp giữa lý thuyết và thực hành qua các case study thực tế
3. 100% Giảng viên tại MCI là các chuyên gia tư vấn tại Big4 các tập đoàn lớn tại Việt Nam, có chứng chỉ đào tạo nghiên cứu quốc tế trong lĩnh vực lập trình và dữ liệu
4. Giảng viên hướng dẫn tận tay giúp bạn thành thạo Python, Power BI, SQL trong thời gian ngắn nhất
5. Cam kết chất lượng đào tạo, miễn phí học lại trọn đời nếu chưa nắm rõ kiến thức
Đội ngũ giảng viên
Lê Võ Minh Thư
- Tốt nghiệp Thạc sĩ khoa học chuyên ngành Hệ thống thông tin
- Hơn 16 năm kinh nghiệm Quản lý dự án và giảng viên tại các trường đại học. Hiện tại đang làm việc và giảng dạy tại trường đại học FPT