KHÁM PHÁ SỰ KHÁC NHAU CỦA DATA WAREHOUSE, DATA MART VÀ DATA LAKE
Ở bài viết trước chúng ta đã tìm hiểu 3 định nghĩa: data warehouse, data mart và data lake và cách sử dụng phổ biến trong quy trình phân tích dữ liệu. Vậy làm sao để phân biệt sự khác nhau giữa data warehouse, data mart và data lake để ứng dụng với từng mô hình hợp lý. Cùng MCI tìm hiểu nhé!
Nội dung bài viết
SỰ KHÁC NHAU CỦA DATA WAREHOUSE, DATA MART VÀ DATA LAKE
I. Sự khác nhau giữa Data warehouse và Data mart
1.1 Dữ liệu lưu trữ
Data warehouse: Dữ liệu được lưu trữ trong một kho lưu trữ tập trung duy nhất trong kho dữ liệu.
Data mart: dữ liệu được lưu trữ dữ liệu trong khu vực người dùng.
1.2 Cách tiếp cận
Data warehouse: Tiếp cận từ cấp trên xuống, tập trung lượng lớn dữ liệu và sau đó quyết định cách sử dụng
Data mart: Tiếp cận từ cấp dưới lên, tập trung vào dữ liệu cụ thể cho từng mục đích
1.3 Dạng dữ liệu
Data warehouse: Dữ liệu chi tiết
Data mart: Dữ liệu ngắn gọn
II. Sự khác nhau giữa Data warehouse và Data lake
Data warehouse lưu trữ dữ liệu trong các tệp hoặc thư mục giúp tổ chức và sử dụng dữ liệu để đưa ra các quyết định chiến lược. Còn data lake là kho lưu trữ kích thước lớn chứa một lượng lớn dữ liệu thô ở định dạng ban đầu. Ngoài ra, 2 thuật ngữ này còn có sự khác biệt về thời gian xử lý, lợi ích, nhiệm vụ,..
2.1 Thời gian xử lý dữ liệu:
- Data lake cho phép user có được kết quả nhanh hơn bởi tính năng trao quyền cho người dùng truy cập dữ liệu trước khi nó được chuyển đổi, làm sạch và cấu trúc.
- Data Warehouse cung cấp cái nhìn sâu sắc về các câu hỏi được xác định trước cho các loại dữ liệu được xác định trước. Vì vậy, bất kỳ thay đổi đối với kho dữ liệu cần thêm thời gian.
2.2 Quy trình xử lý dữ liệu
- Data lake sử dụng quy trình ELT (Extract - Load - Transform)
- sử dụng quy trình ETL (Extract - Transform - Load)
2.3 Các loại dữ liệu
Data warehouse gồm các dữ liệu được trích từ hệ thống giao dịch và các số liệu định lượng để hỗ trợ quá trình phân tích hiệu suất và tình trạng kinh doanh. Data warehouse cần một mô hình dữ liệu có cấu trúc rõ ràng giúp xác định các dữ liệu được lưu vào cũng như loại bỏ các dữ liệu không cần thiết.
Trong Data lake, tất cả các loại dữ liệu từ các nguồn của hệ thống đều được lưu trữ. Bao gồm các nguồn dữ liệu có thể bị từ chối lưu trữ trong Data warehouse, chẳng hạn như nhật ký web server, dữ liệu cảm biến, hoạt động trên mạng xã hội, văn bản và hình ảnh, v.v.
2.4 Đối tượng sử dụng
Data warehouse quen thuộc với các doanh nghiệp và người dùng, dễ dàng đáp ứng nhu cầu như lập báo cáo hiệu suất, số liệu, cũng như các thống kê dữ liệu. Với cấu trúc chặt chẽ, dễ sử dụng và chủ yếu dùng để trả lời các truy vấn của người dùng, Data warehouse đáp ứng tốt nhu cầu trong quá trình hoạt động của doanh nghiệp.
Data lake phù hợp hơn với những người dùng thực hiện phân tích chuyên sâu như các data scientists. Với nhiều loại dữ liệu đa dạng trong data lake, họ có khả năng kết hợp nhiều loại dữ liệu khác nhau và đưa ra các câu hỏi hoàn toàn mới cần được giải đáp.
III. Sự khác nhau giữa Data mart và Data lake
3.1 Dữ liệu
Data mart: Chứa dữ liệu đã lọc và có cấu trúc được chuẩn bị cho một chức năng hoặc bộ phận nào đó
Data lake: Dữ liệu ở dạng thô và chưa qua xử lý
3.2 Mục đích
Data mart: Được xây dựng cho mục đích cụ thể. Tuy nhiên, tuổi thọ thường ngắn và mục đích bị giới hạn
Data lake: Vì mục đích chính của data lake là lưu trữ dữ liệu thô nên thời gian lưu trữ dữ liệu không giới hạn
3.3 Lưu trữ dữ liệu
Data mart: thường lưu trữ dữ liệu ở bên trong và bên ngoài
Data lake: Thông tin dữ liệu trong data lake thường được tập trung hoá
Phân biệt rõ ràng 3 định nghĩa Data warehouse, Data mart và Data lake sẽ giúp Chuyên viên Phân tích dữ liệu lựa chọn đâu là nơi lưu trữ dữ liệu tốt nhất cho doanh nghiệp của mình. Bên cạnh đó, việc lựa chọn kênh lưu trữ phù hợp còn giúp doanh nghiệp thúc đẩy, tăng trưởng trong kinh doanh.
Các khóa học
- Data Engineer Track Specialized
- Combo Data Engineering Professional Hot
- Advanced AWS Cloud Data Engineer Specialized
- AWS Data Engineer for Beginners Specialized
- Combo Python Level 1 & Level 2 Bestseller
- Business Intelligence Track Hot
- Data Science Track Bestseller
- Data Analyst Professional (Data Analyst with Python Track) Bestseller
- RPA UiPath Nâng Cao: Chiến Thuật Automation Cho Chuyên Gia Specialized
- RPA UiPath cho Người Mới Bắt Đầu: Thành Thạo Automation Chỉ Trong 1 Ngày Specialized
- Business Analyst Fast Track Bestseller
- Combo Business Analyst Level 1 & Level 2 Bestseller
- Business Analyst for Beginners Bestseller
Đăng ký tư vấn khóa học
*Vui lòng nhập số điện thoại của bạn
*Vui lòng nhập họ tên của bạn
*Vui lòng chọn giới tính
*Vui lòng chọn 1 trường