Trang chủ>  Blog >  Kiến thức chuyên môn >  KHÁM PHÁ SỰ KHÁC NHAU CỦA DATA WAREHOUSE, DATA MART VÀ DATA LAKE

KHÁM PHÁ SỰ KHÁC NHAU CỦA DATA WAREHOUSE, DATA MART VÀ DATA LAKE


Ở bài viết trước chúng ta đã tìm hiểu 3 định nghĩa: data warehouse, data mart và data lake và cách sử dụng phổ biến trong quy trình phân tích dữ liệu. Vậy làm sao để phân biệt sự khác nhau giữa data warehouse, data mart và data lake để ứng dụng với từng mô hình hợp lý. Cùng MCI tìm hiểu nhé!

  784 lượt xem

Nội dung bài viết

SỰ KHÁC NHAU CỦA DATA WAREHOUSE, DATA MART VÀ DATA LAKE 

I. Sự khác nhau giữa Data warehouse và Data mart

1.1 Dữ liệu lưu trữ

Data warehouse: Dữ liệu được lưu trữ trong một kho lưu trữ tập trung duy nhất trong kho dữ liệu.

Data  mart: dữ liệu được lưu trữ dữ liệu trong khu vực người dùng.

 

1.2 Cách tiếp cận

Data warehouse: Tiếp cận từ cấp trên xuống, tập trung lượng lớn dữ liệu và sau đó quyết định cách sử dụng

Data mart: Tiếp cận từ cấp dưới lên, tập trung vào dữ liệu cụ thể cho từng mục đích

 

1.3 Dạng dữ liệu

Data warehouse: Dữ liệu chi tiết

Data mart: Dữ liệu ngắn gọn

 

II. Sự khác nhau giữa Data warehouse và Data lake

Data warehouse lưu trữ dữ liệu trong các tệp hoặc thư mục giúp tổ chức và sử dụng dữ liệu để đưa ra các quyết định chiến lược. Còn data lake là kho lưu trữ kích thước lớn chứa một lượng lớn dữ liệu thô ở định dạng ban đầu. Ngoài ra, 2 thuật ngữ này còn có sự khác biệt về thời gian xử lý, lợi ích, nhiệm vụ,..

2.1 Thời gian xử lý dữ liệu:

  • Data lake cho phép user có được kết quả nhanh hơn bởi tính năng trao quyền cho người dùng truy cập dữ liệu trước khi nó được chuyển đổi, làm sạch và cấu trúc. 
  • Data Warehouse cung cấp cái nhìn sâu sắc về các câu hỏi được xác định trước cho các loại dữ liệu được xác định trước. Vì vậy, bất kỳ thay đổi đối với kho dữ liệu cần thêm thời gian.

2.2 Quy trình xử lý dữ liệu

  • Data lake sử dụng quy trình ELT (Extract - Load - Transform)
  • sử dụng quy trình ETL (Extract - Transform - Load)

2.3 Các loại dữ liệu

Data warehouse gồm các dữ liệu được trích từ hệ thống giao dịch và các số liệu định lượng để hỗ trợ quá trình phân tích hiệu suất và tình trạng kinh doanh. Data warehouse cần một mô hình dữ liệu có cấu trúc rõ ràng giúp xác định các dữ liệu được lưu vào cũng như loại bỏ các dữ liệu không cần thiết.

Trong Data lake, tất cả các loại dữ liệu từ các nguồn của hệ thống đều được lưu trữ. Bao gồm các nguồn dữ liệu có thể bị từ chối lưu trữ trong Data warehouse, chẳng hạn như nhật ký web server, dữ liệu cảm biến, hoạt động trên mạng xã hội, văn bản và hình ảnh, v.v.

2.4 Đối tượng sử dụng

Data warehouse quen thuộc với các doanh nghiệp và người dùng, dễ dàng đáp ứng nhu cầu như lập báo cáo hiệu suất, số liệu, cũng như các thống kê dữ liệu. Với cấu trúc chặt chẽ, dễ sử dụng và chủ yếu dùng để trả lời các truy vấn của người dùng, Data warehouse đáp ứng tốt nhu cầu trong quá trình hoạt động của doanh nghiệp.

Data lake phù hợp hơn với những người dùng thực hiện phân tích chuyên sâu như các data scientists. Với nhiều loại dữ liệu đa dạng trong data lake, họ có khả năng kết hợp nhiều loại dữ liệu khác nhau và đưa ra các câu hỏi hoàn toàn mới cần được giải đáp.

 

III. Sự khác nhau giữa Data mart và Data lake

3.1 Dữ liệu

Data mart: Chứa dữ liệu đã lọc và có cấu trúc được chuẩn bị cho một chức năng hoặc bộ phận nào đó

Data lake: Dữ liệu ở dạng thô và chưa qua xử lý

 

3.2 Mục đích 

Data mart: Được xây dựng cho mục đích cụ thể. Tuy nhiên, tuổi thọ thường ngắn và mục đích bị giới hạn

Data lake: Vì mục đích chính của data lake là lưu trữ dữ liệu thô nên thời gian lưu trữ dữ liệu không giới hạn

 

3.3 Lưu trữ dữ liệu

Data mart: thường lưu trữ dữ liệu ở bên trong và bên ngoài

Data lake: Thông tin dữ liệu trong data lake thường được tập trung hoá

 

Phân biệt rõ ràng 3 định nghĩa Data warehouse, Data mart và Data lake sẽ giúp Chuyên viên Phân tích dữ liệu lựa chọn đâu là nơi lưu trữ dữ liệu tốt nhất cho doanh nghiệp của mình. Bên cạnh đó, việc lựa chọn kênh lưu trữ phù hợp còn giúp doanh nghiệp thúc đẩy, tăng trưởng trong kinh doanh. 

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Các khóa học

Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


ỨNG DỤNG CỦA RPA TRONG LĨNH VỰC KINH TẾ

RPA là từ viết tắt của Robotic Process Automation. Đây là quá trình tự động hóa các hoạt động kinh doanh với sự hỗ trợ của robot nhằm giảm bớt sự can thiệp của con người. Nó ứng dụng công nghệ vào doanh nghiệp và các cấu trúc để tự động hóa các quy trình kinh doanh. Doanh nghiệp có thể thiết lập phần mềm hoặc phần mềm “rô bốt” để nắm bắt và hiểu các ứng dụng xử lý giao dịch, thao tác thông tin, kích hoạt phản ứng và giao tiếp với các thiết bị kỹ thuật số khác bằng các công cụ RPA. Vậy RPA sẽ được ứng dụng như thế nào trong lĩnh vực kinh tế? Cùng MCI tìm hiểu nhé!

LỊCH KHAI GIẢNG THÁNG 02/2022

Mời bạn tham khảo các khóa học Data của MCI trong tháng 2 này nhé.

Cách Thiết Kế Web Với Python Đơn Giản

Thiết kế web với python và framework flask theo cách đơn giản và dễ tiếp cận nhất cho những bạn mới tìm hiểu.

Các bài viết liên quan