Trang chủ>  Blog >  Kiến thức chuyên môn >  GIẢI MÃ ĐỊNH NGHĨA DATA WAREHOUSE, DATA MART VÀ DATA LAKE

GIẢI MÃ ĐỊNH NGHĨA DATA WAREHOUSE, DATA MART VÀ DATA LAKE


Data warehouse, data mart và data lake là một trong những thuật ngữ Liên quan đến thu thập và lưu trữ dữ liệu. Đối với data analyst, data scientist và data engineer bạn phải phải phân biệt rõ ràng 3 thuật ngữ này bài để dễ dàng ứng dụng trong từng quy trình phân tích dữ liệu. Hãy cùng MCI khám phá 3 thuật ngữ trên và cách phân biệt để ứng dụng vào từng tình huống cụ thể.

  572 lượt xem

Nội dung bài viết

Data warehouse, data mart  và data lake là một trong những thuật ngữ Liên quan đến thu thập và lưu trữ dữ liệu. Đối với data analyst, data scientist và data engineer bạn phải phải phân biệt rõ ràng 3 thuật ngữ này bài để dễ dàng ứng dụng trong từng quy trình phân tích dữ liệu. Hãy cùng MCI  khám phá 3 thuật ngữ trên và cách phân biệt để ứng dụng vào từng tình huống cụ thể.

 

Data Warehouse là gì?

Thuật ngữ này được ví là “chiếc dạ dày” của hệ thống Business Intelligence. Đây là kỹ thuật thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp những hiểu biết nghiệp vụ có ý nghĩa.

Data Warehouse oạt động như một kho lưu trữ trung tâm nơi thông tin đến từ một hoặc nhiều nguồn dữ liệu. Dữ liệu chảy vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu quan hệ khác.

Dữ liệu có thể là:

Cấu trúc Bán cấu trúc Dữ liệu phi cấu trúc Dữ liệu được xử lý, chuyển đổi và nhập dữ liệu để người dùng có thể truy cập dữ liệu đã xử lý trong Kho dữ liệu thông qua các công cụ Business Intelligence, SQL client và bảng tính. Kho dữ liệu hợp nhất thông tin đến từ các nguồn khác nhau vào một cơ sở dữ liệu toàn diện.

Mục đích chính của data warehouse là

  • Cung cấp đầy đủ thông tin hiện tại và lịch sử của doanh nghiệp
  • Sẵn sàng cho việc khai thác sử dụng cho việc hỗ trợ ra quyết định chiến lược
  • Có khả năng cung cấp dữ liệu chi tiết theo nhu cầu mà không phải truy xuất hệ thống tác nghiệp
  • Đảm bảo thông tin trong kho dữ liệu có tính nhất quán
  • Cung cấp góc nhìn toàn diện về doanh nghiệp

 

Data mart là gì?

Đây là phiên bản đơn giản hóa của data warehouse,  nó cung cấp cho người dùng dữ liệu cụ thể về một trong các bộ phận của tổ chức hoặc một khía cạnh của doanh nghiệp. Ví dụ: bán hàng, nhân sự, tài chính,... nó thường được kiểm soát bởi một bộ phận duy nhất trong một tổ chức. Data mart chỉ lấy dữ liệu từ một vài nguồn với kho dữ liệu kích thước nhỏ và linh hoạt hơn so với data warehouse.

Data mart có 3 loại chính:

  • Phụ thuộc:  các dữ liệu phụ thuộc được tạo bằng cách vẽ dữ liệu trực tiếp từ hoạt động, bên ngoài hoặc cả hai nguồn
  • Độc lập: data mart  được tạo mà không cần sử dụng kho dữ liệu trung tâm
  • Kết hợp: loại dữ liệu này có thể lấy lấy dữ liệu từ kho kho dữ liệu hoặc hệ thống vận hành.

Các bước triển khai quan trọng của Data Mart là

  • Thiết kế
  • Xây dựng
  • Cư Trú
  • Truy cập
  • Quản lý

Data Lake là gì?

Data Lake g bao gồm các dữ liệu mà công ty sử dụng để lưu trữ dữ liệu mà họ không thể phân loại và tổ chức đúng cách. Đây là nơi lưu trữ mọi loại dữ liệu ở định dạng gốc mà không có giới hạn cố định về số lượng account hoặc file.Nó cung cấp số lượng lớn dữ liệu để tăng hiệu suất phân tích và tích hợp native.

Một số cách sử dụng phổ biến của phân tích data lake là:

  • Phân tích tương tác — lấy thông tin chi tiết cụ thể từ dữ liệu, trực tiếp từ data lake, sử dụng công cụ truy vấn hiệu suất cao như Google BigQuery hoặc Amazon Athena.
  • Xử lý dữ liệu lớn— phân tích khối lượng lớn dữ liệu bằng các công cụ như Spark hoặc Hadoop.
  • Phân tích thời gian thực — xử lý các stream dữ liệu khi chúng chảy vào data lake trong thời gian thực, bằng cách sử dụng các công cụ xử lý stream như Apache Kafka.

Thuật ngữ này thường được ứng dụng trong:

  • Quản trị dữ liệu và kiểm soát dữ liệu 
  • Lưu trữ một số bảng sao lưu 
  • Cài đặt chính sách lưu trữ

 

Vậy sự giống nhau và khác nhau giữa 3 thuật ngữ Data warehouse, data lake và data mart là gì? Làm cách nào để phân biệt và ứng dụng đúng vào từng bài toán phù hợp ? Cùng MCI tìm hiểu ở phần tiếp theo nhé!

Chương trình đào tạo: Phân tích dữ liệu, Khoa học dữ liệu, Kĩ sư dữ liệu, Lập trình ứng dụng.
Chất lượng nhất - Uy tín nhất - Nhiều học viên tin tưởng nhất
Hơn 8000 học viên ưu tú đã tốt nghiệp
Các khóa học



Đăng ký tư vấn khóa học

*Vui lòng nhập số điện thoại của bạn

*Vui lòng nhập họ tên của bạn

*Vui lòng chọn địa điểm học

*Vui lòng chọn giới tính

*Vui lòng chọn 1 trường


Các bài viết liên quan


Những sai lầm phổ biến trong phân tích dữ liệu và cách tránh

Tìm hiểu những sai lầm phổ biến trong phân tích dữ liệu và cách khắc phục để đảm bảo kết quả chính xác. Hướng dẫn giúp nâng cao kỹ năng phân tích hiệu quả.

Xu hướng mới nhất trong phân tích dữ liệu năm 2024

Năm 2024 mang đến nhiều xu hướng phân tích dữ liệu mới mẻ, tạo ra cả cơ hội và thách thức cho các doanh nghiệp trong việc tận dụng thông tin để phát triển và cạnh tranh.

Những ngành nghề nào cần có vị trí Chuyên viên Phân tích Dữ liệu?

Data Analyst đóng vai trò quan trọng trong việc giúp doanh nghiệp đưa ra quyết định sáng suốt dựa trên dữ liệu. Vậy những ngành nghề nào cần có vị trí chuyên viên phân tích dữ liệu.

Các bài viết liên quan