GIẢI MÃ ĐỊNH NGHĨA DATA WAREHOUSE, DATA MART VÀ DATA LAKE
Data warehouse, data mart và data lake là một trong những thuật ngữ Liên quan đến thu thập và lưu trữ dữ liệu. Đối với data analyst, data scientist và data engineer bạn phải phải phân biệt rõ ràng 3 thuật ngữ này bài để dễ dàng ứng dụng trong từng quy trình phân tích dữ liệu. Hãy cùng MCI khám phá 3 thuật ngữ trên và cách phân biệt để ứng dụng vào từng tình huống cụ thể.
Nội dung bài viết
Data warehouse, data mart và data lake là một trong những thuật ngữ Liên quan đến thu thập và lưu trữ dữ liệu. Đối với data analyst, data scientist và data engineer bạn phải phải phân biệt rõ ràng 3 thuật ngữ này bài để dễ dàng ứng dụng trong từng quy trình phân tích dữ liệu. Hãy cùng MCI khám phá 3 thuật ngữ trên và cách phân biệt để ứng dụng vào từng tình huống cụ thể.
Data Warehouse là gì?
Thuật ngữ này được ví là “chiếc dạ dày” của hệ thống Business Intelligence. Đây là kỹ thuật thu thập và quản lý dữ liệu từ nhiều nguồn khác nhau để cung cấp những hiểu biết nghiệp vụ có ý nghĩa.
Data Warehouse oạt động như một kho lưu trữ trung tâm nơi thông tin đến từ một hoặc nhiều nguồn dữ liệu. Dữ liệu chảy vào kho dữ liệu từ hệ thống giao dịch và các cơ sở dữ liệu quan hệ khác.
Dữ liệu có thể là:
Cấu trúc Bán cấu trúc Dữ liệu phi cấu trúc Dữ liệu được xử lý, chuyển đổi và nhập dữ liệu để người dùng có thể truy cập dữ liệu đã xử lý trong Kho dữ liệu thông qua các công cụ Business Intelligence, SQL client và bảng tính. Kho dữ liệu hợp nhất thông tin đến từ các nguồn khác nhau vào một cơ sở dữ liệu toàn diện.
Mục đích chính của data warehouse là
- Cung cấp đầy đủ thông tin hiện tại và lịch sử của doanh nghiệp
- Sẵn sàng cho việc khai thác sử dụng cho việc hỗ trợ ra quyết định chiến lược
- Có khả năng cung cấp dữ liệu chi tiết theo nhu cầu mà không phải truy xuất hệ thống tác nghiệp
- Đảm bảo thông tin trong kho dữ liệu có tính nhất quán
- Cung cấp góc nhìn toàn diện về doanh nghiệp
Data mart là gì?
Đây là phiên bản đơn giản hóa của data warehouse, nó cung cấp cho người dùng dữ liệu cụ thể về một trong các bộ phận của tổ chức hoặc một khía cạnh của doanh nghiệp. Ví dụ: bán hàng, nhân sự, tài chính,... nó thường được kiểm soát bởi một bộ phận duy nhất trong một tổ chức. Data mart chỉ lấy dữ liệu từ một vài nguồn với kho dữ liệu kích thước nhỏ và linh hoạt hơn so với data warehouse.
Data mart có 3 loại chính:
- Phụ thuộc: các dữ liệu phụ thuộc được tạo bằng cách vẽ dữ liệu trực tiếp từ hoạt động, bên ngoài hoặc cả hai nguồn
- Độc lập: data mart được tạo mà không cần sử dụng kho dữ liệu trung tâm
- Kết hợp: loại dữ liệu này có thể lấy lấy dữ liệu từ kho kho dữ liệu hoặc hệ thống vận hành.
Các bước triển khai quan trọng của Data Mart là
- Thiết kế
- Xây dựng
- Cư Trú
- Truy cập
- Quản lý
Data Lake là gì?
Data Lake g bao gồm các dữ liệu mà công ty sử dụng để lưu trữ dữ liệu mà họ không thể phân loại và tổ chức đúng cách. Đây là nơi lưu trữ mọi loại dữ liệu ở định dạng gốc mà không có giới hạn cố định về số lượng account hoặc file.Nó cung cấp số lượng lớn dữ liệu để tăng hiệu suất phân tích và tích hợp native.
Một số cách sử dụng phổ biến của phân tích data lake là:
- Phân tích tương tác — lấy thông tin chi tiết cụ thể từ dữ liệu, trực tiếp từ data lake, sử dụng công cụ truy vấn hiệu suất cao như Google BigQuery hoặc Amazon Athena.
- Xử lý dữ liệu lớn— phân tích khối lượng lớn dữ liệu bằng các công cụ như Spark hoặc Hadoop.
- Phân tích thời gian thực — xử lý các stream dữ liệu khi chúng chảy vào data lake trong thời gian thực, bằng cách sử dụng các công cụ xử lý stream như Apache Kafka.
Thuật ngữ này thường được ứng dụng trong:
- Quản trị dữ liệu và kiểm soát dữ liệu
- Lưu trữ một số bảng sao lưu
- Cài đặt chính sách lưu trữ
Vậy sự giống nhau và khác nhau giữa 3 thuật ngữ Data warehouse, data lake và data mart là gì? Làm cách nào để phân biệt và ứng dụng đúng vào từng bài toán phù hợp ? Cùng MCI tìm hiểu ở phần tiếp theo nhé!
Các khóa học
- Mastering AWS : From Basics to Applications Specialized
- Data Engineer Track (Updating) Specialized
- Combo Data Engineering Professional (Updating) Hot
- Combo Python Level 1 & Level 2 Bestseller
- Business Intelligence Track Hot
- Data Science Track Bestseller
- Data Analyst Professional (Data Analyst with Python Track) Bestseller
- RPA UiPath Nâng Cao: Chiến Thuật Automation Cho Chuyên Gia Specialized
- RPA UiPath cho Người Mới Bắt Đầu: Thành Thạo Automation Chỉ Trong 1 Ngày Specialized
- Business Analyst Fast Track Bestseller
- Business Analyst Bestseller
Đăng ký tư vấn khóa học
*Vui lòng nhập số điện thoại của bạn
*Vui lòng nhập họ tên của bạn
*Vui lòng chọn giới tính
*Vui lòng chọn 1 trường