Chuyển tới nội dung chính

Kiến trúc Medallion

Kiến trúc Medallion là một mẫu thiết kế tiêu chuẩn cho data lake hiện đại, đặc biệt được áp dụng rộng rãi trên các nền tảng như Fabric và Databricks. Nó tổ chức dữ liệu thành ba lớp:


Cấu trúc ba lớp

1. Lớp Bronze - Dữ liệu thô

  • Lưu trữ dữ liệu thô, chưa xử lý được nhập trực tiếp từ hệ thống nguồn
  • Duy trì định dạng và cấu trúc dữ liệu gốc
  • Có thể chứa dữ liệu trùng lặp, lỗi và không nhất quán
  • Được sử dụng làm tham chiếu cho kiểm toán và khắc phục sự cố

2. Lớp Silver - Dữ liệu đã làm sạch

  • Thực hiện làm sạch, biến đổi và xác thực dữ liệu Bronze
  • Loại bỏ trùng lặp, xử lý giá trị thiếu, chuẩn hóa định dạng
  • Chất lượng dữ liệu cao hơn với cấu trúc chuẩn hóa hơn
  • Phù hợp làm nền tảng cho phân tích và báo cáo

3. Lớp Gold - Lớp nghiệp vụ

  • Được tổng hợp và tối ưu hóa cho nhu cầu nghiệp vụ cụ thể
  • Chứa dữ liệu cần thiết cho báo cáo, bảng điều khiển và mô hình machine learning
  • Có cấu trúc cao và dễ sử dụng
  • Hướng tới người dùng cuối và ứng dụng

Ưu điểm

✅ Chất lượng dữ liệu cải thiện từng lớp ✅ Dấu vết kiểm toán rõ ràng ✅ Tạo điều kiện thuận lợi cho quản trị dữ liệu và tuân thủ ✅ Hỗ trợ nhiều trường hợp sử dụng (phân tích, ML, báo cáo) ✅ Dễ bảo trì và khắc phục sự cố


Kiến trúc này thường xuất hiện trong các kỳ thi Fabric và là khái niệm cốt lõi trong kỹ thuật dữ liệu hiện đại!