So sánh đầy đủ công cụ ETL trong Fabric
Microsoft Fabric cung cấp nhiều công cụ tích hợp và chuyển đổi dữ liệu, mỗi công cụ có mục đích và trường hợp sử dụng cụ thể.
🔥 Bảng so sánh công cụ cốt lõi
| Công cụ | Mục đích chính | Tình huống phù hợp | Nền tảng kỹ thuật | Thời gian thực |
|---|---|---|---|---|
| Dataflow Gen2 | ETL low-code, chuyển đổi d ữ liệu trực quan | Nhà phân tích nghiệp vụ làm làm sạch và chuyển đổi dữ liệu | Power Query (ngôn ngữ M) | Xử lý hàng loạt |
| Pipelines | Điều phối và tự động hóa workflow | Điều phối quy trình ETL phức tạp, thực thi theo lịch | Azure Data Factory | Xử lý hàng loạt |
| Notebooks | Kỹ thuật dữ liệu dựa trên mã | Logic chuyển đổi phức tạp, machine learning, phân tích nâng cao | Python / Spark / R / Scala | Xử lý hàng loạt |
| Eventstream | Thu thập dữ liệu streaming thời gian thực | IoT, sự kiện thời gian thực, streaming log | Tương tự Kafka | Streaming thời gian thực |
| Data Activator | Giám sát thời gian thực và trigger tự động | Trigger quy tắc nghiệp vụ, cảnh báo, hành động tự động | Kiến trúc hướng sự kiện | Giám sát thời gian thực |
📋 So sánh chi tiết
1️⃣ Dataflow Gen2
Bản chất: Công cụ ETL low-code / no-code
Tính năng cốt lõi:
- ✅ Giao diện trực quan (Power Query)
- ✅ Không cần viết mã
- ✅ Hỗ trợ hơn 100 nguồn dữ liệu
- ✅ Chức năng làm sạch và chuyển đổi dữ liệu tích hợp sẵn
- ✅ Có thể xuất ra Lakehouse / Warehouse / Datamart
Người dùng mục tiêu:
- Nhà phân tích nghiệp vụ
- Nhà phát triển BI
- Nhân viên làm việc với dữ liệu không quen với lập trình
Trường hợp sử dụng:
- Nhập dữ liệu từ Excel / CSV
- Làm sạch dữ liệu bẩn (loại trùng lặp, điền giá trị null)
- Chuyển đổi và gộp dữ liệu đơn giản
- Xây dựng dữ liệu lớp Bronze → Silver
Ngôn ngữ: Power Query (ngôn ngữ M)
2️⃣ Pipelines
Bản chất: Engine điều phối workflow (tương tự Azure Data Factory)
Tính năng cốt lõi:
- ✅ Giao diện thiết kế kéo thả
- ✅ Hỗ trợ logic điều kiện và vòng lặp phức tạp
- ✅ Có thể gọi Dataflow / Notebook / Stored Procedure
- ✅ Lập lịch và trigger tích hợp sẵn
- ✅ Giám sát và xử lý lỗi
Người dùng mục tiêu:
- Kỹ sư dữ liệu
- Nhà phát triển ETL
- Kỹ sư DevOps
Trường hợp sử dụng:
- Điều phối nhiều bước ETL
- Cập nhật d ữ liệu tự động hàng ngày/hàng tuần
- Thực thi các luồng khác nhau dựa trên điều kiện (if-else)
- Gọi API hoặc dịch vụ bên ngoài
- Sao chép lượng lớn dữ liệu (Copy Activity)
Hoạt động chính:
- Copy Data
- Dataflow
- Notebook
- Stored Procedure
- Web Activity
- For Each / Until / If Condition
3️⃣ Notebooks
Bản chất: Môi trường mã tương tác (dựa trên Jupyter)
Tính năng cốt lõi:
- ✅ Hỗ trợ Python / PySpark / Scala / R
- ✅ Kiểm soát lập trình đầy đủ
- ✅ Có thể sử dụng Spark để xử lý big data
- ✅ Hỗ trợ machine learning và phân tích nâng cao
- ✅ Trực quan hóa và khám phá tương tác
Người dùng mục tiêu:
- Nhà khoa học dữ liệu
- Kỹ sư dữ liệu (quen với Python/Spark)
- Kỹ sư ML
Trường hợp sử dụng:
- Logic chuyển đổi dữ liệu phức tạp
- Xử lý big data (hàng tỷ bản ghi)
- Huấn luyện mô hình machine learning
- Phân tích dữ liệu khám phá (EDA)
- Logic nghiệp vụ tùy chỉnh
Công nghệ phổ biến:
- PySpark DataFrame
- pandas
- Thao tác Delta Lake
- MLflow
- scikit-learn / TensorFlow
4️⃣ Eventstream
Bản chất: Thu thập và xử lý dữ liệu streaming thời gian thực
Tính năng cốt lõi:
- ✅ Streaming dữ liệu thời gian thực
- ✅ Hỗ trợ Event Hubs / IoT Hub / Kafka
- ✅ Độ trễ thấp (mức mili giây)
- ✅ Tự động mở rộng quy mô
- ✅ Có thể ghi trực tiếp vào KQL Database / Lakehouse
Người dùng mục tiêu:
- Kỹ sư IoT
- Nhà phát triển phân tích thời gian thực
- Kỹ sư dữ liệu streaming
Trường hợp sử dụng:
- Thu thập dữ liệu cảm biến IoT thời gian thực
- Streaming log ứng dụng thời gian thực
- Giám sát hệ thống giao dịch thời gian thực
- Phân tích mạng xã hội thời gian thực
- Phân tích clickstream
Nguồn dữ liệu:
- Azure Event Hubs
- Azure IoT Hub
- Kafka
- Ứng dụng tùy chỉnh (qua API)
5️⃣ Data Activator
Bản chất: Engine giám sát thời gian thực và trigger sự kiện
Tính năng cốt lõi:
- ✅ Cấu hình quy tắc nghiệp vụ no-code
- ✅ Giám sát thay đổi dữ liệu và tự động trigger hành động
- ✅ Tích hợp với Power BI / Eventstream
- ✅ Hỗ trợ nhiều kênh thông báo
Người dùng mục tiêu:
- Nhà phân tích nghiệp vụ
- Nhân viên vận hành
- Nhu cầu giám sát và cảnh báo
Trường hợp sử dụng:
- Tồn kho dưới ngưỡng tự động cảnh báo
- Bất thường doanh số tự động thông báo cho quản lý
- Suy giảm hiệu suất hệ thống tự động trigger sửa chữa
- Bất thường hành vi khách hàng tự động đánh dấu
- Thiết bị IoT hỏng thông báo thời gian thực
Hành động trigger:
- Thông báo email
- Tin nhắn Teams
- Power Automate Flow
- Webhook
🎯 Cây quyết định
Cần xử lý thời gian thực?
├─ Có → Cần trigger hành động?
│ ├─ Có → Data Activator
│ └─ Không → Eventstream
│
└─ Không (Xử lý hàng loạt)
├─ Cần viết mã?
│ ├─ Có → Logic phức tạp/ML?
│ │ ├─ Có → Notebooks
│ │ └─ Không → Xem xét Dataflow Gen2
│ │
│ └─ Không → Cần điều phối nhiều bước?
│ ├─ Có → Pipelines
│ └─ Không → Dataflow Gen2