IIMS – Tổng quan Phạm vi Đã Triển khai & Lộ trình Kế hoạch
Information Infrastructure Management System (IIMS)
Mục đích
Tài liệu này cung cấp một bản tổng quan ngắn gọn ở cả góc độ quản lý và kỹ thuật về:
- Những gì IIMS đã triển khai và đang cung cấp hiện nay
- Những gì được chủ động lên kế hoạch cho các giai đoạn tương lai
Tài liệu đóng vai trò là:
- Tài liệu tham chiếu phạm vi cho đội kỹ thuật
- Hướng dẫn lộ trình và kế hoạch cho ban quản lý
- Tài liệu định vị cho các bên liên quan và kiến trúc sư
Tài liệu này bổ trợ cho các tài liệu kiến trúc và quy trình chi tiết, đồng thời là tài liệu trung tâm duy nhất về “đã làm gì và sẽ làm gì”.
1. Định vị Chiến lược của Phạm vi Đã triển khai
1.1 Đã triển khai là gì
Phạm vi đã triển khai thiết lập IIMS như một nền tảng điều phối và hiển thị vận hành hợp nhất.
Mục tiêu chính của giai đoạn này là:
- Hợp nhất inventory, giám sát, incident, maintenance và ticket trong một mô hình thống nhất
- Cung cấp một giao diện vận hành duy nhất cho NOC và đội vận hành
- Loại bỏ tình trạng hiển thị phân mảnh giữa các hệ thống giám sát và ticket
- Xây dựng một nền tảng vững chắc, độc lập nhà cung cấp cho tự động hóa trong tương lai
Giai đoạn đã triển khai tập trung vào:
- Tính ổn định
- Tính đúng đắn
- Trừu tượng hóa nhà cung cấp
- Quy trình thủ công và do người vận hành điều khiển
Giai đoạn này chủ động tránh các cơ chế tự động hóa và trí tuệ nặng nhằm:
- Giảm rủi ro
- Kiểm chứng domain model
- Xây dựng niềm tin với người vận hành
1.2 Đã triển khai chưa phải là gì
Phạm vi đã triển khai chưa phải là một nền tảng vận hành tự động hoặc tự phục hồi.
Trong giai đoạn này:
- Tương quan alert còn nhẹ và chủ yếu do người vận hành điều khiển
- Topology chỉ dùng để hiển thị, chưa lan truyền ảnh hưởng tự động
- Phân tích nguyên nhân gốc còn thủ công
- Cưỡng chế SLA và leo thang còn hạn chế
- Định tuyến và failover dựa trên chính sách, chưa thích nghi động
Các năng lực nâng cao này được chủ động trì hoãn cho các giai đoạn kế hoạch.
2. Các Năng lực Đã Triển khai (Phạm vi Hiện tại)
2.1 Mô hình Hạ tầng Thống nhất
Đã triển khai cung cấp một nền tảng hạ tầng đầy đủ:
- Mô hình Site phân cấp (vùng, trung tâm dữ liệu, zone)
- Inventory Asset với loại, tag, enable/disable và trạng thái provisioning
- Vị trí địa lý với cơ chế kế thừa (asset kế thừa vị trí từ site)
- Tổng hợp alert và mức độ nghiêm trọng theo site
Điều này cung cấp một mô hình cấu trúc nhất quán cho toàn bộ quy trình vận hành.
2.2 Tích hợp Giám sát (Zabbix)
Đã triển khai cung cấp tích hợp giám sát ổn định:
- Trừu tượng hóa Monitoring Target
- Triển khai adapter Zabbix
- Provision asset và gán template
- Thu thập và chuẩn hóa alert
- Khám phá interface và truy vấn telemetry
Tính năng định tuyến:
- Phân giải target theo site
- Định tuyến collector bằng ràng buộc (site, tag, loại asset, dung lượng)
- Định tuyến quyết định và dựa trên chính sách
2.3 Quản lý Alert
Đã triển khai cung cấp:
- Thu thập và chuẩn hóa alert
- Lịch sử alert và alert cache
- Hành động acknowledge và close
- Suppress theo maintenance
Giới hạn (theo thiết kế):
- Tương quan alert còn nhẹ
- Chưa có engine tạo incident tự động
2.4 Quản lý Incident
Đã triển khai cung cấp một mô hình quy trình con người ổn định:
-
Tạo incident thủ công và bằng luật đơn giản
-
Vòng đời incident:
-
New
- Investigating / Open
- Resolved
-
Closed
-
Liên kết Alert ↔ Incident
- Dòng thời gian activity cho mọi hành động
Giới hạn:
- Phân công và sở hữu còn cơ bản
- Chưa có bộ đếm SLA hay chính sách leo thang
2.5 Tích hợp Ticket (Zammad)
Đã triển khai cung cấp:
- Tạo ticket từ incident
- Lưu tham chiếu ticket trong incident
- Đồng bộ trạng thái định kỳ ở mức giới hạn
Cơ chế an toàn:
- Chặn tạo ticket trong thời gian maintenance
Giới hạn:
- Chưa có đồng bộ hai chiều thời gian thực
- Thực tế chỉ hỗ trợ một ticket cho mỗi incident
2.6 Maintenance và Kiểm soát Vận hành
Đã triển khai cung cấp cơ chế maintenance hạng nhất:
- Cửa sổ maintenance theo site, asset, tag hoặc phạm vi
- Suppress alert trong maintenance
- Chặn tạo incident và ticket trong maintenance
- Audit trail đầy đủ cho các hành động maintenance
Điều này cung cấp khả năng suppress nhiễu tin cậy và an toàn vận hành.
2.7 Topology và Hiển thị Địa lý
Đã triển khai cung cấp:
- Topology Link với hình học LineString
- Gán trạng thái thủ công và đánh giá trạng thái link theo chính sách
- GeoMap với cluster, asset và link
- Truy vấn bounding‑box và cache bản đồ
Hành vi:
- Hiển thị và nhận thức tình huống
- Đánh giá ảnh hưởng thủ công bởi người vận hành
Giới hạn:
- Không có lan truyền ảnh hưởng tự động
- Không có engine blast‑radius hay nguyên nhân gốc
2.8 Cache, Dashboard và Hiệu năng
Đã triển khai cung cấp:
- Alert cache và map cache
- Bộ đếm tổng hợp cho dashboard
- UI đọc nhanh dựa trên view đã cache
- Worker nền làm mới dữ liệu
Điều này cho phép UI mở rộng quy mô mà không làm quá tải provider.
3. Tầm nhìn Chiến lược Kế hoạch
Giai đoạn kế hoạch xây dựng trên nền tảng đã triển khai và chuyển IIMS từ nền tảng điều phối thành một hệ thống tự động hóa vận hành và hỗ trợ quyết định thông minh.
Mục tiêu chiến lược:
- Giảm khối lượng công việc thủ công
- Tự động tương quan tín hiệu thành sự cố
- Suy luận nguyên nhân gốc và phạm vi ảnh hưởng
- Cưỡng chế SLA và chính sách leo thang
- Cung cấp trí tuệ vận hành chủ động, thời gian thực
4. Lộ trình Kế hoạch theo Nhóm Năng lực
4.1 Tự động hóa & Tương quan
Năng lực kế hoạch:
- Luật tương quan alert tự động
- Tạo và gộp incident tự động
- Khử trùng lặp và chấm điểm nhiễu
- Tương quan theo thời gian và topology
Giá trị kinh doanh:
- Phát hiện sự cố nhanh hơn
- Giảm nhiễu alert
- Giảm tải cho người vận hành
4.2 Ảnh hưởng Topology & Phân tích Nguyên nhân gốc
Năng lực kế hoạch:
- Duyệt phụ thuộc tự động
- Tính toán blast‑radius
- Xác định ứng viên nguyên nhân gốc
- Mô hình hóa ảnh hưởng ở mức dịch vụ
Giá trị kinh doanh:
- Khắc phục sự cố nhanh hơn
- Hiểu rõ tác động kinh doanh
- Giảm thời gian sửa chữa trung bình (MTTR)
4.3 SLA, Leo thang và Sở hữu
Năng lực kế hoạch:
- Mô hình phân công và sở hữu incident
- Bộ đếm SLA và phát hiện vi phạm
- Chính sách leo thang và định tuyến on‑call
- Quy trình theo mức độ ưu tiên
Giá trị kinh doanh:
- Kỷ luật vận hành được cưỡng chế
- Thời gian phản hồi dự đoán được
- Báo cáo và trách nhiệm ở cấp quản lý
4.4 Đa Nhà cung cấp & Định tuyến Thông minh
Năng lực kế hoạch:
- Giám sát đa nhà cung cấp chủ động (Zabbix + Prometheus)
- Chấm điểm sức khỏe provider
- Failover target và collector tự động
- Định tuyến theo dung lượng và độ trễ
Giá trị kinh doanh:
- Độ sẵn sàng cao hơn
- Di trú nền tảng dễ dàng hơn
- Giảm rủi ro phụ thuộc nhà cung cấp
4.5 Tự động hóa Ticket & Quy trình
Năng lực kế hoạch:
- Đồng bộ ticket hai chiều thời gian thực
- Nhiều ticket cho một incident
- Ánh xạ trạng thái ticket → trạng thái incident tự động
- Template workflow và playbook
Giá trị kinh doanh:
- Giảm xử lý ticket thủ công
- Đồng bộ tốt hơn giữa NOC và ITSM
- Quy trình xử lý nhanh hơn
4.6 Dashboard Thời gian thực & Cộng tác
Năng lực kế hoạch:
- Dashboard streaming và push realtime (WebSocket)
- Cập nhật topology và bản đồ trực tiếp
- Không gian làm việc cộng tác cho incident
- Công cụ post‑mortem và báo cáo
Giá trị kinh doanh:
- Nhận thức tình huống thời gian thực
- Cộng tác tốt hơn trong sự cố lớn
- Báo cáo và phân tích vận hành mạnh mẽ
5. Tính Liên tục Kiến trúc
Một mục tiêu thiết kế quan trọng của IIMS là giai đoạn kế hoạch xây dựng trực tiếp trên giai đoạn đã triển khai mà không phá vỡ quy trình hiện có.
Nền tảng đã triển khai đã cung cấp:
- Adapter độc lập nhà cung cấp
- Trừu tượng định tuyến (target + collector)
- Domain model theo DDD
- Mô hình đọc cache
- Engine chính sách cho link và routing
Các nền tảng này cho phép tự động hóa kế hoạch được bổ sung dần:
- Không thay đổi hợp đồng UI
- Không viết lại domain model
- Không làm gián đoạn vận hành
6. Tổng kết
Giai đoạn đã triển khai thiết lập IIMS như một nền tảng điều phối vận hành hợp nhất với:
- Nền tảng inventory và topology mạnh
- Tích hợp ổn định Zabbix và Zammad
- Suppress alert và xử lý incident tin cậy
- Dashboard cache nhanh và hiển thị địa lý
Giai đoạn kế hoạch phát triển IIMS thành một nền tảng tự động hóa vận hành thông minh bằng cách bổ sung:
- Tương quan tự động và RCA
- Phân tích ảnh hưởng dựa trên topology
- Cưỡng chế SLA và leo thang
- Khả năng chịu lỗi đa nhà cung cấp
- Cộng tác thời gian thực và phân tích
Kết hợp lại, các giai đoạn này định vị IIMS như một nền tảng vận hành chiến lược dài hạn, có thể phát triển từ hiển thị hợp nhất sang vận hành tự động nâng cao.