Close
COURSE LIST / ĐÀO TẠO CHUYỂN ĐỔI SỐ / KHOÁ HỌC VỀ DIGITAL AGILITY

Site reliability engineering - processes and management

Course Summary:

Đối tượng: Kỹ sư phần mềm, quản trị viên hệ thống, hỗ trợ CNTT, kỹ sư vận hành máy chủ, Chuyên gia Trung tâm dữ liệu, chuyên gia quản lý dịch vụ CNTT và bất kỳ chuyên gia CNTT nào khác muốn chuyển sang vai trò vận hành và cơ sở hạ tầng CNTT hiệu suất cao Mục tiêu khoá học: Khoá học nhằm trang bị cho học viên kiến thức và kỹ năng để có thể: 1. Giải thích được sự khác nhau cách thức vận hành truyền thống, devops và Kỹ thuật độ tin cậy của trang web 2. Hiểu tầm quan trọng của các Nguyên tắc SRE và áp dụng trong việc ngăn ngừa và giải quyết các vấn đề để tăng độ tin cậy 3. Chọn cấu trúc liên kết tổ chức phù hợp để kích hoạt SRE và CNTT hiệu suất cao 4. Thiết kế chính sách thực hiện SRE 5. Hiểu và áp dụng các thành phần chính của đường dẫn CI / CD, bao gồm các bản phát hành canary và cách thiết kế chuỗi công cụ phát hành 6. Thiết kế và triển khai SLO, SLI và Ngân sách Lỗi 7. Giảm công việc thủ công bằng cách sử dụng các công cụ tự động hóa - với các sách chạy và chatbot hỗ trợ làm ví dụ

Course Duration: 3 Ngày


Course Content:

What is Site Reliability Engineering?
Organising for SRE
Use of Error Budgets for Agility
Release Engineering
Performance Engineering
Chaos Engineering
Managing On-Call
Reducing Toil through Automation


1. Explain the differences between traditional operations, devops and Site Reliability Engineering
2. Understand the importance of the SRE Principles and apply them in preventing and resolving problems to increase reliability
3. Select an appropriate organisation topology to enable SRE and high-performance IT
4. Design a policy to ensure SRE practices are carried out
5. Understand and apply the key components of the CI/CD pipeline, including canarying releases and how to design a release tool chain
6. Design and implement slos, slis and Error Budgets
7. Create a business case for shifting from incident escalation to swarming for problem resolution
8. Conduct blameless post-mortems to determine root causes via deep analysis
9. Design chaos experiments
10. Reduce manual toil using automation tools – with runbooks and helpdesk chatbots as examples