Контакты
О себе
Принципал SRE Engineer с доказанной способностью проектировать, внедрять и эксплуатировать системы с высочайшим уровнем надежности и производительности. Мой опыт включает комплексное управление жизненным циклом продукта с точки зрения надежности, разработку SLO/SLI, глубокую автоматизацию операционных задач, а также создание эффективных процессов управления инцидентами. Являюсь наставником и лидером, способным формировать культуру надежности в организации.
Опыт работы
- Руководил внедрением SRE-практик в 5 продуктовых командах, что привело к повышению uptime критических сервисов с 99.5% до 99.99% за 18 месяцев.
- Разработал и внедрил систему управления SLO/SLI и Error Budgets, улучшив прозрачность и предсказуемость релизов.
- Спроектировал и реализовал платформу AIOps для проактивного обнаружения и предотвращения инцидентов, сократив MTTR на 35%.
- Оптимизировал облачную инфраструктуру Google Cloud Platform, снизив ежемесячные операционные расходы на 20% без ущерба для производительности.
- Курировал разработку и поддержку инструментов автоматизации для деплоя, мониторинга и самовосстановления систем.
- Проводил тренинги и менторинг для 15+ инженеров по SRE-практикам и инструментам.
- Возглавлял команду SRE из 5 человек, отвечающую за надежность высоконагруженной финансовой платформы.
- Внедрил централизованную систему мониторинга (Prometheus, Grafana) и логирования (ELK) для всех production-сервисов.
- Разработал стратегию реагирования на инциденты и провел серию учений, значительно повысив готовность команды.
- Автоматизировал процедуры резервного копирования и восстановления данных, обеспечив полное соответствие требованиям регуляторов.
Навыки
Образование
Языки
- Русский — C2 (Носитель)
- Английский — C1 (Продвинутый)
Сертификаты
- Google Cloud Professional SRE Certification · Google, 2021
- Certified Kubernetes Security Specialist (CKS) · Cloud Native Computing Foundation, 2020
