Город: Санкт-Петербург
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
Мы, Мединдекс – медицинская IT компания, которая трансформирует c помощью современных информационных технологий медико-биологическую сферу в России и в ближнем зарубежье.
Мы разрабатываем интеллектуальные решения и сервисы, которые обеспечивают интероперабельность медицинских данных, а также поддерживаем и развиваем ИТ-инфраструктуру компании-лидера в сфере лабораторной диагностики.
Сейчас мы усиливаем нашу инфраструктурную команду и в поисках SRE-инженера.
Какие задачи предстоят:
- обеспечение надежной и стабильной работы production-сервисов;
- мониторинг, анализ и повышение уровня доступности, устойчивости и производительности систем;
- участие в incident response: диагностика, локализация, восстановление работоспособности, postmortem-анализ;
- развитие observability-стека: метрики, логи, трассировки, алертинг;
- настройка и поддержка SLA/SLO, контроль соблюдения целевых показателей надежности;
- выявление и устранение причин деградаций, повторяющихся инцидентов и операционных рисков;
- поддержка и развитие процессов документирования: runbooks, operational procedures, технические регламенты;
- взаимодействие с командами разработки и эксплуатации по вопросам надежности, изменений и эксплуатационной готовности сервисов;
- участие в совершенствовании практик эксплуатации, мониторинга и реагирования на инциденты.
Какой опыт и знания нам важны:
-
опыт работы в розничной сети/в компании с высоконагруженными сервисами, высокими требованиями к отказоустойчивости в роли SRE или в смежной инженерной роли, связанной с эксплуатацией production-сервисов;
-
понимание принципов reliability engineering, observability и incident management;
-
практический опыт работы с SLA/SLO, error budget и механизмами алертинга;
-
опыт участия в incident response, root cause analysis и postmortem-процессах;
-
опыт сопровождения Linux-систем;
-
опыт эксплуатации vanilla Kubernetes;
-
владение PowerShell, Bash и Python;
-
опыт написания Ansible playbooks и использования Jinja2 templates.
-
навыки анализа инцидентов и деградаций в распределенных системах;
-
умение работать с технической документацией и вести актуальные operational materials.
Будет плюсом:
-
опыт работы с VictoriaMetrics, ELK Stack, Grafana Operator, Grafana Agent, Zabbix, InfluxDB, Loki, Mimir и Tempo;
-
опыт настройки и сопровождения GitLab CI/CD;
-
опыт разработки и поддержки generic Helm charts;
-
опыт с S3-compatible storage, TLS/SSL, reverse proxy, load balancing, authentication/SSO, LDAP/SAML/ADFS;
-
опыт с container runtime: containerd / Docker;
-
понимание networking: DNS, TCP/IP, HTTP(S), TLS, ingress, proxy, load balancing;
-
опыт с GitOps, IaC и автоматизацией инфраструктуры;
-
знание security best practices: secrets management, least privilege, certificate rotation
Мы предлагаем:
- конкурентную заработную плату, которую мы готовы обсудить на собеседовании
- гибкое время начала рабочего дня, пятидневная рабочая неделя
- официальное трудоустройство, 100% белая заработная плата
- удобный формат работы: готовы предлагать удаленку/гибрид/офис;
- комфортный офис (м. Петроградская/м. Лесная)
- ДМС и компенсацию фитнеса.
Адрес: Санкт-Петербург, улица Академика Павлова, 5
Похожие вакансии