Город: Москва
Зарплата:
от 200000
RUR
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
Задачи и зона ответственности:
- Эксплуатация и развитие Kubernetesкластеров: деплой сервисов, сетевые политики, Ingress/Gateway, HPA, probes (liveness/readiness/startup), настройка requests/limits и классов QoS.
- Диагностика и устранение проблем деплоймента: CrashLoopBackOff/Pending, ошибки конфигурации ресурсов, probes, сетевых политик и зависимостей.
- Построение и поддержка CI/CD на GitHub Actions: пайплайны lint/test/build, сборка и публикация Dockerобразов в GHCR, релизный флоу с SemVer и rcтегами.
- Ведение GitOpsпроцессов: управление манифестами через FluxCD/Helm/Kustomize, автоматизация обновления образов, настройка webhookтриггеров.
- Эксплуатация PostgreSQL: управление схемами/search_path, базовый анализ планов запросов, настройка миграций (golangmigrate), работа с PgBouncer и расчёт пулов подключений при автоскейле.
- Эксплуатация Redis (включая sentinel): настройка репликации, переключение мастера, корректная работа приложений при фейловере, использование Redis как кэша и стора.
- Управление секретами: внедрение и сопровождение решений вроде sealedsecrets / externalsecrets / Vault, политика ротации секретов и запрет хранения секретов в git/открытых манифестах.
- Настройка и развитие observability: Prometheusметрики, Grafana, Alertmanager, логирование и трейсинг; проектирование метрик и алертинга на основе SLI/SLO/SLA.
- Расследование и устранение инцидентов в продакшене: деградация производительности, ошибки деплоя и миграций, сетевые проблемы; проведение RCA и постмортемов, инициирование улучшений.
- Участие в ревью инфраструктурных изменений, формирование и поддержка лучших практик для команд разработки.
- Участие в планировании capacity и DRподходов: выбор RPO/RTO, резервные копии и восстановление, сценарии отказоустойчивости (мультикластер/мультирегион, тестирование планов DR).
Требования:
- Уверенная эксплуатация Linux: диагностика диска/inode, памяти/OOM, CPU/load, сети; понимание работы systemd, умение пользоваться journalctl; уверенная работа в шелле без подсказок.
- Docker: опыт сборки multistage образов, создания минимальных и безопасных контейнеров (nonroot), грамотное использование кэша слоёв, корректная обработка сигналов процессом PID 1; dockercompose для локальной разработки.
- Kubernetes: уверенная работа с Deployment/Service/HPA, probes, requests/limits и QoS; опыт разборов CrashLoopBackOff/Pending, настройка namespaces, RBAC, Secret/ConfigMap.
- CI/CD: практический опыт построения пайплайнов, работы с secrets, релизным циклом, Gitфлоу и ревью инфраструктурных изменений через pullrequest.
- GitOps: практический опыт работы с Helmчартами, FluxCD или аналогичными инструментами, Kustomizeoverlays для разных сред (stage/prod).
- Эксплуатация PostgreSQL и Redis на продакшене: базовая оптимизация, понимание типичных проблем и подходов к их устранению.
- Понимание сетей и TLS: маршрутизация через Ingress/Gateway (желательно опыт с Envoy/Gateway API), работа с доменами, сертификатами и пробросом портов.
- Практический опыт настройки и эксплуатации Prometheus/Grafana/Alertmanager или аналогичных систем мониторинга и алертинга.
- Понимание концепций SLI/SLO/SLA и опыт их использования для настройки алертинга и оценки качества работы сервисов.
Будет плюсом:
- Опыт эксплуатации Goсервисов: сборка с CGO_ENABLED=0, организация graceful shutdown, запуск HTTP и gRPC в одном бинаре.
- Опыт межсервисного взаимодействия через gRPC и HMAC, понимание паттернов межсервисной аутентификации.
Terraform / другие IaCинструменты для декларативного управления облачными ресурсами (AWS, Yandex Cloud и др.).
- Практика с OAuth2/OIDC и WebAuthn на уровне эксплуатации (домены, redirect URIs, RP ID, JWKS, работа с ключами подписи).
- Глубокий опыт с PgBouncer, настройкой резервного копирования PostgreSQL, проектированием и тестированием DRпланов (с явным RPO/RTO).
- Настройка локального devокружения для команды (Air, Delve или аналоги), помощь разработчикам в отладке и тестировании сервисов.
Условия:
- Международный продукт в сфере iGaming;
- Полная занятость (fulltime), стандартный график 5/2 с гибким началом рабочего дня;
- Полностью удалённый формат, без привязки к офису; работа с распределённой командой;
- Конкурентный уровень компенсации.
Похожие вакансии