Город: Санкт-Петербург
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
Провайдер современных облачных сервисов (14 лет на рынке),
имеющий ИТ-аккредитацию,
предоставляющая услуги аренды вычислительных мощностей и платформенных сервисов для разработчиков приглашает в команду Инженера платформы (SRE).
Развиваем PaaS-платформу на базе open-source CozyStack.
Это self-hosted облако: bare-metal серверы Talos Linux Kubernetes, поверх через Cluster API и KubeVirt поднимаются гостевые Kubernetes-кластеры и виртуальные машины. Persistent storage — LINSTOR/DRBD, GitOps — FluxCD, managed-сервисы (PostgreSQL, Kafka, Redis и др.) — через операторы.
Задачи на уровне «ниже managed приложении пользователеи в тенант неимспеисах»: Kubernetes и его экосистема, виртуализация, распределенныи storage, сеть Linux, GitOps.
Стек: Kubernetes, KubeVirt, Cluster API, Talos Linux, FluxCD, Helm, LINSTOR/DRBD, Cilium/KubeOVN
Чем предстоит заниматься:-
Разбирать инциденты в production как третья линия поддержки, где причина часто лежит на стыке компонентов (Kubernetes - CAPI - KubeVirt - Linstor)
-
Оформлять находки в виде внутренних статеи, issue в upstream-проекты.
-
Конфигурировать компоненты платформы. Пример реальнои задачи: изучить документацию CozyStack по VM golden image, подготовить image, настроить package CR для публикации подготовленного шаблона пользователям платформы, описать нюансы в runbook.
-
Эксплуатировать платформу: обновления, тюнинг платформенных манифестов, кастомизация дашбордов grafana, alertrmanager, vmrules итп.
-
Деплои новых узлов платформы на baremetal, эскалация инцидентов с физикои в другие команды
Kubernetes на уровне понимания, а не kubectl:
-
Admission controllers, ResourceQuota, LimitRange, RBAC, NetworkPolicy.
-
CRD, controller, reconciliation loop, финалаизеры, owner references — уметь разобраться с зависшим объектом и прочитать логи оператора.
-
Жизненныи цикл Pod’а, eviction, QoS, ephemeral vs persistent storage.
Linux и сеть — ниже Kubernetes:
-
TCP/IP - на уровне маршрутов и подсетеи, понимание чем хостовая сеть отличается от сервиснои
- Общее понимание BGP и что такое MetalLB
GitOps и Helm:
-
Умение читать чужие Helm-чарты
-
Опыт с FluxCD или ArgoCD: reconciliation, откат релизов, диагностика failed- состоянии.
-
Git: rebase, cherry-pick, diff — для поиска регрессии и багов в upstream.
Поиск и отладка — главныи навык:
-
Формулировать и проверять гипотезы, а не угадывать.
-
Спускаться по уровням: симптом Kubernetes-объект контроллер CR
-
Pod процесс
-
Отличать корневую причину от следствия.
-
Писать читаемые runbook и GitHub issue.
Понимание managed-сервисов на уровне пользователя:
-
Знаете зачем нужны реплики, HA, failover и rolling update.
-
Понимаете основные параметры этих сервисов: primary/replica, min/max replicas, storageClass.
Soft skills:
-
Самостоятельность в задачах уровня «разберись с X начиная с readme.md в github»
-
Рабочии англиискии на письме и чтении (github)
-
Опыт с KubeVirt, Cluster API, Kamaji или другими управляемыми control-plane.
-
Опыт с распределенными блочными storage: LINSTOR/DRBD, Ceph/Rook, Longhorn, OpenEBS.
-
Опыт с Talos Linux или другими дистрибутивами для Kubernetes.
-
Отладка CNI: Cilium, KubeOVN
-
Понимание sysctl сетевого стека (keepalive, buffer sizes)
-
Опыт с операторами баз данных (CloudNativePG, Strimzi, MariaDB Operator).
-
Open-source контрибуция в проекты CNCF-экосистемы.
-
Observability: VictoriaMetrics, Grafana, AlertManager.
-
Хоть раз сами деплоили и использовали managed: PostgreSQL, Redis, Kafka или аналоги — знаете как подключиться, как проверить что данные пишутся и failover прошел корректно.
Условия:
- удаленная работа,
- белая зарплата, выплачивается в срок вне зависимости от локдаунов и других форс-мажоров,
- оформление по ТК,
- дружный коллектив,
- ИТ-отсрочка от армии,
- возможность профессионального роста.
Похожие вакансии