Просмотр вакансии

Сегодня 29-06-2026 07:31
25.06.2026, 16:21

Главный инженер

Работодатель: РТК-ЦОД

РТК-ЦОД

Город: Москва
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет

Обязанности:
  • Развивать и поддерживать платформу для запуска ML workloads.
  • Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы.
  • Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform.
  • Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов.
  • Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira.
  • Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix.
  • Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации.
  • Проводить плановые работы любого уровня сложности.
  • Вести документацию в рамках зоны ответственности отдела.
  • Вести аварии и составлять планы пост аварийных мер на ML платформе.
Требования:
  • Опыт администрирования Kubernetes кластеров от одного года.
  • Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS.
  • Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators.
  • Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов.
  • Опыт работы с системами автоматизации: Ansible и Terraform
  • Уверенное знание Linux на уровне администратора
  • Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium
  • Опыт работы с CI/CD: желателен GitLab CI.
  • Понимание Gitops подхода и цикла разработки приложение для k8s.
  • Знание одного из языков программирования на среднем уровне: Python или Go.
  • Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги.
  • Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости.

Будет плюсом

  • Опыт эксплуатации GPU-инфраструктуры в Kubernetes.
  • Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL
  • Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM.
  • Опыт работы с KServe, Knative, Kubeflow.
  • Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API.
  • Опыт с storage в Kubernetes: Ceph/Rook
  • Опыт работы с baremetal серверами и облаками.
  • Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput.
Условия:
  • Стабильный и прозрачный «белый» доход и полноценный соц. пакет;
  • График работы 5/2, гибкое начало дня, гибридный или удаленный формат работы + три дополнительных дня отпуска в год;
  • Корпоративный университет, который организует внутреннее и внешнее профильное обучение;
  • Перспективы горизонтального и вертикального карьерного роста: вы можете стать руководителем или экспертом в своей области;
  • Программу ДМС с обслуживанием в лучших клиниках города+оплата мобильной связи;
  • Возможность принять участие в амбициозных, крупных и стабильных проектах.

Адрес: Москва, Ленинградский проспект, 35с1

 

Откликнуться на вакансию

Дата
28.06 29.06
USD
2.8228 2.8858
EUR
3.2072 3.292
RUB
3.77 3.7443
CNY
4.1492 4.2289
CHF
3.4781 3.5704
GBP
3.722 3.8149
PLN
7.4788 7.6833
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения