Город: Москва
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет
- Проектирование, развёртывание и развитие инфраструктуры платформы искусственного интеллекта (onprem и облако): Kubernetesкластеры, GPUноды, storage, сети, безопасность.
- Построение и поддержка CI/CD/CTпайплайнов для MLмоделей и сервисов: от артефакта DS до продакшнинференса с откатами и канареечными релизами.
- Интеграция и эксплуатация LLM/MLсервисов для внутренних команд и рыночных внедрений: упаковка моделей в сервисы, конфигурация autoscaling, SLA, observability.
- Настройка мониторинга и алертинга по инфраструктуре и моделям (метрики ресурсов, latency, ошибки, дрейф данных), реагирование на инциденты, участие в postmortem.
- Автоматизация MLпайплайнов: подготовка данных, обучение, переобучение, регистрация моделей, управление версиями и окружениями.
- Поддержка внедрений у клиентов: тиражирование платформенных компонентов, адаптация инфраструктуры под контур заказчика, участие в performanceоптимизации и costcutting (GPU/CPU).
- Высшее образование.
- Опыт работы: 5+ лет.
- Глубокое понимание жизненного цикла MLмодели: от экспериментов до продакшнинференса и мониторинга.
- Уверенный Linux, сетевые основы, безопасность, работа с контейнерами и оркестраторами.
- Опыт построения CI/CDпайплайнов для сервисов и MLартефактов (Docker images, модели, данные).
- Опыт с LLM/GenAIплатформами: vLLM, TGI, Hugging Face, Triton/ONNX Runtime, оптимизация инференса.
- Опыт построения feature store, model registry, ML pipelines (Kubeflow, MLflow, Airflow, Argo Workflows).
- Работа в гибридной инфраструктуре: onprem кластеры + публичные облака (T1 Cloud, VK Cloud, Yandex Cloud и др.).
- Понимание costoptimization: FinOps для GPU/CPU, автобалансировка нагрузок.
- Языки: Python (утилиты, обвязка) / Bash.
- Контейнеризация и оркестрация: Docker, Docker Compose, Kubernetes (Helm, Operators), желательно Kubeflow.
- CI/CD: GitLab CI / GitHub Actions / Jenkins / Argo CD.
- Инфраструктура: Terraform / Ansible, конфигурация Linuxсерверов, Nginx, certmanager.
- Data/MLинфраструктура: Apache Kafka, Airflow/Argo Workflows, S3совместимые хранилища, MLflow/Weights&Biases.
- Мониторинг и логи: Prometheus, Grafana, Loki/ELK, Sentry, alertmanager.
Профессиональные навыки:
- Проектирование и развёртывание инфраструктуры платформы ИИ (кластер Kubernetes, storage, сети, security) под LLM/MLнагрузки.
- Построение воспроизводимых MLпайплайнов: обучение, валидация, packaging модели, деплой в batch и realtime режимах.
- Настройка мониторинга моделей: метрики качества, дрейф данных, latency/throughput, автоматический rollback и retrainingтриггеры.
- Совместная работа с DS/разработчиками и внедренцами: перевод экспериментальных ноутбуков в надёжные сервисы для внутренних и внешних клиентов.
- Специализированные программы:
+GitLab / GitHub, Jira / Confluence/Сфера
+Kubernetes ecosystem: kubectl, Helm, K9s, Lens.
+MLинструменты: MLflow / Weights & Biases, Kubeflow Pipelines / Airflow, model registry.
+Мониторинг: Prometheus, Grafana, Loki/ELK, Alertmanager, Sentry.
Похожие вакансии