Город: Астана
Занятость: Полная, 5/2
Опыт работы: От 1 года до 3 лет
Freedom Telecom - современная телекоммуникационная компания, развивающая на рынке Республики Казахстан широкополосный доступ к сети интернет в каждый дом и открытый доступ Wi-Fi в крупных городах. Мы работаем в тесном сотрудничестве с мировыми производителями оборудования - программного обеспечения.
Чем предстоит заниматься:
- Развертывание обученных ML-моделей в промышленную среду.
- Упаковка моделей в Docker-контейнеры и настройка inference-серверов (Triton Inference Server, TorchServe, BentoML или аналогичных решений).
- Обеспечение версионирования моделей и воспроизводимости процессов деплоя.
- Подготовка, настройка и администрирование GPU-серверов, включая установку и обновление NVIDIA Driver, CUDA и cuDNN.
- Конфигурирование GPU-нод в Kubernetes-кластере.
- Мониторинг производительности GPU, диагностика и устранение неисправностей оборудования.
- Построение и сопровождение CI/CD-пайплайнов для автоматизированного тестирования, сборки Docker-образов и развертывания ML-сервисов.
- Настройка и сопровождение инфраструктуры мониторинга и алертинга (Prometheus, Grafana и аналогичные инструменты).
- Контроль производительности ML-сервисов, мониторинг задержек, доступности и использования вычислительных ресурсов.
- Управление ресурсами GPU-кластера, распределение нагрузки и оптимизация использования оборудования.
- Взаимодействие с командами Data Science, ML Engineering, DevOps и разработки при внедрении моделей машинного обучения.
- Подготовка технической документации и участие в развитии внутренних стандартов MLOps.
Требования: - Высшее образование в области информационных технологий, компьютерных наук, прикладной математики или смежных направлений.
- Опыт работы в сфере MLOps, DevOps или ML Infrastructure от 2–3 лет.
- Практический опыт работы с Docker, Kubernetes и Helm.
- Понимание принципов контейнеризации, оркестрации и управления вычислительными ресурсами.
- Опыт работы с платформами развертывания ML-моделей: MLflow, Triton Inference Server, BentoML, TorchServe или аналогичными решениями.
- Уверенное владение Python для автоматизации процессов, разработки служебных скриптов и работы с API.
- Навыки Bash/Shell scripting.
- Опыт администрирования GPU-серверов, настройки NVIDIA Driver, CUDA и cuDNN.
- Опыт работы с Git и построения CI/CD-процессов (GitHub Actions, GitLab CI, Argo Workflows или аналогичные инструменты).
- Опыт настройки систем мониторинга и алертинга (Prometheus, Grafana).
- Понимание жизненного цикла ML-моделей и принципов MLOps.
Будет преимуществом - Опыт работы с Kubernetes GPU Operator.
- Опыт эксплуатации высоконагруженных AI/ML-сервисов.
- Знание технологий распределенного обучения моделей.
- Опыт работы с облачными платформами (AWS, Azure, GCP).
- Опыт использования Terraform или Ansible.
- Знание Linux на уровне системного администрирования.
- Английский язык на уровне чтения технической документации.
Мы предлагаем:
- График 5/2, с 9:00 до 18:00;
- Гибридный формат работы;
- Свободный дресс-код;
- Привилегии от экосистемы Freedom Holding;
- Экстра days off, помимо отпускных и больничных;
- Материальная помощь по памятным событиям;
- Самые инновационные, амбициозные проекты и задачи;
- Карьерный рост в команде дружных профессионалов.
Похожие вакансии