Просмотр вакансии

Сегодня 03-07-2026 15:27
24.06.2026, 13:58

ML-инженер по локальным LLM (Local AI Engineer)

Работодатель: VICTORY group

VICTORY group

Город: Екатеринбург
Зарплата:  от 500000 RUR
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. ORM-сервис

Лучше всех в России понимаем, как работать с негативом, способствуем в создании положительного образа компании с гарантией.
Помогаем бизнесу привлекать потенциал и в дальнейшем увеличивать свою клиентскую базу.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

  • Транскрибация звонков с диаризацией — развернуть пайплайн (Whisper / WhisperX / pyannote / NeMo), разделять реплики менеджера и клиента, чистый текст с таймкодами, русская речь;
  • Миграция text2text-задач с внешних API на локалки — аудит задач на Gemini/Claude, подбор локальных моделей (включая квантованные), A/B качества против бейзлайна API, постепенная миграция;
  • Замеры throughput (tok/s), latency (TTFT, end-to-end), памяти, качества на наших задачах;
  • Документация, передача знаний команде разработки.
Требования:

  • Квантование — практический опыт с GGUF (Q4/Q5/Q6/Q8), GPTQ, AWQ, EXL2, bitsandbytes;
  • Управление VRAM — KV-cache, model offloading, tensor/pipeline parallelism, гетерогенный парк GPU (разные карты в кластере);
  • Оптимизация инференса — continuous batching, speculative decoding, paged attention, prefix caching, профилирование узких мест;
  • Инференс-фреймворки — vLLM / llama.cpp / TGI / Ollama / ExLlamaV2 / TensorRT-LLM (опыт хотя бы с двумя);
  • Speech-стек — Whisper, faster-whisper, WhisperX, диаризация (pyannote.audio, NeMo), VAD, опыт с русской речью;
  • Бэкенд — Python (async обязательно), очереди (Redis/RabbitMQ/Kafka), REST/gRPC API;
  • Linux, Docker, базовые сетевые навыки;
  • Готовность к переезду в Екатеринбург (релокация оплачивается, включая жильё на первый месяц).

Плюсом будет:

  • Fine-tuning под доменные задачи (LoRA / QLoRA);
  • RAG-системы, векторные БД (Qdrant, Weaviate, pgvector);
  • Мониторинг ML-систем (Prometheus, Grafana, кастомные метрики качества);
  • Опыт с распределёнными системами и балансировкой нагрузки в проде;
  • Свой Telegram-канал / GitHub с проектами по локальному инференсу;
  • Опыт MLOps (model registry, эксперимент-трекинг).

Условия:

  • Адрес офиса: г. Екатеринбург, ул. Восточная 7Г (ТЦ "Восточный);
  • График: 5/2 (пн-пт) с 10:00 до 19:00;
  • Уровень заработной платы обсуждается индивидуально по итогам собеседования;
  • Релокация оплачивается (включая жильё);
  • Бюджет на эксперименты, подписки, обучение;
  • Свобода технических решений (стек, фреймворки, архитектура);
  • Перспектива профессионального и карьерного роста.


Мы ищем себе в команду амбициозных, энергичных людей, тех, кто хочет много зарабатывать.

Адрес: Екатеринбург, Восточная улица, 7Г

 

Откликнуться на вакансию

Дата
05.07 06.07
USD
2.9062 2.905
EUR
3.3096 3.3156
RUB
3.731 3.7314
CNY
4.2833 4.2863
CHF
3.5857 3.6082
GBP
3.85 3.8754
PLN
7.7059 7.724
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения