Просмотр вакансии

Сегодня 29-06-2026 09:10
27.06.2026, 15:26

Senior LLM Inference Backend Engineer

Работодатель: YADRO

YADRO

Город: Москва
Занятость: Полная, 5/2
Опыт работы: От 3 до 6 лет

О команде:
Наша команда обеспечивает доступность нейросетей для тысяч пользователей одновременно. Мы сопровождаем и улучшаем production-платформу для хостинга LLM: ее надежность, производительность и масштабирование. Кроме того, мы создаём прикладные AI-продукты на базе LLM. Ищем опытного инженера, которому интересно работать и с платформенной частью, и с продуктовой.

Чем предстоит заниматься:

  • Инфраструктура и высоконагруженный инференс (Platform Engineering):
  • Проектирование и поддержка GPU-кластера инференса (Nvidia) для десятков тысяч пользователей: скалирование, балансировка и приоритизация запросов, пользовательские лимиты;
  • Оптимизация производительности: кэширование, батчинг, etc.;
  • Надежность и observability: обеспечение SLA и предотвращение регрессий;
  • Оценка и внедрение новых LLM.
  • Продуктовая разработка (LLM Application):
  • Разработка AI-сервисов: AI Code Assistant (Co-Pilot), AI Chat, AI Code Review;
  • Проектирование пайплайнов автоматизаций: tool/function calling, обработка ошибок, управление контекстом/состоянием;
  • Интеграции: встраивание AI-сервисов в корпоративную среду (API, БД, legacy-системы).
  • Исследования и прототипирование (R&D):
  • Проведение экспериментов, создание MVP и выстраивание пути доведения до продакшена;
  • Исследование новых технологий и подходов для улучшения продуктов.

Мы ждем от будущего члена команды:

  • Экспертиза в Python & Backend:
  • Опыт разработки на Python (5+ лет), знание стандартов: typing, асинхронность, паттерны проектирования;
  • Опыт создания высоконагруженных API (FastAPI или аналоги), работа с очередями, воркерами и фоновыми задачами.
  • Архитектура и надежность (Production):
  • Опыт построения gateway/router, управление ключами, маршрутизация, пользовательские лимиты;
  • Опыт поддержки высоконагруженных сервисов в продакшене: стабильность контрактов, обработка ошибок.
  • Глубокие знания LLM & Inference:
  • Опыт работы с инструментами инференса (vLLM, SGLang, OpenAI API), понимание их внутренней работы;
  • Опыт настройки инференса под highload: latency/throughput, управление GPU-ресурсами;
  • Опыт построения решений с tool/function calling: MCP, guardrails, борьба с галлюцинациями.

Дополнительно приветствуем:

  • Насмотренность в применении AI агентов, мультиагентных систем, оркестрации инструментов;
  • Понимание основных метрик качества LLM решений, опыт проведения A/B-тестов и офлайн-оценки: eval-сеты, human eval, etc;
  • Опыт Lua-разработки;
  • Опыт разработки и интеграции MCP.

Адрес: Москва, Рочдельская улица, 15с1

 

Откликнуться на вакансию

Дата
28.06 29.06
USD
2.8228 2.8858
EUR
3.2072 3.292
RUB
3.77 3.7443
CNY
4.1492 4.2289
CHF
3.4781 3.5704
GBP
3.722 3.8149
PLN
7.4788 7.6833
Минск
Ночью: °C
Утром: °C
Днем: °C
Вечером: °C

Сейчас: Скорость ветра: 5-7 м/c Атм. давление: 758 мм.рт.ст Влажность: 90%

Спецпредложения